计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
8期
229-232,253
,共5页
施恒利%刘亮亮%王石%符建辉%张再跃%曹存根
施恆利%劉亮亮%王石%符建輝%張再躍%曹存根
시항리%류량량%왕석%부건휘%장재약%조존근
错别字混淆集%自扩展%开源数据%基于规则和统计
錯彆字混淆集%自擴展%開源數據%基于規則和統計
착별자혼효집%자확전%개원수거%기우규칙화통계
Wrongly written characters set%Self-expansion%Open source data%Rule and statistics base
汉字混淆集是错别字识别中的重要资源之一.在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、“可错成”关系为边,将混淆集构造成一个错别字混淆集图.由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对.根据实验,新发现了15133组错别字对.经过随机抽样校对,准确率达到87.35%.
漢字混淆集是錯彆字識彆中的重要資源之一.在本項研究中,首先手工整理瞭11935箇漢字的可能的錯彆字,然後以這些漢字為節點、“可錯成”關繫為邊,將混淆集構造成一箇錯彆字混淆集圖.由于人工總結錯彆字具有很大的跼限性,因此在種子錯彆字混淆集圖的基礎上,設計瞭自擴展算法和開源外部補充算法來對錯彆字混淆集圖進行擴展,以髮現新的錯彆字對.根據實驗,新髮現瞭15133組錯彆字對.經過隨機抽樣校對,準確率達到87.35%.
한자혼효집시착별자식별중적중요자원지일.재본항연구중,수선수공정리료11935개한자적가능적착별자,연후이저사한자위절점、“가착성”관계위변,장혼효집구조성일개착별자혼효집도.유우인공총결착별자구유흔대적국한성,인차재충자착별자혼효집도적기출상,설계료자확전산법화개원외부보충산법래대착별자혼효집도진행확전,이발현신적착별자대.근거실험,신발현료15133조착별자대.경과수궤추양교대,준학솔체도87.35%.