软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2006年
3期
356-363
,共8页
曹勇刚%曹羽中%金茂忠%刘超
曹勇剛%曹羽中%金茂忠%劉超
조용강%조우중%금무충%류초
分词系统%分词算法%信息检索%新词识别%歧义消解
分詞繫統%分詞算法%信息檢索%新詞識彆%歧義消解
분사계통%분사산법%신식검색%신사식별%기의소해
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
新詞的識彆和歧義的消解是影響信息檢索繫統準確度的重要因素.提齣瞭一種基于統計模型的、麵嚮信息檢索的自適應中文分詞算法.基于此算法,設計和實現瞭一箇全新的分詞繫統BUAASEISEG.它能夠識彆任意領域的各類新詞,也能進行歧義消解和切分任意閤理長度的詞.它採用迭代式二元切分方法,對目標文檔進行在線詞頻統計,使用離線詞頻詞典或搜索引擎的倒排索引,篩選候選詞併進行歧義消解.在統計模型的基礎上,採用姓氏列錶、量詞錶以及停詞列錶進行後處理,進一步提高瞭準確度.通過與著名的ICTCLAS分詞繫統針對新聞和論文進行對比評測,錶明BUAASEISEG在新詞識彆和歧義消解方麵有明顯的優勢.
신사적식별화기의적소해시영향신식검색계통준학도적중요인소.제출료일충기우통계모형적、면향신식검색적자괄응중문분사산법.기우차산법,설계화실현료일개전신적분사계통BUAASEISEG.타능구식별임의영역적각류신사,야능진행기의소해화절분임의합리장도적사.타채용질대식이원절분방법,대목표문당진행재선사빈통계,사용리선사빈사전혹수색인경적도배색인,사선후선사병진행기의소해.재통계모형적기출상,채용성씨렬표、량사표이급정사렬표진행후처리,진일보제고료준학도.통과여저명적ICTCLAS분사계통침대신문화논문진행대비평측,표명BUAASEISEG재신사식별화기의소해방면유명현적우세.