微型机与应用
微型機與應用
미형궤여응용
MICROCOMPUTER & ITS APPLICATIONS
2014年
17期
15-18
,共4页
中文分词%Trie树%逐词扫描%正向增字匹配
中文分詞%Trie樹%逐詞掃描%正嚮增字匹配
중문분사%Trie수%축사소묘%정향증자필배
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法.实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下.当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上.
針對正嚮最大匹配算法的長詞丟失、匹配次數較多、歧義字段處理的準確率較低等問題,基于Trie樹詞典提齣瞭3種正嚮增字最大匹配算法,分彆使用逐詞掃描、尾部摺半掃描和尾部減一掃描這3種掃描方式採集歧義字段,併建立瞭一套歧義處理方法.實驗結果錶明,該3種算法在分詞速度和準確率上均有顯著提高,錯誤率降低到瞭原算法的三分之一以下.噹文本規模大于200 MB時,3種正嚮增字最大匹配算法的分詞速度均比原最大匹配算法提高30%以上.
침대정향최대필배산법적장사주실、필배차수교다、기의자단처리적준학솔교저등문제,기우Trie수사전제출료3충정향증자최대필배산법,분별사용축사소묘、미부절반소묘화미부감일소묘저3충소묘방식채집기의자단,병건립료일투기의처리방법.실험결과표명,해3충산법재분사속도화준학솔상균유현저제고,착오솔강저도료원산법적삼분지일이하.당문본규모대우200 MB시,3충정향증자최대필배산법적분사속도균비원최대필배산법제고30%이상.