计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2010年
8期
229-230,211
,共3页
后缀数组%分词%公共前缀长度
後綴數組%分詞%公共前綴長度
후철수조%분사%공공전철장도
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的识别率,建立待分词内容的后缀数组,然后计算其公共前缀共同出现的次数,采用阈值对其进行过滤筛选出候选词语,实验结果表明,该方法在新词识别方面有一定的优势.
中文分詞技術是機器翻譯、分類、搜索引擎以及信息檢索的基礎,但是,互聯網上不斷齣現的新詞嚴重影響瞭分詞的性能,為瞭提高新詞的識彆率,建立待分詞內容的後綴數組,然後計算其公共前綴共同齣現的次數,採用閾值對其進行過濾篩選齣候選詞語,實驗結果錶明,該方法在新詞識彆方麵有一定的優勢.
중문분사기술시궤기번역、분류、수색인경이급신식검색적기출,단시,호련망상불단출현적신사엄중영향료분사적성능,위료제고신사적식별솔,건립대분사내용적후철수조,연후계산기공공전철공동출현적차수,채용역치대기진행과려사선출후선사어,실험결과표명,해방법재신사식별방면유일정적우세.