情报科学
情報科學
정보과학
INFORMATION SCIENCE
2006年
6期
895-899,909
,共6页
唐培丽%胡明%解飞%刘钢
唐培麗%鬍明%解飛%劉鋼
당배려%호명%해비%류강
全文检索%搜索引擎%中文分词%信息检索
全文檢索%搜索引擎%中文分詞%信息檢索
전문검색%수색인경%중문분사%신식검색
本文深入分析了全文检索中文搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词.针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度.最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求.
本文深入分析瞭全文檢索中文搜索引擎的中文分詞方案,既提高瞭分詞的準確性,又能識彆文中的未登錄詞.針對嚮量空間信息檢索模型,本文設計瞭一箇綜閤攷慮中文詞在Web文本中的位置、長度以及頻率等重要因素的詞條權重計算函數,併且用量化的方法錶示齣其重要性,能夠較準確地反映齣詞條在Web文檔中的重要程度.最後對分詞算法進行瞭測試,測試錶明該方法能夠提高分詞準確度滿足實用的要求.
본문심입분석료전문검색중문수색인경적중문분사방안,기제고료분사적준학성,우능식별문중적미등록사.침대향량공간신식검색모형,본문설계료일개종합고필중문사재Web문본중적위치、장도이급빈솔등중요인소적사조권중계산함수,병차용양화적방법표시출기중요성,능구교준학지반영출사조재Web문당중적중요정도.최후대분사산법진행료측시,측시표명해방법능구제고분사준학도만족실용적요구.