计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2008年
19期
5083-5086
,共4页
全文检索%网页正文提取%中文分词模块%索引文档预处理%文本聚类
全文檢索%網頁正文提取%中文分詞模塊%索引文檔預處理%文本聚類
전문검색%망혈정문제취%중문분사모괴%색인문당예처리%문본취류
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高.
提齣瞭一種基于Lucene的中文全文檢索繫統模型.通過分析Lucene的繫統結構,繫統採用瞭基于統計的網頁正文提取技術,併且加入瞭中文分詞模塊和索引文檔預處理模塊來提高檢索繫統的效率和精度.在檢索結果的處理上,採用文本聚類的辦法,使檢索結果分類顯示,提高瞭用戶的查找的效率.實驗數據錶明,該繫統在檢索中文網頁時,在效率,精度和結果處理等方麵性能明顯提高.
제출료일충기우Lucene적중문전문검색계통모형.통과분석Lucene적계통결구,계통채용료기우통계적망혈정문제취기술,병차가입료중문분사모괴화색인문당예처리모괴래제고검색계통적효솔화정도.재검색결과적처리상,채용문본취류적판법,사검색결과분류현시,제고료용호적사조적효솔.실험수거표명,해계통재검색중문망혈시,재효솔,정도화결과처리등방면성능명현제고.