科技信息
科技信息
과기신식
SCIENTIFIC & TECHNICAL INFORMATION
2009年
4期
361,363
,共2页
消除重复%藏文网页%统一藏文编码%Shingle算法
消除重複%藏文網頁%統一藏文編碼%Shingle算法
소제중복%장문망혈%통일장문편마%Shingle산법
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此.从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一.本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案.经过试验其效果能够满足藏文搜索引擎消除重复网页的需求.
消除重複網頁是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此.從信息處理的角度而言,藏文屬于"複雜文字"的範疇,其編碼在實際使用噹中仍不統一.本論文實現瞭統一的藏文編碼併選擇閤適的Shingle粒度,提齣瞭消除重複藏文網頁的完整解決方案.經過試驗其效果能夠滿足藏文搜索引擎消除重複網頁的需求.
소제중복망혈시수색인경불가혹결적일부분,장문수색인경야시여차.종신식처리적각도이언,장문속우"복잡문자"적범주,기편마재실제사용당중잉불통일.본논문실현료통일적장문편마병선택합괄적Shingle립도,제출료소제중복장문망혈적완정해결방안.경과시험기효과능구만족장문수색인경소제중복망혈적수구.