计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2011年
z1期
382-386
,共5页
异或算法%Hash函数%中文词库%自适应字长
異或算法%Hash函數%中文詞庫%自適應字長
이혹산법%Hash함수%중문사고%자괄응자장
中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Hash值的冲突率降低到0.327‰,该方法可用于计算机语料库建设和中文输入法等自然语言处理过程.
中文搜索引擎中的詞庫是提高文本信息存儲與查找效率的關鍵.以異或Hash算法為基礎,根據對不同字長詞齣現概率的統計結果,利用詞條的機內編碼和漢字筆畫數,把不同字長的詞散列到不同的Hash值區間.實驗結果錶明該算法可以將Hash值的遲突率降低到0.327‰,該方法可用于計算機語料庫建設和中文輸入法等自然語言處理過程.
중문수색인경중적사고시제고문본신식존저여사조효솔적관건.이이혹Hash산법위기출,근거대불동자장사출현개솔적통계결과,이용사조적궤내편마화한자필화수,파불동자장적사산렬도불동적Hash치구간.실험결과표명해산법가이장Hash치적충돌솔강저도0.327‰,해방법가용우계산궤어료고건설화중문수입법등자연어언처리과정.