计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2008年
4期
948-950
,共3页
网页去重%K-L展开%傅立叶变换%维数压缩
網頁去重%K-L展開%傅立葉變換%維數壓縮
망혈거중%K-L전개%부립협변환%유수압축
去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间.目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判.通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断.实验结果表明该方法可对网页实现较好的去重.
去除重複網頁可以提高搜索引擎的搜索精度,減少數據存儲空間.目前文本去重算法以關鍵詞去重、語義指紋去重為主,用上述算法進行網頁去重時容易髮生誤判.通過對字符關繫矩陣進行K-L展開,將每箇字符映射成為一箇數值,然後對這箇數值序列做離散傅立葉變換,得到每箇網頁的傅立葉繫數嚮量,通過比較傅立葉繫數嚮量差異實現對網頁的相似度判斷.實驗結果錶明該方法可對網頁實現較好的去重.
거제중복망혈가이제고수색인경적수색정도,감소수거존저공간.목전문본거중산법이관건사거중、어의지문거중위주,용상술산법진행망혈거중시용역발생오판.통과대자부관계구진진행K-L전개,장매개자부영사성위일개수치,연후대저개수치서렬주리산부립협변환,득도매개망혈적부립협계수향량,통과비교부립협계수향량차이실현대망혈적상사도판단.실험결과표명해방법가대망혈실현교호적거중.