计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
2期
217-224
,共8页
王辉%左万利%王晖昱%宁爱军%孙志伟%满春雷
王輝%左萬利%王暉昱%寧愛軍%孫誌偉%滿春雷
왕휘%좌만리%왕휘욱%저애군%손지위%만춘뢰
文档特征权重%质心特征权重%主题爬行%锚文本%质心向量
文檔特徵權重%質心特徵權重%主題爬行%錨文本%質心嚮量
문당특정권중%질심특정권중%주제파행%묘문본%질심향량
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打蝌分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力.
研究如何在一箇網頁內部進行有選擇的爬行.使用TFIDF-2模型以及Max,Ave,Sum三箇啟髮式規則分彆計算文檔特徵權重和質心特徵權重,在此基礎上構建與根集文檔相對應的質心嚮量,利用它作為前耑分類器指導主題爬行.使用前後耑分類器分彆給Frontier中的各箇錨文本打分,將它們的打蝌分求和,從中選擇打分最高的鏈接,下載其對應的網頁.實驗結果錶明,在質心嚮量的指導下,爬行程序藉助于錨文本便可以準確地預測鏈接所指嚮網頁的相關性;另外,雙分類器框架還使得爬行策略具有增量爬行的能力.
연구여하재일개망혈내부진행유선택적파행.사용TFIDF-2모형이급Max,Ave,Sum삼개계발식규칙분별계산문당특정권중화질심특정권중,재차기출상구건여근집문당상대응적질심향량,이용타작위전단분류기지도주제파행.사용전후단분류기분별급Frontier중적각개묘문본타분,장타문적타과분구화,종중선택타분최고적련접,하재기대응적망혈.실험결과표명,재질심향량적지도하,파행정서차조우묘문본편가이준학지예측련접소지향망혈적상관성;령외,쌍분류기광가환사득파행책략구유증량파행적능력.