清华大学学报(自然科学版)
清華大學學報(自然科學版)
청화대학학보(자연과학판)
JOURNAL OF TSINGHUA UNIVERSITY SCIENCE AND TECHNOLOGY
2005年
9期
1738-1742
,共5页
网络信息挖掘%主题提取%超链接分析
網絡信息挖掘%主題提取%超鏈接分析
망락신식알굴%주제제취%초련접분석
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.
傳統的主題提取算法存在一些已知的問題.為瞭更好地滿足SEWM-2004中文Web檢索測評中的主題提取任務要求,分析經典的基于超鏈接分析的主題搜索(hyperlink-induced topic search,HITS)等算法,提齣瞭一種以站點作為查詢的資源單位,併結閤內容分析的主題提取算法CWT100G上的超鏈接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根據網頁的URL將網頁按站點分組;然後在每箇站內結閤網頁內容和站內鏈接關繫來計算網頁的權值,從而找齣站內的Hub網頁;接著再分析站間的鏈接關繫進一步計算各網頁的最終權值,從而找齣站間的Hub網頁.兩組對比的實驗結果錶明,HAC算法能找到切閤主題的更大的Hub站點.
전통적주제제취산법존재일사이지적문제.위료경호지만족SEWM-2004중문Web검색측평중적주제제취임무요구,분석경전적기우초련접분석적주제수색(hyperlink-induced topic search,HITS)등산법,제출료일충이참점작위사순적자원단위,병결합내용분석적주제제취산법CWT100G상적초련접분석(hyperlink analysis withinCWT100(,HAC).HAC산법수선근거망혈적URL장망혈안참점분조;연후재매개참내결합망혈내용화참내련접관계래계산망혈적권치,종이조출참내적Hub망혈;접착재분석참간적련접관계진일보계산각망혈적최종권치,종이조출참간적Hub망혈.량조대비적실험결과표명,HAC산법능조도절합주제적경대적Hub참점.