计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2008年
16期
204-206
,共3页
定题爬虫%主题关键字过滤%语义
定題爬蟲%主題關鍵字過濾%語義
정제파충%주제관건자과려%어의
定题爬虫的研究是定题搜索引擎的关键技术.该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤.凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互.实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善.
定題爬蟲的研究是定題搜索引擎的關鍵技術.該文提齣一種基于多Agent繫統的爬蟲算法,採用本題語義主題關鍵詞過濾的方法來抓取與主題相關的網頁,利用本體庫語義網絡實現本體領域中同近義詞的過濾.憑藉HTML網頁標記對關鍵字識彆的不同權重和超鏈接錨文本對主題相關網頁進行預測,通過黑闆的通信機製實現多Agent交互.實驗結果錶明算法在抓取網頁的查準率、查全率方麵有一定的改善.
정제파충적연구시정제수색인경적관건기술.해문제출일충기우다Agent계통적파충산법,채용본제어의주제관건사과려적방법래조취여주제상관적망혈,이용본체고어의망락실현본체영역중동근의사적과려.빙차HTML망혈표기대관건자식별적불동권중화초련접묘문본대주제상관망혈진행예측,통과흑판적통신궤제실현다Agent교호.실험결과표명산법재조취망혈적사준솔、사전솔방면유일정적개선.