计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
3期
143-146
,共4页
苏金波%朱剑宇%杨柳%刘跃
囌金波%硃劍宇%楊柳%劉躍
소금파%주검우%양류%류약
元搜索%爬虫%扩充%索引
元搜索%爬蟲%擴充%索引
원수색%파충%확충%색인
meta-search%crawler%keywords expansion%index
传统的互联网有害信息发现方法是依据Google、百度等元搜索工具,用户输入关键词进行检索,然后对获取的结果进行研判,但是用户经常无法准确地描述所需的资料,给出的关键词不准确,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。文中探讨了一种基于元搜索,引入关键词扩充技术的爬虫方法。该方法在网页抓取,用户检索的时候能扩充输入的关键词,从而提高搜索覆盖率和精度。该方法投入小,效果好,还可通过扩展应用到其他领域。
傳統的互聯網有害信息髮現方法是依據Google、百度等元搜索工具,用戶輸入關鍵詞進行檢索,然後對穫取的結果進行研判,但是用戶經常無法準確地描述所需的資料,給齣的關鍵詞不準確,搜索結果常有用戶不關心的垃圾數據,而一些有用的數據卻不能列齣。文中探討瞭一種基于元搜索,引入關鍵詞擴充技術的爬蟲方法。該方法在網頁抓取,用戶檢索的時候能擴充輸入的關鍵詞,從而提高搜索覆蓋率和精度。該方法投入小,效果好,還可通過擴展應用到其他領域。
전통적호련망유해신식발현방법시의거Google、백도등원수색공구,용호수입관건사진행검색,연후대획취적결과진행연판,단시용호경상무법준학지묘술소수적자료,급출적관건사불준학,수색결과상유용호불관심적랄급수거,이일사유용적수거각불능렬출。문중탐토료일충기우원수색,인입관건사확충기술적파충방법。해방법재망혈조취,용호검색적시후능확충수입적관건사,종이제고수색복개솔화정도。해방법투입소,효과호,환가통과확전응용도기타영역。
Traditional approaches to harmful information detection on the Internet are based on Google,Baidu etc. ,users enter keywords for search,and then need to study the results obtained,however users often do not accurately describe the information they want,the key-words given by users are inaccurate,the search results often include what users don't want,some data which users care cannot be listed. It explores a crawler method based on meta-search,which introduces technology of keyword expansion. The method expands keywords in the Web capture and user query to improve information coverage and accuracy,with low cost and good effect,which can be applied to other domain with some extension.