电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2014年
12期
2352-2358
,共7页
仲兆满%李存华%刘宗田%管燕
仲兆滿%李存華%劉宗田%管燕
중조만%리존화%류종전%관연
多主题信息采集%原子规则%内置搜索%通用搜索%相关性计算
多主題信息採集%原子規則%內置搜索%通用搜索%相關性計算
다주제신식채집%원자규칙%내치수색%통용수색%상관성계산
multi-topic crawling%atomic rules%built-in search engines%general search engines%relevance computing
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系。在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数。针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法。设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较。结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能。
本文針對多主題信息採集效率低下的問題,調研瞭主題規則在內置搜索引擎和通用搜索引擎上搜索結果的差異,提齣將主題規則拆分成原子規則的思想,分析瞭原子規則間的相同、互換、包含三種關繫。在原子規則之間關繫的基礎上,設計瞭針對內置搜索和通用搜索不同的原子規則分配策略,這樣做一方麵提高主題信息採集的準確率,另一方麵減少搜索採集的次數。針對原子規則直接搜索結果的準確率不高的問題,提齣瞭基于句群的主題與信息相關性的過濾方法。設置138條主題規則(拆分後的原子規則為8223條),14箇內置搜索引擎和4箇通用搜索引擎,在單位時間內採集到的信息總條數與採集到的相關信息的條數兩箇方麵進行瞭實驗比較。結果錶明,所提方法在信息採集數目及相關信息採集數目方麵均具有較好的性能。
본문침대다주제신식채집효솔저하적문제,조연료주제규칙재내치수색인경화통용수색인경상수색결과적차이,제출장주제규칙탁분성원자규칙적사상,분석료원자규칙간적상동、호환、포함삼충관계。재원자규칙지간관계적기출상,설계료침대내치수색화통용수색불동적원자규칙분배책략,저양주일방면제고주제신식채집적준학솔,령일방면감소수색채집적차수。침대원자규칙직접수색결과적준학솔불고적문제,제출료기우구군적주제여신식상관성적과려방법。설치138조주제규칙(탁분후적원자규칙위8223조),14개내치수색인경화4개통용수색인경,재단위시간내채집도적신식총조수여채집도적상관신식적조수량개방면진행료실험비교。결과표명,소제방법재신식채집수목급상관신식채집수목방면균구유교호적성능。
Aiming at the low efficiency of multi-topic crawling,the difference between built-in search engines (BSEs)and general search engines (GSEs)is investigated .The idea and method of dividing topic rules into atomic rules are proposed respec-tively,and three relations (equating relation,exchanging relation and containing relation)between atomic rules are analyzed .Based on atomic rule relations,the different allocation strategies for BSEs and GSEs are designed,which can not only improve the precision of topic-specific crawling,but also reduce crawling times .Furthermore,a method of sentence cluster-based relevance computing be-tween topics and documents is proposed to solve the low precision problem of directly crawling information by atomic rules .We conduct an experiment with 138 topic rules (containing 8223 atomic rules),14 BSEs and 4 GSEs for evaluating the number of crawling information and related information in unit time .The results show that the proposed method offers more effective perfor-mances .