四川大学学报(自然科学版)
四川大學學報(自然科學版)
사천대학학보(자연과학판)
JOURNAL OF SICHUAN UNIVERSITY(NATURAL SCIENCE EDITION)
2010年
3期
493-497
,共5页
陈黎%李志蜀%琚生根%唐小棚%梁时木%韩国辉
陳黎%李誌蜀%琚生根%唐小棚%樑時木%韓國輝
진려%리지촉%거생근%당소붕%량시목%한국휘
主题爬虫%分类器%支持向量机%特征选择%金融
主題爬蟲%分類器%支持嚮量機%特徵選擇%金融
주제파충%분류기%지지향량궤%특정선택%금융
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高.
隨著Internet上信息的爆炸,利用通用搜索引擎檢索用戶相關的信息變得越來越睏難,而主題爬蟲成為WEB上檢索主題相關信息的重要工具.目前大部分基于分類器預測的主題爬蟲的訓練數據是不同類彆網頁的內容,但是在實際預測過程隻能根據父網頁中的一些鏈接信息進行預測,所以造成主題爬蟲的預測的準確率較低.本文使用SVM分類器對標註瞭類彆的URL以及上下文和錨文本進行訓練,併分彆使用瞭DF和信息增益兩種不同的特徵選擇方法進行特徵篩選,對影響分類器的各種因素進行瞭實驗對比,併對分類器進行瞭在線的實驗.實驗證明這種方法在實際預測過程中效率很高.
수착Internet상신식적폭작,이용통용수색인경검색용호상관적신식변득월래월곤난,이주제파충성위WEB상검색주제상관신식적중요공구.목전대부분기우분류기예측적주제파충적훈련수거시불동유별망혈적내용,단시재실제예측과정지능근거부망혈중적일사련접신식진행예측,소이조성주제파충적예측적준학솔교저.본문사용SVM분류기대표주료유별적URL이급상하문화묘문본진행훈련,병분별사용료DF화신식증익량충불동적특정선택방법진행특정사선,대영향분류기적각충인소진행료실험대비,병대분류기진행료재선적실험.실험증명저충방법재실제예측과정중효솔흔고.