科技视界
科技視界
과기시계
Science & Technology Vision
2015年
27期
29-30
,共2页
周爽%王洪钰%李晓%孙磊%庞建萍
週爽%王洪鈺%李曉%孫磊%龐建萍
주상%왕홍옥%리효%손뢰%방건평
垃圾网页识别%集成学习%Weka logitboost
垃圾網頁識彆%集成學習%Weka logitboost
랄급망혈식별%집성학습%Weka logitboost
实现垃圾网页的有效检测可以有效提高搜索引擎检索质量,促使网页的设计向着面向用户的方向发展。由于垃圾网页是面向搜索引擎设计的,正常网页是面向用户设计的,因而两者在特征方面存在众多区别,通过机器学习方法可以根据垃圾网页与正常网页在特征方面的不同对垃圾网页进行有效识别。通过对常见单分类器和集成学习分类器处理垃圾网页数据集的对比实验,发现集成学习方法logitboost较为突出,所得结果明显优于单一分类器和常用集成学习算法,所得结果也更接近真实值,并通过对logitboost所用的预处理方法和基分类器进行改进,发现用resample对垃圾网页进行预处理,以REPTree算法为基分类器的logitboost算法对垃圾网页数据集的分类有较高的精确度。
實現垃圾網頁的有效檢測可以有效提高搜索引擎檢索質量,促使網頁的設計嚮著麵嚮用戶的方嚮髮展。由于垃圾網頁是麵嚮搜索引擎設計的,正常網頁是麵嚮用戶設計的,因而兩者在特徵方麵存在衆多區彆,通過機器學習方法可以根據垃圾網頁與正常網頁在特徵方麵的不同對垃圾網頁進行有效識彆。通過對常見單分類器和集成學習分類器處理垃圾網頁數據集的對比實驗,髮現集成學習方法logitboost較為突齣,所得結果明顯優于單一分類器和常用集成學習算法,所得結果也更接近真實值,併通過對logitboost所用的預處理方法和基分類器進行改進,髮現用resample對垃圾網頁進行預處理,以REPTree算法為基分類器的logitboost算法對垃圾網頁數據集的分類有較高的精確度。
실현랄급망혈적유효검측가이유효제고수색인경검색질량,촉사망혈적설계향착면향용호적방향발전。유우랄급망혈시면향수색인경설계적,정상망혈시면향용호설계적,인이량자재특정방면존재음다구별,통과궤기학습방법가이근거랄급망혈여정상망혈재특정방면적불동대랄급망혈진행유효식별。통과대상견단분류기화집성학습분류기처리랄급망혈수거집적대비실험,발현집성학습방법logitboost교위돌출,소득결과명현우우단일분류기화상용집성학습산법,소득결과야경접근진실치,병통과대logitboost소용적예처리방법화기분류기진행개진,발현용resample대랄급망혈진행예처리,이REPTree산법위기분류기적logitboost산법대랄급망혈수거집적분류유교고적정학도。