新疆农业大学学报
新疆農業大學學報
신강농업대학학보
JOURNAL OF XINJIANG AGRICULTURAL UNIVERSITY
2011年
5期
447-453
,共7页
王霜霜%张太红%冯向萍%陈燕红%马健
王霜霜%張太紅%馮嚮萍%陳燕紅%馬健
왕상상%장태홍%풍향평%진연홍%마건
导航页面%网页识别%特征选择%多元线性回归
導航頁麵%網頁識彆%特徵選擇%多元線性迴歸
도항혈면%망혈식별%특정선택%다원선성회귀
针对农业网站中大量存在的不含实际信息的导航页面,提出了将网页文本特征与非文本特征综合考虑来构建农业网站导航页面识别模型的方法.对农业网站导航网页两类特征:文本特征与非文本特征,利用HTML-Parser网页解析器、庖丁解牛分词器、卡方检验算法,结合最小二乘多元线性回归方法,进行了实验分析对比.经过对5 000张训练样本与1 400张测试样本的网页实测表明,将农业导航页面文本特征与非文本特征集结合构建的分类器,对农业导航网页有很好的识别效果.当特征词数目达到200以上,准确率可达94%左右且趋于稳定.
針對農業網站中大量存在的不含實際信息的導航頁麵,提齣瞭將網頁文本特徵與非文本特徵綜閤攷慮來構建農業網站導航頁麵識彆模型的方法.對農業網站導航網頁兩類特徵:文本特徵與非文本特徵,利用HTML-Parser網頁解析器、庖丁解牛分詞器、卡方檢驗算法,結閤最小二乘多元線性迴歸方法,進行瞭實驗分析對比.經過對5 000張訓練樣本與1 400張測試樣本的網頁實測錶明,將農業導航頁麵文本特徵與非文本特徵集結閤構建的分類器,對農業導航網頁有很好的識彆效果.噹特徵詞數目達到200以上,準確率可達94%左右且趨于穩定.
침대농업망참중대량존재적불함실제신식적도항혈면,제출료장망혈문본특정여비문본특정종합고필래구건농업망참도항혈면식별모형적방법.대농업망참도항망혈량류특정:문본특정여비문본특정,이용HTML-Parser망혈해석기、포정해우분사기、잡방검험산법,결합최소이승다원선성회귀방법,진행료실험분석대비.경과대5 000장훈련양본여1 400장측시양본적망혈실측표명,장농업도항혈면문본특정여비문본특정집결합구건적분류기,대농업도항망혈유흔호적식별효과.당특정사수목체도200이상,준학솔가체94%좌우차추우은정.