新疆农业大学学报
新疆農業大學學報
신강농업대학학보
JOURNAL OF XINJIANG AGRICULTURAL UNIVERSITY
2011年
5期
442-446
,共5页
李永可%张太红%冯向萍%陈艳红%马健
李永可%張太紅%馮嚮萍%陳豔紅%馬健
리영가%장태홍%풍향평%진염홍%마건
中文文本分类%农业网站识别%特征提取%多元回归分析
中文文本分類%農業網站識彆%特徵提取%多元迴歸分析
중문문본분류%농업망참식별%특정제취%다원회귀분석
在对中文网页分类中几种典型特征词选取方法研究基础上,提出了互联网农业网站识别中特征词提取方法,设计了农业网站最小二乘多元线性回归识别模型.为检测不同分词器对模型性能的影响,分别使用JE分词器、IK分词器、庖丁解牛分词器、中科院分词器等中文分词工具进行了对比实验.结果表明,当特征词在160~200时,使用IK分词器、庖丁解牛分词器、中科院分词器,模型识别精确度可达96%以上,当特征词个数达到200个以后,农业网站识别精确度基本趋于稳定.
在對中文網頁分類中幾種典型特徵詞選取方法研究基礎上,提齣瞭互聯網農業網站識彆中特徵詞提取方法,設計瞭農業網站最小二乘多元線性迴歸識彆模型.為檢測不同分詞器對模型性能的影響,分彆使用JE分詞器、IK分詞器、庖丁解牛分詞器、中科院分詞器等中文分詞工具進行瞭對比實驗.結果錶明,噹特徵詞在160~200時,使用IK分詞器、庖丁解牛分詞器、中科院分詞器,模型識彆精確度可達96%以上,噹特徵詞箇數達到200箇以後,農業網站識彆精確度基本趨于穩定.
재대중문망혈분류중궤충전형특정사선취방법연구기출상,제출료호련망농업망참식별중특정사제취방법,설계료농업망참최소이승다원선성회귀식별모형.위검측불동분사기대모형성능적영향,분별사용JE분사기、IK분사기、포정해우분사기、중과원분사기등중문분사공구진행료대비실험.결과표명,당특정사재160~200시,사용IK분사기、포정해우분사기、중과원분사기,모형식별정학도가체96%이상,당특정사개수체도200개이후,농업망참식별정학도기본추우은정.