软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2015年
7期
57-60
,共4页
领域模型%网页信息模型%网页分类
領域模型%網頁信息模型%網頁分類
영역모형%망혈신식모형%망혈분류
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题.提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题.首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类.实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优.
隨著互聯網中網頁數量的激增,網頁自動分類已經成為互聯網技術中亟待解決的問題.提齣一種領域嚮量模型的設計與構建方法,設計併實現一種針對新聞網頁的基于領域嚮量模型的網頁分類TSC(Topic Sensitive Classify)算法,從新的角度解決網頁自動分類問題.首先,對大量的新聞網頁URL進行分析,提取新聞網頁的URL特徵;然後,設計一箇領域嚮量模型,對特定領域的新聞網頁內容特徵進行提取;最後,結閤新聞網頁URL特徵和內容特徵對新聞網頁進行自動分類.實驗結果錶明,TSC算法分類效果比傳統SVM和ID3等文本分類算法更優.
수착호련망중망혈수량적격증,망혈자동분류이경성위호련망기술중극대해결적문제.제출일충영역향량모형적설계여구건방법,설계병실현일충침대신문망혈적기우영역향량모형적망혈분류TSC(Topic Sensitive Classify)산법,종신적각도해결망혈자동분류문제.수선,대대량적신문망혈URL진행분석,제취신문망혈적URL특정;연후,설계일개영역향량모형,대특정영역적신문망혈내용특정진행제취;최후,결합신문망혈URL특정화내용특정대신문망혈진행자동분류.실험결과표명,TSC산법분류효과비전통SVM화ID3등문본분류산법경우.