信息技术
信息技術
신식기술
INFORMATION TECHNOLOGY
2008年
2期
15-18
,共4页
相似度曲线%VSM模型%特征抽取%TF-IDF公式
相似度麯線%VSM模型%特徵抽取%TF-IDF公式
상사도곡선%VSM모형%특정추취%TF-IDF공식
随着互联网的快速发展,网络日益成为人们查找有用数据的重要手段.由于WWW上的信息很多存储在HTML 页面上,网页分类就显得十分必要.利用各种开源软件,详细设计并实现了一个中文网页分类模型,同时利用元搜索技术实现数据采集,有效地提高了采集的广度和深度.在进行中文分词时利用了专业词库,此方法提高了分词的准确率,在建立VSM时提出了一种基于相似度曲线的网页特征抽取方法,此方法能有效解决特征提取的高维问题,并对提高特征区分度,缩小运算量具有良好的效果.
隨著互聯網的快速髮展,網絡日益成為人們查找有用數據的重要手段.由于WWW上的信息很多存儲在HTML 頁麵上,網頁分類就顯得十分必要.利用各種開源軟件,詳細設計併實現瞭一箇中文網頁分類模型,同時利用元搜索技術實現數據採集,有效地提高瞭採集的廣度和深度.在進行中文分詞時利用瞭專業詞庫,此方法提高瞭分詞的準確率,在建立VSM時提齣瞭一種基于相似度麯線的網頁特徵抽取方法,此方法能有效解決特徵提取的高維問題,併對提高特徵區分度,縮小運算量具有良好的效果.
수착호련망적쾌속발전,망락일익성위인문사조유용수거적중요수단.유우WWW상적신식흔다존저재HTML 혈면상,망혈분류취현득십분필요.이용각충개원연건,상세설계병실현료일개중문망혈분류모형,동시이용원수색기술실현수거채집,유효지제고료채집적엄도화심도.재진행중문분사시이용료전업사고,차방법제고료분사적준학솔,재건립VSM시제출료일충기우상사도곡선적망혈특정추취방법,차방법능유효해결특정제취적고유문제,병대제고특정구분도,축소운산량구유량호적효과.