郑州大学学报(理学版)
鄭州大學學報(理學版)
정주대학학보(이학판)
JOURNAL OF ZHENGZHOU UNIVERSITY(NATURAL SCIENCE EDITION)
2007年
2期
78-82
,共5页
分类%链接%相似度%得分向量
分類%鏈接%相似度%得分嚮量
분류%련접%상사도%득분향량
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.
網頁之間的鏈接為Web數據挖掘提供瞭豐富信息,通過鏈接關繫來加彊中文網頁分類的效果.由于網頁的編寫存在隨意性和不規範性,併非所有的鏈接頁麵與源頁麵都有主題相關性.通過比較頁麵與其鏈接頁麵的相似性,優選齣相似度較高的鏈接子集,利用得分嚮量對基于內容的分類結果進行脩正.基于北大天網數據集的實驗結果錶明,優選鏈接頁麵的分類方法對于訓練樣本較少的類彆在分類精度上有一定的提高.
망혈지간적련접위Web수거알굴제공료봉부신식,통과련접관계래가강중문망혈분류적효과.유우망혈적편사존재수의성화불규범성,병비소유적련접혈면여원혈면도유주제상관성.통과비교혈면여기련접혈면적상사성,우선출상사도교고적련접자집,이용득분향량대기우내용적분류결과진행수정.기우북대천망수거집적실험결과표명,우선련접혈면적분류방법대우훈련양본교소적유별재분류정도상유일정적제고.