计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
5期
1335-1339
,共5页
李劲%张华%吴浩雄%向军%辜希武
李勁%張華%吳浩雄%嚮軍%辜希武
리경%장화%오호웅%향군%고희무
社会标注%向量空间模型%文本分类%信息检索%数据挖掘
社會標註%嚮量空間模型%文本分類%信息檢索%數據挖掘
사회표주%향량공간모형%문본분류%신식검색%수거알굴
社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量.研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果.由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估.在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量.同时采用支持向量机分类算法进行分类实验.实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%.
社會標註是一種用戶對網絡資源的大衆分類,蘊含瞭豐富的語義信息,因此將社會標註應用到信息檢索技術中有助于提高信息檢索的質量.研究瞭一種基于社會標註的文本分類改進算法以提高網頁分類的效果.由于社會標註屬于大衆分類,標註的產生具有很大的隨意性,標註的質量差彆很大,因此首先利用文檔間的語義相似度以及標註間的語義相似度來對標註的質量進行量化評估.在此基礎上對標註進行質量過濾,利用質量相對較好的標註對文檔嚮量空間模型進行擴展,將文檔錶示成由文檔單詞以及文檔標註信息組成的擴展嚮量.同時採用支持嚮量機分類算法進行分類實驗.實驗結果錶明,通過對標註進行質量評估併過濾質量差的標註,同時結閤文檔內容以及標註來對文檔能提高分類的效果,同傳統的基于文檔內容的分類算法相比,分類結果的F1度量值提高瞭6.2%.
사회표주시일충용호대망락자원적대음분류,온함료봉부적어의신식,인차장사회표주응용도신식검색기술중유조우제고신식검색적질량.연구료일충기우사회표주적문본분류개진산법이제고망혈분류적효과.유우사회표주속우대음분류,표주적산생구유흔대적수의성,표주적질량차별흔대,인차수선이용문당간적어의상사도이급표주간적어의상사도래대표주적질량진행양화평고.재차기출상대표주진행질량과려,이용질량상대교호적표주대문당향량공간모형진행확전,장문당표시성유문당단사이급문당표주신식조성적확전향량.동시채용지지향량궤분류산법진행분류실험.실험결과표명,통과대표주진행질량평고병과려질량차적표주,동시결합문당내용이급표주래대문당능제고분류적효과,동전통적기우문당내용적분류산법상비,분류결과적F1도량치제고료6.2%.