重庆理工大学学报(自然科学版)
重慶理工大學學報(自然科學版)
중경리공대학학보(자연과학판)
JOURNAL OF CHONGQING INSTITUTE OF TECHNOLOGY
2014年
2期
76-81
,共6页
同义词发现%知网%层次架构%相关系数%文本分类
同義詞髮現%知網%層次架構%相關繫數%文本分類
동의사발현%지망%층차가구%상관계수%문본분류
synonymy discovery%HowNet%hierarchical architecture%correlation coefficient%text categorization
文本分类算法在进行分类时存在待分类文本中关键词稀疏、难以充分表征文本特性的问题,导致文本分类的准确率不高.提出一种基于同义词发现的文本扩充算法,利用知网中义原间的层次架构,获取待分类文本中关键词的位置信息,并发现关键词路径中位于不同层次的同义词,利用知网义原之间层次性和密度差异为关键词和不同层次的同义词之间赋予相应的相关系数.将提出的文本扩充算法运用于文本分类,以20Newsgroups和Reuters21578 Top10为测试数据集进行实验.实验结果表明:改进算法的文本分类准确率和F1值有了较大提高.
文本分類算法在進行分類時存在待分類文本中關鍵詞稀疏、難以充分錶徵文本特性的問題,導緻文本分類的準確率不高.提齣一種基于同義詞髮現的文本擴充算法,利用知網中義原間的層次架構,穫取待分類文本中關鍵詞的位置信息,併髮現關鍵詞路徑中位于不同層次的同義詞,利用知網義原之間層次性和密度差異為關鍵詞和不同層次的同義詞之間賦予相應的相關繫數.將提齣的文本擴充算法運用于文本分類,以20Newsgroups和Reuters21578 Top10為測試數據集進行實驗.實驗結果錶明:改進算法的文本分類準確率和F1值有瞭較大提高.
문본분류산법재진행분류시존재대분류문본중관건사희소、난이충분표정문본특성적문제,도치문본분류적준학솔불고.제출일충기우동의사발현적문본확충산법,이용지망중의원간적층차가구,획취대분류문본중관건사적위치신식,병발현관건사로경중위우불동층차적동의사,이용지망의원지간층차성화밀도차이위관건사화불동층차적동의사지간부여상응적상관계수.장제출적문본확충산법운용우문본분류,이20Newsgroups화Reuters21578 Top10위측시수거집진행실험.실험결과표명:개진산법적문본분류준학솔화F1치유료교대제고.