浙江大学学报(工学版)
浙江大學學報(工學版)
절강대학학보(공학판)
Journal of Zhejiang University(Engineering Science)
2015年
8期
1591-1599
,共9页
魏超%罗森林%张竞%潘丽敏
魏超%囉森林%張競%潘麗敏
위초%라삼림%장경%반려민
短文本表示%流形特征%自动编码网络%文本分类
短文本錶示%流形特徵%自動編碼網絡%文本分類
단문본표시%류형특정%자동편마망락%문본분류
short text representation%manifold features%autoEncoder network%text classification
针对短文本分类任务中文本表示存在的高维稀疏问题,提出基于自编码网络的短文本流形表示方法.通过自编码网络重构文本得到流形映射,提取短文本的流形特征,实现非线性降维.根据标签与多篇文本在高维观测空间的全局映射关系,对已有流形映射进行整体调整,扩充短文本信息得到最佳流形表示模型,使用该模型得到短文本流形表示.结合SVM、KNN、Naive-Bayes 3种分类算法,该方法在公开数据源的Macro—F1均超过97.8%,分类效果优于VSM、LDA、LSI.结果表明,该模型生成的流形表示能以非稀疏形式更准确地描述短文本特征信息,使分类效果得到显著提升.
針對短文本分類任務中文本錶示存在的高維稀疏問題,提齣基于自編碼網絡的短文本流形錶示方法.通過自編碼網絡重構文本得到流形映射,提取短文本的流形特徵,實現非線性降維.根據標籤與多篇文本在高維觀測空間的全跼映射關繫,對已有流形映射進行整體調整,擴充短文本信息得到最佳流形錶示模型,使用該模型得到短文本流形錶示.結閤SVM、KNN、Naive-Bayes 3種分類算法,該方法在公開數據源的Macro—F1均超過97.8%,分類效果優于VSM、LDA、LSI.結果錶明,該模型生成的流形錶示能以非稀疏形式更準確地描述短文本特徵信息,使分類效果得到顯著提升.
침대단문본분류임무중문본표시존재적고유희소문제,제출기우자편마망락적단문본류형표시방법.통과자편마망락중구문본득도류형영사,제취단문본적류형특정,실현비선성강유.근거표첨여다편문본재고유관측공간적전국영사관계,대이유류형영사진행정체조정,확충단문본신식득도최가류형표시모형,사용해모형득도단문본류형표시.결합SVM、KNN、Naive-Bayes 3충분류산법,해방법재공개수거원적Macro—F1균초과97.8%,분류효과우우VSM、LDA、LSI.결과표명,해모형생성적류형표시능이비희소형식경준학지묘술단문본특정신식,사분류효과득도현저제승.