山西电子技术
山西電子技術
산서전자기술
SHANXI ELECTRONIC TECHNOLOGY
2008年
4期
3-4,13
,共3页
张元虹%郭剑毅%龚华明%薛征山
張元虹%郭劍毅%龔華明%薛徵山
장원홍%곽검의%공화명%설정산
文本分类%潜在语义分析%文档频率法%支持向量机
文本分類%潛在語義分析%文檔頻率法%支持嚮量機
문본분류%잠재어의분석%문당빈솔법%지지향량궤
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(LSA)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度.实验结果表明使用此种降维方法取得了良好的效果.
介紹瞭中文文本分類繫統的原理,在特徵提取上採用瞭文檔頻率法(DF)與潛在語義分析法(LSA)相結閤的方法,先採用DF法過濾掉DF值低的詞條,降低文本矩陣的稀疏性,然後使用LSA法進行詞語間的語義分析,消除同義詞和多義詞的影響,提高文本分類的速度與精確度.實驗結果錶明使用此種降維方法取得瞭良好的效果.
개소료중문문본분류계통적원리,재특정제취상채용료문당빈솔법(DF)여잠재어의분석법(LSA)상결합적방법,선채용DF법과려도DF치저적사조,강저문본구진적희소성,연후사용LSA법진행사어간적어의분석,소제동의사화다의사적영향,제고문본분류적속도여정학도.실험결과표명사용차충강유방법취득료량호적효과.