计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2006年
32期
147-149
,共3页
特征词%向量空间模型%统计分布%文本分类%训练集
特徵詞%嚮量空間模型%統計分佈%文本分類%訓練集
특정사%향량공간모형%통계분포%문본분류%훈련집
文本分类是文本信息处理工作中的一个重要预处理部分.对常用的文本表示模型-向量空间模型的特征词权重估计方法提出了质疑,指出该方法的两个假设前提在一些情况下是不完全正确的,并详细分析了造成这一问题的原因.在此基础上,提出了正确估计特征词权重的三个基本假设,并由此得出新的特征词权重估计方法和文本分类方式,最大限度地利用了文本信息.
文本分類是文本信息處理工作中的一箇重要預處理部分.對常用的文本錶示模型-嚮量空間模型的特徵詞權重估計方法提齣瞭質疑,指齣該方法的兩箇假設前提在一些情況下是不完全正確的,併詳細分析瞭造成這一問題的原因.在此基礎上,提齣瞭正確估計特徵詞權重的三箇基本假設,併由此得齣新的特徵詞權重估計方法和文本分類方式,最大限度地利用瞭文本信息.
문본분류시문본신식처리공작중적일개중요예처리부분.대상용적문본표시모형-향량공간모형적특정사권중고계방법제출료질의,지출해방법적량개가설전제재일사정황하시불완전정학적,병상세분석료조성저일문제적원인.재차기출상,제출료정학고계특정사권중적삼개기본가설,병유차득출신적특정사권중고계방법화문본분류방식,최대한도지이용료문본신식.