计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2008年
9期
222-224
,共3页
类别特征信息库%影响因素%分类效率
類彆特徵信息庫%影響因素%分類效率
유별특정신식고%영향인소%분류효솔
基于包含全部特征的类别特征数据库,利用基于距离度量的Rocchio算法、Fast TC算法和基于概率模型的NB算法,从定量的角度来分析停用词、词干合并、数字和测试文档长度4个因素对文本分类精度的影响程度.实验表明,过滤停用词方法是一种无损的特征压缩手段,词干合并虽然对分类精度略有减弱,但仍能保证特征压缩的可行性.数字与其他词汇的语义关联性提高了Rocchio算法和Fast TC算法的分类精度,但降低了视特征彼此独立的NB算法的分类精度.3种算法在测试文档取不同数量的关键词时分类精度的变化趋势说明了特征所包含的有益信息和噪音信息对分类精度的影响.
基于包含全部特徵的類彆特徵數據庫,利用基于距離度量的Rocchio算法、Fast TC算法和基于概率模型的NB算法,從定量的角度來分析停用詞、詞榦閤併、數字和測試文檔長度4箇因素對文本分類精度的影響程度.實驗錶明,過濾停用詞方法是一種無損的特徵壓縮手段,詞榦閤併雖然對分類精度略有減弱,但仍能保證特徵壓縮的可行性.數字與其他詞彙的語義關聯性提高瞭Rocchio算法和Fast TC算法的分類精度,但降低瞭視特徵彼此獨立的NB算法的分類精度.3種算法在測試文檔取不同數量的關鍵詞時分類精度的變化趨勢說明瞭特徵所包含的有益信息和譟音信息對分類精度的影響.
기우포함전부특정적유별특정수거고,이용기우거리도량적Rocchio산법、Fast TC산법화기우개솔모형적NB산법,종정량적각도래분석정용사、사간합병、수자화측시문당장도4개인소대문본분류정도적영향정도.실험표명,과려정용사방법시일충무손적특정압축수단,사간합병수연대분류정도략유감약,단잉능보증특정압축적가행성.수자여기타사회적어의관련성제고료Rocchio산법화Fast TC산법적분류정도,단강저료시특정피차독립적NB산법적분류정도.3충산법재측시문당취불동수량적관건사시분류정도적변화추세설명료특정소포함적유익신식화조음신식대분류정도적영향.