数据采集与处理
數據採集與處理
수거채집여처리
JOURNAL OF DATA ACQUISITION & PROCESSING
2011年
2期
230-234
,共5页
文本分类%信息增益%属性依赖度
文本分類%信息增益%屬性依賴度
문본분류%신식증익%속성의뢰도
简单分析了词频方法和文档频方法,在总结其不足的基础上,提出了一个类别相关性方法,随后分析了ID3中信息增益的缺点并引进属性依赖度来加以改进,并进一步根据其中信息增益的计算特点,利用凸函数的性质来进行简化,减少了信息增益的计算量,提高了信息增益的计算效率;最后将此优化的ID3同类别相关性方法结合起来,提出了一个综合的特征选择方法.该综合方法首先使用类别相关性方法进行特征初选以降低文本向量的稀疏性,然后再使用优化的ID3来进一步选择特征,从而获得较具代表性的特征子集.实验结果表明该方法性能良好.
簡單分析瞭詞頻方法和文檔頻方法,在總結其不足的基礎上,提齣瞭一箇類彆相關性方法,隨後分析瞭ID3中信息增益的缺點併引進屬性依賴度來加以改進,併進一步根據其中信息增益的計算特點,利用凸函數的性質來進行簡化,減少瞭信息增益的計算量,提高瞭信息增益的計算效率;最後將此優化的ID3同類彆相關性方法結閤起來,提齣瞭一箇綜閤的特徵選擇方法.該綜閤方法首先使用類彆相關性方法進行特徵初選以降低文本嚮量的稀疏性,然後再使用優化的ID3來進一步選擇特徵,從而穫得較具代錶性的特徵子集.實驗結果錶明該方法性能良好.
간단분석료사빈방법화문당빈방법,재총결기불족적기출상,제출료일개유별상관성방법,수후분석료ID3중신식증익적결점병인진속성의뢰도래가이개진,병진일보근거기중신식증익적계산특점,이용철함수적성질래진행간화,감소료신식증익적계산량,제고료신식증익적계산효솔;최후장차우화적ID3동유별상관성방법결합기래,제출료일개종합적특정선택방법.해종합방법수선사용유별상관성방법진행특정초선이강저문본향량적희소성,연후재사용우화적ID3래진일보선택특정,종이획득교구대표성적특정자집.실험결과표명해방법성능량호.