长沙大学学报
長沙大學學報
장사대학학보
JOURNAL OF CHANGSHA UNIVERSITY
2013年
5期
55-57,63
,共4页
唐伟%刘丰年%陈崇帮%欧新良%王苏
唐偉%劉豐年%陳崇幫%歐新良%王囌
당위%류봉년%진숭방%구신량%왕소
文本分类%TF-IDF算法%基尼指数%测度函数%纯度原理
文本分類%TF-IDF算法%基尼指數%測度函數%純度原理
문본분류%TF-IDF산법%기니지수%측도함수%순도원리
随着网上信息的极大丰富,文本分类技术显得越发重要,且预处理技术已成为文本分类的瓶颈.在预处理中采用TF-IDF算法,并且根据基尼指数的纯度原理对传统的基尼指数方法进行了基尼指数测度函数的改进,以降低原始文本的特征选择空间的维数.通过对比实验数据,表明这种改进是可行且有效的,体现在时间、空间复杂度小,精确度高.
隨著網上信息的極大豐富,文本分類技術顯得越髮重要,且預處理技術已成為文本分類的瓶頸.在預處理中採用TF-IDF算法,併且根據基尼指數的純度原理對傳統的基尼指數方法進行瞭基尼指數測度函數的改進,以降低原始文本的特徵選擇空間的維數.通過對比實驗數據,錶明這種改進是可行且有效的,體現在時間、空間複雜度小,精確度高.
수착망상신식적겁대봉부,문본분류기술현득월발중요,차예처리기술이성위문본분류적병경.재예처리중채용TF-IDF산법,병차근거기니지수적순도원리대전통적기니지수방법진행료기니지수측도함수적개진,이강저원시문본적특정선택공간적유수.통과대비실험수거,표명저충개진시가행차유효적,체현재시간、공간복잡도소,정학도고.