智能系统学报
智能繫統學報
지능계통학보
CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS
2014年
4期
474-479
,共6页
特征提取%遗传算法%文本分类%文本聚类%词频%关联度
特徵提取%遺傳算法%文本分類%文本聚類%詞頻%關聯度
특정제취%유전산법%문본분류%문본취류%사빈%관련도
feature extraction%GA%text classification%text clustering%word frequency%word correlation
特征提取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。针对传统的特征提取方法不能全面有效地考查待选特征词的缺点,提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法。该方法通过词频、关联度、词性以及位置等多种启发式来综合考查待选特征,并利用遗传算法来优化各启发式的权重参数。通过在不同测试集上进行对比,实验结果表明,与传统方法相比,该方法能够有效避免传统特征提取方法产生的偏差,获得具有代表性的特征集,从而使得该方法具有一定的实用价值。
特徵提取是信息檢索、文本分類、文本聚類以及自動文摘生成等技術的基礎。針對傳統的特徵提取方法不能全麵有效地攷查待選特徵詞的缺點,提齣瞭一種基于遺傳算法優化綜閤啟髮式的中文網頁特徵提取方法。該方法通過詞頻、關聯度、詞性以及位置等多種啟髮式來綜閤攷查待選特徵,併利用遺傳算法來優化各啟髮式的權重參數。通過在不同測試集上進行對比,實驗結果錶明,與傳統方法相比,該方法能夠有效避免傳統特徵提取方法產生的偏差,穫得具有代錶性的特徵集,從而使得該方法具有一定的實用價值。
특정제취시신식검색、문본분류、문본취류이급자동문적생성등기술적기출。침대전통적특정제취방법불능전면유효지고사대선특정사적결점,제출료일충기우유전산법우화종합계발식적중문망혈특정제취방법。해방법통과사빈、관련도、사성이급위치등다충계발식래종합고사대선특정,병이용유전산법래우화각계발식적권중삼수。통과재불동측시집상진행대비,실험결과표명,여전통방법상비,해방법능구유효피면전통특정제취방법산생적편차,획득구유대표성적특정집,종이사득해방법구유일정적실용개치。
Feature extraction is the basis of such technologies as information retrieval , text classification , text clus-tering and automatic summarization .Aiming at the shortcomings of the traditional feature extraction methods which make it difficult to test feature words comprehensively and effectively , this paper proposes a method for extracting Chinese web page features by optimizing the comprehensive heuristic features based on GA .This proposed method employs comprehensive heuristics of word frequency , word correlation, parts of speech (POS) and position features to comprehensively test selected features and uses GA to optimize the weight of each heuristic parameter .The exper-imental results of the different test sets show that the proposed method can effectively avoid the derivations of the traditional extraction methods and obtain more representative features , and therefore it has a certain practical value .