情报学报
情報學報
정보학보
2008年
3期
337-343
,共7页
抽词词典%自动分类%向量空间模型%层次分类%粗糙集
抽詞詞典%自動分類%嚮量空間模型%層次分類%粗糙集
추사사전%자동분류%향량공간모형%층차분류%조조집
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.
文本自動分類是目前機器學習、自然語言處理和信息資源檢索領域的研究熱點之一.本文在對自動分類的實現技術問題進行探討的基礎上,嘗試對自動分類的幾箇環節提齣改進措施.具體包括:採用約簡法進行抽詞詞典的構造,採用投票法進行文本特徵的選擇,採用層次法進行逐層次的分類,採用統計與規則相結閤的方法進行分類器的構造等.通過在不同語料庫上與傳統分類方法的對比測試錶明,上述改進措施能夠有效提高自動分類的性能,基于這些改進措施所開髮的自動分類繫統具有大規模文本自動分類的可行性.本文詳細討論瞭相關改進措施的原理、實現算法、流程及存在的問題.
문본자동분류시목전궤기학습、자연어언처리화신식자원검색영역적연구열점지일.본문재대자동분류적실현기술문제진행탐토적기출상,상시대자동분류적궤개배절제출개진조시.구체포괄:채용약간법진행추사사전적구조,채용투표법진행문본특정적선택,채용층차법진행축층차적분류,채용통계여규칙상결합적방법진행분류기적구조등.통과재불동어료고상여전통분류방법적대비측시표명,상술개진조시능구유효제고자동분류적성능,기우저사개진조시소개발적자동분류계통구유대규모문본자동분류적가행성.본문상세토론료상관개진조시적원리、실현산법、류정급존재적문제.