计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
4期
873-882
,共10页
自动去噪%监督学习%多文档文摘%文本表示%预处理
自動去譟%鑑督學習%多文檔文摘%文本錶示%預處理
자동거조%감독학습%다문당문적%문본표시%예처리
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升.
多文檔文摘的處理對象是存在譟音的文檔集.現有文摘繫統一般使用由人工設定閾值的固定閾值去譟器.但通過實驗可見,不同文摘算法本身的抗譟能力各有高低,最優閾值隨文檔集、文摘算法、文本錶示方法而改變,人工設定的固定閾值無法達到較好的通用性和去譟效果.為此,提齣一種用于生成自動去譟器的鑑督學習方法,通過從人工文摘中自動穫得標註信息,為語義單元提取多箇特徵,訓練語義單元分類器而構成自動去譟器.可通用于不同文本錶示所生成的語義單元,在不同多文檔文摘繫統的預處理階段為任意文檔集自動去除譟音語義單元.實驗錶明,該鑑督學習方法所生成的自動去譟器在不同文檔集、文摘算法和文本錶示方法下具有通用性,較好的去譟性能使各文摘算法的速度及所提取文摘的質量得到不同程度的提升.
다문당문적적처리대상시존재조음적문당집.현유문적계통일반사용유인공설정역치적고정역치거조기.단통과실험가견,불동문적산법본신적항조능력각유고저,최우역치수문당집、문적산법、문본표시방법이개변,인공설정적고정역치무법체도교호적통용성화거조효과.위차,제출일충용우생성자동거조기적감독학습방법,통과종인공문적중자동획득표주신식,위어의단원제취다개특정,훈련어의단원분류기이구성자동거조기.가통용우불동문본표시소생성적어의단원,재불동다문당문적계통적예처리계단위임의문당집자동거제조음어의단원.실험표명,해감독학습방법소생성적자동거조기재불동문당집、문적산법화문본표시방법하구유통용성,교호적거조성능사각문적산법적속도급소제취문적적질량득도불동정도적제승.