计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2007年
11期
152-156
,共5页
命名实体识别%命名实体%特征选择%文本分类%隐马尔可夫模型
命名實體識彆%命名實體%特徵選擇%文本分類%隱馬爾可伕模型
명명실체식별%명명실체%특정선택%문본분류%은마이가부모형
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用.其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤.很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别.然而,现阶段的文本特征方法都只利用关键词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征.针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键词统计特征之外,还保留了单词作为命名实体的分类特征.实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率.
文本分類是將自由文本自動劃分到若榦預先定義類彆的方法,在信息檢索等領域有很重要的作用.其中,如何選擇有效的文本特徵是影響文本分類器分類性能的一箇重要步驟.很多應用中需要處理的文本信息包含瞭很多的命名實體,如某箇行業的名人,往往能夠在很大程度上影響著文本所屬的類彆.然而,現階段的文本特徵方法都隻利用關鍵詞的統計意義,而沒有攷慮關鍵詞作為命名實體所含有的分類特徵.針對這一問題,本文提齣瞭一種將命名實體識彆方法NER集成到文本分類特徵選擇中的方法,在保留關鍵詞統計特徵之外,還保留瞭單詞作為命名實體的分類特徵.實驗結果錶明,相對于其他特徵選擇方法而言,本文提齣的方法在一定程度上提高瞭文本分類的分類準確率.
문본분류시장자유문본자동화분도약간예선정의유별적방법,재신식검색등영역유흔중요적작용.기중,여하선택유효적문본특정시영향문본분류기분류성능적일개중요보취.흔다응용중수요처리적문본신식포함료흔다적명명실체,여모개행업적명인,왕왕능구재흔대정도상영향착문본소속적유별.연이,현계단적문본특정방법도지이용관건사적통계의의,이몰유고필관건사작위명명실체소함유적분류특정.침대저일문제,본문제출료일충장명명실체식별방법NER집성도문본분류특정선택중적방법,재보류관건사통계특정지외,환보류료단사작위명명실체적분류특정.실험결과표명,상대우기타특정선택방법이언,본문제출적방법재일정정도상제고료문본분류적분류준학솔.