电信科学
電信科學
전신과학
TELECOMMUNICATIONS SCIENCE
2011年
6期
43-48
,共6页
袁立宇%鞠久朋%杨豪杰%宋平波
袁立宇%鞠久朋%楊豪傑%宋平波
원립우%국구붕%양호걸%송평파
商家评论%消费偏好%情感分析%褒贬分类%特征权重
商傢評論%消費偏好%情感分析%褒貶分類%特徵權重
상가평론%소비편호%정감분석%포폄분류%특정권중
大多数基于有指导机器学习方法的情感分类采用N元(n-gram)词袋(bag-of-words)模型,使用二值(binary)作为特征项的权重.本文系统地分析了信息检索中常用的特征权重计算方法,并从项频、倒文档率、归一化因子等角度加以借鉴和改进,研究其在商家评论上的应用.最主要的改进在于考虑了特征项在不同类别中分布情况的差异以及对倒文档率的平滑.在餐饮评论语料上的实验结果表明,经典的tf·idf若干变形,尤其是倒文档率类差异(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分类准确率.在酒店、电脑、书籍等领域的在线评论公开数据集上也取得了较好的性能,证明了方法的普遍适用性.这一方法目前已经在中国电信"号码百事通"业务中用于餐饮商家及优惠券推荐,效果良好.
大多數基于有指導機器學習方法的情感分類採用N元(n-gram)詞袋(bag-of-words)模型,使用二值(binary)作為特徵項的權重.本文繫統地分析瞭信息檢索中常用的特徵權重計算方法,併從項頻、倒文檔率、歸一化因子等角度加以藉鑒和改進,研究其在商傢評論上的應用.最主要的改進在于攷慮瞭特徵項在不同類彆中分佈情況的差異以及對倒文檔率的平滑.在餐飲評論語料上的實驗結果錶明,經典的tf·idf若榦變形,尤其是倒文檔率類差異(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分類準確率.在酒店、電腦、書籍等領域的在線評論公開數據集上也取得瞭較好的性能,證明瞭方法的普遍適用性.這一方法目前已經在中國電信"號碼百事通"業務中用于餐飲商傢及優惠券推薦,效果良好.
대다수기우유지도궤기학습방법적정감분류채용N원(n-gram)사대(bag-of-words)모형,사용이치(binary)작위특정항적권중.본문계통지분석료신식검색중상용적특정권중계산방법,병종항빈、도문당솔、귀일화인자등각도가이차감화개진,연구기재상가평론상적응용.최주요적개진재우고필료특정항재불동유별중분포정황적차이이급대도문당솔적평활.재찬음평론어료상적실험결과표명,경전적tf·idf약간변형,우기시도문당솔류차이(delta idf)급평활인자(smoothing factor)적인입,능유효제고분류준학솔.재주점、전뇌、서적등영역적재선평론공개수거집상야취득료교호적성능,증명료방법적보편괄용성.저일방법목전이경재중국전신"호마백사통"업무중용우찬음상가급우혜권추천,효과량호.