计算机工程
計算機工程
계산궤공정
Computer Engineering
2015年
9期
233-237,244
,共6页
陈鸿%金培权%岳丽华%胡玉娟%殷凤梅
陳鴻%金培權%嶽麗華%鬍玉娟%慇鳳梅
진홍%금배권%악려화%호옥연%은봉매
句子切分%标点省略%机器学习%上下文特征%N元文法%逻辑回归
句子切分%標點省略%機器學習%上下文特徵%N元文法%邏輯迴歸
구자절분%표점성략%궤기학습%상하문특정%N원문법%라집회귀
sentence segmentation%puntuation omitting%machine learning%contextual feature%N-gram%logistic regression
商品评论文本对消费者和商家的决策都有重要参考价值.用户在评论中使用的语言较为随意,语法结构不规则,给文本分析带来很大难度.正确的句子切分是文本信息抽取和挖掘工作的基础.为解决商品评论中用户省略标点情况下的句子切分问题,基于上下文特征,提出使用机器学习的方法对评论长句进行切分.根据大规模评论语料的统计特征选取候选句子切分点,对每一个候选句子切分点提取其上下文特征,并根据语料的统计特征,使用逻辑回归对候选切分点进行分类.实验结果表明,该方法能够有效解决商品评论中用户省略标点情况下的句子切分问题.
商品評論文本對消費者和商傢的決策都有重要參攷價值.用戶在評論中使用的語言較為隨意,語法結構不規則,給文本分析帶來很大難度.正確的句子切分是文本信息抽取和挖掘工作的基礎.為解決商品評論中用戶省略標點情況下的句子切分問題,基于上下文特徵,提齣使用機器學習的方法對評論長句進行切分.根據大規模評論語料的統計特徵選取候選句子切分點,對每一箇候選句子切分點提取其上下文特徵,併根據語料的統計特徵,使用邏輯迴歸對候選切分點進行分類.實驗結果錶明,該方法能夠有效解決商品評論中用戶省略標點情況下的句子切分問題.
상품평논문본대소비자화상가적결책도유중요삼고개치.용호재평론중사용적어언교위수의,어법결구불규칙,급문본분석대래흔대난도.정학적구자절분시문본신식추취화알굴공작적기출.위해결상품평론중용호성략표점정황하적구자절분문제,기우상하문특정,제출사용궤기학습적방법대평론장구진행절분.근거대규모평론어료적통계특정선취후선구자절분점,대매일개후선구자절분점제취기상하문특정,병근거어료적통계특정,사용라집회귀대후선절분점진행분류.실험결과표명,해방법능구유효해결상품평론중용호성략표점정황하적구자절분문제.