中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
2期
28-34
,共7页
周云%王挺%易绵竹%张禄彭%王之元
週雲%王挺%易綿竹%張祿彭%王之元
주운%왕정%역면죽%장록팽%왕지원
全词消歧%隐马尔可夫模型%最大熵马尔可夫模型%超大状态问题
全詞消歧%隱馬爾可伕模型%最大熵馬爾可伕模型%超大狀態問題
전사소기%은마이가부모형%최대적마이가부모형%초대상태문제
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM).首先,我们用HMM对全词消歧进行建模.然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中.对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决.最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法.
全詞消歧(All-Words Word Sense Disambiguation)可以看作一箇序列標註問題,該文提齣瞭兩種基于序列標註的全詞消歧方法,它們分彆基于隱馬爾可伕模型(Hidden Markov Model,HMM)和最大熵馬爾可伕模型(Maximum Entropy Markov Model,MEMM).首先,我們用HMM對全詞消歧進行建模.然後,針對HMM隻能利用詞形觀察值的缺點,我們將上述HMM模型推廣為MEMM模型,將大量上下文特徵集成到模型中.對于全詞消歧這類超大狀態問題,在HMM和MEMM模型中均存在數據稀疏和時間複雜度過高的問題,我們通過柱狀搜索Viterbi算法和平滑策略來解決.最後,我們在Senseval-2和Senseval-3的數據集上進行瞭評測,該文提齣的MEMM方法的F1值為0.654,超過瞭該評測上所有的基于序列標註的方法.
전사소기(All-Words Word Sense Disambiguation)가이간작일개서렬표주문제,해문제출료량충기우서렬표주적전사소기방법,타문분별기우은마이가부모형(Hidden Markov Model,HMM)화최대적마이가부모형(Maximum Entropy Markov Model,MEMM).수선,아문용HMM대전사소기진행건모.연후,침대HMM지능이용사형관찰치적결점,아문장상술HMM모형추엄위MEMM모형,장대량상하문특정집성도모형중.대우전사소기저류초대상태문제,재HMM화MEMM모형중균존재수거희소화시간복잡도과고적문제,아문통과주상수색Viterbi산법화평활책략래해결.최후,아문재Senseval-2화Senseval-3적수거집상진행료평측,해문제출적MEMM방법적F1치위0.654,초과료해평측상소유적기우서렬표주적방법.