电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2013年
7期
1337-1342
,共6页
句法分析模型%平滑算法%中心词驱动句法分析%聚类算法
句法分析模型%平滑算法%中心詞驅動句法分析%聚類算法
구법분석모형%평활산법%중심사구동구법분석%취류산법
parsing model%smoothing algorithm%head-driven parsing%clustering algorithm
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标 F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.
解決數據稀疏問題是中心詞驅動句法分析中的一箇重要問題,基于詞類的統計語言模型是解決統計模型數據稀疏問題的重要方法.本文在分析經典平滑算法的基礎上,提齣一種基于語義依存信息和互信息的詞聚類算法,併利用絕對權重差分方法構造瞭一種可變長語言模型,即根據歷史詞對噹前詞預測所作的貢獻不同,n值的大小也隨之變化.進而提齣瞭一種基于語義類和可變長模型的中心詞驅動句法分析改進模型,既增彊瞭句法分析模型的消歧能力,又解決瞭嚴重的數據稀疏問題.改進模型性能有瞭明顯的提高,精確率和召迴率分彆為84.53%和82.41%,綜閤指標 F值比Collins的中心詞驅動句法分析模型提高瞭2.02箇百分點.
해결수거희소문제시중심사구동구법분석중적일개중요문제,기우사류적통계어언모형시해결통계모형수거희소문제적중요방법.본문재분석경전평활산법적기출상,제출일충기우어의의존신식화호신식적사취류산법,병이용절대권중차분방법구조료일충가변장어언모형,즉근거역사사대당전사예측소작적공헌불동,n치적대소야수지변화.진이제출료일충기우어의류화가변장모형적중심사구동구법분석개진모형,기증강료구법분석모형적소기능력,우해결료엄중적수거희소문제.개진모형성능유료명현적제고,정학솔화소회솔분별위84.53%화82.41%,종합지표 F치비Collins적중심사구동구법분석모형제고료2.02개백분점.
Solving the data sparseness problem is an important problem about head-driven parsing ,cluster-based statistic lan-guage model is an important method to solve the problem of sparse data .Based on the analysis of the classical smoothing technolo-gy ,this paper proposes a word clustering algorithm by utilizing mutual information and semantic dependency ,and an absolute weighted difference method was presented and was used to construct vari-gram language model which has good predictable ability , then proposes an improved head-driven parsing model based on word cluster and vari-gram model .Experiments are conducted for the refined statistical parser ,it achieves 84.53% precision and 82.41% recall ,F measure is improved 2.02% comparing with the head-driven parsing model introduced by Collins .