计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2015年
5期
180-184
,共5页
盛雅琦%张晗%吕晨%姬东鸿
盛雅琦%張晗%呂晨%姬東鴻
성아기%장함%려신%희동홍
文本蕴涵%主题模型%多模式%混合主题%隐藏语义%支持向量机
文本蘊涵%主題模型%多模式%混閤主題%隱藏語義%支持嚮量機
문본온함%주제모형%다모식%혼합주제%은장어의%지지향량궤
textual entailment%topic model%multi mode%mixed topic%latent semantic%Support Vector Machine(SVM)
分析识别文本蕴涵的主流方法,并基于文本T和假设H可以从潜在混合主题中生成的猜想,提出一个混合主题模型来识别文本蕴涵,描述一个在混合主题模型上生成文本的概率模型。该模型把文本T和假设H看成是同一语义的不同表达,表示为多模式的数据,若文本T和假设H有蕴涵关系,则它们有相似的主题分布,共享混合词汇表和主题。设计mixLDA和LDA模型的对比实验,并对RTE-8任务进行测试,通过支持向量机对得到的句子相似度和其他词法句法特征进行分类。实验结果表明,基于混合主题模型的文本蕴涵识别具有较高的准确率。
分析識彆文本蘊涵的主流方法,併基于文本T和假設H可以從潛在混閤主題中生成的猜想,提齣一箇混閤主題模型來識彆文本蘊涵,描述一箇在混閤主題模型上生成文本的概率模型。該模型把文本T和假設H看成是同一語義的不同錶達,錶示為多模式的數據,若文本T和假設H有蘊涵關繫,則它們有相似的主題分佈,共享混閤詞彙錶和主題。設計mixLDA和LDA模型的對比實驗,併對RTE-8任務進行測試,通過支持嚮量機對得到的句子相似度和其他詞法句法特徵進行分類。實驗結果錶明,基于混閤主題模型的文本蘊涵識彆具有較高的準確率。
분석식별문본온함적주류방법,병기우문본T화가설H가이종잠재혼합주제중생성적시상,제출일개혼합주제모형래식별문본온함,묘술일개재혼합주제모형상생성문본적개솔모형。해모형파문본T화가설H간성시동일어의적불동표체,표시위다모식적수거,약문본T화가설H유온함관계,칙타문유상사적주제분포,공향혼합사회표화주제。설계mixLDA화LDA모형적대비실험,병대RTE-8임무진행측시,통과지지향량궤대득도적구자상사도화기타사법구법특정진행분류。실험결과표명,기우혼합주제모형적문본온함식별구유교고적준학솔。
This paper analyses the main method of recognizing textual entailment,and proposes a method named mixed topic model to recognize textual entailment, and describes a probabilistic model based on the assumption. Texts are generated by mixtures of latent topics. It takes the T( Text) and H( Hypothesis) as a different expression of the same semantic mean. These can be represented as multi mode data. If text entails hypothesis,they have the similar probability distribution of the topic,shares the same mixed bag of words and topics. The model is used in the task RTE-8,parallel tests of mixLDA and LDA models are designed,and a system experiment uses the Support Vector Machine( SVM) to classify the features which consist of the textual similarity made by this model and other features. Experimental result demonstrates the high accuracy of the mixed topic model to recognize textual entailment.