广东石油化工学院学报
廣東石油化工學院學報
엄동석유화공학원학보
JOURNAL OF MAOMING COLLEGE
2012年
4期
40-42,45
,共4页
高燕%张维维%张艳红%谢燕萍,苏凝%谢燕萍%苏凝
高燕%張維維%張豔紅%謝燕萍,囌凝%謝燕萍%囌凝
고연%장유유%장염홍%사연평,소응%사연평%소응
最长地点实体%实体识别%最大熵模型
最長地點實體%實體識彆%最大熵模型
최장지점실체%실체식별%최대적모형
Longest Location Entity (LLE)%Entity Recognition%Maximum Entropy
实体识别是自然语言处理领域中一个十分重要的问题,是信息提取的基础,其识别程度直接影响了后续的句法分析、篇章理解等工作的精确程度。“熵”最初是热力学的一个概念,用来表示不确定度,熵越大,不确定性越大。“最大熵”模型是一种融合多种特征于一体,并综合这些特征进行建模,在满足约束的模型中选择熵最大的模型。“最大熵”模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的效果。通过实验分析了在新闻报道领域最长地点实体的特征,并应用了最大熵模型进行了识别研究。
實體識彆是自然語言處理領域中一箇十分重要的問題,是信息提取的基礎,其識彆程度直接影響瞭後續的句法分析、篇章理解等工作的精確程度。“熵”最初是熱力學的一箇概唸,用來錶示不確定度,熵越大,不確定性越大。“最大熵”模型是一種融閤多種特徵于一體,併綜閤這些特徵進行建模,在滿足約束的模型中選擇熵最大的模型。“最大熵”模型可以綜閤觀察到各種相關或不相關的概率知識,對許多問題的處理都可以達到較好的效果。通過實驗分析瞭在新聞報道領域最長地點實體的特徵,併應用瞭最大熵模型進行瞭識彆研究。
실체식별시자연어언처리영역중일개십분중요적문제,시신식제취적기출,기식별정도직접영향료후속적구법분석、편장리해등공작적정학정도。“적”최초시열역학적일개개념,용래표시불학정도,적월대,불학정성월대。“최대적”모형시일충융합다충특정우일체,병종합저사특정진행건모,재만족약속적모형중선택적최대적모형。“최대적”모형가이종합관찰도각충상관혹불상관적개솔지식,대허다문제적처리도가이체도교호적효과。통과실험분석료재신문보도영역최장지점실체적특정,병응용료최대적모형진행료식별연구。
Entity identification is an important field in Natural Language Processing (NLP). It's foundation of intbrmation extracuon and its accuracy has a direct effect on many NLP tasks such as Syntactic analysis, reading comprehension and so on. "Entropy" was a concept of thermodynamics originally, used to represent uncertainty, and it decreases with increasing of uncertainty. A Maximum Entropy Model combines variety of features to model and fits the right model from all satisfied constraint model. It can observe a variety of related or not related to the probability, and can better problem solving. This paper statistically analyse characteristics of the LLE and identify using the maximum entropy model.