郑州大学学报(理学版)
鄭州大學學報(理學版)
정주대학학보(이학판)
JOURNAL OF ZHENGZHOU UNIVERSITY(NATURAL SCIENCE EDITION)
2008年
3期
52-55
,共4页
Web信息抽取%最大熵马尔可夫模型%条件模型%最大熵%隐马尔可夫模型
Web信息抽取%最大熵馬爾可伕模型%條件模型%最大熵%隱馬爾可伕模型
Web신식추취%최대적마이가부모형%조건모형%최대적%은마이가부모형
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
針對傳統Web信息抽取的隱馬爾可伕模型對初值十分敏感和在實際訓練中極易得到跼部最優模型參數,提齣瞭一種最大熵和最大熵馬爾可伕模型相結閤的條件模型.該方法對輸入的Web頁麵進行解析併構建HTML樹,通過計算HTML子樹結點的熵定位數據域,允許觀察值錶示任意重疊特徵(像詞、大寫、HTML標記、語義)和定義狀態序列給予觀察序列的條件概率實現瞭Web信息抽取.實驗結果錶明,新的方法在精確度和召迴率指標上比傳統隱馬爾可伕模型和最大熵馬爾可伕模型具有更好的性能.
침대전통Web신식추취적은마이가부모형대초치십분민감화재실제훈련중겁역득도국부최우모형삼수,제출료일충최대적화최대적마이가부모형상결합적조건모형.해방법대수입적Web혈면진행해석병구건HTML수,통과계산HTML자수결점적적정위수거역,윤허관찰치표시임의중첩특정(상사、대사、HTML표기、어의)화정의상태서렬급여관찰서렬적조건개솔실현료Web신식추취.실험결과표명,신적방법재정학도화소회솔지표상비전통은마이가부모형화최대적마이가부모형구유경호적성능.