情报学报
情報學報
정보학보
2011年
2期
160-165
,共6页
HTML树%结构相似度%自由匹配%信息提取
HTML樹%結構相似度%自由匹配%信息提取
HTML수%결구상사도%자유필배%신식제취
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.
HTML網頁信息是一種半結構化的數據,而且不同網頁之間在其結構特徵方麵都具有一定的相似性.本文就是從信息的結構性角度來研究不同網頁信息塊之間的相似性,併提齣瞭基于子樹最優自由匹配規則的結構相似度度量模型以及利用網頁結構相似性提取網頁信息的方法.本文中的計算方法都用python語言實現.通過實驗,本文對不同網頁之間的相似度進行瞭計算和分析,實驗數據錶明,基于子樹最優自由匹配規則的樹結構相似度度量模型具有較好的繫統性和適用性;通過樹結構相似度來確定網頁內部元素及兩箇網頁之間的聯繫,也瀰補瞭傳統方法中依賴單調的文本信息比較的不足,使得網頁信息提取更加準確,更加迅速.
HTML망혈신식시일충반결구화적수거,이차불동망혈지간재기결구특정방면도구유일정적상사성.본문취시종신식적결구성각도래연구불동망혈신식괴지간적상사성,병제출료기우자수최우자유필배규칙적결구상사도도량모형이급이용망혈결구상사성제취망혈신식적방법.본문중적계산방법도용python어언실현.통과실험,본문대불동망혈지간적상사도진행료계산화분석,실험수거표명,기우자수최우자유필배규칙적수결구상사도도량모형구유교호적계통성화괄용성;통과수결구상사도래학정망혈내부원소급량개망혈지간적련계,야미보료전통방법중의뢰단조적문본신식비교적불족,사득망혈신식제취경가준학,경가신속.