现代图书情报技术
現代圖書情報技術
현대도서정보기술
NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE
2007年
1期
40-43
,共4页
许文%都云程%李渝勤%施水才
許文%都雲程%李渝勤%施水纔
허문%도운정%리투근%시수재
DOM%信息提取%分块%相关度
DOM%信息提取%分塊%相關度
DOM%신식제취%분괴%상관도
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面"主题"信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档.
採用DOM規範,把HTML網頁錶示成樹結構,對不同模闆的HTML頁麵"主題"信息提取進行研究和分析,提齣一種新的結點主題相關性判定方法,依據此方法判定齣要抽取的主題內容,併刪除無關內容,結果輸齣隻含主題信息的HTML文檔.
채용DOM규범,파HTML망혈표시성수결구,대불동모판적HTML혈면"주제"신식제취진행연구화분석,제출일충신적결점주제상관성판정방법,의거차방법판정출요추취적주제내용,병산제무관내용,결과수출지함주제신식적HTML문당.