西南科技大学学报
西南科技大學學報
서남과기대학학보
JOURNAL OF SOUTHWEST CHINA INSTITUTE OF TECHNOLOGY
2010年
1期
80-84
,共5页
内容相似度%标签相似度%分块%文本挖掘
內容相似度%標籤相似度%分塊%文本挖掘
내용상사도%표첨상사도%분괴%문본알굴
网页正文提取是WEB挖掘的重要步骤.传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文.该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文.实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的.
網頁正文提取是WEB挖掘的重要步驟.傳統網頁正文提取方法都需要經過分塊這一步驟之後來識彆網頁正文塊,提齣瞭利用行文本之間的內容相似度和標籤相似度結閤的方法來提取網頁正文.該算法避免瞭傳統網頁提取算法的分塊步驟,在規範網頁之後,先提取網頁的最大文本行,然後計算每行文本與最大行的內容相似度和標籤相似度,再結閤內容相似度與標籤相似度來提取網頁正文.實驗中,利用隨機抽取的網頁進行瞭測試,其測試精度接近95%,錶明該算法在實際中是有效的.
망혈정문제취시WEB알굴적중요보취.전통망혈정문제취방법도수요경과분괴저일보취지후래식별망혈정문괴,제출료이용행문본지간적내용상사도화표첨상사도결합적방법래제취망혈정문.해산법피면료전통망혈제취산법적분괴보취,재규범망혈지후,선제취망혈적최대문본행,연후계산매행문본여최대행적내용상사도화표첨상사도,재결합내용상사도여표첨상사도래제취망혈정문.실험중,이용수궤추취적망혈진행료측시,기측시정도접근95%,표명해산법재실제중시유효적.