信息网络安全
信息網絡安全
신식망락안전
NETINFO SECURITY
2014年
10期
49-53
,共5页
信息提取%VIPS算法%智能字典%AC-BM算法
信息提取%VIPS算法%智能字典%AC-BM算法
신식제취%VIPS산법%지능자전%AC-BM산법
在目前数据爆发的互联网时代,论坛舆论走向对于社会的影响越来越大,对舆论进行监控引导已经不可避免,在数据如此巨大的环境中,有效地监控舆论信息成为一个难题.论坛网页中标题、内容等关键信息是舆论监控中的主要以及重点信息.为了提取论坛网页中的标题、内容、作者等与舆情相关的信息,文章提出了一种基于VIPS算法和智能模糊字典匹配相结合的网页内容提取方法.VIPS算法是利用Web页面的视觉提示背景颜色,字体的颜色和大小,边框、逻辑块和逻辑块之间的间距等,结合DOM树进行页面语义分块.智能模糊字典采用AC BM匹配算法把VIPS分块的语义块与数据库里的标签相匹配,提取出匹配正确的字段.两者的结合可以提取出帖子的标题、内容、作者、发帖时间等信息.该方法具体步骤是首先利用VIPS算法将网页页面块进行提取,再用分隔条检测设置分隔条,然后重构语义块,检测后将分割后的网页保存为xml格式文件,再将xml文件中的语义块与字典进行匹配,提取出匹配成功的内容.最后,文章通过实验证明了该方法的有效性.
在目前數據爆髮的互聯網時代,論罈輿論走嚮對于社會的影響越來越大,對輿論進行鑑控引導已經不可避免,在數據如此巨大的環境中,有效地鑑控輿論信息成為一箇難題.論罈網頁中標題、內容等關鍵信息是輿論鑑控中的主要以及重點信息.為瞭提取論罈網頁中的標題、內容、作者等與輿情相關的信息,文章提齣瞭一種基于VIPS算法和智能模糊字典匹配相結閤的網頁內容提取方法.VIPS算法是利用Web頁麵的視覺提示揹景顏色,字體的顏色和大小,邊框、邏輯塊和邏輯塊之間的間距等,結閤DOM樹進行頁麵語義分塊.智能模糊字典採用AC BM匹配算法把VIPS分塊的語義塊與數據庫裏的標籤相匹配,提取齣匹配正確的字段.兩者的結閤可以提取齣帖子的標題、內容、作者、髮帖時間等信息.該方法具體步驟是首先利用VIPS算法將網頁頁麵塊進行提取,再用分隔條檢測設置分隔條,然後重構語義塊,檢測後將分割後的網頁保存為xml格式文件,再將xml文件中的語義塊與字典進行匹配,提取齣匹配成功的內容.最後,文章通過實驗證明瞭該方法的有效性.
재목전수거폭발적호련망시대,론단여론주향대우사회적영향월래월대,대여론진행감공인도이경불가피면,재수거여차거대적배경중,유효지감공여론신식성위일개난제.론단망혈중표제、내용등관건신식시여론감공중적주요이급중점신식.위료제취론단망혈중적표제、내용、작자등여여정상관적신식,문장제출료일충기우VIPS산법화지능모호자전필배상결합적망혈내용제취방법.VIPS산법시이용Web혈면적시각제시배경안색,자체적안색화대소,변광、라집괴화라집괴지간적간거등,결합DOM수진행혈면어의분괴.지능모호자전채용AC BM필배산법파VIPS분괴적어의괴여수거고리적표첨상필배,제취출필배정학적자단.량자적결합가이제취출첩자적표제、내용、작자、발첩시간등신식.해방법구체보취시수선이용VIPS산법장망혈혈면괴진행제취,재용분격조검측설치분격조,연후중구어의괴,검측후장분할후적망혈보존위xml격식문건,재장xml문건중적어의괴여자전진행필배,제취출필배성공적내용.최후,문장통과실험증명료해방법적유효성.