计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
11期
2352-2358
,共7页
张宪超%徐雯%高亮%梁文新
張憲超%徐雯%高亮%樑文新
장헌초%서문%고량%량문신
Web社区识别%最大流算法%文本相似度%Web挖掘%信息检索
Web社區識彆%最大流算法%文本相似度%Web挖掘%信息檢索
Web사구식별%최대류산법%문본상사도%Web알굴%신식검색
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max flow+TF IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.
噹前Web社區識彆算法大都基于純鏈接分析,忽略瞭Web的文本屬性.針對Flake等人提齣的基于最大流算法的社區識彆框架的不足(如賦予網頁之間的鏈接不公平的權重、排序策略單一等),提齣瞭一種結閤網頁內容分析與鏈接分析的改進算法.首先,提齣一種新的基于文本相似度的邊容量分配方法.基于網頁間內容越相似彼此傳遞的權威度越大的特點,將網頁的內容相似度用于Web圖的邊容量設置上,具體策略為Max flow+TF IDF邊容量設置和Max-flow+TF-IDF+Seeds邊容量設置.其次,提齣的社區結點的排序策略充分攷慮瞭結點和社區主題的相似度,以此來增彊結點區分度.理論分析和實驗證明瞭該算法具有提高社區髮現的精度和大小、計算齣的排序分值更為客觀閤理等優點.
당전Web사구식별산법대도기우순련접분석,홀략료Web적문본속성.침대Flake등인제출적기우최대류산법적사구식별광가적불족(여부여망혈지간적련접불공평적권중、배서책략단일등),제출료일충결합망혈내용분석여련접분석적개진산법.수선,제출일충신적기우문본상사도적변용량분배방법.기우망혈간내용월상사피차전체적권위도월대적특점,장망혈적내용상사도용우Web도적변용량설치상,구체책략위Max flow+TF IDF변용량설치화Max-flow+TF-IDF+Seeds변용량설치.기차,제출적사구결점적배서책략충분고필료결점화사구주제적상사도,이차래증강결점구분도.이론분석화실험증명료해산법구유제고사구발현적정도화대소、계산출적배서분치경위객관합리등우점.