计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2011年
21期
155-158
,共4页
社会媒体%DOM结构%k-means算法%自学习%抽取规则%网页内容抽取
社會媒體%DOM結構%k-means算法%自學習%抽取規則%網頁內容抽取
사회매체%DOM결구%k-means산법%자학습%추취규칙%망혈내용추취
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则.实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率.
為實現社會媒體網頁內容的分割與抽取,利用k-means算法識彆齣頁麵的頻繁塊併形成一箇頻繁簇集閤,找齣該集閤中的主題頻繁簇,對其中的頻繁塊結構進行自學習,無需訓練樣本,即可自動生成抽取規則.實驗結果錶明,該方法能抽取各種風格的社會媒體網頁內容,具有較高的準確率和召迴率.
위실현사회매체망혈내용적분할여추취,이용k-means산법식별출혈면적빈번괴병형성일개빈번족집합,조출해집합중적주제빈번족,대기중적빈번괴결구진행자학습,무수훈련양본,즉가자동생성추취규칙.실험결과표명,해방법능추취각충풍격적사회매체망혈내용,구유교고적준학솔화소회솔.