大科技
大科技
대과기
Super Science
2015年
34期
311
,共1页
信息抽取%内容冗余
信息抽取%內容冗餘
신식추취%내용용여
本文提出了利用冗余内容从网站中提取结构化数据的算法.该算法提取记录,从一些原始网站来填充种子数据库,之后在每个新站标识值.我们进行了相似性度量,以满足不同性质的跨站点属性值.我们在网站应用该属性的实际值,以便过滤掉噪声.我们借助了第三方软件来计算词频,以便使文字分析更倾向于人日常使用习惯.
本文提齣瞭利用冗餘內容從網站中提取結構化數據的算法.該算法提取記錄,從一些原始網站來填充種子數據庫,之後在每箇新站標識值.我們進行瞭相似性度量,以滿足不同性質的跨站點屬性值.我們在網站應用該屬性的實際值,以便過濾掉譟聲.我們藉助瞭第三方軟件來計算詞頻,以便使文字分析更傾嚮于人日常使用習慣.
본문제출료이용용여내용종망참중제취결구화수거적산법.해산법제취기록,종일사원시망참래전충충자수거고,지후재매개신참표식치.아문진행료상사성도량,이만족불동성질적과참점속성치.아문재망참응용해속성적실제치,이편과려도조성.아문차조료제삼방연건래계산사빈,이편사문자분석경경향우인일상사용습관.