华中科技大学学报(自然科学版)
華中科技大學學報(自然科學版)
화중과기대학학보(자연과학판)
JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY(NATURE SCIENCE)
2006年
10期
37-40
,共4页
定题信息采集%元数据%抽取%主题扩展
定題信息採集%元數據%抽取%主題擴展
정제신식채집%원수거%추취%주제확전
论述了元数据在定题Web信息采集中的重要作用,分析了常见的元数据类型,确定了Href,Anchor Text及Surrounding Text三种元数据类型最适合作为定题信息采集依据的元数据类型.利用关联规则挖掘,将支持度和置信度相结合作为相关度的判定标准,并采用禁用词过滤和相关策略过滤技术,给出了元数据的抽取与主题扩展迭代方法.实验证明所提出的元数据处理策略能使主题相关词和实际相关词较好符合,改善误包含和误排除的情况,为定题Web信息采集提供良好前提.
論述瞭元數據在定題Web信息採集中的重要作用,分析瞭常見的元數據類型,確定瞭Href,Anchor Text及Surrounding Text三種元數據類型最適閤作為定題信息採集依據的元數據類型.利用關聯規則挖掘,將支持度和置信度相結閤作為相關度的判定標準,併採用禁用詞過濾和相關策略過濾技術,給齣瞭元數據的抽取與主題擴展迭代方法.實驗證明所提齣的元數據處理策略能使主題相關詞和實際相關詞較好符閤,改善誤包含和誤排除的情況,為定題Web信息採集提供良好前提.
논술료원수거재정제Web신식채집중적중요작용,분석료상견적원수거류형,학정료Href,Anchor Text급Surrounding Text삼충원수거류형최괄합작위정제신식채집의거적원수거류형.이용관련규칙알굴,장지지도화치신도상결합작위상관도적판정표준,병채용금용사과려화상관책략과려기술,급출료원수거적추취여주제확전질대방법.실험증명소제출적원수거처리책략능사주제상관사화실제상관사교호부합,개선오포함화오배제적정황,위정제Web신식채집제공량호전제.