计算机与数字工程
計算機與數字工程
계산궤여수자공정
COMPUTER & DIGITAL ENGINEERING
2012年
6期
76-78,123
,共4页
朴素贝叶斯算法%主题爬虫%主题相关度%信息采集
樸素貝葉斯算法%主題爬蟲%主題相關度%信息採集
박소패협사산법%주제파충%주제상관도%신식채집
主题爬虫是实现主题搜索引擎的关键部分.提出了利用朴素贝叶斯算法进行主题识别的方法,介绍了主题爬虫实现过程中所涉及到的关键部分,包括种子URL集合的生成、页面分析及特征提取、主题识别等.将基于朴素贝叶斯算法的主题爬虫,与基于链接分析的主题爬虫和基于主题词表的主题爬虫进行比较,实验表明基于朴素贝叶斯算法的主题爬虫准确性较好,论证了方法的可行性,为主题信息的采集奠定了良好的基础.
主題爬蟲是實現主題搜索引擎的關鍵部分.提齣瞭利用樸素貝葉斯算法進行主題識彆的方法,介紹瞭主題爬蟲實現過程中所涉及到的關鍵部分,包括種子URL集閤的生成、頁麵分析及特徵提取、主題識彆等.將基于樸素貝葉斯算法的主題爬蟲,與基于鏈接分析的主題爬蟲和基于主題詞錶的主題爬蟲進行比較,實驗錶明基于樸素貝葉斯算法的主題爬蟲準確性較好,論證瞭方法的可行性,為主題信息的採集奠定瞭良好的基礎.
주제파충시실현주제수색인경적관건부분.제출료이용박소패협사산법진행주제식별적방법,개소료주제파충실현과정중소섭급도적관건부분,포괄충자URL집합적생성、혈면분석급특정제취、주제식별등.장기우박소패협사산법적주제파충,여기우련접분석적주제파충화기우주제사표적주제파충진행비교,실험표명기우박소패협사산법적주제파충준학성교호,론증료방법적가행성,위주제신식적채집전정료량호적기출.