科技通报
科技通報
과기통보
BULLETIN OF SCIENCE AND TECHNOLOGY
2013年
8期
109-111
,共3页
主题爬行%网页分类器%本体%TF/IDF
主題爬行%網頁分類器%本體%TF/IDF
주제파행%망혈분류기%본체%TF/IDF
focused crawling%webpage classifier%ontology%TF/IDF
提出了一种基于领域本体的相似度计算与基于网页结构的特征向量抽取相结合的分类器构建方案,改进后的WF-TF/IDF模型根据网页各部分对于主题相关的重要程度进行权重分配,同时引用领域本体知识库,将网页与主题的相关程度评价转化为本体中两个概念的相似度计算,扩大了爬虫的抓取范围。实验证明,该方案用于指导主题爬虫的抓取具有很高的灵活性和精确性。
提齣瞭一種基于領域本體的相似度計算與基于網頁結構的特徵嚮量抽取相結閤的分類器構建方案,改進後的WF-TF/IDF模型根據網頁各部分對于主題相關的重要程度進行權重分配,同時引用領域本體知識庫,將網頁與主題的相關程度評價轉化為本體中兩箇概唸的相似度計算,擴大瞭爬蟲的抓取範圍。實驗證明,該方案用于指導主題爬蟲的抓取具有很高的靈活性和精確性。
제출료일충기우영역본체적상사도계산여기우망혈결구적특정향량추취상결합적분류기구건방안,개진후적WF-TF/IDF모형근거망혈각부분대우주제상관적중요정도진행권중분배,동시인용영역본체지식고,장망혈여주제적상관정도평개전화위본체중량개개념적상사도계산,확대료파충적조취범위。실험증명,해방안용우지도주제파충적조취구유흔고적령활성화정학성。
A scheme for webpage classifier is put forward.Improved WF-TF/IDF model can allocate the weight according to the importance degree to topic correlation of the parts in webpages.The ontology repository is used to change the eval-uation of degree into similarity computation of two concepts,which expands the rage of the crawlers.The experiments show, our scheme has better performance in flexibility and accuracy when it is used for focused crawling .