电子世界
電子世界
전자세계
ELECTRONICS WORLD
2012年
21期
80-81
,共2页
主题爬虫%特征提取%文本分类%向量空间模型
主題爬蟲%特徵提取%文本分類%嚮量空間模型
주제파충%특정제취%문본분류%향량공간모형
本文以机械领域挖掘机为主题,介绍了一种面向领域的Web文本采集与分类系统实现方法,将专业词库与特征选择相结合,逐步筛选和更新主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;采用基于内容分析的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本;根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类.
本文以機械領域挖掘機為主題,介紹瞭一種麵嚮領域的Web文本採集與分類繫統實現方法,將專業詞庫與特徵選擇相結閤,逐步篩選和更新主題特徵詞,擴充專業詞庫,通過由主題特徵詞構成的嚮量來明確錶示主題;採用基于內容分析的方法抽取網頁正文,去掉榦擾主題相關度判斷與文本分類的廣告、導航等榦擾文本;根據現有的機械主題類彆信息,採用基于KNN的機械主題文本分類算法對文檔集閤進行多子類分類.
본문이궤계영역알굴궤위주제,개소료일충면향영역적Web문본채집여분류계통실현방법,장전업사고여특정선택상결합,축보사선화경신주제특정사,확충전업사고,통과유주제특정사구성적향량래명학표시주제;채용기우내용분석적방법추취망혈정문,거도간우주제상관도판단여문본분류적엄고、도항등간우문본;근거현유적궤계주제유별신식,채용기우KNN적궤계주제문본분류산법대문당집합진행다자류분류.