吉林大学学报(信息科学版)
吉林大學學報(信息科學版)
길림대학학보(신식과학판)
JOURNAL OF JILIN UNIVERSITY(INFORMATION SCIENCE EDITION)
2014年
1期
88-94
,共7页
代宽%赵辉%韩冬%宋天勇
代寬%趙輝%韓鼕%宋天勇
대관%조휘%한동%송천용
词频-逆向文件频率%向量空间模型%特征项%相关度计算%信息增益
詞頻-逆嚮文件頻率%嚮量空間模型%特徵項%相關度計算%信息增益
사빈-역향문건빈솔%향량공간모형%특정항%상관도계산%신식증익
term frequency-inverse document frequency (TF-IDF)%vector space model%feature%correlation calculation%information gain
为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究.网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进,在此基础上结合网页的半结构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法.经实验验证,该方法可有效提高主题网页的召回率和准确率.
為解決中文網頁主題特徵項抽取不精確的問題,對中文網頁的主題特徵項抽取算法進行瞭研究.網頁的主題特徵項抽取是主題網絡爬蟲進行網頁相關度計算的基礎,結閤主題網頁的二分類情況對目前常用的文本特徵項加權方法TF-IDF(Term Frequency-Inverse Document Frequency)進行瞭改進,在此基礎上結閤網頁的半結構化特徵,綜閤攷慮特徵項的位置信息及其包含的信息量,提齣瞭一種線性特徵項加權計算方法.經實驗驗證,該方法可有效提高主題網頁的召迴率和準確率.
위해결중문망혈주제특정항추취불정학적문제,대중문망혈적주제특정항추취산법진행료연구.망혈적주제특정항추취시주제망락파충진행망혈상관도계산적기출,결합주제망혈적이분류정황대목전상용적문본특정항가권방법TF-IDF(Term Frequency-Inverse Document Frequency)진행료개진,재차기출상결합망혈적반결구화특정,종합고필특정항적위치신식급기포함적신식량,제출료일충선성특정항가권계산방법.경실험험증,해방법가유효제고주제망혈적소회솔화준학솔.