计算机与应用化学
計算機與應用化學
계산궤여응용화학
COMPUTERS AND APPLIED CHEMISTRY
2007年
9期
1281-1284
,共4页
Medline%文本分类%SVM
Medline%文本分類%SVM
Medline%문본분류%SVM
文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集.本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式.
文本分類領域的睏難,在于如何穫得大量人工標記好的分類樣本數據集,Medline數據庫在專傢的長期維護下,具有完善的基于MeSH(Medical Subject Headings)的分類體繫,以及大量的文摘,可用來製作分類樣本數據集.本文介紹和研究Medline數據庫,提齣如何利用它構建良好的分類模型,實驗錶明,利用Medline文摘數據庫,通過Major標記,特徵項數目採用5000,訓練樣本採用600,利用SVM分類器,可得較好的分類模型,從而為文本分類研究提供一種實用、高效的數據集製作方式.
문본분류영역적곤난,재우여하획득대량인공표기호적분류양본수거집,Medline수거고재전가적장기유호하,구유완선적기우MeSH(Medical Subject Headings)적분류체계,이급대량적문적,가용래제작분류양본수거집.본문개소화연구Medline수거고,제출여하이용타구건량호적분류모형,실험표명,이용Medline문적수거고,통과Major표기,특정항수목채용5000,훈련양본채용600,이용SVM분류기,가득교호적분류모형,종이위문본분류연구제공일충실용、고효적수거집제작방식.