计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2009年
4期
206-209
,共4页
医药信息%文本分类%向量空间模型%KNN算法
醫藥信息%文本分類%嚮量空間模型%KNN算法
의약신식%문본분류%향량공간모형%KNN산법
针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统.该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率.此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值.实验证明,该系统可以较好地实现医药信息文本分类.
針對目前醫藥信息文本分類領域的現狀,設計併實現瞭一種基于KNN算法的醫藥信息文本分類繫統.該繫統充分利用瞭嚮量空間模型在錶示方法上的優勢和快速KNN算法的特點,併採用逆嚮最大匹配分詞方法進行分詞,可有效提高醫藥信息分類的準確性和信息處理效率.此外,構建瞭一箇醫藥信息數據集,該數據集包含582篇醫藥類文本,其中訓練文本433篇,測試文本149篇,併在該數據集上對醫藥信息文本分類繫統進行瞭測試,得到瞭74.83%的F1值.實驗證明,該繫統可以較好地實現醫藥信息文本分類.
침대목전의약신식문본분류영역적현상,설계병실현료일충기우KNN산법적의약신식문본분류계통.해계통충분이용료향량공간모형재표시방법상적우세화쾌속KNN산법적특점,병채용역향최대필배분사방법진행분사,가유효제고의약신식분류적준학성화신식처리효솔.차외,구건료일개의약신식수거집,해수거집포함582편의약류문본,기중훈련문본433편,측시문본149편,병재해수거집상대의약신식문본분류계통진행료측시,득도료74.83%적F1치.실험증명,해계통가이교호지실현의약신식문본분류.