情报学报
情報學報
정보학보
2002年
5期
532-536
,共5页
WWW中文信息自动分类%文本自动分类%类别词
WWW中文信息自動分類%文本自動分類%類彆詞
WWW중문신식자동분류%문본자동분류%유별사
本文采用一种基于词的归类技术.在类别词专指度的计算中,考虑了类别词在语料中的频度、集中度和分布性等因素.根据HTML语言的标记特性,应用三维加权分类算法计算类别权值.采用Bayes公式变型,计算WWW中文信息文件归类可信度,并按可信度最大归类.对108篇试语料进行测试,封闭测试的归类正确率为98.1%,开放测试的正确率为83.3%.
本文採用一種基于詞的歸類技術.在類彆詞專指度的計算中,攷慮瞭類彆詞在語料中的頻度、集中度和分佈性等因素.根據HTML語言的標記特性,應用三維加權分類算法計算類彆權值.採用Bayes公式變型,計算WWW中文信息文件歸類可信度,併按可信度最大歸類.對108篇試語料進行測試,封閉測試的歸類正確率為98.1%,開放測試的正確率為83.3%.
본문채용일충기우사적귀류기술.재유별사전지도적계산중,고필료유별사재어료중적빈도、집중도화분포성등인소.근거HTML어언적표기특성,응용삼유가권분류산법계산유별권치.채용Bayes공식변형,계산WWW중문신식문건귀류가신도,병안가신도최대귀류.대108편시어료진행측시,봉폐측시적귀류정학솔위98.1%,개방측시적정학솔위83.3%.