中国西部科技
中國西部科技
중국서부과기
SCIENCE AND TECHNOLOGY OF WEST CHINA
2015年
6期
10-11,19
,共3页
网络内容安全%规则%海量%短文本%分类
網絡內容安全%規則%海量%短文本%分類
망락내용안전%규칙%해량%단문본%분류
Network Content Security%Rule%Mass%Short Text%Classification
对互联网海量短文本进行分类挖掘是网络内容安全的一种主要方法。然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对常规文本的分类算法。为此,使用逻辑运算数学模型和统计方法等对互联网海量短文本进行规则建模,并对互联网海量短文本的样本进行分析后建立一系列分类规则,然后与基于KNN+SVM混合模型进行测试比较。测试结果表明,针对互联网海量短文本,基于规则的分类模型更适用于互联网海量短文本的分类挖掘,同时该模型已经成功应用在上百个项目上,应用效果较好。
對互聯網海量短文本進行分類挖掘是網絡內容安全的一種主要方法。然而,短文本固有的關鍵詞特徵稀疏和樣本高度不均衡等特點,使得難以直接使用現有針對常規文本的分類算法。為此,使用邏輯運算數學模型和統計方法等對互聯網海量短文本進行規則建模,併對互聯網海量短文本的樣本進行分析後建立一繫列分類規則,然後與基于KNN+SVM混閤模型進行測試比較。測試結果錶明,針對互聯網海量短文本,基于規則的分類模型更適用于互聯網海量短文本的分類挖掘,同時該模型已經成功應用在上百箇項目上,應用效果較好。
대호련망해량단문본진행분류알굴시망락내용안전적일충주요방법。연이,단문본고유적관건사특정희소화양본고도불균형등특점,사득난이직접사용현유침대상규문본적분류산법。위차,사용라집운산수학모형화통계방법등대호련망해량단문본진행규칙건모,병대호련망해량단문본적양본진행분석후건립일계렬분류규칙,연후여기우KNN+SVM혼합모형진행측시비교。측시결과표명,침대호련망해량단문본,기우규칙적분류모형경괄용우호련망해량단문본적분류알굴,동시해모형이경성공응용재상백개항목상,응용효과교호。
Classified mining of massive internet short text was a key technology in network content security. In this paper, we established a rule model by using the logical mathematical model and statistical method, and then analyzed the samples of the massive internet short text to establish a series of rules. The test results showed that the rule-based classification model was prior for the massive internet short text classification to the KNN+SVM hybrid classification method. The model has been successfully applied in hundreds of projects.