信息网络安全
信息網絡安全
신식망락안전
NETINFO SECURITY
2009年
9期
76-79
,共4页
网页分类%结构化内容%语义倾向%决策树
網頁分類%結構化內容%語義傾嚮%決策樹
망혈분류%결구화내용%어의경향%결책수
为了研究不对称数据集下,分类算法敏感网页后验错误率高,实时性不足的问题,提出了一种基于网页结构化倾向的网页分类算法.首先,选取网页结构化内容,将计算得到的倾向性作为分类特征;其次,采用决策树以倾向特征作为分类特征对网页分类.仿真试验表明,在互联网环境中正负样本不对称情况下,在保证分类速度的同时,分类的敏感网页后验错误率为0.6456,较传统的基于关键字分类模型有较大幅度降低.
為瞭研究不對稱數據集下,分類算法敏感網頁後驗錯誤率高,實時性不足的問題,提齣瞭一種基于網頁結構化傾嚮的網頁分類算法.首先,選取網頁結構化內容,將計算得到的傾嚮性作為分類特徵;其次,採用決策樹以傾嚮特徵作為分類特徵對網頁分類.倣真試驗錶明,在互聯網環境中正負樣本不對稱情況下,在保證分類速度的同時,分類的敏感網頁後驗錯誤率為0.6456,較傳統的基于關鍵字分類模型有較大幅度降低.
위료연구불대칭수거집하,분류산법민감망혈후험착오솔고,실시성불족적문제,제출료일충기우망혈결구화경향적망혈분류산법.수선,선취망혈결구화내용,장계산득도적경향성작위분류특정;기차,채용결책수이경향특정작위분류특정대망혈분류.방진시험표명,재호련망배경중정부양본불대칭정황하,재보증분류속도적동시,분류적민감망혈후험착오솔위0.6456,교전통적기우관건자분류모형유교대폭도강저.