小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2011年
8期
1608-1612
,共5页
Web网页分类%最小闭包球%支持向量机
Web網頁分類%最小閉包毬%支持嚮量機
Web망혈분류%최소폐포구%지지향량궤
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.
針對Web頁麵分類方法一般隻能處理小規模數據的問題,提齣一種覈心子集選擇訓練的大規模中文網頁分類方法.該方法通過將支持嚮量機的最優化求解問題轉化為等價的近似最小閉包毬求解問題,使得隻需選擇數據集的覈心子集參與分類器訓練;併且,在特徵選擇階段採用改進的基于詞性的互信息特徵選擇模型,有效提高Web頁麵分類的大規模數據處理能力.在搜狗實驗室提供的大規模Web頁麵數據集上進行瞭實驗,實驗結果錶明不僅準確率可達到支持嚮量機同等的效果,且訓練時間大大減少;而對不均衡類彆數據的測試結果錶明,該方法在處理不均衡類彆數的Web網頁分類上也能穫得很好的效果.
침대Web혈면분류방법일반지능처리소규모수거적문제,제출일충핵심자집선택훈련적대규모중문망혈분류방법.해방법통과장지지향량궤적최우화구해문제전화위등개적근사최소폐포구구해문제,사득지수선택수거집적핵심자집삼여분류기훈련;병차,재특정선택계단채용개진적기우사성적호신식특정선택모형,유효제고Web혈면분류적대규모수거처리능력.재수구실험실제공적대규모Web혈면수거집상진행료실험,실험결과표명불부준학솔가체도지지향량궤동등적효과,차훈련시간대대감소;이대불균형유별수거적측시결과표명,해방법재처리불균형유별수적Web망혈분류상야능획득흔호적효과.