西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2015年
5期
134-139
,共6页
孙霞%张敏超%冯筠%张蕾%何绯娟
孫霞%張敏超%馮筠%張蕾%何緋娟
손하%장민초%풍균%장뢰%하비연
Hadoop%多标签分类%标签传播算法
Hadoop%多標籤分類%標籤傳播算法
Hadoop%다표첨분류%표첨전파산법
Hadoop%multi-label classification%label propagation algorithm
标签传播算法的主要思想是利用已标注数据的标签信息预测未标注数撼的标签信息.然而,传统传播算法没有区别对待未标注数据与已标注数据相互之间的转移信息,导致算法的收敛速度较慢,影响了算法的性能.针对传统算法的不足,提出了差异权重标签传播算法,算法按标注信息的重要性赋予不同的权重.在解决了大规模特征矩阵相乘问题之后,将提出的差异权重标签传播算法应用到Hadoop框架下,采用分布式计算,实现了能够处理大规模数据的多标签分类算法(HSML),并将提出的HSML算法与现有主流多标签分类算法进行了性能比较.实验结果表明,HSML算法在多标签分类的各项性能评测指标和执行速度上都是有效的.
標籤傳播算法的主要思想是利用已標註數據的標籤信息預測未標註數撼的標籤信息.然而,傳統傳播算法沒有區彆對待未標註數據與已標註數據相互之間的轉移信息,導緻算法的收斂速度較慢,影響瞭算法的性能.針對傳統算法的不足,提齣瞭差異權重標籤傳播算法,算法按標註信息的重要性賦予不同的權重.在解決瞭大規模特徵矩陣相乘問題之後,將提齣的差異權重標籤傳播算法應用到Hadoop框架下,採用分佈式計算,實現瞭能夠處理大規模數據的多標籤分類算法(HSML),併將提齣的HSML算法與現有主流多標籤分類算法進行瞭性能比較.實驗結果錶明,HSML算法在多標籤分類的各項性能評測指標和執行速度上都是有效的.
표첨전파산법적주요사상시이용이표주수거적표첨신식예측미표주수감적표첨신식.연이,전통전파산법몰유구별대대미표주수거여이표주수거상호지간적전이신식,도치산법적수렴속도교만,영향료산법적성능.침대전통산법적불족,제출료차이권중표첨전파산법,산법안표주신식적중요성부여불동적권중.재해결료대규모특정구진상승문제지후,장제출적차이권중표첨전파산법응용도Hadoop광가하,채용분포식계산,실현료능구처리대규모수거적다표첨분류산법(HSML),병장제출적HSML산법여현유주류다표첨분류산법진행료성능비교.실험결과표명,HSML산법재다표첨분류적각항성능평측지표화집행속도상도시유효적.