西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2015年
4期
67-72
,共6页
田锋%兰田%CHAO Kuo-Ming%吴凡%郑庆华%高鹏达
田鋒%蘭田%CHAO Kuo-Ming%吳凡%鄭慶華%高鵬達
전봉%란전%CHAO Kuo-Ming%오범%정경화%고붕체
交互文本%非平衡情感分类%多领域%实例迁移
交互文本%非平衡情感分類%多領域%實例遷移
교호문본%비평형정감분류%다영역%실례천이
interactive texts%imbalanced sentiment classification%multiple domain%instance transfer
针对交互文本句子短、成分缺失、多领域下类分布不均衡导致的高维、特征值稀疏、正样本稀少的难点,提出面向目标数据集实例迁移的数据层面采样方法.该方法提出目标数据集和源数据集共性特征的Top-N信息增益和值占比函数,选择评价两个数据集实例相似度的特征;提出目标数据集和源数据集特征空间一致性处理方法,克服两者特征空间不一致的问题;提出分领域的实例选取与迁移方法,克服多领域下的类分布不均衡问题.实验结果表明:该方法有效缓解了交互文本的非平衡问题,使支持向量机、随机森林、朴素贝叶斯、随机委员会4个经典分类算法的加权平均的接收者运行特征曲线(receiver operating characteristic,ROC)指标提升了11.3%.
針對交互文本句子短、成分缺失、多領域下類分佈不均衡導緻的高維、特徵值稀疏、正樣本稀少的難點,提齣麵嚮目標數據集實例遷移的數據層麵採樣方法.該方法提齣目標數據集和源數據集共性特徵的Top-N信息增益和值佔比函數,選擇評價兩箇數據集實例相似度的特徵;提齣目標數據集和源數據集特徵空間一緻性處理方法,剋服兩者特徵空間不一緻的問題;提齣分領域的實例選取與遷移方法,剋服多領域下的類分佈不均衡問題.實驗結果錶明:該方法有效緩解瞭交互文本的非平衡問題,使支持嚮量機、隨機森林、樸素貝葉斯、隨機委員會4箇經典分類算法的加權平均的接收者運行特徵麯線(receiver operating characteristic,ROC)指標提升瞭11.3%.
침대교호문본구자단、성분결실、다영역하류분포불균형도치적고유、특정치희소、정양본희소적난점,제출면향목표수거집실례천이적수거층면채양방법.해방법제출목표수거집화원수거집공성특정적Top-N신식증익화치점비함수,선택평개량개수거집실례상사도적특정;제출목표수거집화원수거집특정공간일치성처리방법,극복량자특정공간불일치적문제;제출분영역적실례선취여천이방법,극복다영역하적류분포불균형문제.실험결과표명:해방법유효완해료교호문본적비평형문제,사지지향량궤、수궤삼림、박소패협사、수궤위원회4개경전분류산법적가권평균적접수자운행특정곡선(receiver operating characteristic,ROC)지표제승료11.3%.