计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
11期
3122-3125
,共4页
郝宁%夏士雄%牛强%赵志军
郝寧%夏士雄%牛彊%趙誌軍
학저%하사웅%우강%조지군
多示例多标记%MIMIBoost算法%TF-IDF算法%聚类%类别不平衡
多示例多標記%MIMIBoost算法%TF-IDF算法%聚類%類彆不平衡
다시례다표기%MIMIBoost산법%TF-IDF산법%취류%유별불평형
Multi-Instance Multi-Label (MIML)%MIMLBoost algorithm%Term Frequency-Inverse Document Frequency (TF-IDF) algorithm%clustering%class imbalance
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率.
針對多示例多標記學習算法MIMLBoost中退化過程造成的類彆不平衡問題,運用人工降採樣思想,引入類彆重要度,提齣一種改進的基于類彆標記評估的退化方法.該方法通過對示例空間中的示例包進行聚類,把標記空間中的標記量化到聚類簇上,再以聚類簇為單位,利用TF-IDF算法對每箇類彆標記進行重要度評估和篩選,去除重要度低的標記,併將簇中的示例包與其餘的類彆標記拼接起來,以此來減少大類樣本的齣現,完成多示例多標記樣本嚮多示例單標記樣本的轉化.在自然數據集上進行瞭實驗,實驗結果髮現,改進算法的性能整體上優于原算法,尤其在Hamming loss、coverage、ranking loss三箇評測指標上尤為明顯,說明所提算法能夠有效降低分類的齣錯率,提高算法的精度和分類效率.
침대다시례다표기학습산법MIMLBoost중퇴화과정조성적유별불평형문제,운용인공강채양사상,인입유별중요도,제출일충개진적기우유별표기평고적퇴화방법.해방법통과대시례공간중적시례포진행취류,파표기공간중적표기양화도취류족상,재이취류족위단위,이용TF-IDF산법대매개유별표기진행중요도평고화사선,거제중요도저적표기,병장족중적시례포여기여적유별표기병접기래,이차래감소대류양본적출현,완성다시례다표기양본향다시례단표기양본적전화.재자연수거집상진행료실험,실험결과발현,개진산법적성능정체상우우원산법,우기재Hamming loss、coverage、ranking loss삼개평측지표상우위명현,설명소제산법능구유효강저분류적출착솔,제고산법적정도화분류효솔.