计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
z1期
387-390,405
,共5页
相似性度量%距离度量%加权抽样%机器学习%k-NN%Boosting
相似性度量%距離度量%加權抽樣%機器學習%k-NN%Boosting
상사성도량%거리도량%가권추양%궤기학습%k-NN%Boosting
Similarity measurement%Distance metric%Weighted sampling%Machine learning%k-NN%Boosting
当今诸多聚类算法需要通过计算样本间距离来得到样本相似性.因此对这类算法而言,距离的计算方法尤为重要.对部分现有距离度量学习或相似性学习算法进行研究后可以发现,多数算法在选择学习样本的过程中,都采用了重复随机抽样的方式.这一抽样方式使所有训练节点都有均等概率用于度量或相似性学习,但因样本位置不同,对分类算法而言样本的分类难度也不同.如果能针对较难分类的样本进行着重学习,并适当减少对易分类点的学习时间,便能提高学习过程的效率性,减少学习过程的时间.节约时间成本,在大数据时代有不容忽视的意义.
噹今諸多聚類算法需要通過計算樣本間距離來得到樣本相似性.因此對這類算法而言,距離的計算方法尤為重要.對部分現有距離度量學習或相似性學習算法進行研究後可以髮現,多數算法在選擇學習樣本的過程中,都採用瞭重複隨機抽樣的方式.這一抽樣方式使所有訓練節點都有均等概率用于度量或相似性學習,但因樣本位置不同,對分類算法而言樣本的分類難度也不同.如果能針對較難分類的樣本進行著重學習,併適噹減少對易分類點的學習時間,便能提高學習過程的效率性,減少學習過程的時間.節約時間成本,在大數據時代有不容忽視的意義.
당금제다취류산법수요통과계산양본간거리래득도양본상사성.인차대저류산법이언,거리적계산방법우위중요.대부분현유거리도량학습혹상사성학습산법진행연구후가이발현,다수산법재선택학습양본적과정중,도채용료중복수궤추양적방식.저일추양방식사소유훈련절점도유균등개솔용우도량혹상사성학습,단인양본위치불동,대분류산법이언양본적분류난도야불동.여과능침대교난분류적양본진행착중학습,병괄당감소대역분류점적학습시간,편능제고학습과정적효솔성,감소학습과정적시간.절약시간성본,재대수거시대유불용홀시적의의.