计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2012年
8期
2841-2844
,共4页
数据挖掘%半监督聚类%主动学习%标签数据%数据选取%最小生成树%多密度数据集%不平衡数据集
數據挖掘%半鑑督聚類%主動學習%標籤數據%數據選取%最小生成樹%多密度數據集%不平衡數據集
수거알굴%반감독취류%주동학습%표첨수거%수거선취%최소생성수%다밀도수거집%불평형수거집
利用少量标签数据获得较高聚类精度的半监督聚类技术是近年来数据挖掘和机器学习领域的研究热点.但是现有的半监督聚类算法在处理极少量标签数据和多密度不平衡数据集时的聚类精度比较低.基于主动学习技术研究标签数据选取,提出了一个新的半监督聚类算法.该算法结合最小生成树聚类和主动学习思想,选取包含信息较多的数据点作为标签数据,使用类KNN思想对类标签进行传播.通过在UCI标准数据集和模拟数据集上的测试,结果表明提出的算法比其他算法在处理多密度、不平衡数据集时有更高精度且稳定的聚类结果.
利用少量標籤數據穫得較高聚類精度的半鑑督聚類技術是近年來數據挖掘和機器學習領域的研究熱點.但是現有的半鑑督聚類算法在處理極少量標籤數據和多密度不平衡數據集時的聚類精度比較低.基于主動學習技術研究標籤數據選取,提齣瞭一箇新的半鑑督聚類算法.該算法結閤最小生成樹聚類和主動學習思想,選取包含信息較多的數據點作為標籤數據,使用類KNN思想對類標籤進行傳播.通過在UCI標準數據集和模擬數據集上的測試,結果錶明提齣的算法比其他算法在處理多密度、不平衡數據集時有更高精度且穩定的聚類結果.
이용소량표첨수거획득교고취류정도적반감독취류기술시근년래수거알굴화궤기학습영역적연구열점.단시현유적반감독취류산법재처리겁소량표첨수거화다밀도불평형수거집시적취류정도비교저.기우주동학습기술연구표첨수거선취,제출료일개신적반감독취류산법.해산법결합최소생성수취류화주동학습사상,선취포함신식교다적수거점작위표첨수거,사용류KNN사상대류표첨진행전파.통과재UCI표준수거집화모의수거집상적측시,결과표명제출적산법비기타산법재처리다밀도、불평형수거집시유경고정도차은정적취류결과.