计算机仿真
計算機倣真
계산궤방진
COMPUTER SIMULATION
2013年
11期
383-387
,共5页
杨长春%周猛%叶施仁%徐小松
楊長春%週猛%葉施仁%徐小鬆
양장춘%주맹%협시인%서소송
稀疏矩阵%热点话题%层次聚类算法%博文种子集%改进层次聚类算法
稀疏矩陣%熱點話題%層次聚類算法%博文種子集%改進層次聚類算法
희소구진%열점화제%층차취류산법%박문충자집%개진층차취류산법
Sparse Matrix%Hot Topic%Hierarchical Clustering Algorithm%Tweets Seed Set%Improved Hierarchical Clustering Algorithm
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题.本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度.从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的”头部”,能够更加直观的发现微博热点话题.
由于微博平檯的信息量大,為對博文熱點進行準確識彆,本文提齣瞭一種基于經典CURE聚類算法的改進算法來髮現微博熱點話題.本文選取瞭20391條中文微博作為樣本數據集,通過將博文稀疏矩陣化達到將高維數據降維的效果,很大程度上提高瞭計算的精度和速度.從選取CURE層次聚類的代錶點齣髮,將代錶點轉換為博文種子集,同時調節收縮因子,加大排除博文的異常點,利用CURE層次聚類算法的思想設計瞭改進的CURE算法來髮現微博熱點話題,通過實驗髮現改進CURE層次聚類算法能夠將數據集中的74.65%作為孤立點,更好的提高瞭算法的精度,同時準確地抓住長尾效應的”頭部”,能夠更加直觀的髮現微博熱點話題.
유우미박평태적신식량대,위대박문열점진행준학식별,본문제출료일충기우경전CURE취류산법적개진산법래발현미박열점화제.본문선취료20391조중문미박작위양본수거집,통과장박문희소구진화체도장고유수거강유적효과,흔대정도상제고료계산적정도화속도.종선취CURE층차취류적대표점출발,장대표점전환위박문충자집,동시조절수축인자,가대배제박문적이상점,이용CURE층차취류산법적사상설계료개진적CURE산법래발현미박열점화제,통과실험발현개진CURE층차취류산법능구장수거집중적74.65%작위고립점,경호적제고료산법적정도,동시준학지조주장미효응적”두부”,능구경가직관적발현미박열점화제.