计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
12期
2642-2650
,共9页
网络数据%网络数据分类%节点分类%概率生成模型%同质性
網絡數據%網絡數據分類%節點分類%概率生成模型%同質性
망락수거%망락수거분류%절점분류%개솔생성모형%동질성
networked data%classification in networked data%node classification%probability generative model%homophily
利用实体之间的相互关系来对实体进行分类的网络数据分类是数据挖掘的一个重要研究内容.现有的网络数据分类方法普遍根据邻居节点的类别来对节点进行分类.这些方法在同质性程度较高的网络中达到了很高的分类精度.然而在现实世界中,存在许多同质性程度很低的网络.在低同质性网络中,大多数相连节点的类别不同,所以现有方法难以正确预测出节点的类别.因此,提出了一种新的网络数据分类方法.其主要思路是建立一个描述网络的概率生成模型.在这个概率生成模型中,将网络中的边作为观察变量,将未知类别节点的类别作为潜在变量.通过吉布斯采样方法对模型进行求解,计算出潜在变量的取值,从而得到未知类别节点的类别.在真实数据集上的对比实验表明,提出的分类方法在低同质性网络上有更好的分类性能.
利用實體之間的相互關繫來對實體進行分類的網絡數據分類是數據挖掘的一箇重要研究內容.現有的網絡數據分類方法普遍根據鄰居節點的類彆來對節點進行分類.這些方法在同質性程度較高的網絡中達到瞭很高的分類精度.然而在現實世界中,存在許多同質性程度很低的網絡.在低同質性網絡中,大多數相連節點的類彆不同,所以現有方法難以正確預測齣節點的類彆.因此,提齣瞭一種新的網絡數據分類方法.其主要思路是建立一箇描述網絡的概率生成模型.在這箇概率生成模型中,將網絡中的邊作為觀察變量,將未知類彆節點的類彆作為潛在變量.通過吉佈斯採樣方法對模型進行求解,計算齣潛在變量的取值,從而得到未知類彆節點的類彆.在真實數據集上的對比實驗錶明,提齣的分類方法在低同質性網絡上有更好的分類性能.
이용실체지간적상호관계래대실체진행분류적망락수거분류시수거알굴적일개중요연구내용.현유적망락수거분류방법보편근거린거절점적유별래대절점진행분류.저사방법재동질성정도교고적망락중체도료흔고적분류정도.연이재현실세계중,존재허다동질성정도흔저적망락.재저동질성망락중,대다수상련절점적유별불동,소이현유방법난이정학예측출절점적유별.인차,제출료일충신적망락수거분류방법.기주요사로시건립일개묘술망락적개솔생성모형.재저개개솔생성모형중,장망락중적변작위관찰변량,장미지유별절점적유별작위잠재변량.통과길포사채양방법대모형진행구해,계산출잠재변량적취치,종이득도미지유별절점적유별.재진실수거집상적대비실험표명,제출적분류방법재저동질성망락상유경호적분류성능.