计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2013年
8期
32-36
,共5页
语体%文本分类%网络特征%语言网络
語體%文本分類%網絡特徵%語言網絡
어체%문본분류%망락특정%어언망락
style%text clustering%network characteristics%language networks
基于6种语体的句法树库构建了6个依存句法网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析.以这些整体特征为变量,采用欧几里德的“最短距离”法,对这6种语体的句法网络进行了聚类分析.研究结果显示,通过一些网络的主要参数,即网络节点数、聚集系数、平均路径长度、中心势以及节点度幂律分布的幂指数,可以对所研究的文本进行分类.与传统的文本聚类方法相比,其结果更容易从语言学的角度进行合理的解释.
基于6種語體的句法樹庫構建瞭6箇依存句法網絡,對這些網絡的邊數、節點數、節點平均度、聚類繫數、平均最短路徑長度、網絡中心勢、直徑、節點度冪律分佈的冪指數、度分佈與冪律擬閤的決定繫數等整體特徵進行瞭對比分析.以這些整體特徵為變量,採用歐幾裏德的“最短距離”法,對這6種語體的句法網絡進行瞭聚類分析.研究結果顯示,通過一些網絡的主要參數,即網絡節點數、聚集繫數、平均路徑長度、中心勢以及節點度冪律分佈的冪指數,可以對所研究的文本進行分類.與傳統的文本聚類方法相比,其結果更容易從語言學的角度進行閤理的解釋.
기우6충어체적구법수고구건료6개의존구법망락,대저사망락적변수、절점수、절점평균도、취류계수、평균최단로경장도、망락중심세、직경、절점도멱률분포적멱지수、도분포여멱률의합적결정계수등정체특정진행료대비분석.이저사정체특정위변량,채용구궤리덕적“최단거리”법,대저6충어체적구법망락진행료취류분석.연구결과현시,통과일사망락적주요삼수,즉망락절점수、취집계수、평균로경장도、중심세이급절점도멱률분포적멱지수,가이대소연구적문본진행분류.여전통적문본취류방법상비,기결과경용역종어언학적각도진행합리적해석.
This paper builds six dependence syntactic networks based on six treebanks of different styles and gives a comparative analysis of overall characteristics of the networks, including the number of edges, the number of the nodes, the average degree, the clustering coefficient, the average path length, the centralization, the diameter, and the index of power-law, coefficient of determination. After that, the paper uses the Euclidean“the shortest distance”method, with characteristics as variables, to do clustering analysis of these networks. The results show that using some main parameters of networks, namely the number of the nodes, the clustering coefficient, the average path length, the centralization and the index of power-law, can do cluster analysis on texts. Compared with the traditional text clustering, the results are easier to explain in linguistic angle.