计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
2期
10-14,43
,共6页
语体%文本分类%网络特征
語體%文本分類%網絡特徵
어체%문본분류%망락특정
genre%text clustering%network features
基于6种语体的句法和语义树库分别构建了依存句法和语义网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用不同的聚类方法,对这6种语体的句法和语义网络进行了聚类分析。研究结果显示,同样是基于语言学原则构建起来的网络结构,依存句法网络和依存语义网络之间有明显差异。其参数的含义不尽相同,依据其各项参数所做的聚类实验的结果也不相同。采用语义网络的一些主要参数组合,可以获得相对合理的聚类结果,但不能很好地区分书面语体和口语体;通过句法网络的一些主要参数组合,可以很好地区分不同语体的文本,获得较为合理的文本聚类结果。
基于6種語體的句法和語義樹庫分彆構建瞭依存句法和語義網絡,對這些網絡的邊數、節點數、節點平均度、聚類繫數、平均最短路徑長度、網絡中心勢、直徑、節點度冪律分佈的冪指數、度分佈與冪律擬閤的決定繫數等整體特徵進行瞭對比分析。以這些整體特徵為變量,採用不同的聚類方法,對這6種語體的句法和語義網絡進行瞭聚類分析。研究結果顯示,同樣是基于語言學原則構建起來的網絡結構,依存句法網絡和依存語義網絡之間有明顯差異。其參數的含義不儘相同,依據其各項參數所做的聚類實驗的結果也不相同。採用語義網絡的一些主要參數組閤,可以穫得相對閤理的聚類結果,但不能很好地區分書麵語體和口語體;通過句法網絡的一些主要參數組閤,可以很好地區分不同語體的文本,穫得較為閤理的文本聚類結果。
기우6충어체적구법화어의수고분별구건료의존구법화어의망락,대저사망락적변수、절점수、절점평균도、취류계수、평균최단로경장도、망락중심세、직경、절점도멱률분포적멱지수、도분포여멱률의합적결정계수등정체특정진행료대비분석。이저사정체특정위변량,채용불동적취류방법,대저6충어체적구법화어의망락진행료취류분석。연구결과현시,동양시기우어언학원칙구건기래적망락결구,의존구법망락화의존어의망락지간유명현차이。기삼수적함의불진상동,의거기각항삼수소주적취류실험적결과야불상동。채용어의망락적일사주요삼수조합,가이획득상대합리적취류결과,단불능흔호지구분서면어체화구어체;통과구법망락적일사주요삼수조합,가이흔호지구분불동어체적문본,획득교위합리적문본취류결과。
The study builds six dependence syntactic networks and semantic networks based on syntactic and semantic treebanks of different genres and does a comparative analysis of overall features of the networks, including the number of edges, the number of the nodes, the average degree, the clustering coefficient, the average path length, the centraliza-tion, the diameter, the index of power-law, and the coefficient of determination. The article tries multi-methods, with fea-tures as variables, to do clustering analysis of these networks. The results show that, although the syntactic and semantic networks all follow the linguistic principles, there are obvious differences between syntax and semantic networks. The meanings of the network parameters vary and the clustering results according to the parameters are different. Using the combinations of main semantic network parameters can obtain relatively reasonable clustering results, but it cannot distin-guish well written style from colloquialism while using the combinations of main syntactic network parameters can well distinguish different styles of texts and obtain reasonable text clustering results.