哈尔滨工业大学学报
哈爾濱工業大學學報
합이빈공업대학학보
JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY
2007年
7期
1106-1109
,共4页
梁颖红%赵铁军%于浩%姚健民%徐冰
樑穎紅%趙鐵軍%于浩%姚健民%徐冰
량영홍%조철군%우호%요건민%서빙
K-均值聚类%汉语语块识别%数据稀疏
K-均值聚類%漢語語塊識彆%數據稀疏
K-균치취류%한어어괴식별%수거희소
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.
為瞭既避免數據稀疏又充分攷慮相鄰詞性的關繫和每種短語的內部組成規律,提齣瞭改進K-均值聚類方法.此方法把每箇短語看成是以中心詞為覈心的聚簇,充分攷慮每種短語的內部組成規律;依據語料庫中的數據來確定每箇類的初始中心,使有指導的統計方法和無指導的聚類方法有機結閤,既提高瞭聚類的準確率,又避免瞭因漢語語塊庫規模較小而導緻的數據稀疏現象.應用改進K-均值聚類方法對7種漢語語塊進行識彆,F值達到瞭92.94%,因此,該方法對漢語語塊識彆是有效的.
위료기피면수거희소우충분고필상린사성적관계화매충단어적내부조성규률,제출료개진K-균치취류방법.차방법파매개단어간성시이중심사위핵심적취족,충분고필매충단어적내부조성규률;의거어료고중적수거래학정매개류적초시중심,사유지도적통계방법화무지도적취류방법유궤결합,기제고료취류적준학솔,우피면료인한어어괴고규모교소이도치적수거희소현상.응용개진K-균치취류방법대7충한어어괴진행식별,F치체도료92.94%,인차,해방법대한어어괴식별시유효적.