大连理工大学学报
大連理工大學學報
대련리공대학학보
JOURNAL OF DALIAN UNIVERSITY OF TECHNOLOGY
2007年
1期
131-135
,共5页
张利%张立勇%张晓淼%耿铁锁%岳宗阁
張利%張立勇%張曉淼%耿鐵鎖%嶽宗閣
장리%장립용%장효묘%경철쇄%악종각
文本挖掘%歧义字段%自然语言处理%神经网络
文本挖掘%歧義字段%自然語言處理%神經網絡
문본알굴%기의자단%자연어언처리%신경망락
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.
文本挖掘中中文歧義字段的自動分詞是計算機科學麵臨的一箇難題.針對漢語書寫時按句連寫,詞間無間隙,歧義字段分詞睏難的特點,對典型歧義中所蘊含的語法現象進行瞭歸納總結,建立瞭供詞性編碼使用的詞性代碼庫.以此為基礎,通過對具有特殊語法規則的歧義字段中的字、詞進行代碼設定,轉化為神經網絡能夠接受的輸入嚮量錶示形式,然後對樣本進行訓練,通過改進BP神經網絡的自學習來掌握這些語法規則.訓練結果錶明:算法在歧義字段分詞上達到瞭93.13%的訓練精度和92.50%的測試精度.
문본알굴중중문기의자단적자동분사시계산궤과학면림적일개난제.침대한어서사시안구련사,사간무간극,기의자단분사곤난적특점,대전형기의중소온함적어법현상진행료귀납총결,건립료공사성편마사용적사성대마고.이차위기출,통과대구유특수어법규칙적기의자단중적자、사진행대마설정,전화위신경망락능구접수적수입향량표시형식,연후대양본진행훈련,통과개진BP신경망락적자학습래장악저사어법규칙.훈련결과표명:산법재기의자단분사상체도료93.13%적훈련정도화92.50%적측시정도.