南京理工大学学报(自然科学版)
南京理工大學學報(自然科學版)
남경리공대학학보(자연과학판)
JOURNAL OF NANJING UNIVERSITY OF SCIENCE AND TECHNOLOGY
2014年
4期
526-530
,共5页
张冰怡%魏博%陈建成%魏杰%饶国政
張冰怡%魏博%陳建成%魏傑%饒國政
장빙이%위박%진건성%위걸%요국정
对偶编码%中文分词%特征匹配%数据压缩%散列%特征值%模糊匹配
對偶編碼%中文分詞%特徵匹配%數據壓縮%散列%特徵值%模糊匹配
대우편마%중문분사%특정필배%수거압축%산렬%특정치%모호필배
pair coding%Chinese word segmentation%characteristic matching%data compression%hash%characteristic value%fuzzy matching
为了提高中文分词算法的切分速度和存储效率,提出一种基于对偶编码的特征匹配算法。由中文分词的字符集和字符相邻关系提取特征值,根据此特征值在中文分词词典中进行快速匹配,基于字符的位置相邻关系提取特征值,支持模糊匹配,因此无需对多字词进行单独匹配,从而有效节省匹配时间。实验仿真表明,该算法可以降低特征存储空间,有效提高中文分词精度和效率。
為瞭提高中文分詞算法的切分速度和存儲效率,提齣一種基于對偶編碼的特徵匹配算法。由中文分詞的字符集和字符相鄰關繫提取特徵值,根據此特徵值在中文分詞詞典中進行快速匹配,基于字符的位置相鄰關繫提取特徵值,支持模糊匹配,因此無需對多字詞進行單獨匹配,從而有效節省匹配時間。實驗倣真錶明,該算法可以降低特徵存儲空間,有效提高中文分詞精度和效率。
위료제고중문분사산법적절분속도화존저효솔,제출일충기우대우편마적특정필배산법。유중문분사적자부집화자부상린관계제취특정치,근거차특정치재중문분사사전중진행쾌속필배,기우자부적위치상린관계제취특정치,지지모호필배,인차무수대다자사진행단독필배,종이유효절성필배시간。실험방진표명,해산법가이강저특정존저공간,유효제고중문분사정도화효솔。
To improve the segmentation velocity and storage efficiency of the Chinese word segmentation algorithm,this paper proposes a characteristic matching algorithm based on pair coding. The characteristic value is extracted from the Chinese character position. This method can support fuzzy matching and don’t need match multi-character Chinese words,so the characteristic value extraction is extracted from the adjacent Chinese character position. In addition,the data compression method can contribute to reduce storage space and improve the performance of Chinese word segmentation.