中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2013年
5期
8-14
,共7页
来斯惟%徐立恒%陈玉博%刘康%赵军
來斯惟%徐立恆%陳玉博%劉康%趙軍
래사유%서립항%진옥박%류강%조군
表示学习%中文分词
錶示學習%中文分詞
표시학습%중문분사
representation learning%Chinese word segmentation
分词是中文自然语言处理中的一个关键基础技术.通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法.然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作.随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能.该文探索了一种基于表示学习的中文分词方法.首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词.实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法.
分詞是中文自然語言處理中的一箇關鍵基礎技術.通過基于字的統計機器學習方法學習判斷詞邊界是噹前中文分詞的主流做法.然而,傳統機器學習方法嚴重依賴人工設計的特徵,而驗證特徵的有效性需要不斷的嘗試和脩改,是一項費時費力的工作.隨著基于神經網絡的錶示學習方法的興起,使得自動學習特徵成為可能.該文探索瞭一種基于錶示學習的中文分詞方法.首先從大規模語料中無鑑督地學習中文字的語義嚮量,然後將字的語義嚮量應用于基于神經網絡的有鑑督中文分詞.實驗錶明,錶示學習算法是一種有效的中文分詞方法,但是我們仍然髮現,由于語料規模等的限製,錶示學習方法尚不能完全取代傳統基于人工設計特徵的有鑑督機器學習方法.
분사시중문자연어언처리중적일개관건기출기술.통과기우자적통계궤기학습방법학습판단사변계시당전중문분사적주류주법.연이,전통궤기학습방법엄중의뢰인공설계적특정,이험증특정적유효성수요불단적상시화수개,시일항비시비력적공작.수착기우신경망락적표시학습방법적흥기,사득자동학습특정성위가능.해문탐색료일충기우표시학습적중문분사방법.수선종대규모어료중무감독지학습중문자적어의향량,연후장자적어의향량응용우기우신경망락적유감독중문분사.실험표명,표시학습산법시일충유효적중문분사방법,단시아문잉연발현,유우어료규모등적한제,표시학습방법상불능완전취대전통기우인공설계특정적유감독궤기학습방법.