浙江工业大学学报
浙江工業大學學報
절강공업대학학보
Journal of Zhejiang University of Technology
2014年
6期
596-600
,共5页
自然语言理解%文本挖掘%交通信息%双字Hash%最大匹配
自然語言理解%文本挖掘%交通信息%雙字Hash%最大匹配
자연어언리해%문본알굴%교통신식%쌍자Hash%최대필배
natural language understanding%text mining%traffic information%double-Hash%maximum match
互联网页面文本挖掘是大数据时代快速获取广域实时专题信息的重要技术手段.针对公众出行服务和交通相关应用,互联网页面中所蕴含的交通信息极具价值,但需要借助有效的自然语言分词方法来实现语义理解过程.针对互联网文本页面中蕴含交通信息的表达特点,设计了一种基于双字Hash和List相结合的三层词典数据结构,提出了一种改进的最大匹配分词算法,该算法在切分过程中增加了对关键词汇的词库归属性判断,保存了根据各个词库切分出来的关键词汇的个数与顺序,使其能够更好地满足自然语言语义理解的需求;同时,算法考虑了交通信息词库中词的长度分布,采用分治方法实现对长句或组合句的有效处理.实验表明:所提出的互联网文本页面蕴含交通信息的中文分词算法具有较好的精度和效率,可以满足互联网页面蕴含交通信息的实时分词需求,为交通信息文本的语义理解奠定了技术基础.
互聯網頁麵文本挖掘是大數據時代快速穫取廣域實時專題信息的重要技術手段.針對公衆齣行服務和交通相關應用,互聯網頁麵中所蘊含的交通信息極具價值,但需要藉助有效的自然語言分詞方法來實現語義理解過程.針對互聯網文本頁麵中蘊含交通信息的錶達特點,設計瞭一種基于雙字Hash和List相結閤的三層詞典數據結構,提齣瞭一種改進的最大匹配分詞算法,該算法在切分過程中增加瞭對關鍵詞彙的詞庫歸屬性判斷,保存瞭根據各箇詞庫切分齣來的關鍵詞彙的箇數與順序,使其能夠更好地滿足自然語言語義理解的需求;同時,算法攷慮瞭交通信息詞庫中詞的長度分佈,採用分治方法實現對長句或組閤句的有效處理.實驗錶明:所提齣的互聯網文本頁麵蘊含交通信息的中文分詞算法具有較好的精度和效率,可以滿足互聯網頁麵蘊含交通信息的實時分詞需求,為交通信息文本的語義理解奠定瞭技術基礎.
호련망혈면문본알굴시대수거시대쾌속획취엄역실시전제신식적중요기술수단.침대공음출행복무화교통상관응용,호련망혈면중소온함적교통신식겁구개치,단수요차조유효적자연어언분사방법래실현어의리해과정.침대호련망문본혈면중온함교통신식적표체특점,설계료일충기우쌍자Hash화List상결합적삼층사전수거결구,제출료일충개진적최대필배분사산법,해산법재절분과정중증가료대관건사회적사고귀속성판단,보존료근거각개사고절분출래적관건사회적개수여순서,사기능구경호지만족자연어언어의리해적수구;동시,산법고필료교통신식사고중사적장도분포,채용분치방법실현대장구혹조합구적유효처리.실험표명:소제출적호련망문본혈면온함교통신식적중문분사산법구유교호적정도화효솔,가이만족호련망혈면온함교통신식적실시분사수구,위교통신식문본적어의리해전정료기술기출.