智能计算机与应用
智能計算機與應用
지능계산궤여응용
Computer Study
2015年
2期
34-37
,共4页
秦添轶%林蝉%宋博宇%关毅
秦添軼%林蟬%宋博宇%關毅
진첨질%림선%송박우%관의
实体描述短文本%文本分类%文本相似度%《知网》
實體描述短文本%文本分類%文本相似度%《知網》
실체묘술단문본%문본분류%문본상사도%《지망》
Short Text Description for Chinese Entities%Text Categorization%Text Similarity%Hownet
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。
中文實體描述短文本具有詞語稀疏、語義離散、用詞隨意等特點。本文分析《知網》義原網絡和詞語相似度的關繫,提齣瞭短文本間語義相似度部分和短文本分類部分相結閤的實體描述短文本間相似度計算方法。語義相似度部分分析《知網》義原網絡和詞語間相似度的關繫,在計算詞語間相似度和短文本間相似度的過程中弱化瞭淺層《知網》義原影響併均衡瞭義原權重,使義原相似度計算結果更加閤理。短文本分類部分將短文本分解為義原嚮量,根據特定領域短文本的義原分佈情況進行短文本分類。兩部分結閤得到實體描述短文本間相似度。本文方法的有效性在百度知識圖譜數據分析競賽任務1的測試結果中得到瞭證明。
중문실체묘술단문본구유사어희소、어의리산、용사수의등특점。본문분석《지망》의원망락화사어상사도적관계,제출료단문본간어의상사도부분화단문본분류부분상결합적실체묘술단문본간상사도계산방법。어의상사도부분분석《지망》의원망락화사어간상사도적관계,재계산사어간상사도화단문본간상사도적과정중약화료천층《지망》의원영향병균형료의원권중,사의원상사도계산결과경가합리。단문본분류부분장단문본분해위의원향량,근거특정영역단문본적의원분포정황진행단문본분류。량부분결합득도실체묘술단문본간상사도。본문방법적유효성재백도지식도보수거분석경새임무1적측시결과중득도료증명。
Short text description for Chinese entities has features of statistical sparsity,semantic discretization and irregular vocabulary. This research analyses the relationship between sememe network and word similarity in Hownet and presents a short text description similarity computation method that consists of semantic similarity part and short text classification part. In the semantic similarity part,the method weakens the influence of Hownet’s shallow sememes and balances weights of sememes. In the short text classification part,the method transforms short texts into sememe vectors and classifies them according to the distribution of sememes in certain fields. Take average results of those two parts to generate short text de-scription similarity. Effectiveness of the method is proved by task 1 of Baidu knowledge map analyzing competition.