计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2015年
4期
996-1000,1005
,共6页
杜丽萍%李晓戈%周元哲%邵春昌
杜麗萍%李曉戈%週元哲%邵春昌
두려평%리효과%주원철%소춘창
术语抽取%专业术语%知识获取%互信息
術語抽取%專業術語%知識穫取%互信息
술어추취%전업술어%지식획취%호신식
term extraction%technical term%knowledge acquisition%Point-wise Mutual Information (PMI)
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法.首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果.理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点.在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性.
為瞭確定改進互信息(PMIk)方法的參數k取何值時能夠剋服互信息(PMI)方法過高估計兩箇低頻且總是一起齣現的字串間結閤彊度的缺點,解決術語抽取繫統採用經過分詞的語料庫時由于分詞錯誤導緻的某些術語無法抽取的問題,以及改善術語抽取繫統的可移植性,提齣瞭一種結閤PMIk和兩箇基本過濾規則從未經過分詞的語料庫中進行術語抽取的算法.首先,利用PMIk方法計算兩箇字之間的結閤彊度,確定2元待擴展種子;其次,利用PMIk方法計算2元待擴展種子分彆和其左邊、右邊的字的結閤彊度,確定2元是否能擴展為3元,如此迭代擴展齣多元的候選術語;最後,利用兩箇基本過濾規則過濾候選術語中的垃圾串,得到最終結果.理論分析錶明,噹k≥3(k∈N+)時,PMIk方法能剋服PMI方法的缺點.在1 GB的新浪財經博客語料庫和300 MB百度貼吧語料庫上的實驗驗證瞭理論分析的正確性,且PMIk方法穫得瞭比PMI方法更高的精度,算法有良好的可移植性.
위료학정개진호신식(PMIk)방법적삼수k취하치시능구극복호신식(PMI)방법과고고계량개저빈차총시일기출현적자천간결합강도적결점,해결술어추취계통채용경과분사적어료고시유우분사착오도치적모사술어무법추취적문제,이급개선술어추취계통적가이식성,제출료일충결합PMIk화량개기본과려규칙종미경과분사적어료고중진행술어추취적산법.수선,이용PMIk방법계산량개자지간적결합강도,학정2원대확전충자;기차,이용PMIk방법계산2원대확전충자분별화기좌변、우변적자적결합강도,학정2원시부능확전위3원,여차질대확전출다원적후선술어;최후,이용량개기본과려규칙과려후선술어중적랄급천,득도최종결과.이론분석표명,당k≥3(k∈N+)시,PMIk방법능극복PMI방법적결점.재1 GB적신랑재경박객어료고화300 MB백도첩파어료고상적실험험증료이론분석적정학성,차PMIk방법획득료비PMI방법경고적정도,산법유량호적가이식성.