计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z1期
211-220
,共10页
李明达%王宏志%张佳程%李建中%高宏
李明達%王宏誌%張佳程%李建中%高宏
리명체%왕굉지%장가정%리건중%고굉
实体识别%大数据%并行处理方法%Hyracks平台%n-Gram算法
實體識彆%大數據%併行處理方法%Hyracks平檯%n-Gram算法
실체식별%대수거%병행처리방법%Hyracks평태%n-Gram산법
entity resolution%big data%parallel processing method%Hyracks platform%n-Gram algorithm
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别.
數據清洗中很重要的一步是實體識彆,實體識彆要做到將數據與實際物體一一對應.但其中有2箇問題:一箇是同一箇物體可能具有不同或者相似的名字,這會造成有大量重複的數據需要清理;另一箇是同一箇名字可能代錶著不同的物體即為重名現象,這會給清洗工作帶來阻礙需要識彆併避免.而現有的算法大多隻是解決瞭第1箇問題,隻有在EIF繫統中同時解決兩箇問題.可是EIF繫統又不適宜解決數據量較大的問題且其中的解決同一物體不同名字問題的算法有待提高.因此利用併行處理平檯Hyracks設計併行算法,提齣瞭PEIF:基于併行機群的大數據實體識彆算法.此算法藉助n-Gram算法輔助解決同一物體有不同名字的問題,在較短的時間內高效地對大數據進行實體識彆.理論分析和實驗結果錶明提齣的算法可以快速有效地對大數據進行實體識彆.
수거청세중흔중요적일보시실체식별,실체식별요주도장수거여실제물체일일대응.단기중유2개문제:일개시동일개물체가능구유불동혹자상사적명자,저회조성유대량중복적수거수요청리;령일개시동일개명자가능대표착불동적물체즉위중명현상,저회급청세공작대래조애수요식별병피면.이현유적산법대다지시해결료제1개문제,지유재EIF계통중동시해결량개문제.가시EIF계통우불괄의해결수거량교대적문제차기중적해결동일물체불동명자문제적산법유대제고.인차이용병행처리평태Hyracks설계병행산법,제출료PEIF:기우병행궤군적대수거실체식별산법.차산법차조n-Gram산법보조해결동일물체유불동명자적문제,재교단적시간내고효지대대수거진행실체식별.이론분석화실험결과표명제출적산법가이쾌속유효지대대수거진행실체식별.