计算机学报
計算機學報
계산궤학보
Chinese Journal of Computers
2015年
9期
1755-1766
,共12页
陈肇强%李佳俊%蒋川%刘海龙%陈群%李战怀
陳肇彊%李佳俊%蔣川%劉海龍%陳群%李戰懷
진조강%리가준%장천%류해룡%진군%리전부
数据库缺失值修复%互联网%图%实体排序
數據庫缺失值脩複%互聯網%圖%實體排序
수거고결실치수복%호련망%도%실체배서
data imputation%Web%graph%entity ranking
大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差。传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据。基于互联网的缺失值修复过程一般包括生成查询、检索文档集、抽取实体、实体排序4个步骤,其中候选实体的排序决定了最终用于修复数据库的信息。现有的利用互联网数据来修复缺失数据的研究主要集中在两个方面:一是提升查询和抽取的质量,然后对抽取的候选实体按频率进行排序;另一种是分析目标实体应该具有的特征,然后对候选实体计算特征值,最后用权值叠加进行排序。这两类方法都只是考虑了实体自身的因素,而忽略了实体之间的影响。文中针对候选实体的排序建立了图模型,基于该图模型提出了上下文相关的实体排序算法 CER(Context-aware Entity Ranking),该算法能够把候选实体在网页中的上下文特征充分利用起来并用实体间的影响来推断新信息,从而得到更准确的排序结果。基于真实数据集的实验结果表明,相较于频率统计和权值叠加的实体排序算法,CER 算法能利用互联网的海量数据对关系数据库中的缺失值进行更加有效的修复。
大數據環境下,數據缺失現象十分普遍,導緻許多基于數據的決策齣現偏差。傳統的數據庫缺失值脩複方法主要是利用本地數據庫來脩複數值型數據,這些方法併不適用于利用互聯網數據來脩複數值型和非數值型數據。基于互聯網的缺失值脩複過程一般包括生成查詢、檢索文檔集、抽取實體、實體排序4箇步驟,其中候選實體的排序決定瞭最終用于脩複數據庫的信息。現有的利用互聯網數據來脩複缺失數據的研究主要集中在兩箇方麵:一是提升查詢和抽取的質量,然後對抽取的候選實體按頻率進行排序;另一種是分析目標實體應該具有的特徵,然後對候選實體計算特徵值,最後用權值疊加進行排序。這兩類方法都隻是攷慮瞭實體自身的因素,而忽略瞭實體之間的影響。文中針對候選實體的排序建立瞭圖模型,基于該圖模型提齣瞭上下文相關的實體排序算法 CER(Context-aware Entity Ranking),該算法能夠把候選實體在網頁中的上下文特徵充分利用起來併用實體間的影響來推斷新信息,從而得到更準確的排序結果。基于真實數據集的實驗結果錶明,相較于頻率統計和權值疊加的實體排序算法,CER 算法能利用互聯網的海量數據對關繫數據庫中的缺失值進行更加有效的脩複。
대수거배경하,수거결실현상십분보편,도치허다기우수거적결책출현편차。전통적수거고결실치수복방법주요시이용본지수거고래수복수치형수거,저사방법병불괄용우이용호련망수거래수복수치형화비수치형수거。기우호련망적결실치수복과정일반포괄생성사순、검색문당집、추취실체、실체배서4개보취,기중후선실체적배서결정료최종용우수복수거고적신식。현유적이용호련망수거래수복결실수거적연구주요집중재량개방면:일시제승사순화추취적질량,연후대추취적후선실체안빈솔진행배서;령일충시분석목표실체응해구유적특정,연후대후선실체계산특정치,최후용권치첩가진행배서。저량류방법도지시고필료실체자신적인소,이홀략료실체지간적영향。문중침대후선실체적배서건립료도모형,기우해도모형제출료상하문상관적실체배서산법 CER(Context-aware Entity Ranking),해산법능구파후선실체재망혈중적상하문특정충분이용기래병용실체간적영향래추단신신식,종이득도경준학적배서결과。기우진실수거집적실험결과표명,상교우빈솔통계화권치첩가적실체배서산법,CER 산법능이용호련망적해량수거대관계수거고중적결실치진행경가유효적수복。
In Big Data era,data missing is very common in real life and it puzzles people since it makes decisions based on data unreliable.Most existing data imputation methods employ local database to repair missing numerical values,while these methods do not fit the case that repair missing numerical and non-numerical values using data from web.Web-based data imputation usually contains four steps,formulating queries,searching,entity extraction and entity ranking. During these steps,entity ranking plays a key role and makes the final decision on repairing. Recently works on web-based data imputation are major in two aspects,one makes efforts to improve query formulating and entity extracting,then uses frequency to rank,the other one makes efforts to analyze features that belong to target entities,then calculates and combines features’values to rank.Frequency-based or weighting-based entity ranking method considers factors related to entity itself while ignoring the influence between entities.In this paper,we propose a graph-based entity ranking method called CER(Context-aware Entity Ranking),it can take advantage of the context of candidate entities and make a comprehensive ranking utilizing the graph model.Experiments based on real-world data collections demonstrate that CER performs a more effective data imputation utilizing massive web data than the existing entity ranking methods such as frequency-based and weighting-based.