计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2014年
2期
312-325
,共14页
王立%张蓉%沙朝锋%王晓玲%周傲英
王立%張蓉%沙朝鋒%王曉玲%週傲英
왕립%장용%사조봉%왕효령%주오영
实体识别%模式集成%数据清理%逻辑斯蒂回归%聚类%电子商务
實體識彆%模式集成%數據清理%邏輯斯蒂迴歸%聚類%電子商務
실체식별%모식집성%수거청리%라집사체회귀%취류%전자상무
entity resolution%schema integration%data cleaning%logistic regression%clustering%e-commerce
电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C (Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性.
電子商務網站中不斷增長的商品數量和商品規模對數據管理提齣瞭新的挑戰,其中一項重要基本任務是商品歸一化,即識彆屬于同一箇客觀實體的所有商品.商品歸一化的實現有助于提高商品搜索的準確性、改善用戶的體驗.但由于在電子商務網站中,特彆是在C2C (Customer-to-Customer)模式下,商品信息的數據質量很低且缺乏統一的模式定義規範,導緻已有的商品歸一化方法難以適用.針對這一問題,文中設計瞭一種將數據集成、數據清理和商品歸一化相結閤的混閤框架.該框架首先基于圖的方法進行模式集成,然後利用商品的描述信息進行數據清理,從而得到數據質量更高且模式統一的商品信息數據;在數據集成和數據清理之後,利用邏輯斯蒂迴歸(Logistic regression)模型訓練分類器,從而得到商品之間的相似度矩陣,最後對相似度矩陣聚類實現商品歸一化.通過與已有的方法在真實數據上進行對比實驗,驗證瞭文中提齣的方法的有效性.
전자상무망참중불단증장적상품수량화상품규모대수거관리제출료신적도전,기중일항중요기본임무시상품귀일화,즉식별속우동일개객관실체적소유상품.상품귀일화적실현유조우제고상품수색적준학성、개선용호적체험.단유우재전자상무망참중,특별시재C2C (Customer-to-Customer)모식하,상품신식적수거질량흔저차결핍통일적모식정의규범,도치이유적상품귀일화방법난이괄용.침대저일문제,문중설계료일충장수거집성、수거청리화상품귀일화상결합적혼합광가.해광가수선기우도적방법진행모식집성,연후이용상품적묘술신식진행수거청리,종이득도수거질량경고차모식통일적상품신식수거;재수거집성화수거청리지후,이용라집사체회귀(Logistic regression)모형훈련분류기,종이득도상품지간적상사도구진,최후대상사도구진취류실현상품귀일화.통과여이유적방법재진실수거상진행대비실험,험증료문중제출적방법적유효성.