计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2012年
20期
41-44,48
,共5页
邹鸿程%周刚%杨亚强%李旭东
鄒鴻程%週剛%楊亞彊%李旭東
추홍정%주강%양아강%리욱동
微博%质量指标%过滤%中心值%数据净化
微博%質量指標%過濾%中心值%數據淨化
미박%질량지표%과려%중심치%수거정화
针对微博语言口语化和不规范导致微博数据质量低下的问题,利用质心、度-中心值和特征向量-中心值3种算法对微博话题数据进行净化,从而提高数据质量.通过比较净化前后话题帖子的规范性、相关性和有益性等属性指标分析算法性能.实验结果表明,经过3种净化算法处理,话题帖子的整体质量尤其是规范性指标均有所提高,质心算法对于有益性指标有较好的净化效果,度-中心值和特征向量-中心值算法有助于得到强相似度的话题帖子.
針對微博語言口語化和不規範導緻微博數據質量低下的問題,利用質心、度-中心值和特徵嚮量-中心值3種算法對微博話題數據進行淨化,從而提高數據質量.通過比較淨化前後話題帖子的規範性、相關性和有益性等屬性指標分析算法性能.實驗結果錶明,經過3種淨化算法處理,話題帖子的整體質量尤其是規範性指標均有所提高,質心算法對于有益性指標有較好的淨化效果,度-中心值和特徵嚮量-中心值算法有助于得到彊相似度的話題帖子.
침대미박어언구어화화불규범도치미박수거질량저하적문제,이용질심、도-중심치화특정향량-중심치3충산법대미박화제수거진행정화,종이제고수거질량.통과비교정화전후화제첩자적규범성、상관성화유익성등속성지표분석산법성능.실험결과표명,경과3충정화산법처리,화제첩자적정체질량우기시규범성지표균유소제고,질심산법대우유익성지표유교호적정화효과,도-중심치화특정향량-중심치산법유조우득도강상사도적화제첩자.