清华大学学报:哲学社会科学版
清華大學學報:哲學社會科學版
청화대학학보:철학사회과학판
Journal of Tsinghua University(Philosophy and Social Sciences)
2015年
3期
43~49
,共null页
多层次回归 事后加权 代表性缺失 大数据
多層次迴歸 事後加權 代錶性缺失 大數據
다층차회귀 사후가권 대표성결실 대수거
在大数据的时代下,互联网虽然可以在很短的时间为舆情研究者提供海量的数据,但是,互联网获取的数据样本并非随机抽样,数据代表性的问题,使得研究者对这类数据的可靠性存在质疑。使用多层次回归和事后加权方法,调整互联网获取的数据,可以得到更合理的舆情估计值,重新分析甜党和咸党粽子口味地盘大战的例子中,结合从新浪微博自动抓取数据、分析文本的技术,实现特定议题舆情的自动采集,并提供回归调整的完整过程。本研究方法具有普适性,可以推广到其他的舆情主题。
在大數據的時代下,互聯網雖然可以在很短的時間為輿情研究者提供海量的數據,但是,互聯網穫取的數據樣本併非隨機抽樣,數據代錶性的問題,使得研究者對這類數據的可靠性存在質疑。使用多層次迴歸和事後加權方法,調整互聯網穫取的數據,可以得到更閤理的輿情估計值,重新分析甜黨和鹹黨粽子口味地盤大戰的例子中,結閤從新浪微博自動抓取數據、分析文本的技術,實現特定議題輿情的自動採集,併提供迴歸調整的完整過程。本研究方法具有普適性,可以推廣到其他的輿情主題。
재대수거적시대하,호련망수연가이재흔단적시간위여정연구자제공해량적수거,단시,호련망획취적수거양본병비수궤추양,수거대표성적문제,사득연구자대저류수거적가고성존재질의。사용다층차회귀화사후가권방법,조정호련망획취적수거,가이득도경합리적여정고계치,중신분석첨당화함당종자구미지반대전적례자중,결합종신랑미박자동조취수거、분석문본적기술,실현특정의제여정적자동채집,병제공회귀조정적완정과정。본연구방법구유보괄성,가이추엄도기타적여정주제。