Twitter中文网讯:推特用户真的有代表性吗?
一、作为民意分析信息源的推特及其问题
近年来,随着推特(twitter)等微博客社交媒体的普及率越来越高,其政治用途也开始被政治家、选民和研究者所重视。作为易于接受的政治信息源与讨论平台,推特为研究选举和民意提供了绝佳机会。近年来在政治、经济、社会心理甚至公共卫生方面的推特研究层出不穷。如果这一研究路径可行,那么以推特为代表的社交媒体无疑将为社会科学研究提供庞大且即时的研究资料库。但仍有一些研究者对这一方法的准确性提出质疑:推特能否有效地反映线下的民意?抑或说:推特能否代表普遍的民意?
尽管如此,仍有学者认为推特的这一预测能力是被简单化和夸大的结果。他们对上述学者的研究方法和结果提出了质疑,认为某些方法并不是最科学的方法,而是恰好得到有利于推特数据的结果的方法。自我选择偏差、某些群体被过度代表、过于简化的情绪分析是这些研究方法面临的三大挑战,大多研究中并没有采取手段来克服这些偏差。
本文作者的研究正是试图探究这些偏差。利用2011年西班牙议会选举和2012年美国总统选举相关的所有推文数据,作者对两国推特政治参与者的代表性和不平等性进行了分析。通过分析所选用户样本的社会人口特征和一系列政治变量,作者刻画了两国线上政治讨论的结构。
二、数据与方法
经过基于关键词的筛选,从两个选举前70天的所有推文中,作者得到了包含280万条推文、37.5万名用户的西班牙数据集,以及包含6200万条推文、880万用户的美国数据集。对这些数据的初步分析证实了作者对于参与平等性的担忧:在所选取的用户中,有47%的西班牙用户和48%的美国用户仅有一条推文与选举相关。在西班牙,前1%活跃的用户生产了34.8%的推文(美国44.6%),而前10%活跃的用户则生产了70.9%的推文(美国70.9%)。考虑到如此高的不平等程度与数据规模,作者随机抽取了1.2万西班牙活跃用户和5万美国活跃用户进行分析。然而正如Figure 1所示,即便在所选活跃用户中,参与不平等仍然处于相当高的水平。
本文所选择的自变量,是一些被证明与选民投票行为息息相关的变量,包括性别、地理位置、意识形态和竞选活动的时间点。如果这些变量与上述因变量有系统性关联,则意味着以推特为信息来源,且疏于控制变量的的选举研究存在着系统性偏差。
性别变量的获取利用了识别不同名称性别偏向的大数据和机器学习来完成,在两个案例中,这一分类方式的准确性都高于70%。地理位置变量结合了用户注册时所填写的信息以及用户发推时所在的位置,所得推特用户的地理分布并未显著区别于全国人口分布(见下图)。意识形态变量基于用户关注的政治行动者的立场进行推断,这是因为作者假定用户更愿意关注与其意识形态相似的政治行动者。竞选活动的时间点之所以重要,一是因为政治兴趣较低的选民往往在竞选活动的过程中才会决定投谁的票,二是由于在本文所选案例中,主要政党的网络竞选策略显著不对称,其进入互联网进行活动的时间有着明显差异。
三、结果
意料之中,本文研究最为显著的结果是twitter政治参与中严重的性别不平等。如Table 1所示,性别不平等在数据上有着肉眼可见的体现:60%以上的参与者是男性。即便如此作者还是在统计上拒绝了性别平等的原假设。尽管表中显示女性其实是更为活跃的一方,但这一微小的差距不足以填补巨大的代表性赤字,更毋论女性更活跃的结论仅在美国的案例中得到了统计支持。
四、结论
推特的确提供了研究民意的机会,无数用户每天都在提供有价值的研究材料。但是研究者能否从这个宝藏中得到有意义的结论,则取决于是否有能力客服参与的不平等所带来的偏差。本文针对2011年西班牙议会选举和2012年美国总统选举中推特使用的研究揭示了可能存在于推特用户中的参与不平等,如参与者多为男性、居住在城市、有着更强的意识形态偏好等等,这些群体在推特上都被过度代表(over-represented)了。但作者认为,这种对推特用于选举和民意研究缺陷的揭示更像是一个机会,或许会带来民意研究方法上的又一次大发展。