Twitter 报告称,只有不到 5% 的账户是假冒或垃圾邮件发送者,通常被称为“机器人”。
自从他收购 Twitter 的提议被接受后,埃隆·马斯克就一再质疑这些估计,甚至驳斥了首席执行官帕拉格·阿格拉瓦尔 (Parag Agrawal) 的公开回应。
后来,马斯克先生搁置了这笔交易,并要求提供更多证据。
那么,为什么人们会争论 Twitter 上机器人帐户的百分比呢?
作为广泛使用的机器人检测工具 Botometer 的创建者,我们在印第安纳大学社交媒体观察站的小组十多年来一直在研究社交媒体上的不真实账户和操纵。
我们将“社交机器人”的概念带到了前台,并于 2017 年首次估计了它们在 Twitter 上的流行程度。
根据我们的知识和经验,我们认为估算 Twitter 上机器人的百分比已成为一项非常困难的任务,争论估算的准确性可能会忽略重点。这就是为什么。
究竟什么是机器人?
为了衡量 Twitter 上问题帐户的流行程度,有必要明确定义目标。
“虚假账户”、“垃圾邮件账户”和“机器人”等常用术语可以互换使用,但它们具有不同的含义。
虚假或虚假帐户是冒充他人的帐户。大量生产未经请求的促销内容的帐户被定义为垃圾邮件发送者。
另一方面,机器人是部分由软件控制的帐户;他们可能会自动发布内容或进行简单的交互,例如转推。
另请阅读
是时候离开 Twitter 去开源社交网络 Mastodon 了吗?这些类型的帐户经常重叠。
例如,您可以创建一个模仿人类自动发布垃圾邮件的机器人。这样的帐户同时是机器人、垃圾邮件发送者和假冒帐户。
但并非每个虚假帐户都是机器人或垃圾邮件发送者,反之亦然。在没有明确定义的情况下进行估算只会产生误导性结果。
定义和区分账户类型也可以为适当的干预提供信息。
虚假和垃圾帐户会降低在线环境并违反平台政策。
恶意机器人被用来传播错误信息、夸大人气、通过负面和煽动性内容加剧冲突、操纵意见、影响选举、进行金融欺诈和破坏沟通。
然而,一些机器人可能是无害的,甚至是有用的,例如帮助传播新闻、提供灾难警报和进行研究。
简单地禁止所有机器人不符合社交媒体用户的最大利益。
为简单起见,研究人员使用“不真实账户”一词来指代虚假账户、垃圾邮件发送者和恶意机器人的集合。
这也是 Twitter 似乎正在使用的定义。然而,目前尚不清楚马斯克的想法是什么。
难以计数
即使就定义达成共识,估计流行率仍然存在技术挑战。
外部研究人员无法访问与 Twitter 相同的数据,例如 IP 地址和电话号码。
这阻碍了公众识别虚假账户的能力。
但即使是 Twitter 也承认,虚假账户的实际数量可能比它估计的要高,因为检测具有挑战性。
不真实的帐户不断发展并制定新的策略来逃避检测。
例如,一些虚假账户使用 AI 生成的面孔作为他们的个人资料。这些面孔可能与真实面孔无法区分,甚至对人类而言也是如此。
识别此类帐户很困难,并且需要新技术。
另一个困难是由协调的账户构成的,这些账户看起来很正常,但彼此之间的行为非常相似,几乎可以肯定它们是由一个实体控制的。
然而,它们就像每天数亿条推文中的大海捞针。
最后,不真实的帐户可以通过交换句柄或自动发布和删除大量内容等技术逃避检测。
虚假账户和真实账户之间的区别变得越来越模糊。
帐户可能会被黑客入侵、购买或租用,一些用户会将其凭据“捐赠”给代表他们发帖的组织。
结果,所谓的“电子人”账户由算法和人类共同控制。同样,垃圾邮件发送者有时会发布合法内容以掩盖他们的活动。
我们观察到混合了机器人和人的特征的广泛行为。
估计不真实帐户的普遍性需要应用一个简单的二元分类:真实帐户或不真实帐户。
无论在哪里划定界限,错误都是不可避免的。
错过大局
最近关于估计 Twitter 机器人数量的辩论的焦点过于简单化了这个问题,并且忽略了量化在线滥用和不真实账户操纵的危害的重点。
通过 BotAmp,一个来自 Botometer 系列的新工具,任何拥有 Twitter 帐户的人都可以使用,我们发现自动化活动的存在并不是均匀分布的。
例如,关于加密货币的讨论往往比关于猫的讨论显示更多的机器人活动。
因此,总体流行率是 5% 还是 20%,对个人用户来说差别不大;他们对这些帐户的体验取决于他们关注的对象以及他们关心的主题。
最近的证据表明,不真实的帐户可能不是导致错误信息、仇恨言论、两极分化和激进化传播的唯一罪魁祸首。
这些问题通常涉及许多人类用户。
例如,我们的分析表明,有关 Covid-19 的错误信息是通过经过验证的知名帐户在 Twitter 和 Facebook 上公开传播的。
即使可以精确估计虚假账户的普遍性,这也无助于解决这些问题。
有意义的第一步是承认这些问题的复杂性。
这将有助于社交媒体平台和政策制定者做出有意义的回应。