Twitter宣称“无缝”屏蔽虐待儿童内容

Twitter 表示,一个防止儿童性虐待材料 (CSAM) 在其平台上传播的新系统已“无缝部署”,测试了非营利组织 Thorn 开发的技术。

Twitter 安全帐户周二宣布,它参与了该组织人工智能驱动的Safer解决方案的 Beta 测试,该解决方案可主动检测、删除和报告包含儿童性剥削的文本材料。通过与@thorn 的持续合作,我们正在努力创建一个安全的平台。 X 参与了 Thorn 解决方案测试阶段的测试,以主动检测基于文本的儿童性剥削。这项工作建立在我们为打击儿童性行为所做的不懈努力的基础上……

“通过我们与 Thorn 的持续合作,我们正在做更多事情来创建一个安全的平台,”Twitter 安全帐户写道。 “这项工作建立在我们为打击网络儿童性剥削所做的不懈努力的基础上,其具体目标是扩大我们打击儿童面临迫在眉睫风险的高危害内容的能力。”“这个自托管解决方案已无缝部署到我们的检测机制中,使我们能够专注于高风险帐户,”它继续说道。

Thorn 由演员黛米·摩尔 (Demi Moore) 和阿什顿·库彻 (Ashton Kutcher) 于 2012 年创立,开发专注于保护儿童免受性虐待和性剥削的工具和资源。今年 4 月,谷歌、Meta 和 OpenAI 签署了Thorn 和非盈利组织 All Tech is Human 发布的承诺,誓言要在他们的人工智能模型周围加强护栏。“我们从 Beta 测试中学到了很多东西,”Thorn 的数据科学副总裁 Rebecca Portnoff 告诉Decrypt。 “虽然我们知道儿童性虐待存在于包括文本在内的所有类型的内容中,但我们在这次 Beta 测试中具体看到了文本的机器学习/人工智能如何对现实生活产生大规模影响。”正如 Portnoff 解释的那样,Safer AI 模型包括一个针对儿童安全相关文本进行训练的语言模型和一个为文本序列生成多标签预测的分类系统。预测分数范围从 0 到 1,表示模型对文本与各种儿童安全类别相关性的置信度。

虽然 Portnoff 无法透露哪些其他社交媒体平台正在参与 Safer 产品套件的 Beta 测试,但她表示其他公司的反应是积极的。波特诺夫说:“一些合作伙伴认为,该模型对于识别有害的儿童性虐待活动、确定举报信息的优先顺序以及支持对已知不良行为者的调查特别有用。”

由于自 2022 年 ChatGPT 推出以来生成式人工智能工具的激增,英国互联网观察基金会等互联网监管组织对暗网论坛上大量流传的人工智能生成的儿童色情内容发出了警报,称这些非法材料可能会淹没互联网。Twitter 安全团队宣布这一消息的几个小时前,欧盟要求该公司解释有关“内容审核资源减少”的报道。Twitter向欧盟监管机构提交的最新透明度报告称,自2023年10月以来,埃隆·马斯克的成本削减措施已将平台内容审核团队的规模缩小了近20%,并将监控的语言数量从11种减少到7种。要求补充道:“委员会还在寻求有关风险评估和缓解措施的更多细节,这些风险评估和缓解措施与生成人工智能工具对选举过程、非法内容传播和基本权利保护的影响有关。”欧盟于 2023 年 12 月对 Twitter启动了正式诉讼,原因是担心该公司在多个领域违反了《数字服务法》,包括风险管理、内容审核、“黑暗模式”和研究人员的数据访问。该委员会表示 Twitter 必须在 5 月 17 日之前提供所要求的信息,并在 5 月 27 日之前解决其他问题。