中国Twitter网讯:作为一个广泛传播的社交媒体平台,Twitter(现名为 X)被许多人用来无缝分享他们的想法和观点。Twitter Avatar 是用户的个人资料图片,在用户注册帐户时首次上传,只要用户更改它就不会改变。从悲伤到痛苦,从快乐到难过,各种不同的感受都通过推文进行长途交流。空难、铁路事故、公路事故以及国家的种族暴力都导致推文大量增加。无论推文情绪如何,据观察,用户的 AVI(头像)都保持不变。当一位伟大的国家领导人在一次最致命的空难中发推文时,据观察,他的推文带有很多悲伤,但他的 AVI 却全是笑容。这样的例子可能会影响我们的道德良知。从心理学的角度来看,如果推文的情绪没有通过面部表情来表达,则很有可能对推文者不敬,并可能改变对推文者的自我看法。这项工作提出了一种深度学习 GAN 模型 GAN-AVI,该模型经过训练可在推文实际到达人群之前根据推文情绪动态翻译 AVI 面部表情。所提出的架构包括两个框架:推文情绪标签提取框架和目标人脸合成框架。推文情绪标签提取框架在 10,000 条具有各种情绪类别的推文上进行训练,人脸表情合成框架在 35,000 张图像上进行训练以提取自定义 32 个地标,使用这些地标可以合成与推文情绪匹配的目标人脸。使用基于地标的 AED、SSIM、LMK、ID 和 NCC 指标评估 GAN-AVI 的结果。与一些基线模型 GANimation、X2Face、AttentionGAN、C2GAN 相比,我们提出的 GAN-AVI 的有效性得到了展示。与 GANimation 和 X2Face 不同,我们的方法通过掩码嵌入明确地结合了情绪文本中的时间词依赖关系,从而改善了情绪表达对齐。实验评估表明,该方法的最低误差达到0.2%,证明了其在微表情生成任务的标志定位中提高了准确性。
介绍
现有的生成对抗网络 (GAN) 在从图像生成数据库到图像转换方面取得了令人瞩目的进展1 。在改变面部表情的同时创建逼真的人类图像2引起了广泛关注。在计算机视觉中,基于生成器的深度神经网络(如 GAN)会获取输入图像并将其转换为所需的目标。但它们在保留图像身份和面部特征方面存在局限性。由于人类表情多样且图像复杂,面部表情分析与合成在基于 GAN 的计算机视觉应用中仍然是一个棘手的问题。
计算机视觉的面部合成应用在 Twitter 等社交媒体平台上有着更广泛的应用。Twitter 是一个庞大的受众平台,公众可以无缝地分享即时辩论、实时对话以及表达自己的观点。用户的个人资料图片称为 Avatar(AVI),是用户身份的体现,在用户注册帐户时首次提供。此 Avatar 是静态的,除非用户反复更改。从业务部门到组织机构,从远见卓识者到普通用户,Twitter 都是人们通过推文分享观点的论坛。从悲伤到痛苦,从快乐到悲伤,各种不同的感受都通过推文进行传递。
从伟大领袖到伟大组织的推文,推文情绪是维持良好社区关系和追随者的指导参数。触发事件可能有所不同:气候灾害、事故和国家种族暴力,都会导致推文数量大幅增加。无论用户是领导人还是普通人,无论用户的推文情绪如何,都可以观察到用户的 AVI 保持不变。当国家最受爱戴的领导人就一次最致命的空难发推文时,人们观察到他的推文带有很多悲伤,但他的 AVI 却全是笑脸。从心理学的角度来看,这样的例子可能会影响人们的道德良知,并错失对发推文者的看法。为了使社会关系与用户所发推文的情绪保持一致,需要一种可以使用推文情绪表达来更新 AVI 表达的方法,我们将此作为研究的一个问题案例。
面部表情合成是一种深度学习方法,旨在调整和改变图像的面部表情3。该方法使用面部特征点重新定位示例图像中的面部运动以得到目标图像。这种表情合成在许多基于计算机视觉的应用中具有巨大的价值和用途,如游戏动画、人脸识别、视觉面部语言等。在面部表情翻译中,合成的表情被植入到目标图像中。许多最先进的计算机视觉技术使用 GAN 进行面部表情分析和合成。尽管取得了许多进步,但这些方法仍然面临许多挑战和问题:人脸在表情、形状和大小方面变化很大,难以获得具有统一面部特征的大量训练数据,难以合成保留用户身份的照片般逼真的表情。
我们的研究提出了一个深度学习 GAN 模型 GAN-AVI,该模型经过训练,能够在 AVI 推文真正到达人群之前,根据推文情绪动态地翻译其面部表情。我们提出的 GAN-AVI 模型采用了自定义面部关键点提取、面部表情合成和翻译等方法。
空难、铁路事故、山体滑坡、突如其来的洪水等灾难造成了大量人员伤亡,是导致推文数量大幅增加的原因之一。随后,一项研究被激发,对推文情绪和推文者的 AVI 进行分析。虽然大多数推文表达了悲伤、难过和无助的情绪,但 70% 的推文者的 AVI 都是微笑的表情。推文者可能没有注意到 AVI 的表情。当图片中流露出的情绪与相关文本中传达的情绪不一致时,可能会引起不安、削弱信任,并可能导致意想不到的社会或文化误解。而且,此类情况可能会影响推文者和公众的道德良知。从心理学的角度来看,一致性理论4、期望违背理论5 等概念为理解这些影响奠定了基础。因此,解决情绪表达不一致既是真实人际交往的心理要求,也是创建公平、可靠的沟通系统的技术需要。
这些多模态情绪失配促使我们思考提出一种能够解决情绪表达不一致问题并促进准确、公平和可信沟通的方法。在当今这个人工智能驱动的世界里,何不尝试一种能够根据推文情绪动态合成面部表情并相应地翻译推文AVI的方法呢?合成这种类似于推文情绪的逼真AVI是我们研究的动机,我们相信这项工作在许多社交媒体应用中都具有巨大的价值。我们提出的合成与推文情绪匹配的面部表情的方法是一种新颖的方法,无疑吸引了众多社交媒体平台的关注。我们的新方法GAN-AVI使用基于深度学习的生成对抗网络进行基于情绪的面部表情合成。该研究的主要贡献在于:推文情绪标签提取框架和一个用于动态转换AVI面部表情以模拟推文情绪的框架。
许多研究问题引导我们识别与既定目标相符的差距。我们的研究通过以下一系列问题获得方向和创新:文本中传达的情感与头像中表达的不一致会如何影响用户对可信度和信任的感知;多模态人工智能模型中出现了哪些可衡量的指标来解决这些差异?使用生成对抗网络 (GAN) 修改头像能否有效地最小化或消除这些差异,同时保持用户的身份和真实性?
本研究的结构如下:第 2 部分概述了用于面部表情合成的深度学习和 GAN 模型,并指出了本研究需要解决的差距;第 3 部分描述了推文情绪提取和面部表情合成与翻译的方法,以及基于数据集的模型训练过程;第 4 部分介绍了各种数据集(包括自定义的 32 个关键数据集),并介绍了模型配置和评估指标。本节还包括所提出的模型与一些基线模型的比较研究,重点介绍了与 AVI 相似性相关的关键发现。最后,第 5 部分总结了本研究的工作,阐述了所面临的挑战并提出了未来的方向。