AI情感识别:人脸未必是准确的情感信号

美味可口 · 发表于 2024-3-30 08:01:02|来自：北京邮电大学

原标题 | Amazon’s A.I. Emotion-Recognition Software Confuses Expressions for Feelings

作　者 | Jayne Williamson-Lee

翻　译 | Pita、汤姆·林奇

审　校| 唐里、McDonald's

注：敬请点击文末【阅读原文】访问文中相关链接，PC查看体验更佳。

插图：Eva Redamonti

今年八月，亚马逊宣布已提高其面部识别软件的“情感检测准确性”。他们解释说，该技术不仅可以更好地检测出七个情绪（快乐，悲伤，愤怒，惊讶，恶心，平静和困惑），而且还可以首次检测出第八种情绪：恐惧。

微软和苹果等大型科技公司，以及Kairos和Affectiva等初创公司，也在销售类似的情感检测产品。据估计，预计到2023年，这一相对较新的服务类别将成为一个价值250亿美元的产业。

仅仅通过面部表情就能读取情感的技术将是一个惊人的突破。例如，它可以允许市场营销人员调查观众对恐怖电影的反应，汽车内置的软件可以评估驾驶员是在生气还是昏昏欲睡，以及公司筛选掉无聊或不感兴趣的求职者。它甚至可以帮助患有自闭症的孩子学会识别他人的情绪。但是在最近几个月中，科学家们对使用面部来读取情绪提出了很大的疑问。

问题不是在于像Amazon Rekognition这样的技术无法读取人脸的细节。而是人脸表情所表达的不一定是正确的情感信号。

今年七月，美国东北大学心理学教授 Lisa Feldman Barrett 和她的同事对1000多项研究进行了回顾并发表了总结文章，总结得出的结论是：检测情绪的人工智能和计算机视觉的许多发展被误导了。上个月，南加州大学的计算机科学教授 Jonathan Gratch 和他的同事在第八届国际情感计算与智能交互学术会议（ACII 2019）上也发表了两篇论文，呼吁中止某些“情感分析”技术。

问题不是在于像Amazon Rekognition这样的技术无法读取人脸的细节。而是人脸表情所表达的不一定是正确的情感信号。

亚马逊网站上的一张介绍其其面部分析功能的图片详细，图片展示一名女性在微笑，软件在她脸上的关键部位贴上标签，上面写着“女性”、“睁开眼睛”、“微笑”和“快乐”。会以相同的方式解释图像：这是一个快乐的女性形象。

我们对别人脸上的快乐表情有很强的直觉。从童年开始，我们就学会了面部表情和内心情绪之间的联系。即使是现在，当文本可能无法表达我们的情感时，我们也会使用表情符号（emoji）来表达我们的情感。当我们看电视或电影的时候，演员脸部的特写，能让我们更加了解角色的感受。当我们看到一个人微笑的时候，我们本能地感觉到他们是高兴的。

Gratch说：“人们的感知是一致的……如果有人在微笑，他们会认为图像上的人是开心的”，这也是为什么 Facebook 上的许多人认为其他人都比自己更快乐的原因。他们看到所有这些笑脸，然后会想，‘他们一定很快乐。’”

有些人看起来开心，但并不意味着他们是开心的。Rekognition这个系统，像其他情绪读取算法是基于识别人们看起来是什么情绪，而不是人们实际感受的。系统结合计算机视觉和机器学习算法，识别面部特征并与相应的情绪相关联。工程师普遍用于建模训练算法的数据是经过训练的第三方机构进行标注的，包含情感标签“开心”和“难过”等。为了给这些算法创建训练集，公司里有标注者同时对一组图像进行审查，将其标记为“快乐”、“恐惧”、“愤怒”等。亚马逊出于所有权的问题，拒绝就Rekognition的算法是如何被训练的记录发表评论。

这种方法的一个问题是，图像中的脸代表了情感的刻板印象——是我们认为一个人表达情感的样子。我们往往认为情绪与面部表情有直接关系：大多数时候，人们高兴时微笑，生气时愁眉不展，伤心时皱眉。我们也承认这些表情是情感的特有表达；我们认为微笑是幸福特有表达，而愁眉苦脸是愤怒的特有表达。但实际上，人们表达和感知情感的方式有更多的变化。

Gratch 说：“我们没有证据证明情绪表达的信号应该是什么，”在他的研究中，两对参与者玩了一个囚徒困境游戏。他们被安排在有电脑和摄像头的单独房间里，被告知不要相互交谈或使用手势，但支持使用面部表情。在每一轮比赛中，玩家都会选择“共享”或“偷”一个虚拟球。如果玩家同时选择共享（合作），游戏会奖励他们同样高的回报，但如果他们选择偷窃（背叛），而对手选择合作，游戏会给这个玩家更高的回报。如果两个玩家都决定偷东西，回报很低。游戏给予双方合作，但为了解决对手是否会合作的难题，玩家们在对方的面部表情中寻找下一步可能采取的行动的线索。

即使有了这些线索，这也是一项艰巨的任务。“你无法推断[结果]对他们是好是坏，”Gratch说。“这破坏了这个想法，即通过观察某人的面部表情，您可以弄清楚他们是否在撒谎。”

即使他们输掉了回合，玩家们唯一使用的表情就是微笑。人们不只是微笑以示喜悦，还会对让他们感到惊讶的事件报以微笑。例如，如果他们认为对手会背叛，但实际上他们合作了，那么微笑的强度将反映出他们惊讶的程度。但他们没有表现出典型的睁大眼睛惊讶的表情。Gratch说：“但这些微笑并不是惊讶的预兆。但它确实强调，人们展示的内容非常具有情境性，受这些机器未关注的因素的影响很大。”

在这种情况下，人们的表情更多是对情况的反应，而不是内在情绪的表现。格兰奇说：“我们展示的很多东西并不一定就是我们的感觉。”

情绪检测软件不是为了进行这种区分而产生的。当Rekognition分析一个女人微笑的图像并生成诸如“微笑”和“快乐”之类的标签时，实际上是一个很大的跳跃。如果没有更多有关此人和情况的信息，就很难从面部表情推断人们的情绪。Gratch指出：“人们，甚至机器，都不擅长从这些面部显示器检测真实的感觉。”

人们表达情感的方式因文化，环境和不同的人而异，并且可以通过多种面部表情表达一种情感。人们的面部表情经常遵循对话和文化习惯，而不是表现出与内心情感有关的任何东西。Gratch认为，考虑到所有这些不同因素，“更科学地接受的方法就是只说这些是面部动作。”

在他的研究中，他使用了一种叫做“面部动作单元编码系统”的方法，该系统会根据面部的单个肌肉运动来对面部表情进行分类，也就是“动作单元”。这种方法被科学家和动画师使用，在实时互动中评估人们的面部表情。例如，当一个人微笑时，他们一般会倾向于嘴角向上翘起（称为动作单元12），并抬起脸颊，眼睛周围的皮肤会产生皱纹（动作单元6）。Gratch解释说，“与其说‘你很开心’，还不如说‘你在展示微笑这个动作的组成部分’。”

当要弄清别人的感受时，Gratch发现其实我们并不依赖面部表情。相反，我们反而关注当时的语境。为了弄清对手的情绪，在随后的研究中，参与者寻找了当时的语境。这项研究的参与者回头回顾了自己和搭档在囚徒困境游戏中的视频剪辑。事件的结果让他们知道了他们的搭档一定是什么感受。例如，如果一名参与者的伴侣以他们的代价赢了一轮，他们倾向于对自己和伴侣的情绪进行负面评价，而不是对其他有积极结果的事件进行正面评价。Gratch指出：“事情发生的背景比人们脸上的表情可以更好地预测他人的想法。”

心理学教授巴雷特（Barrett）说，这些发现与其他研究发现的一致，并补充说，它们“表明语境强烈影响人们在面部运动中推断出的情感含义。通常，语境的影响比面部动作本身更加强大。”她引用耶路撒冷希伯来大学（Hebrew University in Jerusalem）心理学家Hillel Aviezer 的研究。例如，在一项研究中，Aviezer和他的同事将网球运动员输赢后的图像进行混合和匹配。当参与者看到一名球员的胜利头像被移植到另一名球员的失败头像上时，他们对这张脸的看法比看到另一名球员的胜利头像时更加消极。与身体相关的情感胜过玩家面部的情感。

考虑到诸如Rekognition之类的情绪识别系统对人的面部表情影响很大，因此这些有关语境的发现非常重要。他们已经接受了有关人类如何解读静态图像的训练，而没有考虑到更大的社会环境。“实际上，因为这些数据不包含有关人们面部表情出现的上下文的任何重要信息，” Gratch说，“这些算法只是在学习另一个人在没有获悉任何语境的情况下会认为某人的面部图像在表达什么。”

“这种面部表情识别技术确实在捕捉某些东西——只是它与人们想用它做什么没有很好的相关性。”所以它们只会犯错误，在某些情况下，这些错误会造成伤害。”

亚马逊可能意识到这项情感识别技术存在局限性。在他们网站上的免责声明为：“ API只是对一个人的外貌进行判断。这并不能确定一个人的内心情绪状态，也不应该以这种方式使用。”仍然，诸如“情感分析”之类的短语和诸如“Rekognition”之类的名称可能会在这项技术的营销方式上产生误导。更恰当的描述应该是“表情识别”。

Barrett说：“目前任何一家声称能识别情绪的公司都会混淆测量结果（例如皱眉）和解释这些测量结果的含义（例如愤怒）。” Gratch将情感识别技术等同于测谎仪，即“真相检测器”。自从1998年最高法院的一项裁决使其名誉扫地以来，测谎仪已在大多数州都被禁止在法庭证词中使用。“这不是真相探测器，它只是一个唤醒探测器，” Gratch说。“从某种意义上说，这种面部表情识别技术确实在捕捉某些东西——只是它与人们想用它做什么没有很好的相关性。”所以它们只会犯错误，在某些情况下，这些错误会造成伤害。”

亚马逊因将Rekognition卖给政府机构而受到抨击，据报道包括将其推销给移民和海关执法局，以及与Border Patrol可能达成的9.5亿美元合同。亚马逊的客户可能会使用Rekognition来告知他们有关人员的决定。如果当局在错误的时间显示错误的表情，当局可能会以不公正的目标为目标。即使没有识别技术，错误表达情感也会产生后果：巴雷特在她的《如何制造情感》一书中描述了如何发现法官和陪审员使用被告的面部表情来辨别他们可能感到内or或re悔的程度。

“根本就没有强有力的证据支持这种观点，即存在普遍的情感表达，因此可以使用一组特定的面部肌肉运动（例如皱眉）来具体判断一个人的情感状态（例如愤怒），而且可靠性很高。”Barrett说。“如果不这样想，将有可能会导致误解，可能会让人们失去生计、自由，甚至生命。”

无论情绪解读算法变得多么复杂，一个仅仅使用面部分析技术来识别人们情绪的系统最终都不会达到它声称的效果。Gratch建议消费者要意识到这项技术的局限性，并引用了德国不来梅雅各布大学(Jacobs University)心理学家 Arvid Kappas 的一个比喻，来说明这些技术是如何营销的。卡帕斯将“月亮是奶酪做的”这一错误假设等同于“月亮是奶酪做的”。他说，想象一个场景，我们用奶酪和石头的例子来训练算法，开发出奶酪识别器。然后我们把它指向天空，看看识别器是否在有月亮的时候能识别出奶酪。Kappas 的类比揭示了商业情感识别技术是多么的初级。

“我们正在训练一些与人们的感受无关的东西，然后将它展示给人们并说，'看，他们会感受到这种情绪，'” Gratch说，“而实际上我们训练的只是他们的表情，他们实际内心的情绪却不同。”

点击，等你来译：支招 | 如何用机器学习生成拟真人脸图片

AI情感识别:人脸未必是准确的情感信号

本帖子中包含更多资源

快速回帖

精选推荐