谷歌 PaliGemma 2：情绪识别引争议

風之旋律 • 2024-12-10 12:00 上午 • 行业资讯 • 阅读 233

一、谷歌 PaliGemma 2 模型介绍

PaliGemma 2 是谷歌推出的新人工智能模型。它具有强大的图像分析能力，不仅能识别物体和文字，还能识别人物并解读其情绪。此外，该模型支持长文本字幕生成，在识别乐谱、化学公式、识别深度以及制作胸部 X 光片报告方面表现更佳。

谷歌提供了多个版本的 PaliGemma 2，包括不同参数变体和分辨率版本。用户可以在 Hugging Face、Kaggle 和 Ollama 平台上获取其代码。如果正在使用谷歌的 Vertex 云平台，还将有机会尝鲜谷歌视频生成模型 Veo 的私有预览版，生成最高达 1080p 分辨率的视频。

二、引发专家担忧的原因

1. 情感识别基础存在争议

大多数情感识别系统基于心理学家 Paul Ekman 的理论，即人类有六种基本情绪：愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。然而后续的研究表明，来自不同文化背景的人们在表达情感时存在显著差异，这使得情感识别的普遍性受到质疑。伦敦国王学院专门研究人工智能的研究员 Mike Cook 表示，情感识别在一般情况下是不可行的，因为人类的情感体验非常复杂。虽然人们可以通过观察他人来推断他们的情绪，但不能做到全面且完美地解决情绪检测问题。

2. 可靠性和偏见问题

面部分析模型可能对某些表情有偏好，比如 2020 年 MIT 的研究表明，现有的面部分析系统往往偏好某些面部表情（如微笑）。最新研究还发现，情感分析模型对黑人面孔负面情绪判断多于白人面孔。谷歌虽进行了 “广泛测试”，但并未公开完整基准，且唯一公开的 FairFace 数据集被指存在偏见，一些研究者批评该数据集仅代表少数几种族群。

3. 潜在滥用风险

若应用于执法、招聘等领域可能导致对边缘群体的歧视和不公平待遇。AI Now 研究所首席 AI 科学家 Heidy Khlaaf 表示，如果这种所谓的情感识别是建立在伪科学假设的基础上的，那么这种能力可能会被用来进一步歧视边缘化群体，例如在执法、人力资源、边境治理等领域。欧盟的《人工智能法案》禁止学校和雇主部署情感识别系统，但允许执法机构使用，这也反映出情感识别技术在不同领域应用的潜在风险。

三、谷歌的回应与责任

谷歌表示对 PaliGemma 2 的 “表征危害” 测试充满信心，进行了广泛的伦理和安全评估。谷歌强调他们在开发过程中充分考虑了儿童安全、内容安全等多个方面，致力于确保该模型在使用过程中的安全性。

然而，作为科技巨头，谷歌在推动技术创新的同时，确实应承担起更大的社会责任。一方面，PaliGemma 2 的情感识别功能虽然具有创新性，但也带来了诸多潜在风险。例如，在不同文化背景下，情感的表达和认知存在差异，而现有的情感识别技术可能无法准确捕捉这些差异，从而导致误判和不公平的结果。另一方面，情感识别技术若被滥用，可能会在执法、招聘等领域对边缘群体造成歧视。