清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？ - chatGPT

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来，团队着眼于目前人工智能发展的瓶颈问题，探索原创性人工智能理论和关键技术，在智能算法的对抗安全理论和方法研究中处于国际领先水平，深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖，发表CCF A类论文100余篇，研制开源的ARES对抗攻防算法平台（https://github.com/thu-ml/ares），并实现部分专利产学研转化落地应用。
以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应用领域，掀起了一场技术革命。然而，多模态大模型是否安全可靠呢？

图1 对抗攻击GPT-4o示例

如图1所示，通过对抗攻击修改图像像素，GPT-4o将新加坡的鱼尾狮雕像，错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制，甚至超出模型应用的安全界限。

图2 Claude3越狱示例

而在越狱攻击场景下，虽然Claude成功拒绝了文本形式下的恶意请求，但当用户额外输入一张纯色无关图片时，模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型，有着更多的风险挑战。
除了这两个例子以外，多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险，会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生，还是普遍存在？不同多模态大模型的可信性又有何区别，来源何处？
近日，来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。

论文标题：Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
论文链接：https://arxiv.org/pdf/2406.07057
项目主页：https://multi-trust.github.io/
代码仓库：https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架
从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公平性（Fairness）、隐私保护（Privacy），并进行二级分类，有针对性地构建了任务、指标、数据集来提供全面的评估。

图4 MultiTrust框架图
围绕10个可信评价子维度，MultiTrust构建了32个多样的任务场景，覆盖了判别和生成任务，跨越了纯文本任务和多模态任务。任务对应的数据集不仅基于公开的文本或图像数据集进行改造和适配，还通过人工收集或算法合成构造了部分更为复杂和具有挑战性的数据。

图5 MultiTrust任务列表
与大语言模型（LLMs）的可信评价不同，MLLM的多模态特征带来了更多样、更复杂的风险场景和可能。为了更好地进行系统性评估，MultiTrust基准不仅从传统的行为评价维度出发，更创新地引入了多模态风险和跨模态影响这两个评价视角，全面覆盖新模态带来的新问题新挑战。

图6 多模态风险和跨模态影响的风险示意
具体地，多模态风险指的是多模态场景中带来的新风险，例如模型在处理视觉误导信息时可能出现的错误回答，以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水，但在进一步的推理中，部分模型并不能意识到其与头孢药物共用的潜在风险。

图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响，例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为，导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中，如果提供给模型一张与文本无关的图片，原本的安全行为就可能被破坏（如图2）。 结果分析和关键结论

图8 实时更新的可信度榜单（部分）
研究人员维护了一个定期更新的多模态大模型可信度榜单，已经加入了GPT-4o、Claude3.5等最新的模型，整体来看，闭源商用模型相比主流开源模型更为安全可靠。其中，OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前，而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高，但仍与闭源模型有一定的差距。
GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术，但仍然存在部分安全可信风险。例如，他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性，极大地干扰了用户的使用体验和信任程度。

图9 Gemini在多模态越狱攻击下输出风险内容
尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优，但在可信层面的测试中，这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力（如OCR）的重视，使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。基于跨模态影响的实验结果，作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络，并在多模态训练过程中进行微调。结果表明，这些模型依然展现出较大的安全漏洞和可信风险。同时，在多个纯文本的可信评估任务上，在推理时引入图像也会对模型的可信行为带去影响和干扰。

图10 引入图像后，模型更倾向于泄漏文本中的隐私内容
实验结果表明，多模态大模型的可信性与其通用能力存在一定的相关性，但在不同的可信评估维度上模型表现也依然存在差异。当前常见的多模态大模型相关算法，如GPT-4V辅助生成的微调数据集、针对幻觉的 RLHF 等，尚不足以全面增强模型的可信性。而现有的结论也表明，多模态大模型有着区别于大语言模型的独特挑战，需要创新高效的算法来进行进一步改进。
详细结果和分析参见论文。 未来方向
研究结果表明提升多模态大模型的可信度需要研究人员的特别注意。通过借鉴大语言模型对齐的方案，多元化的训练数据和场景，以及检索增强生成（RAG）和宪法AI（Constitutional AI）等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此，模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外，通过在动态环境中持续评估和优化，增强模型在实际应用中的表现，也是未来的重要方向。伴随MultiTrust基准的发布，研究团队还公开了多模态大模型可信评价工具包MMTrustEval，其模型集成和评估模块化的特点为多模态大模型的可信度研究提供了重要工具。基于这一工作和工具包，团队组织了多模态大模型安全相关的数据和算法竞赛[1,2]，推进大模型的可信研究。未来，随着技术的不断进步，多模态大模型将在更多领域展现其潜力，但其可信性的问题仍需持续关注和深入研究。
参考链接： [1] CCDM2024多模态大语言模型红队安全挑战赛 http://116.112.3.114:8081/sfds-v1-html/main [2] 第三届琶洲算法大赛--多模态大模型算法安全加固技术 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

联系人：	羊毛君
Email：	soft850207@gmail.com
网址：	ai.weoknow.com