图文大模型相较于传统视觉模型和大语言模型,在图像识别、图文深度理解与推理以及图片创作等复杂图文交互任务中展现出了显著的优势。
1.多模态大模型发展现状
随着人工智能技术的快速发展,多模态大模型对图像、文本、视频和音频等信息的综合处理能力不断增强,其跨模态理解能力、高精度识别与理解能力、强大的泛化能力、丰富的表达能力、增强的交互体验,进一步推动了人工智能技术在各行业的广泛应用[4],成为推动产业升级与生产力变革的强大引擎。目前,多模态大模型正在迅速融入到各行业的应用场景中,服务于生产生活的各方面。

多模态大模型中,图文双模态大模型发展尤为迅速,它在处理图像与文本及其复杂交互关系上取得了显著成果,为内容创作、信息检索、智能决策等多个应用场景带来了革命性的变化,应用范围不断拓宽,影响力日益增强。鉴于图文双模态大模型的重要性和广泛应用前景,本白皮书主要聚焦图文大模型评测,深入分析评测需求以及面临的问题和挑战,系统讨论关键评测技术,旨在为业界提供一套科学、系统、可操作的图文双模态大模型评测框架,促进技术的健康发展与广泛应用,进一步加速人工智能技术在各行各业的深度融合与创新实践。
2.评测需求
图文大模型相较于传统视觉模型和大语言模型,在图像识别、图文深度理解与推理以及图片创作等复杂图文交互任务中展现出了显著的优势。由于不同图文大模型在处理应用场景时各有专长,因此选择适合各行业特定应用需求的模型变得尤为重要。在对图文大模型进行评测时,需面向不同任务类型,从各个维度进行综合全面的评测,以评估图文大模型的真实性能和用户体验。目前,对图文大模型的评测需求包括但不限于以下几类任务:识别类任务:识别类任务主要是指对图片中的特定事物进行识别、计数等工作。识别类任务主要可分为基础任务和应用任务两类。其中基础任务包含实例识别、颜色识别、手势识别、目标检测等基础场景;应用任务则包含商品识别、垃圾满溢识别、道路安全识别、智慧养殖等更加复杂的端到端场景。识别类任务作为目前最广泛应用的任务之一,是衡量图文大模型性能的重要场景,具有极高的评测价值。在评测识别类任务时,需着重关注模型的准确性、鲁棒性、实时性和泛化能力等指标。
理解类任务:理解类任务主要是指针对输入图片进行内容理解,并回答对应问题。理解类任务也可分为基础类及应用类两种。基础类理解任务侧重于考察图文大模型的通用能力,而不过分强调某一特定应用场景中的实际能力。常见的基础类任务包含场景理解、实例属性、空间关系、字幕匹配、图像质量分析等底层核心场景;而应用类任务则着重考察图文大模型在专一领域的实际能力,与目前具有智能化需求的场景结合更加紧密,如活体检测、人像属性、人脸属性、口罩检测、舞蹈艺考评分等。理解类任务相较识别类任务,不仅仅考察模型对某一特定事物的特征识别能力,更要求图文大模型对图像整体场景及各事物之间关系进行精准把控,并依据提问内容进行匹配跟踪,相较识别任务难度更大。在评测理解类任务时,需着重关注模型的准确性、上下文感知、通用性与专一性以及语义一致性等指标。
创作类任务:创作类任务主要是指通过给定的文字或图像提示信息进行图片创作或图像修改。常见的创作类任务包含图像生成、图像风格转换、图像合成等,图文大模型根据要求生成相应图片,图片需要在美观上符合人类需求,在逻辑上符合基本的事物原理,在匹配度上完全实现提示词或提示图片中的内容要求。创作类任务综合考察了图文大模型的文字图像理解和图像创作能力,是目前应用最为广泛关注度最高的任务之一。在评估创作类任务时,需着重关注模型的生成质量、内容匹配度、多样性和创新性等各项指标。推理类任务:推理类任务主要是指结合输入的图像和文本信息,进行逻辑推理、归纳推理或演绎推理等。推理类任务着重考察图文大模型对图片内容中涉及的各类逻辑知识进行理解、推理和解答的能力,是对图文大模型内在核心思考能力的真实反馈。常见的推理类任务包含下一张图像预测、代码编写、数学推理等。这些问题需要精细的思考及相应的专业知识训练才可作答,对普通人而言也具有较高难度,是对图文大模型核心能力的重点考察方向。在评测推理类任务时,需着重关注模型的推理准确性、推理深度、专业知识应用、逻辑一致性和可解释性等指标。
3.评测问题与挑战
图文大模型具有任务多样、模型复杂等特点,传统小模型的评测方式无法完全评估图文大模型在特定场景下的实际使用效果,需要针对图文大模型评测的问题与挑战进行深入分析,并不断迭代评测方法,以更好地促进图文大模型的良性发展。 首先,图文大模型的高泛化性对评测任务选取提出挑战。 图文大模型最突出的特点就在于任务适用性广,一个图文大模型往往可以在识别、理解、创作、推理等各类任务中实现较好的性能。但是,任何模型都具有局限性,目前某些任务图文大模型尚无法解决。因此,如何选择合适的评测任务场景,既能满足业务需求,又不超越模型现有能力,便成为了一项重要的考虑因素。为全面评价模型能力,需要对行业痛点和图文大模型研究现状具有充分的了解,从而制定更为全面、合理的评测任务。
其次,图文大模型的高复杂度对评测数据构建提出更高要求。 图文大模型参数量极大,内部极为复杂,相关训练原理和训练数据分布难以获取,这就导致图文大模型评测数据构建难度大。人类视角下的题目难易与模型视角下的不一定一致,比如绘制人手对于人类来说比较简单,而对于目前的图文大模型则较为困难。如何梯度性设置测试用例,以合适的低中高难度比例对模型展开全面测试,真实反馈出模型性能,是一项需要解决的难点问题。需要针对各个任务领域,对业界典型图文大模型进行大量验证,不断迭代优化测试用例的设置,才能构建更为合理的评测数据。
再者,图文大模型评价结果的客观性也需要重点考虑。 图文大模型的任务设置和输出结果丰富多样,这其中既有计数、识别等易客观评测的基础任务,也有图像生成、风格转换等创作类任务。后者往往需要通过主观评价的方式对图文大模型的对应能力进行测试评估,这对评价人员技术水平提出更高要求。因此,需要制定好主观评测体系基准,尽可能缩小不同评价人员带来的随机程度,以更加客观的方式实现对图文大模型创作能力的公平评价。 综上所述,随着图文大模型的快速发展,相关评测体系也需要不断迭代优化,着力解决行业痛点,积极应对评测挑战,以客观全面、公平公正、用户视角为评测基本原则,对图文大模型展开合理测试,更好地促进图文大模型的良性发展。