阿里巴巴发布Qwen2.5-VL多模态模型

阿里巴巴发布Qwen2.5-VL多模态模型，该模型是是 Qwen 系列的最新旗舰版本，它结合了强大的图像和视频理解能力以及自然语言处理能力，能够处理多种形式的输入（如图片、文档、视频等），并生成相应的文本输出或执行复杂任务。

简单来说，它是一个“能看懂图片和视频、还能聊天的智能助手”。目标是让机器更好地理解和互动真实世界，广泛适用于从边缘设备到高性能服务器的各种场景。由大型语言模型（LLM）、视觉编码器、视觉-语言融合模块组成。

Qwen2.5-VL多模态模型能够在电脑上执行自动化任务，还能够生成长达数小时的视频，能够更好的与人类交流，支持多语言和复杂的对话。

Qwen2.5-VL 有三种不同规模的版本：

• Qwen2.5-VL-3B：小型模型，适合资源有限的设备（如手机）。
• Qwen2.5-VL-7B：中等规模，性能和效率兼顾。
• Qwen2.5-VL-72B：旗舰型号，能力媲美业界顶尖模型（如 GPT-4o 和 Claude 3.5 Sonnet）。

性能亮点

文档与图表理解：Qwen2.5-VL-72B 在这些任务上媲美 GPT-4o 和 Claude 3.5 Sonnet。
视频理解：支持超长视频（数小时）理解和细粒度事件定位。
小型模型优势：Qwen2.5-VL-3B 和 7B 在同等规模模型中表现优异，适合边缘部署。
泛化能力：无需任务特定微调即可跨领域表现出色。

主要功能

视觉识别与对象定位

• Qwen2.5-VL 在细粒度视觉任务（如对象检测、定位和计数）上表现优异，支持使用边界框或点的精确对象定位。

• 支持绝对坐标和 JSON 格式输出，提升了空间推理能力。
强大的文档解析能力

• 升级文本识别为全文档解析，支持多场景、多语言文档处理，包括手写、表格、图表、化学公式和乐谱等。

• 在结构化数据提取（如发票、表格）以及图表和布局分析上表现出色。
动态分辨率与长视频理解

• 引入动态分辨率处理和绝对时间编码，使模型能够处理不同尺寸的图像和长达数小时的视频，并实现秒级事件定位。

• 通过从头训练动态分辨率的 Vision Transformer（ViT）和窗口注意力机制（Window Attention），降低计算开销，同时保留原生分辨率。
增强的智能体功能

• 通过高级定位、推理和决策能力，Qwen2.5-VL 能在计算机和移动设备上执行复杂任务，成为交互式视觉智能体。它能看懂屏幕内容，推理下一步该做什么，特别适合自动化任务。可以操作电脑或手机界面，比如帮你点按钮、填表单。

• 无需特定任务微调即可实现跨领域的强大泛化能力。
高效架构优化

• 在视觉编码器中引入窗口注意力机制，优化推理效率。

• 动态 FPS（帧率）采样扩展到时间维度，提升视频理解能力。

• 将 MRoPE（多模态旋转位置嵌入）升级为与绝对时间对齐，增强时间序列学习。
多语言支持

• 支持多种语言（中文、英文、法语、日语等），能处理全球范围内的文字和内容。

模型架构

Qwen2.5-VL 由以下三个主要组件构成：

大型语言模型（LLM）

• 基于 Qwen2.5 LLM 初始化，调整为一维 RoPE 升级为多模态 MRoPE，支持时间对齐。
视觉编码器

• 采用重新设计的 Vision Transformer（ViT），支持原生分辨率输入。

• 引入二维 RoPE 和窗口注意力，图像按 14 像素步幅分为 patch，视频通过两帧分组减少 token 数量。

• 使用 RMSNorm 归一化和 SwiGLU 激活函数，提升效率和兼容性。
视觉-语言融合模块

• 使用基于 MLP 的方法压缩视觉特征序列，动态适配不同长度的输入，降低计算成本。

训练数据与流程

预训练数据

• 数据量从 Qwen2-VL 的 1.2 万亿 token 扩展到 4.1 万亿 token。

• 数据类型包括图像字幕、图文交错数据、OCR 数据、视觉知识、多模态问答、定位数据、文档解析、视频描述、视频定位和智能体交互数据。

• 通过清洗网络数据和合成高质量数据提升多样性和质量。
训练阶段

• 视觉预训练：仅训练 ViT，使用图像字幕、知识和 OCR 数据（1.5T token）。

• 多模态预训练：解冻所有参数，加入复杂数据如 VQA、视频和代理任务（2T token）。

• 长上下文预训练：增加序列长度至 32768，加入长视频和长文档数据（0.6T token）。
后训练

• 采用监督微调（SFT）和直接偏好优化（DPO）双阶段优化。

• SFT 使用约 200 万条指令数据（50% 纯文本，50% 多模态），支持多语言和复杂对话。