阿里巴巴发布Qwen2.5-VL多模态模型

阿里巴巴发布Qwen2.5-VL多模态模型

阿里巴巴发布Qwen2.5-VL多模态模型,该模型是是 Qwen 系列的最新旗舰版本,它结合了强大的图像和视频理解能力以及自然语言处理能力,能够处理多种形式的输入(如图片、文档、视频等),并生成相应的文本输出或执行复杂任务。

简单来说,它是一个“能看懂图片和视频、还能聊天的智能助手”。目标是让机器更好地理解和互动真实世界,广泛适用于从边缘设备到高性能服务器的各种场景。由大型语言模型(LLM)、视觉编码器、视觉-语言融合模块组成。

Qwen2.5-VL多模态模型能够在电脑上执行自动化任务,还能够生成长达数小时的视频,能够更好的与人类交流,支持多语言和复杂的对话。

Qwen2.5-VL 有三种不同规模的版本:

Qwen2.5-VL-3B:小型模型,适合资源有限的设备(如手机)。
Qwen2.5-VL-7B:中等规模,性能和效率兼顾。
Qwen2.5-VL-72B:旗舰型号,能力媲美业界顶尖模型(如 GPT-4o 和 Claude 3.5 Sonnet)。

性能亮点

  • 文档与图表理解:Qwen2.5-VL-72B 在这些任务上媲美 GPT-4o 和 Claude 3.5 Sonnet。
  • 视频理解:支持超长视频(数小时)理解和细粒度事件定位。
  • 小型模型优势:Qwen2.5-VL-3B 和 7B 在同等规模模型中表现优异,适合边缘部署。
  • 泛化能力:无需任务特定微调即可跨领域表现出色。

主要功能

  1. 视觉识别与对象定位

    • Qwen2.5-VL 在细粒度视觉任务(如对象检测、定位和计数)上表现优异,支持使用边界框或点的精确对象定位。

    • 支持绝对坐标和 JSON 格式输出,提升了空间推理能力。
  2. 强大的文档解析能力

    • 升级文本识别为全文档解析,支持多场景、多语言文档处理,包括手写、表格、图表、化学公式和乐谱等。

    • 在结构化数据提取(如发票、表格)以及图表和布局分析上表现出色。
  3. 动态分辨率与长视频理解

    • 引入动态分辨率处理和绝对时间编码,使模型能够处理不同尺寸的图像和长达数小时的视频,并实现秒级事件定位。

    • 通过从头训练动态分辨率的 Vision Transformer(ViT)和窗口注意力机制(Window Attention),降低计算开销,同时保留原生分辨率。
  4. 增强的智能体功能

    • 通过高级定位、推理和决策能力,Qwen2.5-VL 能在计算机和移动设备上执行复杂任务,成为交互式视觉智能体。它能看懂屏幕内容,推理下一步该做什么,特别适合自动化任务。可以操作电脑或手机界面,比如帮你点按钮、填表单。

    • 无需特定任务微调即可实现跨领域的强大泛化能力。
  5. 高效架构优化

    • 在视觉编码器中引入窗口注意力机制,优化推理效率。

    • 动态 FPS(帧率)采样扩展到时间维度,提升视频理解能力。

    • 将 MRoPE(多模态旋转位置嵌入)升级为与绝对时间对齐,增强时间序列学习。
  6. 多语言支持

    • 支持多种语言(中文、英文、法语、日语等),能处理全球范围内的文字和内容。

模型架构

Qwen2.5-VL 由以下三个主要组件构成:

  1. 大型语言模型(LLM)

    • 基于 Qwen2.5 LLM 初始化,调整为一维 RoPE 升级为多模态 MRoPE,支持时间对齐。
  2. 视觉编码器

    • 采用重新设计的 Vision Transformer(ViT),支持原生分辨率输入。

    • 引入二维 RoPE 和窗口注意力,图像按 14 像素步幅分为 patch,视频通过两帧分组减少 token 数量。

    • 使用 RMSNorm 归一化和 SwiGLU 激活函数,提升效率和兼容性。
  3. 视觉-语言融合模块

    • 使用基于 MLP 的方法压缩视觉特征序列,动态适配不同长度的输入,降低计算成本。

训练数据与流程

  1. 预训练数据

    • 数据量从 Qwen2-VL 的 1.2 万亿 token 扩展到 4.1 万亿 token。

    • 数据类型包括图像字幕、图文交错数据、OCR 数据、视觉知识、多模态问答、定位数据、文档解析、视频描述、视频定位和智能体交互数据。

    • 通过清洗网络数据和合成高质量数据提升多样性和质量。
  2. 训练阶段

    视觉预训练:仅训练 ViT,使用图像字幕、知识和 OCR 数据(1.5T token)。

    多模态预训练:解冻所有参数,加入复杂数据如 VQA、视频和代理任务(2T token)。

    长上下文预训练:增加序列长度至 32768,加入长视频和长文档数据(0.6T token)。
  3. 后训练

    • 采用监督微调(SFT)和直接偏好优化(DPO)双阶段优化。

    • SFT 使用约 200 万条指令数据(50% 纯文本,50% 多模态),支持多语言和复杂对话。

在线体验:https://chat.qwenlm.ai

模型下载:https://huggingface.co/Qwen

模型下载:https://modelscope.cn/organization/qwen

GitHub:https://github.com/QwenLM/Qwen2.5-VL

1.原创文章,投稿者:今日指南,如若转载,请注明出处:https://www.top10bit.com/alibaba-releases-qwen-2-5-vl-multimodal-model/

2.本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。

3.本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。

4.本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。

5.联系方式(#替换成@):support#top10bit.com

(0)
上一篇 2025年2月20日 下午3:53
下一篇 2025年2月25日 上午8:28

相关推荐

  • 高血压患者健康饮食指南:苹果与香蕉的潜在益处

    一项发表于《营养学前沿》杂志的研究,对美国国家健康与营养检查调查(NHANES)数据库中的2480名高血压患者进行了长达10年的随访。研究根据水果摄入频率将参与者分为不同组别:每月…

    2025年12月29日
  • 夸克网盘搬砖赚钱实操新人教程

    前言 关于搬砖赚钱这个问题,我们在《如何在网上通过分享资源赚钱?》里讨论过了,大致的策略和方法也都讲清楚了,现在就是实际操作的问题。本篇主要是讲夸克网盘的任推邦的申请操作细节、规则…

    2025年4月12日 指南
  • 肺炎的症状有哪些症状

    引言 肺炎(Pneumonia)是一种由细菌、病毒、真菌或其他病原体引起的肺部感染性疾病,严重时可威胁生命,尤其对儿童、老年人和免疫功能低下者影响更大。随着季节变化和呼吸道疾病的高…

    2025年4月27日
  • BT种子磁力搜索工具 – TorrentGalaxy

    种子磁力搜索工具TorrentGalaxy TorrentGalaxy是一个BT种子磁力搜索引擎,它收集了各种影视和音乐资源,包括专门的4K UHD资源。每个种子磁力都非常详细,可…

    2023年6月23日
  • 百度网盘搬砖赚钱实操新人教程

    前言 关于搬砖赚钱这个问题,我们在《如何在网上通过分享资源赚钱?》里讨论过了,大致的策略和方法也都讲清楚了,现在就是实际操作的问题。本篇主要是讲百度网盘的任推邦的申请操作细节、规则…

    2025年4月12日 指南
  • 去湿气最好最快的方法

    引言 湿气是中医健康理念中一个常见的健康问题,尤其在潮湿的季节或地区,许多人会出现身体沉重、疲乏无力、食欲不振等不适症状。湿气不仅影响日常生活的舒适度,还可能诱发关节疼痛、消化不良…

    2025年4月27日
  • 如何加速境内Cloudflare托管网站

    📜 前言 境内使用 Cloudflare 都会遇到一个问题,Cloudflare 不是有全球的 CDN 节点吗?怎么给我的网站“反向加速”了?我们再看看这张图片: Cloudfla…

    2024年9月9日 指南
  • 谷歌学术镜像站与学术资源工具

    谷歌学术Google Scholar是什么? 海外留学的朋友们应该都知道,想要顺利毕业,写论文可是一项非常重要的技能,而且和国内相比,国外的学术论文要求更为严格,要遵循一定的学术格…

    2023年6月24日
  • 冬虫夏草什么功效与作用

    引言 冬虫夏草,这一被誉为“中药瑰宝”的珍稀药材,自古以来就在中医养生和治疗中占据重要地位。其独特的生长环境和卓越的药用价值,使其成为许多人追求健康与长寿的首选补品。然而,冬虫夏草…

    2025年4月27日
  • 皱纹去除的最好办法是什么

    引言 皱纹是岁月在皮肤上留下的痕迹,随着年龄增长、环境因素和生活方式的影响,皮肤逐渐失去弹性,细纹和深层皱纹随之显现。对于追求青春与美丽的人来说,“皱纹去除的最好办法是什么”是一个…

    2025年4月27日

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Leave the field below empty!