大模型角力视觉推理推理AI新时代来临？

来源：21世纪经济报道发布时间：2025-07-03 13:19:22

输入一个PPT，自动生成汇报内容、演讲稿；输入一段“苏超”视频，得到一段足球解说……如今的大语言模型不只会看文字，还会看图片、视频。

7月2日，智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入，可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号，不光是简单的信号接收，还可以根据视觉信号进一步推理，理解复杂的物理世界。”在现场演示时，智谱CEO张鹏介绍道，智谱基于预训练构造了视觉理解模型，监督微调使其初步具备推理能力，再基于深度学习大幅提高推理能力，在业内首次把推理能力和视觉理解能力有机结合在一起。

(资料图)

今年以来，视觉推理成为大模型竞争焦点：OpenAI推出o3和o4-mini，首次实现将图像融入推理过程；字节跳动旗下火山引擎发布豆包1.5深度思考模型，具备视觉推理能力；阿里通义发布QVQ-Max，支持图像解析、视频分析等能力。

“AGI（通用人工智能）可以分为5个层次：L1是预训练大模型，L2是对齐、推理，L3是自我学习，L4是自我认知，L5是意识智能。”张鹏指出，视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成，而AI，正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力，能够做什么？

中信建投证券研究指出，多模态模型可以直接“看到”PDF中的图片、图表、表格布局等视觉元素并从中提取信息，同时也能理解PDF的页面布局，例如识别标题、段落、列表、表格的位置和关系，这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例，首先可以用于图片理解，如看图买菜；也可以用于数学与科学推理，尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目，视觉推理能够支持复杂题解、多步演绎与公式理解。此外，大模型具备时序分析与事件逻辑建模能力，能够用于视频理解。

人类不仅希望AI能思考，还希望AI能执行——通过自主智能体的方式，现有的大模型能力能转化成真正的生产力。

此前，大模型可以用于代码生成；而视觉推理能力使得AI能够“看懂”和“理解”视觉信息，比如用户界面（UI）的设计图、原型图甚至屏幕截图，可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体，让它理解GUI（图形用户界面），比如理解手机、PC上复杂的用户操作界面，形成精准的操作逻辑。”据张鹏介绍，GLM-4.1V-Thinking能够用于GUI与网页智能体任务，实现交互操作；还可以用于视觉锚定与实体定位（Grounding），通过语言与图像区域精准对齐，提升人机交互可控性。

国盛证券研究指出，视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作，创造性地、有效地解决更复杂的问题，为用户提供多模态Agent体验。

可以看到，视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位（Grounding）、GUI Agent和代码生成。中信建投证券也指出，其缺点在于处理信息过多时容易出现幻觉，对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步，大模型企业也在谋求将这一能力转化为数字化生产力，寻求商业化落地。

面对B端客户，大模型企业一方面提供Agent，打通“最后一公里”。如智谱面向企业客户和开发者，推出了Agent应用空间，企业无需自建大模型团队，即可低门槛接入成熟、安全、可控的Agent能力。

如果说大模型是发动机，Agent则是由发动机提供动力的汽车、飞机、军舰，包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作，还是蓝领的体力工作，抑或是偏向顶尖研究人员的创意和研究探索型任务更合适？对于这些问题，业界仍然在不断探索。”张鹏认为，但只有让AI工人实现了代替人的一部分基础性、重复性工作，才能够实现真正的降本增效，这是智能体能力的关键点。

长江证券研究指出，视觉推理+工具调用的深度融合下，教育、医疗、企服等垂直场景的 Agent落地周期有望提前，看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者，随着生成式AI向“自主智能体”演进，AI将不再仅仅是执行指令的工具，而是能够主动规划、协同并完成复杂任务的智能伙伴，这可能会催生全新的商业模式。

另一方面，大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进：早期模型很大，只能在云上推理，手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决，端侧也可以部署一定的智能能力，如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人，还是汽车、眼镜、胸针，都会接入AI的能力。”张鹏认为。