大模型角力视觉推理 推理AI新时代来临?
来源:21世纪经济报道 发布时间:2025-07-03 13:19:22

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。

7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入,可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推理,理解复杂的物理世界。”在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视觉理解能力有机结合在一起。


(资料图)

今年以来,视觉推理成为大模型竞争焦点:OpenAI推出o3和o4-mini,首次实现将图像融入推理过程;字节跳动旗下火山引擎发布豆包1.5深度思考模型,具备视觉推理能力;阿里通义发布QVQ-Max,支持图像解析、视频分析等能力。

“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力,能够做什么?

中信建投证券研究指出,多模态模型可以直接“看到”PDF中的图片、图表、表格布局等视觉元素并从中提取信息,同时也能理解PDF的页面布局,例如识别标题、段落、列表、表格的位置和关系,这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例,首先可以用于图片理解,如看图买菜;也可以用于数学与科学推理,尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目,视觉推理能够支持复杂题解、多步演绎与公式理解。此外,大模型具备时序分析与事件逻辑建模能力,能够用于视频理解。

人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真正的生产力。

此前,大模型可以用于代码生成;而视觉推理能力使得AI能够“看懂”和“理解”视觉信息,比如用户界面(UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户操作界面,形成精准的操作逻辑。”据张鹏介绍,GLM-4.1V-Thinking能够用于GUI与网页智能体任务,实现交互操作;还可以用于视觉锚定与实体定位(Grounding),通过语言与图像区域精准对齐,提升人机交互可控性。

国盛证券研究指出,视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户提供多模态Agent体验。

可以看到,视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位(Grounding)、GUI Agent和代码生成。中信建投证券也指出,其缺点在于处理信息过多时容易出现幻觉,对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。

面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。

如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。

长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。

另一方面,大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。

标签: 推理 能力 大模型 视觉 Agent AI 模型 角力 理解 来临

上一篇:宏源药业7月3日盘中涨幅达5%

下一篇:

猜你喜欢

大模型角力视觉推理 推理AI新时代来临?

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinki更多

2025-07-03 13:19:22

宏源药业7月3日盘中涨幅达5%

以下是宏源药业在北京时间7月3日13:17分盘口异动快照:7月3日,宏源药业盘中涨幅达5%,截至13点17分,报15.79元,成交8869.21万元,换手率3.60%。注:以上信息仅供参考,不对您构成更多

2025-07-03 13:17:32

新动态:金晶科技7月3日快速反弹

以下是金晶科技在北京时间7月3日13:17分盘口异动快照:7月3日,金晶科技盘中快速反弹,5分钟内涨幅超过2%,截至13点17分,报5.34元,成交3.28亿元,换手率4.41%。注:以上信息仅供参考更多

2025-07-03 13:15:55

大东南7月3日快速回调

以下是大东南在北京时间7月3日13:17分盘口异动快照:7月3日,大东南盘中快速回调,5分钟内跌幅超过2%,截至13点17分,报4.1元,成交20.00亿元,换手率28.48%。注:以上信息仅供参考,更多

2025-07-03 13:16:46

热文:全国首个“人机共驾”事故责任判定解决方案落地

【全国首个“人机共驾”事故责任判定解决方案落地】据金融时报,近日,平安产险联合中汽中心与问界推出组合辅助驾驶事故责任判定一体化解决方案,标志着“人机共驾”时代事故责任判定解决方案的诞生。据悉,上述三方更多

2025-07-03 13:19:52

大东南7月3日盘中涨幅达5%-每日动态

以下是大东南在北京时间7月3日13:12分盘口异动快照:7月3日,大东南盘中涨幅达5%,截至13点12分,报4.12元,成交18.86亿元,换手率27.00%。注:以上信息仅供参考,不对您构成任何投资更多

2025-07-03 13:10:14

万里股份7月3日盘中涨停&今日热搜

以下是万里股份在北京时间7月3日13:12分盘口异动快照:7月3日13点12分,万里股份盘中涨停,报12.35元,目前封单14160手,折合1748.76万元。截至目前,成交1.39亿元,换手率8.1更多

2025-07-03 13:13:51

金一文化7月3日盘中涨停|每日视讯

以下是金一文化在北京时间7月3日13:13分盘口异动快照:7月3日13点13分,金一文化盘中涨停,报3.65元,目前封单2551456手,折合9.31亿元。截至目前,成交9.01亿元,换手率9.66%更多

2025-07-03 13:12:02

时讯:泰禾股份7月3日快速上涨

以下是泰禾股份在北京时间7月3日13:13分盘口异动快照:7月3日,泰禾股份盘中快速上涨,5分钟内涨幅超过2%,截至13点13分,报32.01元,成交1.25亿元,换手率11.22%。注:以上信息仅供更多

2025-07-03 13:15:07

即时:广信材料7月3日快速反弹

以下是广信材料在北京时间7月3日13:10分盘口异动快照:7月3日,广信材料盘中快速反弹,5分钟内涨幅超过2%,截至13点10分,报26.1元,成交8.71亿元,换手率23.05%。注:以上信息仅供参更多

2025-07-03 13:12:03