【计算机设备】计算机行业专题报告:大模型推理算力知多少?
来源:财通证券 发布时间:2023-08-25 06:16:56


(资料图片)

Transformer生成为访存密集型任务,显存及其带宽限制算力利用。

Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,实际产业中,会将已经计算过的量(K、V值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于访存。

目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。

支撑GPT-3.5推理任务的A100数量或至少在5万张左右。根据我们测算,若以GPT-3.5当前的流量情况以及token生成速度,大约需要5万张左右的A100才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。

英伟达L40s开启降本第一步,应用有望加速落地。L40s在特定场景下性价比超越A100,供货周期较短。我们认为,L40s的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H系列仍具有不可代替的能力,L40s的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H系列芯片又仍将需求旺盛。

投资建议:见正文

风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。

标签:

猜你喜欢

【计算机设备】计算机行业专题报告:大模型推理算

Transformer生成为访存密集型任务,显存及其带宽限制算力利用。Transfo更多

2023-08-25 06:16:56

【计算机设备】计算机行业快报:数据资源暂行规定

投资要点事件:8月21日,财务部印发了《企业数据资源相关会计处理暂行更多

2023-08-25 06:22:25

8.24收评:三大指数今日集体反弹,核污染防治相关

三大指数今日集体反弹,沪指午后冲高回落,创业板指盘中涨超2%,尾盘涨更多

2023-08-24 15:16:47

8月23日,大盘如约变盘,今天大盘振荡后冲高回落

8月23日,大盘如约变盘,今天大盘振荡后冲高回落小阳收一、影响股市的更多

2023-08-24 11:21:29

【食品饮料】大众食品7月电商数据跟踪:7月休闲零

行业核心观点:7月三大电商平台(淘系、京东、拼多多)线上销售数据公更多

2023-08-24 06:15:36

【有色金属】有色周汇报:美联储纪要偏鹰,金属价

工业金属:LME铜价本周8176美元 吨,周下跌0 8%,国内铜现货价68860元 更多

2023-08-24 06:20:33

【银行】银行:二季度银行业监管数据:息差低位企

事件:8月18日,国家金融监督管理总局发布银行业二季度主要监管指标数更多

2023-08-24 06:26:55

【文化传媒】传媒行业跟踪点评报告:数据资产开启

投资要点行业事件:财政部印发《企业数据资源相关会计处理暂行规定》,更多

2023-08-24 06:20:59

【农牧饲渔】农林牧渔:猪价上涨乏力,7月能繁母

生猪养殖:猪价持续上涨乏力根据农村农业部数据,2023年第32周(08 05-更多

2023-08-24 06:26:45

降价潮+新车型+促销费政策!汽车市场有望迎来“金

7月汽车产销分别完成240 1万辆 238 7万辆,环比-6 25% -9 00%,同比-2 更多

2023-08-23 17:25:07