当前位置: 首页 > 综合

AI投资:海外巨头布局,国内有望迎来加速

日期:2023-04-14 10:00:32 来源:财闻网

日前,国信证券在研报中指出,AIGC等新应用场景的出现,成为未来云基建投资的重要推动力。数据中心作为流量的基石,算力的重要载体,核心受益于算力和流量的扩张,近十年行业经历了几轮快速的发展增长,分别受益于移动互联网、疫情带来的线上流量增长等。随着AI等新应用场景的出现,为行业赋予了新的增长动能,有望带动行业新一轮建设升级。

人工智能主要利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。AI的核心技术主要包含:深度学习(DL)、计算机视觉(CV)、自然语言处理(NLP)和数据挖掘(DM)等,AI目前主要的应用场景包括:医疗、无人机、自然语言处理和计算机视觉与图像处理等。

ChatGPT:确立LLM模型的大参数和深度学习两大属性


(资料图片仅供参考)

ChatGPT的出现确立了大语言模型两个必备元素:大参数+深度学习(Large&Deep)。

ChatGPT是基于自然语言处理(NLP)下的AI大模型,产品能够通过大算力、大规模训练数据突破AI瓶颈,通过理解和学习人类的语言来进行对话,并引入新技术RLHF (Reinforcement Learning with Human Feedback,即基于人类反馈的强化学习)进一步提升了人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。

在在GPT模型出现之前,行业对于AI大模型的构建并没有取得较高关注,核心在于没看到模型展现出靠近人类的特征。GPT模型首次展示出了通过深度学习和大模型参数的输入,AI模型可以涌现出靠近人类的特征。

一般认为模型的思维推理能力与模型参数大小有正相关趋势,一般是突破一个临界规模(大概62B,B代表10亿),模型才能通过思维链提示的训练获得相应的能力。如果在6B以下,那很可能还只是GPT-2级别的初级模型。

AI大模型下,网络结构向低延时高速率演进

AI模型作为高性能计算业务,强调低时延高速率,通常由IB网络承载。数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。

每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。由于上述业务对网络的要求不同,数据中心内部一般会部署三张不同的网络:由IB(InfiniBand)网络来承载HPC业务,由FC(Fiber Channel)网络来承载存储网络,由以太网来承载通用计算业务。

数据中心从云时代进入AI时代。在企业数字化转型的大背景下,数据资产逐步成为企业的核心资产。和云计算时代比,AI时代企业数据中心的使用正在聚焦业务快速发放向聚焦数据高效处理转变。未来满足在AI时代下数据高效处理诉求,0丢包、低时延、高吞吐成为AI数据中心核心考核指标。

Infiniband高速网络,大模型下优选网络技术

以太网是一种广泛使用的网络协议,但其传输速率和延迟无法满足大型模型训练的需求。相比之下,端到端IB(InfiniBand)网络是一种高性能计算网络,能够提供高达 400 Gbps 的传输速率和微秒级别的延迟,远高于以太网的性能。这使得IB网络成为大型模型训练的首选网络技术。

Infiniband网络(IB网络):是指通过一套中心 Infiniband 交换机在存储、网络以及服务器等设备之间建立一个单一的连接链路,通过中心 Infiniband 交换机来控制流量,能够降低硬件设备间数据流量拥塞,有效解决传统 I/O结构的通信传输瓶颈,还能与远程存储设备和网络设备相连接。

端到端IB网络还支持数据冗余和纠错机制,能够保证数据传输的可靠性。在处理大模型中较多的数据时,数据传输错误或数据丢失可能会导致训练过程中断甚至失败,因此保证传输的可靠性尤为重要,而IB网路有效实现了保证。

AI大模型驱动高速率光模块需求释放

AI模型高并行计算+低时延,驱动网络部署速率门槛快速提升。AI大语言模型下,存储和计算部分发生了较多变化,存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足存储介质时延降低了不止100倍数;高效计算部分,已经普遍采用GPU或者专用ASIC芯片,处理数据能力提升百倍。

一个高效的模型在硬件依赖三个环节性能的改进,存储、计算和网络通信能力,存储和计算已经通过芯片迭代快速提升,因此通信时延的优化决定了性能进一步提升的可能性,因此加快推进大带宽高速网络部署。英伟达方案下,网络带宽从传统方案的25G/100G快速提升至端到端200G和400G,加快高速率光模块需求释放。

AI投资:海外巨头布局

ChatGPT&AI等应用推出衍生出大模型算力的需求:全球OpenAI推出的最新ChatGPT模型参数已经超过1750亿个。在美国,OpenAI、谷歌、微软、脸书等机构形成了GPT-3、SwitchTransformer、MT-NLG等千亿或万亿参数量的大模型。

微软:早在2019年,微软就对OpenAI进行了高达10亿美元的投资,并获得了GPT的独家授权,而与此同时,OpenAI同意从“谷歌云”转向“微软云”。2021年,微软再次进行投资,推出OpenAI与自有产品深度集成的新工具。而后在今年1月23日微软又宣布向OpenAI追加数十亿美元的投资,且于2月2日宣布旗下所有产品将全线整合ChatGPT,包括且不限于Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure云服务、Teams聊天程序等。

谷歌:尽管被微软后来居上,但是谷歌早在2013年就开始研究AI聊天机器人,于2016年出资6亿美元收购了英国人工智能公司DeepMind。2017年时谷歌已实现了重大的技术突破,推出了神经网络系统Transformer,并研发出了一款名叫Meena的聊天机器人,于2021年更名为LaMDA推出,但由于舆论争议谷歌取消了原本的发布安排。但是由于最近微软的步步紧逼,谷歌开始向AI方向倾斜,今年二月谷歌向ChatGPT的竞品公司Anthropic投资3亿美元,并计划于今年发布Sparrow内测版等一系列AI产品。

AI投资:国内有望迎来加速

国内企业积极陆续布局AI等应用场景投资,后续有望持续加大。在中国,浪潮、中科院、阿里达摩院等陆续推出源1.0、紫东太初、M6等。其中,浪潮“源1.0”巨量模型,参数量和数据集分别达到2457亿和50000GB,相比于美国GPT-3,源1.0参数集规模高40%,训练数据集规模领先近10倍。

百度:2月7日晚,百度在官方微信公众号宣布即将推出大模型新项目“文心一言”(ERNIE Bot),并透露首站将直接接入百度搜索。目前百度可能是国内最有实力推出类ChatGPT产品的科技公司。

阿里:2023年1月,阿里巴巴达摩院发布2023年十大科技趋势,其中多模态预训练大模型、生成式AI在列,阿里版聊天机器人ChatGPT正在研发中,目前处于内测阶段。在AI、大模型等ChatGPT所需的底层技术上,达摩院此前曾先后推出超越谷歌、微软的10万亿规模的M6大模型、AI模型开源社区“魔搭”等。

腾讯:2022年4月21日,腾讯对外正式对外披露“混元”AI大模型,该模型包含但不限于:计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。去年12月,腾讯又推出了国内首个低成本、可落地的NLP万亿大模型,并公布了大模型的训练方法——最快用256张卡,1天内就能训练完成,成本直接降至原来的1/8。今年2月9日,腾讯表示目前在ChatGPT相关方向上已有布局,专项研究也在有序推进。

京东:2月10日,京东正式宣布,京东云旗下言犀人工智能应用平台将整合过往产业实践和技术积累,推出产业版ChatGPT:ChatJD,并公布ChatJD的落地应用路线图“125”计划。ChatJD将以“125”计划作为落地应用路线图,包含一个平台、两个领域、五个应用。

标签:

上一篇:

下一篇:

热门推荐

猜你喜欢

市场