远超英伟达H100！英特尔最强AI芯片登场-Kedou视频解析

4月9日，Intel在“IntelVision2024”大会上正式宣布推出旗下最新人工智能芯片Gaudi3和全新至强6处理器，进一步拓展了其Intel人工智能产品路线图。

Intel声称，与NVIDIAH100芯片相比，Gaudi3芯片的平均推理提升50%，能效平均提升40%，运行人工智能模型的速度是1.5倍与H100相同，而成本仅为H100。一小部分。这款产品将与Nvidia最新的H200大致相当，在某些方面甚至更好。

Intel预计Gaudi3芯片将在今年第三季度大规模向客户提供，戴尔、惠普、联想、超微电脑等公司将成为首批客户。受此消息影响，英特尔股价在美股交易期间短线飙升逾2%。

英特尔CEO基辛格表示，到2030年，半导体市场规模将达到1万亿美元，AI将是主要驱动力。英特尔预计2024年出货4000万台AIPC，以及超过230种设计，涵盖轻薄PC和游戏手持设备。基辛格介绍，将于2024年推出的下一代英特尔酷睿Ultra客户端处理器家族（代号LunarLake）将拥有超过100TOPS的平台计算能力，并在神经网络处理单元（NPU）上带来超过46TOPS。TOPS算力，从而为下一代AIPC提供强有力的支持。

01 Gaudi3芯片

据了解，Gaudi3采用台积电5nm工艺。在芯片设计方面，Gaudi3转向了具有两个计算集群的chiplet设计，而不是Gaudi2.计划使用的单个集群。

Gaudi3拥有8个矩阵数学引擎、64个张量核心、96MBSRAM（每个Tile48MB，提供12.8TB/s总带宽）和128GBHBM2e内存、16个PCIe5.0通道和24条200GbE链路。计算核心周围是八个HBM2e内存堆栈，总容量为128GB，带宽为3.7TBps。

与上一代相比，Gaudi3的性能、FP8性能和网络性能在BF16工作负载方面是Gaudi2的两倍（Gaudi2内置24个100GbERoCE网卡），HBM容量是Gaudi21.5倍。

此外，Gaudi3器件中的张量核心支持与Gaudi2相同的FP32、TF32、BF16、FP16和FP8数据格式，但不支持FP4精度。相比之下，Nvidia的新型BlackwellGPU将支持FP2精度，而Nvidia现有的HopperGPU则不支持。

Intel表示，Gaudi3预计将大幅缩短70亿和130亿参数Llama2模型，以及1750亿参数GPT-3模型的训练时间。此外，Llama7B、70B和Falcon180B大语言模型（LLM）在推理吞吐量和能效方面也表现出了优异的性能。

无论是FP8还是FP16/BF16，大型语言模型运行在多个AI加速器上的情况并不少见。例如，要在FP16上推断具有1750亿个参数的大型模型，您需要至少5个具有80GBHBM内存的H100来将模型放入其中。为此，Nvidia和AMD分别使用称为NVLink和InfinityFabric的专用互连，它们提供约900GBps的带宽，将八个或更多AI加速器拼接在一起。相比之下，IntelGaudi3使用常规的旧RDMA融合以太网(ROCe)。

然而，Gaudi3有24个200GbE接口，总带宽为1.2TBps。24个链路中的3个专用于节点外通信，剩下1TBps用于服务器内的芯片到芯片通信。英特尔认为，通过将以太网卡集成到其Gaudi3加速器中，也将更容易扩展以支持使用传统骨干叶架构的512甚至1,024节点集群。

02 大规模AI计算已进入系统竞争

现在谈到大型模型训练芯片，英伟达是首选供应商，但这棵摇钱树早已被其他芯片厂商和创业新秀瞄准，英特尔是其中之一。随着Gaudi3的正式发布，Intel正试图打破这种垄断局面，这将为市场带来另一种选择。

大规模AI计算进入系统竞争。无论是冠军Nvidia，还是英特尔、AMD、Cerebras、Groq等追赶者，他们都明显加大了对先进chiplet封装、先进存储和先进互连技术的重视。通过超越工艺和光罩限制来优化芯片内部设计，并将技术升级延伸到大规模集群系统，为整个数据中心的AI计算提供更高的性能和能效加速。

除了Gaudi3之外，Intel还在IntelVision大会上分享了数据中心Xeon处理器和AIPC的进展，并远程连接Intel晶圆厂的同事，演示先进的AI技术如何用于AIPC上辅助芯片检测。

英特尔宣布对其下一代数据中心、云和边缘处理器英特尔至强6进行品牌更新。配备能效核心的至强6（之前代号为SierraForest）将于2024年第二季度推出，随后将推出配备性能核心的至强6（之前代号为GraniteRapids）。

配备性能核的英特尔至强6包含了对MXFP4数据格式的软件支持，与使用FP16的第四代至强处理器相比，可将下一个token的延迟时间缩短至原来的15%，能运行700亿参数Llama-2模型。

英特尔预计将于今年出货4000万台AI PC，以及超过230种的设计，覆盖轻薄PC和游戏掌机设备。新一代英特尔酷睿Ultra客户端处理器家族（代号Lunar Lake）将于今年推出，具备超过100 TOPS平台算力，NPU算力超过46TOPS。

首页

视频解析

批量解析下载

下载器

教程

博客

字幕弹幕
字幕下载
哔哩哔哩
YouTube
腾讯（国际版）
优酷（海外版）
爱奇艺（国际版）
Dailymotion
Ted
Viki
Vimeo
Weverse
弹幕下载
哔哩哔哩
爱奇艺
腾讯视频
优酷视频
抖音
芒果TV
西瓜视频

歌词下载
网易云音乐
QQ音乐
酷狗音乐
酷我音乐
千千音乐

文本提取
知乎
小红书
CSDN
博客园
简书
百度文库
PHP中文网
51CTO博客
脚本之家

联系我们

远超英伟达H100！英特尔最强AI芯片登场

01 Gaudi3芯片

02 大规模AI计算已进入系统竞争

首页

视频解析

批量解析下载

下载器

教程

博客

字幕弹幕 字幕下载 哔哩哔哩 YouTube 腾讯（国际版） 优酷（海外版） 爱奇艺（国际版） Dailymotion Ted Viki Vimeo Weverse 弹幕下载 哔哩哔哩 爱奇艺 腾讯视频 优酷视频 抖音 芒果TV 西瓜视频

歌词下载 网易云音乐 QQ音乐 酷狗音乐 酷我音乐 千千音乐

文本提取 知乎 小红书 CSDN 博客园 简书 百度文库 PHP中文网 51CTO博客 脚本之家

联系我们

远超英伟达H100！英特尔最强AI芯片登场

01 Gaudi3芯片

02 大规模AI计算已进入系统竞争

字幕弹幕
字幕下载
哔哩哔哩
YouTube
腾讯（国际版）
优酷（海外版）
爱奇艺（国际版）
Dailymotion
Ted
Viki
Vimeo
Weverse
弹幕下载
哔哩哔哩
爱奇艺
腾讯视频
优酷视频
抖音
芒果TV
西瓜视频

歌词下载
网易云音乐
QQ音乐
酷狗音乐
酷我音乐
千千音乐

文本提取
知乎
小红书
CSDN
博客园
简书
百度文库
PHP中文网
51CTO博客
脚本之家