最近Intel Gaudi-3的发布,基于RoCE的Scale-UP互联,再加上Jim Keller也在谈用以太网替代NVLink。
2024-04-22 17:22
开放数据中心委员会ODCC冬季全员会议于12月4日-6日在春暖花开的昆明举行。奇异摩尔首席系统架构师朱琛作为网络工作组ETH-X超节点项目的核心成员分享了AI Networking Scale Up卡间互联的新路径解决方案并展开了相关应用分析。
2024-12-09 09:36
作者:算力魔方创始人/英特尔创新大使刘力 一,AI演进的核心哲学:通用方法 + 计算能力 Richard S. Sutton在《The Bitter Lesson》一文中提到,“回顾AI研究历史,得到一个AI发展的重要历史教训:利用计算能力的通用方法最终是最有效的,而且优势明显”。核心原因是摩尔定律,即单位计算成本持续指数级下降。大多数 AI 研究假设可用计算资源是固定的,所以依赖人类知识来提高性能,但长期来看,计算能力的大幅提升才是推进AI演进的关键。 《The Bitter
2025-04-09 14:31
我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已
2024-01-30 15:56
Scale-up网络是以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量为主,来满足在网计算的加速需求。据相关大模型厂商介绍,对Scale-up网络规模的需求预计在未来
2024-11-18 11:14
在这方面,为中端存储立下新标杆的戴尔易安信PowerStore可以说是杰出代表。其同时具备的纵向扩展(Scale-up)及横向扩展(Scale-out)架构,不仅可以让升级永不停机并拥有更多弹性,还能让用户选择不同系统节点(控制器)的升级方案。
2020-12-21 15:44
随着AI大模型训推集群的规模不断扩大,Scale-up网络的重要性已不限于训练集群侧,云端推理集群对于多机之间组成超节点HBD方案的需求正在逐步增加。面对其对互联性能的极致追求,目前业内主要采用专门设计的协议比如NVIDIA的NVLink及NVSwitch技术。
2025-04-12 14:42
我去实测了一下,单机8卡A100训练LLama7B,纯数据并行的情况下打开memory_efficient开关相比于不打开节省了大约2个G的显存,如果模型继续scale up,那么省掉的显存也会更多。
2024-01-16 09:55
本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的开源与快速部署预示着国产AI网络自主自控将大有可为。
2025-02-07 09:20
提升集群规模,就需要把数据中心从微观到宏观、点对点地连接起来,增强各个层面的互联性能,真正有效地应用算力资源。” 奇异摩尔创始人兼CEO田陌晨在接受电子发烧友采访时表示。 伴随着摩尔定律的放缓步伐,通过Scale up提升单处理器系统的性能和算力遭
2024-04-07 00:06