提供“开箱即用”的大模型训练能力，「算想未来」推出云原生大模型算力平台-豆绘AI

提供“开箱即用”的大模型训练能力，「算想未来」推出云原生大模型算力平台

发布时间：2023-08-23 浏览量：210

AI算力平台技术提供商「算想未来」推出云原生大模型算力平台，通过先进 GPU集群调度算法、软件优化提升客户集群使用效率、降低大模型算力使用成本。算想未来是服务于大模型的算力云服务技术提供商，2022年10月获得陆奇博士的奇绩创坛种子轮融资。创始人赵亚雄博士毕业于清华大学，长期从事分布式算力平台领域的研发工作，此前在谷歌数据中心网络基础设施团队担任Tech Lead，负责高性能网络架构与 SDN 系

豆绘AI（douhuiai.com）08月23日消息:

AI算力平台技术提供商「算想未来」推出云原生大模型算力平台，通过先进 GPU集群调度算法、软件优化提升客户集群使用效率、降低大模型算力使用成本。

算想未来是服务于大模型的算力云服务技术提供商，2022年10月获得陆奇博士的奇绩创坛种子轮融资。

创始人赵亚雄博士毕业于清华大学，长期从事分布式算力平台领域的研发工作，此前在谷歌数据中心网络基础设施团队担任Tech Lead，负责高性能网络架构与 SDN 系统研发；后在集群管理系统团队 Borg担任Tech Lead Manager，负责谷歌 GPU/TPU 算力平台的研发工作。创立算想未来之前，赵亚雄是云原生可观测性创业公司 Pixie 创始团队成员，带领技术团队在 1.5 年内被上市公司 New Relic 收购。

在谷歌工作期间，赵亚雄博士积累了大量AI算力平台软件系统中的核心技术研发经验，包括 GPU/TPU 调度、高性能网络通信、光电混合网络架构等方面的研发开发经验。

赵亚雄博士向36氪表示，全球云服务市场美国厂商整体规模是国内厂商数倍，AWS、谷歌、微软三家份额接近70%，国内厂商整体占比约为10%，细分至AI领域，算力规模差距、及算力平台软件系统的差距则更大。

随着生成式 AI及AI大模型的兴起，国内厂商采购GPU面临核心技术指标受限的难题：单芯片算力不能超过 4800 TOPs、多卡通信带宽不能超过600 GB/s。此两项指标上限取自 NVIDIA A100；下一代的NVIDIA H100 提供 900GB/s 多卡通信带宽，国内能采购的A800、H800多卡带宽为400 GB/s，落后接近60%。

此外，GPU产能吃紧，溢价较为严重。A100/A800 2023 年上半年的价格相对 2021 年上涨50%，并且A100/A800 已停产，NVIDIA 已不再接收 A100/A800 订单。

据Raymond James数据，一张H100计算卡制造成本为3320 美元，NVIDIA以2.5万至3万美元的价格出售给客户，毛利率高达1000%，且需求只增不减，H100已售罄缺货到2024年。在高端算力需求快速增长的情况下，中国厂商将来需要更高效的GPU算力的软硬件优化方案解决高端GPU短紧缺的情况难题。

利用软硬件优化释放GPU资源池算力的过程较为复杂，包含了服务器架构、编译工具链、AI 应用框架、分布式计算、高性能存储等多个层级。针对各公司自身算力池的优化方案，国内大部分厂商若要搭建相应软件团队，需要在各个层级都聘请工程师团队，成本较高。此外，上述软件系统的运维成本也极其高昂。

针对上述情况，算想未来为客户提供“开箱即用”的大模型训练能力和硬件资源管理能力，实现低成本的高端算力服务。未来拓展为训推一体大模型算力云平台，为大模型团队提供一站式算力云平台解决方案。

硬件资源管理能力方面，算想未来为客户的 GPU 服务器集群搭建基于 Kubernets 的云原生算力平台。依托来自容器和云原生技术发源地 Google Borg 的先进 GPU 资源调度算法，提升 GPU 服务器集群的资源使用率。

大模型训练能力方面，与传统基于单卡的计算任务不同，大模型训练属于大规模分布式计算任务，GPU在该长时间训练过程中的故障率高达5%-20%。一旦GPU发生偶发性故障，需要工程师手动干预来重启训练任务，降低了大模型团队的研发效率。

第一阶段，算想未来目前以AI私有云平台为切入口，针对英伟达GPU算力池优化进行GPU I/O优化、集合通信（collective communication）性能等领域进行软件方面的优化。

同时通过自动化监控监测 GPU 运行情况、以及计算任务执行情况，客户可在算想未来平台上做到容错调度，实现无人干预的长时间稳定训练的效果，提升大模型团队研发效率、加速模型迭代。

算想未来已积累到多家种子客户，主要系拥有自己GPU算力池的公司，包括国内知名的 GPU 算力池企业、地方及国家级人工智能算力中心等。

赵亚雄博士表示，算想未来目前的客户更偏向于拥有算力资源的企业，第二阶段公司将开发分布式大模型算力市场，为大模型团队和算力提供方提供开放的算力采购、售卖的市场。

以IDC提供的A100集群为例，虽然目前GPU较为紧缺，但使用率仅在30%-60%之间，存在大量闲置算力。单一的IDC厂商主攻软件优化方案将耗费大量人力物力，同时目前软件营收规模吸引力较小，IDC厂商更愿意专注于大客户的硬件长租业务，相应成本中小客户难以承担，寻找相应软件合作商成为目前国内IDC厂商的主流选择。

此外，算想未来将与公有云厂商合作，将长租公有云 GPU 集群算力，搭配私有云平台的软件技术，为客户提供随需随用的高端 GPU 算力；更进一步通过软件优化，将闲置的中低端 GPU（包括国产 GPU）的算力充分释放，支持大模型推理的算力需求，让闲置算力拥有者获得变现渠道。

如今AI浪潮席卷到中国市场，几乎所有的主流云厂商、芯片厂商都有做AI算力集群、AI云的尝试，算想未来如何看待和大厂的竞争？

赵亚雄博士表示，算想未来的客户是迫切寻求大模型工程能力的中小型技术企业，相比主要云厂商主攻大客户提供“劳斯莱斯”，此类解决方案规模庞大、功能齐全但是使用困难，中小企业难以负担其高昂的成本；算想未来为中小型技术企业提供“随叫随到的 Waymo 无人网约车”，即自动化免运维的大模型算力服务，在中短期内与主流云厂商不发生直接利益冲突。

同时国产GPU成熟前，国内进口GPU的质量和数量受到限制，国产GPU能大规模商业化落地还需时日，目前大厂难以实际应用，算想未来通过与国产 GPU 的战略合作，可以积累到足够的技术壁垒。

当前，算想未来与国产 DPU、GPU 厂商、高校科研团队签署合作协议，开展针对大模型算力需求场景下，适配国产 DPU、GPU 的高性能集合通信算法与软件 API；同时开展基于国产 GPU 的大模型算力平台的研发。

其他团队成员方面，算想未来创始团队均来自谷歌、华为等企业，具有世界顶尖的 AI 算力平台研发经验。算想未来目前开启新一轮融资，计划建立硅谷研发中心，用于扩充工程师团队和推进分布式大模型算力市场的商业化。

上一篇：国内大模型的分水岭来了？

下一篇：阿里平头哥发布RISC-V AI软硬全栈平台支持运行170余个主流AI模型

声明： 本站所有文章，如无特殊说明或标注，均为网友发布。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

最新热文 7天