炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!
来源:新智元
新智元报道
编辑:桃子 KinghZ
【新智元导读】全网震撼!马斯克官宣,全球首个吉瓦级超算Colossus 2正式上线,狂堆55万块GPU,目标直指百万。下一代Grok 5已在训练,6万亿参数将引爆智能奇点。
全球首个吉瓦级训练集群!
马斯克一早激动官宣,专为训下一代Grok打造的‘超算巨兽’Colossus 2,今天正式上线。
它可是全球首个,达到吉瓦级的AI训练集群。这是什么概念?
Colossus 2的用电,要比旧金山全市用电峰值还要高。
预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。
OpenAI、Anthropic在内的很多劲敌还在规划2027年路线图,xAI这边直接把‘城市级’算力搞定了。
更夸张的,是他们的执行速度:
Epoch AI此前一份报告称,Colossus 2将拥有相当于140万块H100 GPU等效算力
暴力出奇迹,依旧是马斯克坚信的路线——Scaling算力对于快速逼近‘奇点’那一刻至关重要。
毕竟,在马斯克的叙事中,未来全球最强的AI玩家中,只有谷歌和xAI。
全球首个GW级超算:55万GPU
xAI展现出的惊人速度,连老黄都为之惊叹。他曾这样高度评价道——
马斯克对工程学的理解是独一无二的。别人需要1年完成的事情,xAI仅用19天就搞定了。
外界对于Colossus 1的了解,要比Colossus 2系统得多。
从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。
去年,SemiAnalysis高级分析师一篇文章,曾深度分析了Colossus 2工程设计和所取得的成就。
接下来,就扒一下其背后的细节。
六个月,从0到200MW
Colossus 2项目,于2025年3月7日启动。
它将配备55万块芯片,由GB200和GB300 GPU组成,最终未来扩展到百万GPU。
当时xAI在孟菲斯(Memphis)收购了一个100万平方英尺的仓库,以及两个总计100英亩的相邻地块。
不到六个月的时间,SemiAnalysis统计了现场已部署119台风冷冷水机组,即大约200MW的冷却能力。
这就足以驱动,大约11万张GB200 NVL72。
而且,这个巨大的超算,全部采用的是液冷设计。
马斯克一条推文显示,一些机架在7月份就已经安装好了
令人惊叹的是,xAI只用了6个月就完成了甲骨文、OpenAI花了15个月才完成的工作!
据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。
而且,报告里特意提了一嘴——
马斯克跟中东几个‘土豪’关系很铁,沙特、阿联酋、卡塔尔的主权基金,都是潜在的金主。
Grok 5在训,奇点更近了
Colossus 2的全面上线,也意味着‘全球首个吉瓦级大模型’——Grok即将出世。
马斯克曾坚定地表示,xAI有机会通过Grok 5实现AGI。
此前,在一期采访中,马斯克还表示Grok 5拥有高达6万亿参数,而且智能密度更高,预计将在上半年发布。
不仅如此,它还原生支持视频理解。
可以预见,在首个吉瓦级超算上训出的Grok 5,实力一定超乎想象。
爆冲2GW,今年上线
去年12月底,马斯克斥资超200亿美元,买下了孟菲斯第三栋建筑,计划将Colossus总容量扩展至2GW。
这栋新建筑——MACROHARDRR,延续了Macrohard命名,位于Colossus 2旁,占地面积超80万平方英尺。
Grok估计,在2025年中,按AI算力排名前10中,Colossus 2和特斯拉Dojo位居第一和第7:
在AI算力上,马斯克疯狂加码,甚至他‘已经在规划10GW甚至更高的算力’。
狂飙吉瓦级超算,硅谷巨头乱战
如今,全世界AI巨头们,正掀起一场前所未有的算力军备赛。
除了马斯克xAI之外,OpenAI、Meta、Anthropic也在纷纷加码,目标直指吉瓦(GW)级,甚至更大规模的AI超算。
2022年GPT发布以来,OpenAI、xAI、Anthropic、Meta Superintelligence等AI训练算力飙升
OpenAI:星际之门
‘星际之门’,便是众所周知的典型代表之一。
2025年1月初,OpenAI联合软银、甲骨文等伙伴正式启动了名为‘星际之门’(Stargate)的宏大计划。
这项‘AI曼哈顿计划’,要在未来4年砸5000亿美金,建设总容量达到10GW的集群。
首期立即部署1000亿美元,如今进展迅猛。
去年9月,OpenAI公布了五个新站点,要在未来三年,实现7GW算力规模。
这样的规模相当于同时为数百万家庭供电,却全部用于驱动AI训练与推理。
Meta:普罗米修斯
Meta同样在加速狂奔。
早在去年,小扎就公开了资金代号Prometheus(普罗米修斯)的GW级AI超算项目,目标在2026年上半年上线。
不仅如此,Meta正在建设多个吉瓦级集群:
几天前,小扎再次重磅宣布启动全新顶级计划——Meta Compute。
计划明确表示,将在本十年内建设数十吉瓦AI超算,长期目标甚至指向数百吉瓦级别。
为此,Meta内部已组建专责团队,并与核电企业签订长期协议,确保能源供应跟得上疯狂扩张的步伐。
Anthropic:百万TPU下单,GPU也要
Anthropic选择了一条更聚焦的路线:深度绑定Google Cloud的TPU。
去年10月官宣,将把Google Cloud TPU扩展到最多100万颗TPU,合同价值数百亿美元。
而且,预计在2026年上线远超1GW的容量。
而且,Anthropic采用多平台策略,同时使用谷歌TPU、亚马逊Trainium和英伟达GPU。
如今,AI竞赛的胜负手,正从模型参数本身向基础设施倾斜。
硅谷巨头们狂建超算,原因很简单:下一代前沿模型所需的算力远超想象。
这场吉瓦级超算的全球军备赛,才刚刚拉开帷幕。
6千亿算力投资,AI榨干美国人钱包?
网友直呼,马斯克的算力赌注‘太疯狂了。AGI最难的部分已不再是数学,而是字面意义上的能不能找到足够多的电源插座’。
2026年,这一趋势只会愈演愈烈——
亚马逊AWS、微软、谷歌、Meta、甲骨文(Oracle)等超级云计算巨头正加速扩张。
它们的资本支出预计将超过6000亿美元,重点已全面转向AI专用基础设施建设,边缘服务成为次要关注点。
独立的市场研究和分析公司Dell’Oro分析师Baron Fung指出:‘预计在未来2至3年内,这些部署将新增数十GW总电力容量,反映出加速计算对算力规模和密度提出了极高要求。’
Baron Fung是戴尔奥罗集团(Dell’Oro Group)的高级研究总监,负责数据中心IT资本支出、半导体与组件,以及以太网适配器与智能网卡研究项目
虽然整体趋势是‘全面转向AI’,但各家打法并不相同:
Baron Fung表示,这类新一代数据中心将集成大规模AI集群、高密度加速卡机架、先进网络连接与支持型存储系统。
‘预计未来2到3年内,数十GW级的新超级数据中心产能将陆续上线,服务对象既包括内部AI平台,也涵盖大客户的关键AI工作负载。’Fung总结道。
但与此同时,电力短缺、设备交付周期拉长以及地方政府与社区的反对,也让扩张变得日益困难。
那些AI数据中心年入千万美元,而且零交通压力,零学区负担,看起来只会带来现金流。
这番说辞深得美国政界青睐——白宫如此,各州政府亦如此。
但对数据中心附近的居民而言,‘根本没有好处可言’。
因为这些算力设施全天候24小时运转,内部部署着数以千计的服务器,而服务器需要大量电力与水来保持冷却。
一方面,数据中心建设热潮助推了AI革命;另一方面,AI热潮可能耗尽美国电网资源、榨干普通人的钱包。
AI正在推高电价,而没有人对此感到满意。甚至有媒体称:
美国对数据中心的‘战争’即将到来。
2025年12月1日,密歇根州塞林(Saline)的居民集会,反对一座耗资70亿美元的‘星际之门’(Stargate)数据中心。
根据美国能源信息署(EIA)的数据,自2022年以来,全美几乎所有地区的居民零售电价涨幅均超过通胀率,且这一现象很可能持续至2026年。
比如,去年,新泽西州的电费账单上涨了约 20%。
美国电价飙升的深层矛盾源于积弊数十年的结构性问题:老化的基础设施亟待更新,而过时的商业模式与法规体系拖慢了电网升级的步伐。
而数据中心建设浪潮,给美国的电力供应体系前所未有的难题。
据《Data Center Watch》统计,反对数据中心建设的浪潮正在加速:
2025年仅第二季度就有980亿美元的在建项目受到阻碍或严重拖延。
去年上半年,美国已有36个项目涉及投资高达1620亿美元的AI算力项目受到阻碍或严重拖延。
如果说AI热潮给全世界带了硬件短缺,那给美国带来的更严重的问题将是电力短缺。
保算力,还是保电力,成了美国不得不考虑的问题。
要支持数十GW级的新超级数据中心产能,电力而非算力卡了美国AI的脖子。