KAIYUN中国·官方网站-开云中国门户入口

开云网站:一天120万亿Token阿里谷歌前后脚上新:大模型四月发布潮来了-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

开云网站:一天120万亿Token阿里谷歌前后脚上新:大模型四月发布潮来了

发布时间:2026-04-05 00:37人气:

  大模型日均Token使用量突破120万亿。三个月翻一倍,跟2024年5月刚上线倍。

  同一天,阿里千问端出Qwen3.6-Plus,主打百万上下文和智能体编程。每百万tokens最低两块钱。

  国内厂商正抢跑,谷歌在北京时间4月3日凌晨也出手了——一口气发布四款Gemma 4开源模型。31B版本直接冲上Arena AI开源榜单全球第三,把参数量是自己20倍的大家伙甩在身后。

  路上还有DeepSeek V4和腾讯混元新模型。四月的大模型擂台,已经摆好了。

  120万亿Token/日。这个量在全球能排进前三。对比一下:OpenAI API每分钟处理60亿Token,折算日均约8.64万亿(这只是API,不含ChatGPT全量);谷歌Gemini月处理1300万亿,日均约43万亿。

  字节一个平台,跑到了这个规模。在火山引擎上累计Token用量超一万亿的企业,从去年底的100家涨到140家。

  先说视频。4月2日,Seedance 2.0 API对企业开放公测,主攻广告营销、内容制作和短剧。一个1分钟720P视频,Token消耗30万以上。普通文本问答一次才几百到几千Token。

  以前跟大模型对话,一问一答,几百Token。现在一个智能体要自己思考、规划、调工具、检查结果、错了还得自我纠正。一个复杂任务跑下来,Token消耗是普通对话的几十甚至上百倍。

  字节旗下的“龙虾”ArkClaw就是典型。自发布以来,它能秒级配对飞书,在微信、钉钉、微博也能配置,最近还升级了网盘功能。

  Token量级飙到这个程度,字节正从AI模型竞争进入“Token工厂”时代。这不再是参数多少的问题,是谁能持续、稳定、低成本处理海量Token。

  火山引擎曾定下2026年MaaS业务收入超百亿的目标。谭待说,团队2021年的业务BP里立过1000亿的年收入目标,“我们去年就已经把BP改了,提了不少”。

  一个细节也值得留意:各家Token定价策略并不一致。智谱涨了价,快手搞了优惠。谭待的看法是,不能抛开模型价值谈Token价格,“当下一代的模型能力更强,单token经济价值也会更高,理论上它的价格就会涨上去。”

  百万上下文窗口是第一张牌。一次可以喂进一部《三体》三部曲的体量,或者整个代码仓库。但真正让开发者眼睛一亮的不是这个数字——编程能力才是这次升级的核心。

  阿里这次把门槛压得很低。API输入每百万tokens最低2元,同时通过阿里云百炼免费预览。摆明了抢开发者和中小企业。

  豆包和千问是国内厂商在应用场景和开发者生态上对决。谷歌的Gemma 4,是另一个维度的故事。

  最让人意外的是协议。从Gemma系列一直用的谷歌自定义协议,换成了Apache 2.0。什么意思?没有商用门槛,没有用户量限制,开发者可以自由下载、修改、分发,甚至改完换品牌商用。

  性能上,31B Dense版本在Arena AI开源榜单排全球第三。用不到十分之一的参数量,跟400亿参数的巨无霸掰手腕。

  谷歌这波操作,说白了就是把闭源旗舰Gemini 3的核心技术下放给了开源社区。官方博客自己说的:“Gemma 4基于与Gemini 3相同的世界级研究和技术打造。”

  也有业内人士点破:Gemma 4的发布,是谷歌在开源赛道对中Kaiyun官方中国国模型的反击。过去一年,中国开源模型在全球的下载量已经超过美国。多家科技媒体3月就爆出,DeepSeek V4已进入灰度测试,定档2026年4月。

  DeepSeek V4和腾讯混元新模型都定在四月上线。前者的路线是万亿参数和多模态,后者由2025年底回国的腾讯总办首席AI科学家姚顺雨领衔。

  四月会有一轮密集的模型发布。开源与闭源、通用与垂类、消费端与企业端,各家的路线分化正在加剧。

  月之暗面创始人杨植麟在中关村论坛上给了个判断:“如果模型能力能做到一样的水平,开源会是绝对的胜利。”他还说,“Token在一定程度上等价于GDP”——智能体渗透进生产力环节,Token消耗将直接映射为经济产出。

  豆包用两年翻了一千倍的Token量。阿里用百万上下文和两块钱的API价格抢开发者。谷歌用Apache 2.0和性能越级的31B模型反击开源赛道。

  四月这场发布潮,拼的不只是技术参数。谁能把Token成本压到最低?谁的开发生态做得最广?谁能把模型落地到更多真实场景?这三条线,才是接下来几个月的真正看点。

  参考资料:火山引擎发布会、阿里云、Google DeepMind、IT之家、36氪、凤凰网科技等

  2026年4月2日,火山引擎在武汉披露了这个数字。三个月前还是60万亿。2024年5月豆包刚上线那会儿,只有现在的千分之一。

  不是字节跳动在凡尔赛。整个AI行业都在经历Token海啸。2024年初,中国日均Token调用量1000亿;2025年底冲到100万亿;今年3月,突破140万亿。两年,超千倍。

  再看一个数:全球日均Token消耗超100万亿的公司,目前只有三家——OpenAI,Google,字节跳动。前两家吃全球市场,字节主要靠国内。一个以国内市场为主的平台,Token吞吐量和两个全球化巨头平起平坐。

  火山引擎总裁谭待把豆包的增长归结为两个引擎:AI视频创作爆发,AI智能体加速普及。

  先说视频。4月2日,火山引擎宣布视频生成模型Seedance 2.0 API开放公测,主攻广告营销、内容制作和短剧。这类工具把原本多人协作、周期较长的活儿,压缩到更小团队、更短时限。一个1分钟720P视频,Token消耗百万以上。文本场景根本没法比。

  以前跟大模型对话,一问一答,几百Token。现在一个智能体要自己思考、规划、调工具、检查结果、错了还得自我纠正。一个复杂任务跑下来,Token消耗是普通对话的几十甚至上百倍。

  无问芯穹联合创始人夏立雪说,今年1月以来,公司Token消耗每两周翻一番,到现在翻了10倍。“上次见到这个速度,还是多年前3G手机流量时代。”

  智谱CEO张鹏的判断更直接:OpenClaw这类应用驱动的Token消耗进入指数级轨道,“一场智能输出革命正在发生”。推理再中心化,云端大参数基模效率提高,高质量Token正在成为中国AI出海的新载体——不是低价竞争,是“高质优价”。

  2024年,大模型行业的主题只有一个字:降。字节跳动把价格打到0.0008元/千tokens,阿里云跟着降97%,DeepSeek把成本利润率推到了545%。Token以“厘”计价,好像会一直便宜下去。

  云厂商的理由出奇一致:全球AI需求爆发,供应链涨价,核心硬件采购成本上涨。IDC数据:2025年上半年中国公有云大模型调用量536.7万亿Tokens,比2024年全年增长近400%。算力需求激增,直接推高了GPU、存储芯片的价格和能源成本。

  这场“U型转弯”的逻辑不复杂:前两年算力需求方主要是企业,现在个人算力也“饿”了。AI创企和大厂的商业模式,正在转向Token消耗量。

  麦肯锡最新的复盘数据:90%的企业级AI项目没达到预期效果。不是模型不够聪明,是工程化落地失控。提示词粗糙,AI幻觉频发,制造大量无效Token;场景适配错位,实验室代码直接扔进充满“脏数据”的生产环境,系统崩溃,算力空转。

  Token像汽油。只盯着油耗,不看引擎Kaiyun官方中国的经济性和输出能力,客户迟早会跑。

  腾讯高级执行副总裁汤道生点出一个关键:同样模型能力,不同的Harness设计,Token成本相差很大。同样的Token量,能产出多少实际业务价值,看的是企业自己的工程能力。

  这就能解释为什么火山引擎总裁谭待在谈企业部署智能体时,反复强调模型、安全与Skills。模型是大脑,安全是底线,Skills是手和脚——三者缺一不可。不然Token烧了也白烧。

  Token被正式命名为“词元”。黄仁勋提出“Token工厂经济学”。国家数据局把它定位为智能时代的“结算单位”。这些信号叠在一起,指向一个趋势:AI行业从“卖铲子”进入“卖水电”的阶段。

  Token的商业化还在早期。一个可见的方向是分层定价。黄仁勋预测,Token会根据速度和智能程度分层,从免费层到超高速层。中国模型的优势在于训练成本较低——工程能力、算法优化、相对较低的电价,综合下来成本大幅降低。

  但调用量领先不等于技术领先。中国模型在应Kaiyun全站网页用层的Token消耗上占优势,但在基础层的模型架构创新、硬件层的算力自主性上,短板还在。Token经济学的本质,不是简单的Token买卖,是AI时代生产力定价权的争夺。

  回到开头:豆包一天120万亿Token。按3月国内主流大模型约2-4元/百万Token的输入价格粗略一算,每天有3到5亿元的算力成本在燃烧。一年下来千亿级支出,差不多相当于网易一整年的营收。

  AI的“免费试玩期”结束了,正在进入“按效付费”的深水区。企业用AI不再是“试试看”的实验,是需要精确计算投入产出比的日常经营。Token成了那把尺。量程已经摆好了,怎么量、量什么,看各家本事。


0830-2509596