北交字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA
作者:Siyu Jiao等 解读:AI生成未来 亮点直击 首次提出思考驱动的视觉生成框架:?ThinkGen 是第一个显式利用 MLLM 的思维链(CoT)推理来处理各种生成场景的思考驱动视觉生成框架
12月30日,据《晚点 LatePost》独家报道,Meta宣布以数十亿美元收购中国AI公司蝴蝶效应,其核心产品Manus上线不足一年。这起交易是Meta历史上第三大收购案,仅次于WhatsApp与S
今年3月突然“出圈”的Manus被大厂相中了。12月30日,AI Agent创业公司Manus宣布将加入Meta。 根据媒体报道,Meta以数十亿美元收购开发AI应用Manus的公司蝴蝶效应,这是Me
相信这只是一个开始。 一家 AI 初创公司被大厂收购,在过去几年并不少见,Google、苹果、微软、阿里、蚂蚁、OPPO……都做了。 但在年中斥巨资 143 美元收购 Scale AI 近半股份后,M
文 / 道哥? 来源 / 节点AI观? 2025年的倒数第二天,硅谷投下了一枚“深水炸弹”。 就在几个小时前,Meta正式宣布收购人工智能初创公司Manus。 虽然双方并未在第一时间披露具体的交易金额
大浪淘沙,胜者为王。 2023年,当我们第一次被ChatGPT震撼时,那是惊艳。 2024年,当国产百模大战打得不可开交时,那是喧嚣。 到了2025年,这列高速疾驰的AI列车终于驶入了一个名为“实用主
AI又催生出一个千亿市场。 作者 张语格 编辑 趣解商业·AI力场 最近,一份“百度GEO营销方案”在AI圈里流传,好多网友疑问“百度下场做GEO”了? GEO(Generative Engi
作者 林易 编辑?重点君 近日,全球顶级创业孵化器Y Combinator在最新一期视频播客中,对2025年AI行业做出年终总结。作为全球初创企业的风向标,YC每年孵化大量顶尖AI初创公司,其内部观察
作者 李越 编辑?重点君 12月18日,2025腾讯ConTech大会暨腾讯科技Hi Tech Day正式播出,中国工程院院士、知名专家和学者、头部科技企业创始人及知名投资人齐聚一堂,共同探讨智能时代
从早期的“千模大战”到大厂游戏,再到如今的百度、阿里双雄争霸,AI竞争的轮廓与市场局面,已经愈发清晰。当前的Agent之争能够看出来,真正的生产力时代正在到来。 作者 卢 ? ? 梭? 编辑
在港股科技股回暖的浪潮下,又一家硬核科技公司站在了IPO的门口。 12月15日,珠海金智维人工智能股份有限公司(以下简称“金智维”)向港交所递交了招股书,计划在香港主板上市。 作为一家国内最早探索RP
刚刚,OpenAI 发布了新版 ChatGPT Images,由全新的旗舰级图像生成模型驱动。 最新的图像生成模型能够精准编辑图像,同时保留所有细节,并且图像生成速度提升高达 4 倍。 研究团队还在
Google 正在将 Gemini 模型的能力融入多条产品线中。 上周,Google 宣布已将最先进的 Gemini 翻译功能引入 Google 翻译。 刚刚,Google 发布了适用于实时语音代理的
作者:Zhenglin Cheng等 解读:AI生成未来 亮点直击 简单而有效的一步生成框架。提出了一种一步生成框架,该框架不需要辅助训练模型(GAN 判别器)或冻结的教师模型(不同的/一致性蒸馏),
作者:Hongyu Li等 解读:AI生成未来 图1。EditThinker 概述。子图(a)展示了多轮思考编辑流程,该流程迭代批评、优化和重复编辑指令,子图(b)报告了四个图像编辑基准测试的结果,展
SaaS龙头Salesforce,于12月4日早美股盘后,公布2026财年3季度财报(截止10.31日)。当季业绩并不好,各主要指标基本都跑输市场预期。相对欣慰之处是,领先指标(cRPO和新签订单)在
半导体制造作为知识密集型的行业,往往面临一个棘手的挑战,即无形的“知识”的传承。一个常见的现象是资深工程师退休带走数十年设备操作经验,新员工面对堆积如山的设备手册无所适从,关键故障的处理方案散落在不同
作者:Zhoujie Fu等 解读:AI生成未来 亮点直击 iMontage统一模型,能够处理可变数量的输入/输出帧,有效衔接了视频生成与高动态图像生成领域。 构建任务无关的时序多样化数据pipeli
今天,谷歌开发者关系负责人、Google AI Studio 负责人在社交媒体上发布了一条仅含“Gemini”一词的推文,引爆话题。 就在昨日,马斯克刚刚宣布 Grok 4.1 的发布。Gemini
当今的去噪扩散模型并非传统意义上的“去噪”。 它们并不直接预测干净的图像。相反,神经网络预测的是噪声或带噪声的量。 ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。 预测干净数据和预测带
全栈式AI是谷歌翻盘的王牌。 如果仅看过去这一个月,很难想象这是那个在 2023 年因为 Bard「翻车」而被全球科技圈集体嘲笑的 Google。 上周(11 月 18 日),Google 发布了新一
作者:Zehong Ma等 解读:AI生成未来 亮点直击 DeCo解耦框架:DiT专注低频语义建模(采用下采样输入);轻量级像素解码器重建高频信号。 创新频率感知损失函数:通过DCT转换至频域;基于J
文|魏琳华 白鸽 编|王一粟 全球AI To C的市场局势,似乎悄然发生了转变。 以OpenAI、DeepSeek等为代表的AI创业公司,凭借着对大模型技术能力的突破,在AI To C的应用市场中占据
前言:近日,蛰伏8个月的谷歌,以近乎突袭的方式推出新一代AI模型Gemini 3.0,瞬间改写了全球大模型的竞争格局。OpenAI CEO奥尔特曼罕见发文祝贺[这看起来是个很棒的模型],特斯拉CEO马
作者:Rui Tian等 解读:AI生成未来 亮点直击 推出UniGen-1.5统一多模态大模型,通过创新的架构设计与训练流程,实现了先进的图像理解、生成与编辑能力融合。 开创统一强化学习训练框架,借
上周AI助手赛道热闹非凡,海外谷歌Gemini 3 Pro刷屏但业界称这一模型并未实现断代级领先。 文|数智前线、阿里和蚂蚁在AI个人助手战场密集出牌 11月17日,阿里巴巴官宣千问APP正式开
本文作者:董董 版式设计:而漪 遇事不决,先问AI。 美国NORC公共事务研究中心的一项调查显示,人工智能(AI)最广泛的用途是充当搜索引擎。 越来越多的人,开始用AI搜索代替了原本的搜索引擎。 数据
来源:@首席数智官 在硅谷的计算机历史博物馆里,静静躺着早期的真空管和穿孔卡片。它们沉默不语,却定义了那个时代计算的极限。 而在Google DeepMind的数据中心里,无数个TPU正在以微秒级的
就在昨日,xAI 又推出 Grok 4 Fast。马斯克在自己的 X 平台上配文:2M 上下文窗口!除了支持 2M 的上下文窗口之外,新模型仅需?约1/10?的价格即可达到?Gemini 2.5 的性
近日,斯坦福大学发布关于 Paper2Agent 的论文,探索将学术论文转换为 AI Agent的自动化框架。 传统的研究论文需要读者投入大量精力去理解论文的代码、数据和方法,并将其应用到自己的工作中
近Kaiyun官方中国日,谷歌宣布推出两款全新的机器人模型 —— Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,在机器人智能化和通用性上实现了重要突破。 两款模型将通过先进的思
在 AI 热潮席卷全球的背景下,谷歌云(Google Cloud)正在积极布局其下一代智能引擎 —— Gemini Enterprse。 该新产品可连接企业数据,并包含代理构建器、客户服务工具等。 G
今日,Google 发布最新的 Gemini 3.0 pro 模型,仅凭几行提示词,就在浏览器里用一张 HTML 文件复刻了 macOS 风格界面,成功率是“100%”。 这条消息迅速占领各大科技头条
今时不同往日,刚刚过去的2025年十一假期,可以称得上是AI时代的第一个十一假期。 一个全新的概念已经浮出水面:旅行Agent(AI旅行助手)。 各大平台纷纷开始把AI应用于旅行上,无论是规划行程、提
Copyright © 2024 开云沙盘有限公司 版权所有 备案号:蜀ICP备19012180号 网站地图