010-67567567

大模型进展专栏第十四期|聚焦2025年10月大模型前沿突破:AI从理解世界到参与世界

日期:2025-10-30 17:05:10 浏览量:62
43c03a3152526dfbcb54602f2705fa76.png

本期大模型进展专栏“热点事件追踪”栏目,我们将聚焦2025年10月份的大模型前沿突破:从DeepSeek-OCR以视觉模态实现文本信息无损压缩、开辟长上下文与多模态融合新路径;到谷歌Gemini 3.0在单次生成复杂Web系统中展现的应用生成潜力;再到阿里Qwen布局具身智能、斯坦福ACE框架引领“无微调”时代、蚂蚁Ling-1T以高效MoE架构重塑万亿模型格局;以及腾讯Training-Free GRPO的零成本强化学习创新、美团LongCat-Video在长视频生成上的突破、MiniMax M2打破智能体“性能-成本”不可能三角的工程典范;直至PRIMA人工视觉恢复盲人视力、李飞飞团队RTFM实现实时3D世界建模、陶哲轩携GPT-5 Pro探索AI科研协作边界。

本期大模型进展专栏“热点事件追踪”栏目,我们特邀南京大学郭兰哲老师,带领读者深入理解这些成果如何共同构成2025年AI发展的关键脉络——展示出人工智能从高效推理与多模态融合迈向具身智能与科学共研的新阶段,为通用人工智能(AGI)的加速演进奠定坚实基础。



一、DeepSeek开源OCR新模型,实现视觉方式无损压缩文本

DeepSeek近期开源了名为DeepSeek-OCR的3B参数模型,创新性地通过视觉模态实现文本信息的无损压缩。该模型由Haoran Wei等研究员主导开发,核心思路是利用图像Token高效压缩文本,在10倍压缩率下解码精度达97%,20倍压缩率下仍保持约60%的准确率,为长上下文压缩和LLM记忆优化提供了新路径。

DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成,包含两大组件:DeepEncoder视觉编码器(380M参数):结合SAM-base与CLIP-large,支持高分辨率输入与低激活状态,通过卷积层实现16倍下采样,生成紧凑视觉Token;MoE解码器(激活参数570M):基于DeepSeek-3B-MoE,在以领域为中心的OCR任务中兼顾表达能力与推理效率。

实验显示,DeepSeek-OCR在实用场景中表现突出:仅用100个视觉Token即在OmniDocBench超越GOT-OCR2.0(需256 Token);不足800个视觉Token优于MinerU2.0(需约7000 Token),单张 A100-40G显卡日处理超20万页训练数据。实际应用中,64 个 token 可处理幻灯片,400 个 token 能完整保留学术论文公式,还支持多语言文档解析(近100种语言)及复杂图表、几何图形的端到端识别。


简评:DeepSeek-OCR突破了传统OCR的Token效率瓶颈,通过视觉压缩技术将文本信息转化为高密度表征,为LLM的长上下文处理提供了新范式。其高精度与低资源消耗的特性,在文档数字化、多模态训练数据生成等场景具备显著应用潜力,尤其为处理海量扫描文档、跨语言知识库构建提供了高效解决方案。未来若与通用大模型深度融合,可能推动视觉-语言交互范式的根本性变革。



二. 谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽

谷歌最新的大模型 Gemini 3.0 已经出现在 AI studio 的 A/B 测试中,能够供部分用户进行尝试。Gemini 3.0 Pro在A/B测试中展现出突破性代码生成能力,仅通过单次提示词(One-Shot)即在2分钟内生成功能完整的网页版操作系统(WebOS),支持macOS、Windows和Linux界面。生成系统以单一HTML文件实现,包含文本编辑器、文件管理器、绘图工具、视频编辑器等基础应用,并具备流畅的动画和窗口交互功能。博主ChetasLua公开的演示视频在海外平台获超140万浏览,同期对比测试显示,Claude 4.5 Sonnet等主流模型生成结果存在功能缺失或不可交互的问题。此外,Gemini 3.0还能理解抽象设计需求(如“哲学教授的存在主义危机”风格网页),并生成包含音效、动态渲染等细节的前端代码。目前生成的操作系统仍属原型演示,终端等功能依赖模拟逻辑,尚未具备真实操作系统能力。


简评:Gemini 3.0在单次提示词下生成复杂Web原型的能力,标志着大模型在代码生成稳定性与创造力上取得关键突破。其精准理解抽象需求、整合多模态元素(如音效与动画)的表现,为快速原型开发及低代码工具进化提供新范式。然而,生成系统仍局限于前端演示层面,揭示当前大模型“重界面轻逻辑”的局限。在军事仿真、指挥控制系统界面开发等领域,此类技术可加速可视化模块构建,但核心功能仍依赖传统工程实现。全球大模型竞争正从“生成内容”迈向“生成应用”,需警惕底层逻辑能力与表面交互效果的“剪刀差”。



三.阿里入局具身智能!Qwen内部组建团队,技术负责人林俊旸亲自带队

10月,阿里巴巴通义千问(Qwen)团队宣布内部成立具身智能小分队,由技术负责人林俊旸(Justin Lin)亲自组建并领导。此举被外媒视为阿里在物理AI系统领域最明确的探索,标志着其正式加入OpenAI、Google等巨头竞逐的具身智能赛道。林俊旸强调,多模态模型正从“理解世界”转向“参与世界”,通过强化学习、工具调用与长时序推理能力,推动AI从虚拟走向现实。

林俊旸自2019年加入阿里后,从自然语言处理研究逐步主导Qwen系列大模型的研发与开源。此次团队组建是阿里“AI驱动现实”战略的关键落点。阿里在战略布局资本投入与技术生态双线并进。投资层面:2024年以来,阿里通过集团与阿里云投资逐际动力、自变量机器人等多家具身智能公司,其中阿里云领投自变量机器人1.4亿美元融资,首次直接出手该赛道;技术生态:在2025云栖大会上,阿里云与英伟达联合推出“Physical AI”计划,推动大模型与机器人、工业制造融合,构建物理世界操作系统。阿里集团CEO吴咏铭明确表示,未来五年将推动AI从基础模型向具身智能应用阶段演进。


简评:阿里此次动作,折射出大模型巨头向物理世界渗透的共同趋势。具身智能的核心在于将模型的推理、规划能力转化为现实世界的连续行动,而阿里通过资本、技术、基础设施的闭环布局,试图在“数万亿美元级”的机器人与自动化市场中抢占先机。然而,其具体技术路径与落地进度仍需观察。在英伟达、OpenAI等厂商已卡位算力与模型生态的背景下,阿里能否通过“软硬结合”实现差异化突破,将成为其能否在具身智能赛道脱颖而出的关键。



四.斯坦福新论文:微调已死,自主上下文当立

斯坦福大学、SambaNova Systems公司与加州大学伯克利分校联合发布全新研究,提出“智能体上下文工程(ACE)”方法,宣称无需调整模型权重即可通过自主演进的上下文实现持续优化。该方法将模型上下文视为动态操作手册,通过生成、反思、整理三重角色循环实现提示的自我完善,在智能体与金融分析任务中稳定超越传统微调与提示工程方法。

ACE框架通过生成器产出推理轨迹,反思器提炼成功与错误经验,整理器结构化整合增量知识,形成可并行合并的上下文更新机制。其核心突破在于解决传统上下文适配的“简洁偏置”与“上下文崩溃”问题,支持多轮次批量适应。

实验显示,在AppWorld智能体任务中,ACE较ReAct+ICL和ReAct+GEPA分别提升12.3%和11.9%;在FiNER金融实体标注任务中,ACE以10.9%的优势领先ICL、MIPROv2等基线。同时,ACE将自适应延迟降低82.3%,token成本节约83.6%,凸显工程可行性。


简评:ACE的突破性在于将模型优化从参数层面转向上下文层面,为AI适配提供了新范式。其“自主进化”机制显著降低计算成本与延迟,尤其适合金融、智能体等需快速迭代的场景。此举可能推动行业从“重训练”转向“轻上下文”的技术路径,但对上下文质量管理的依赖也提出新的挑战。若成熟应用,可加速AI在动态环境(如实时决策、流式数据处理)中的落地效率。



五 蚂蚁开源万亿参数模型Ling-1T,MoE架构实现“高质量输出+高效率推理”的双突破

10月9日,蚂蚁集团正式开源万亿参数通用语言大模型Ling-1T,成为继月之暗面Kimi、阿里Qwen3-Max后又一进入“万亿参数开源俱乐部”的重量级模型。其核心创新在于通过自研高效MoE(混合专家)架构,以“万亿参数储备、百亿级激活参数”实现帕累托改进——在不牺牲推理精度的同时显著提升效率。

为达成“更强更省”的目标,Ling-1T从三方面优化:数据层面:使用超20T token的高推理密度语料训练,提升逻辑密度;架构层面:MoE层仅激活约500亿参数(总参数1T),通过8位专家“按需思考”控制成本;训练范式:采用三阶段精英训练(通识+推理+强化)与自研LPO优化单元,使模型在数学、代码r等任务上全面领先传统策略。

在多项基准测试中,Ling-1T展现出显著优势:编程与数学推理:在LiveCodeBench(真实编程任务)上得分最高,ArtifactsBench(复杂软件逻辑)达59.31分,仅次于Gemini-2.5-Pro;数学推理中,Omni-Math与UGMathBench均突破74分,金融推理任务达87.45分;知识理解维度中,在C-Eval(92.19)、MMLU-Pro(82.04)等关键数据集上并列领先,部分指标逼近Gemini-2.5-Pro上限;效率突破:在AIME-25数学推理测试中,以70.42%准确率与Gemini-2.5-Pro持平,但消耗token更少,实现“更准且更省”。实测表明,模型在代码生成、科普写作、工具调用等场景中兼具精准性、简洁性和审美能力,且支持128K长上下文与工具调用功能。


简评:Ling-1T 的发布,不仅是参数规模的突破,更标志着大模型行业从 “参数竞赛” 转向 “效能竞赛” 的关键节点 —— 其 “万亿储备 + 百亿开销” 的设计,让超大规模模型真正从实验室走向产业落地,破解了 “强性能必高成本” 的行业痛点。从技术价值看,FP8 混合精度训练、MoE 动态专家激活、WSM(Warmup–Stable–Merge)训练调度等创新,为大模型效率优化提供了可复用的工程范式;从生态价值看,作为中国力量主导的万亿参数开源模型,其透明性适配金融、医疗等高合规行业需求,更推动 AI 从 “高端技术资源” 转向普惠基础设施。对行业而言,Ling-1T 的开源进一步强化了中国在全球大模型开源阵营的话语权,其 “精喂数据而非猛灌、按需激活而非全量运算” 的思路,或将成为产业级大模型发展的主流方向。



六. Training-Free GRPO发布:无需更新模型参数即可实现强化学习效果,成本暴降两个数量级

腾讯优图团队提出Training-Free GRPO方法,首次将GRPO(Group Relative Policy Optimization)强化学习算法的完整训练范式迁移至上下文空间,实现无需更新模型参数的RL优化。该方法核心突破在于:

多路径并行生成:对同一问题生成多条解答路径(Rollout);文本型组内优势提取:通过对比组内解法差异,提炼语义层面的优势信号(如正确解法的逻辑特征);文本型LoRA更新:将优势信号以文本形式沉淀至上下文,替代传统参数微调。

实验显示,该方法在数学推理任务中仅用100个样本、8-18美元的成本,即在671B模型上提升AIME榜单性能,工具调用效率亦显著优化;在网页搜索任务中,进一步在DeepSeek-V3.1模型基础上提升4.6%的Pass@1指标。


简评:Training-Free GRPO的创新性在于将强化学习从参数空间解放至上下文空间,大幅降低超大模型RL训练成本与门槛。其保留GRPO多路径探索、组内优势等核心机制,兼具成本优势与泛化能力,为中小团队及个人开发者提供了可负担的强化学习方案。此举可能推动RL技术更广泛地应用于定制化场景,促进AI应用生态多元化发展。



七.美团开源首个视频大模型LongCat-Video,推理速度提升超900%,常识理解能力开源第一

美团 LongCat 团队正式发布并开源视频生成模型 LongCat-Video,该模型以 13.6B 参数规模,在统一架构下同时支持文生视频(Text-to-Video)、图生视频(Image-to-Video)与视频续写(Video-Continuation)三大核心任务,且在文生、图生视频基础任务上达到开源 SOTA 水平。其核心突破在于依托原生视频续写任务预训练,可稳定输出 5 分钟级别长视频,无色彩漂移、画质衰减与动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,在长视频生成领域优势显著。

技术层面,LongCat-Video 基于 Diffusion Transformer(DiT)架构创新设计:通过 “条件帧数量” 区分任务,无需额外模型适配即可形成任务闭环;采用块稀疏注意力(BSA)与条件 token 缓存机制,处理 93 帧及以上长序列时仍能平衡效率与质量;结合 “二阶段粗到精生成(C2F)+ 模型蒸馏” 策略,将视频推理速度提升至 10.1 倍,在内部基准测试中,LongCat-Video 文生视频整体质量超越 PixVerse-V5、Wan2.2-T2V-A14B,视觉质量接近闭源模型 Veo3;图生视频视觉质量得分 3.27,位列参评模型第一。在 VBench 2.0 公开基准测试中,总得分 62.11% 排名第三(仅次于 Veo3 的 66.72% 与 Vidu Q1 的 62.7%),且常识性维度(运动合理性、物理定律遵循)以 70.94% 得分位居所有模型第一,凸显优秀的物理世界建模能力。


简评:LongCat-Video 的开源不仅填补了国内长视频生成领域的开源空白,更以 “统一架构 + 长时序稳定生成” 为视频 AI 演进提供新路径。其背后 “以视频生成探索世界模型” 的定位,揭示美团 AI 布局深意 —— 未来该模型可融入自动驾驶(模拟路况时序变化)、具身智能(动态场景交互)等业务,成为连接 “比特世界” 与 “原子世界” 的技术基座。从行业视角看,MIT 协议的宽松商用属性,将降低企业与开发者使用门槛,加速视频生成技术在数字人、广告营销、影视创作等场景的落地;而其在常识与物理规律建模的优势,也为下一代 “能理解世界” 的 AI 奠定基础。



八.Minimax M2发布即登顶,百万Tokens成本仅8元打破智能体“不可能三角”

上海 AI 独角兽企业 MiniMax 发布新一代开源文本大模型 Minimax M2,一举终结此前杭州 DeepSeek、Qwen 模型在开源大模型领域的霸榜地位。在第三方评测机构 Artificial Analysis 的测试中,Minimax M2 以 61 分斩获开源模型第一,总排名全球第五,紧随 Claude 4.5 Sonnet 之后。

Minimax M2 定位 “专为智能体和编程而生”,核心优势显著。技术架构上,它采用高稀疏度 MoE 架构,总参数量达 230B,而激活参数量仅 10B,搭配 Cerebras 或 Groq 等推理加速平台,有望实现每秒上千 Token 的运行速度;创新采用交错思维格式,能规划并验证跨多对话的操作步骤,支撑复杂长链工具调用,可兼容 Shell、浏览器、Python 代码解释器及各类 MCP 工具。性能表现上,在 Agent 关键的编程、工具使用、深度搜索三大能力中,其工具使用与深度搜索能力比肩海外顶尖模型,编程能力国内领先,如在 LiveCodeBench 编程测试中得 83 分,超 Claude Sonnet 4.5 的 71 分;在线推理速度达每秒 100Token,是 Claude 3.5 Sonnet 的两倍。成本控制上,API 价格极具竞争力,成功打破智能水平、速度、成本的 “不可能三角”。


简评:Minimax M2 的发布,不仅标志着中国开源大模型在全球竞争中实现关键突破,更以 “高智能 + 低成本” 组合为 AI 产业破局。当前 AI 算力成本高企,其极致性价比为中小企业与开发者降低了技术门槛,推动 AI 从 “大企业特权” 向普惠基础设施转变。在 B 端市场,其在金融研报分析、工业流程优化、软件开发等场景的潜力,将加速 AI 与实体经济融合。但行业也需关注其注意力机制选择反映的技术路线差异,未来需结合具体应用场景探索更优方案。从长远看,Minimax M2 的出现将激化全球开源大模型竞争,倒逼技术迭代与成本优化,而中国企业在此次竞争中展现的实力,也为提升全球 AI 产业话语权、推动生态开放注入重要力量。



九.PRIMA 人工视觉技术突破,马斯克Neuralink 联创助力盲人重获光明

2025 年 10 月 26 日,《Nature》杂志刊登重大研究进展,当年和马斯克一起创办Neuralink的联合创始人Max Hodak,创办的 Science Corporation 公司主导研发的 PRIMA(光伏视网膜植入物微阵列)人工视觉技术,成功帮助相关性黄斑变性(AMD)患者重获光明,使其再度实现阅读愿望,标志着人工视觉领域迎来里程碑式突破。

PRIMA 技术核心由尺寸仅 2mm×2mm×30μm(厚度相当于一根头发丝)的微型光伏视网膜植入物与特制眼镜构成,采用创新无线设计,无需外部电源,通过光能驱动。其工作原理为:眼镜搭载的摄像头捕捉外界图像信息并转换为红外光束,植入物接收光束后,将信号传输至小型处理器完成图像增强与清晰化,最终在视网膜神经元协助下传递至大脑,重建视觉通路,本质是作为 “替代光敏细胞”,利用 AMD 患者尚存的视网膜神经元实现视力恢复。

该技术已通过多中心临床试验验证,研究团队招募了 38 名视力达 1.2logMAR 以上的干性 AMD 晚期(地图样萎缩,GA)患者,在术后 6 个月和 12 个月进行评估。结果显示,84% 恢复功能性中央视力,80% 视力提升 0.2logMAR,相当于看清标准视力表下方两行。此外,PRIMA 不仅适用于 AMD 患者,对色素性视网膜炎等感光细胞死亡但视网膜神经元尚存的致盲疾病同样具有帮助潜力。


简评:PRIMA 技术的突破,不仅为全球超 500 万干性 AMD 晚期患者带来重获光明的希望,更打破了传统疗法仅能延缓视力丧失的局限,首次实现功能性中央视力的逆转恢复,为人工视觉从实验室走向临床奠定关键基础。其无线光伏设计降低了设备复杂度,自主化的研发与制造体系也为商业化落地提供有力支撑。不过,技术当前在像素数量、视觉效果、长期安全性验证等方面仍有提升空间,且未来大规模普及还需应对成本控制、适应症扩展等挑战。在神经工程与脑机接口领域快速发展的背景下,PRIMA 的进展为相关技术在感官功能修复领域的应用提供了重要参考,也预示着未来通过科技手段改善残障人群生活质量的更多可能性,同时也提醒行业需持续关注技术伦理、临床安全与可及性等问题,推动技术在规范中健康发展。



十.李飞飞团队推出 RTFM 实时世界模型,单张 H100 GPU 实现 3D 永恒世界交互

近日,李飞飞领衔的创业公司 World Labs 正式对外发布全新实时生成式世界模型 RTFM(Real-Time Frame Model),核心突破在于首次实现单张 H100 GPU 即可驱动交互级帧率实时推理,同时具备场景 “持久性”(无限时长交互不消失)与 “3D 一致性”(视角转换无结构崩塌)。

RTFM 的设计围绕三大核心原则构建:其一为效率,通过全栈推理堆栈优化(融合架构设计、模型蒸馏与推理优化前沿技术),仅依赖单张 H100 GPU 便能满足实时交互需求,打破了生成式世界模型对多 GPU 集群的依赖;其二为可扩展性,采用端到端训练的自回归扩散 Transformer 架构,从海量视频数据中自主学习三维世界规律,无需依赖三角网格、高斯泼溅等传统显式 3D 表征,可随数据量与算力增长平滑扩展性能;其三为持久性,针对自回归帧模型 “记忆随帧增长而成本攀升” 的痛点,创新将每一帧绑定 3D 空间中的姿态(位置 + 方向)构建 “空间记忆”,生成新帧时通过 “上下文切换” 技术检索邻近帧构建定制化上下文,无需处理不断增长的帧集合,实现大型场景的无限时长持久交互。


简评:RTFM 的推出,标志着生成式世界模型从 “理论愿景” 正式迈入 “当下可用” 阶段,其行业价值体现在三大维度:一是打破硬件桎梏,单张 H100 GPU 的运行门槛,为中小团队、开发者降低了世界模型技术的探索成本,加速了技术普及与生态共建;二是重塑技术路径,摒弃显式 3D 表征的传统思路,以 “隐式世界表征 + 空间记忆” 解决扩展性与持久性痛点,为后续动态世界建模、用户深度交互(如虚拟物体操控)提供了核心技术框架;三是激活产业潜力,其高保真的细节渲染能力可直接赋能游戏开发、电影特效、AR/VR 内容生产,而对物理规律的自主学习能力,更将为机器人环境感知、工业虚拟仿真等领域提供关键支撑。对国内相关领域而言,RTFM 也提供了重要启示:在算力资源仍存差距的背景下,聚焦架构优化与算法创新,而非单纯依赖硬件堆叠,或许是实现世界模型领域 “弯道超车” 的关键方向。



十一.陶哲轩携 GPT-5 Pro 挑战微分几何难题,揭示 AI 科研辅助多尺度价值

菲尔茨奖得主、华裔数学家陶哲轩借助 GPT-5 Pro,探索 MathOverflow 上一道悬置 3 年的微分几何难题:三维空间中,若光滑拓扑球面主曲率绝对值不超过 1,其包围体积是否至少等同单位球体积?作为擅长分析、数论领域的专家,此次跨界合作不仅推进了问题研究,更揭示了 AI 在科研中的多尺度价值规律。

从合作过程看,GPT-5 Pro 的能力呈现明显分层。“小尺度” 任务中表现突出:仅用 11 分 18 秒完成星形区域情形完整证明,并提供两种验证路径;处理 “近似圆球” 小扰动场景时,协助转化为椭圆偏微分方程问题,虽有微小误差但可修正,还主动指出特殊情况可回归星形结果,助力 “Small Data” 情形突破;“中尺度” 策略层面存在局限:未识别陶哲轩 “曲面内在直径有界” 的错误假设,反而附和强化偏差,导致后续 “Large Data” 情形的数值穷举方案混乱,仅能机械枚举,缺乏启发;“大尺度” 认知提升上,AI 有间接价值:借助 AI 快速完成计算与验证,陶哲轩高效试错并放弃无效数值方法;通过 AI 辅助关联文献(如二维 Pestov-Ionin 定理),明确问题核心是 “非凸细长结构”,深化对问题本质的理解。

此次合作也让陶哲轩梳理出 AI 科研辅助的多尺度特性:在 “小尺度”(具体计算、推导、单一引理验证):AI 能高效完成繁琐工作,提供文献内有用思路,仅存细微误差;在 “中尺度”(研究策略制定、方向判断):AI 易强化人类错误直觉,缺乏质疑与修正能力;在 “大尺度”(问题本质理解、无效路径排除):AI 可加速试错过程,帮助研究者快速舍弃不适配方法,同时补充领域新知。GPT-5 Pro 在此次跨界挑战中,进一步验证了 AI 从 “工具辅助” 向 “有限协作” 的迈进,但距离原创性科研突破仍有差距。


简评:陶哲轩与 GPT-5 Pro 的合作,不仅是一次数学问题的探索,更构建了 AI 科研辅助的 “能力坐标系”。其价值在于明确了 AI 当前的核心定位 —— 作为数学家的 “计算副驾驶”,而非 “战略领航员”:小尺度上替代重复劳动,大尺度上加速认知迭代,但中尺度的战略判断、复杂问题的本质突破仍需人类主导。未来 AI 与研究者的最优协作模式,应是 “人类把控方向 + AI 夯实细节” 的互补架构,既避免过度依赖 AI 导致的战略失焦,也充分利用 AI 提升研究效率。同时,此次案例也暴露了当前 AI 的深层局限 —— 缺乏对数学问题 “全局结构” 的理解,难以突破人类认知盲区,提示后续模型需在 “战略质疑”“跨领域关联” 等能力上持续进化,才能真正从 “辅助工具” 升级为 “科研伙伴”。



十二.Sora2 发布:AI 视频生成技术迈入 “GPT-3.5 时刻”,重塑内容产业格局

OpenAI新一代视频生成模型Sora 2 及其社交应用Sora App发布近一个月后持续占据App Store榜首,标志着视频生成领域正式迈入“GPT-3.5时刻”。Sora 2 采用世界模拟模型架构,通过观察现实世界短视频理解物体动态,在物理模拟准确性和生成可控性上实现质的飞跃,能精准模拟复杂运动轨迹与 “合理的失败”,展现出精准模拟体操动态平衡、桨板水花受力等复杂物理规律的能力,成为首个经大规模验证的“世界模型”雏形。其原生集成音频生成与口型同步功能,推动AI从内容工具向“现实引擎”演进。与初代 Sora 相比,Sora 2 长视频时长从 60 秒提升至 120 秒 +,提升幅度 100%;分辨率维持 1080p 支持。Sora App作为AI原生范式的典型代表,通过Cameo数字分身与Remix二次创作功能构建用户增长飞轮,其“实时生成+计算”架构重塑内容创作与消费链路。开放API已催生电商虚拟带货、影视预演、工业设计等场景的短路径商业转化,并与OpenAI的ACP协议形成闭环。但是,Sora 2 高拟真能力也带来深度伪造、版权争议及信息信任危机等风险。OpenAI 为此已采取动态水印、扩大人工审核、家长控制、Cameo 授权机制等防护措施。


简评:Sora 2 的发布不仅是 AI 视频生成技术的一次飞跃,更是 OpenAI 开启 AI 二次革命的重要标志。其对 “世界模型” 的探索,重新定义了 AI 与物理世界的交互方式,让 AI 从工具属性向 “现实引擎” 属性跨越,为后续 AGI 发展提供了关键技术验证。在商业生态层面,“AI Native” 范式打破传统应用边界,实时生成与计算架构、创新功能及 API 赋能,有望重塑内容创作、电商、影视等多个行业的商业模式。但同时,Sora 2 也暴露了 AI 发展中的核心矛盾:技术突破与算力支撑、合规监管之间的失衡。算力需求的指数级增长,使 AI 基础设施成为竞争核心,而版权、虚假信息等问题若无法妥善解决,将制约技术落地。对全球科技产业而言,Sora 2 既是标杆也是警示,它揭示未来 AI 竞争是技术、算力、生态、合规的综合较量,尤其对国内企业,需加速构建自主算力体系与合规框架,才能在 AI 革命中占据主动,避免陷入技术与生态的双重被动。



大模型进展专栏由中国指挥与控制学会主办,大模型与决策智能专委会承办。大模型进展专栏联系方式:lmdi123@163.com 欢迎投稿

文字:郭兰哲,马天驰

编辑:张钊,梁星星,邢天,闫云龙,江禄民

审核:张国华


本际(北京)数字科技有限公司
电话:010-67567567
地址:北京市海淀区知春路7号致真大厦A座9层901号
本际(山东)电子科技有限公司
电话:010-67567567
地址:山东省威海市高技区宫松岭路We公馆A座1515室