E223|应用爆发之年:聊聊模型技术进化与商业化
为什么这期值得关注
两年前聊大模型,大家还觉得模型有这样那样的问题,离真实应用很远。而今天,手机里几乎人人都有一个AI助手。基础模型能力在很多场景已经"够用了",传统企业开始大规模拥抱AI,AI native创业公司在碎片化市场中找到了极佳的ROI。
这期播客邀请了四位嘉宾——从模型厂商(阿里千问)到应用层(Insta360、语义科技),从技术进化与商业化两条线索,勾勒出2025-2026年AI产业的真实图景。
视频生成:从娱乐工具到生产管线
如果要用一句话概括2025年视频生成模型的进化,徐栋给出的类比非常精准:以万象(WanXiang)为代表,视频生成模型已经来到了"GPT-4时刻"——从"能用"跨入了"能在生产中用了"。
过去视频生成模型的应用集中在特效和娱乐,视频长度只有5到10秒,镜头单一,生成依赖"抽卡",可控性差。而现在,视频长度已经进入15秒时代(并向1分钟迈进),支持多镜头切换和复杂的光影变换,最重要的是——通过输入参考视频,可以实现角色保ID,让形象和声音在连续创作中保持一致。用徐栋的话说,这是"希望从15秒进一步能延长,镜头的切换、光影的变化都是专业导演需要配合摄像、美术等不同角色一起来做的,这些能力通过模型有可能让门槛变得更低"。
这些技术突破直接催生了两个商业爆发点:AI漫剧和自动化广告。
AI漫剧:短剧市场的范式转移
国内短剧市场已经超过了电影市场。过去短剧依赖真人拍摄和大量人工编辑,成本高、周期长。而AI漫剧从"动态漫"(图片微动效果)起步,如今已全面拥抱AI生成,商业化的能力非常强。
根据徐栋提供的数据:一部短剧按品质分S/A/B级,在合理成本下,AI可以将制作成本压到两万元以下,算上投流后的ROI可以打正。品质要求更高的精品化路线则需要更多后期制作投入。但关键的变化是:AI不是在取代创意,而是在降低创意的门槛。
"漫剧已经成为一个非常跟AI结合的一个事实了。" —— 徐栋,阿里云千问大模型业务总经理
广告自动化:5人团队日产6000条
广告生成领域的变化更为剧烈。一条15秒的合格广告,传统市场价格在25到50元之间,而AI生成的成本可以控制在10元到15元以下。当一个5到10人的团队将万象模型和千问模型结合成管线后,一天可以生成6000条广告。
一条15秒广告
一条15秒广告
使用AI管线的产能
一个新的产业分工正在形成:广告主→agency→AI native创业公司(负责AI生成)→流量平台。徐栋观察到,专门做AI生成广告的创业公司越来越多,它们承接agency或广告主的需求,用模型管线批量生产。
语言模型:看不见的范式,看得见的进步
与视频生成模型的"显性突破"不同,语言模型在2025年经历的变化更为「精耕细作」——虽然很难再看到像o1推理模型那样的"范式突变",但在三个方向上的持续积累正在产生深远的影响。
第一个方向是数据精细化。高质量数据集越来越少,但如何利用好现有数据——从不同角度、不同顺序做训练——让模型在corner case上的表现越来越好。这已经成为每个模型公司的基本功。
第二个方向是模型稀疏化和MTP(多token预测)。稀疏化的模型结构让TPS从30-50提升到80-100以上,首包延迟从2秒降到500毫秒以内成为可能。更重要的是,稀疏化同时带来了成本的大幅下降。徐栋分享了一个具体案例:2025年底发布的Qwen3 Next,80B总参数但仅3B激活——"推理效率、效果、速度都得到了非常大的改变"。
第三个方向是长上下文与指令遵循。工具调用轮次变多意味着需要更长的上下文,而且要在长上下文中精准执行复杂指令。这三者的叠加,让模型有能力在更复杂的生产环节中连续运行,而非仅仅做单次问答。
推理成本下降的三重驱动力
推理成本的下降是AI商业化的关键基础。徐栋给出的数字非常清晰:基本上按照半年快接近一个量级的下降——"一个量级就是十倍"。
这个下降不是单一因素驱动的,而是三重力量的叠加:
第一,模型结构优化。稀疏化、混合精度、MTP等技术在模型侧持续降低推理开销。
第二,芯片垂直设计。模型与芯片的垂直一体化设计,软硬协同释放大量潜在红利。徐栋用了一个类比:阿里巴巴今天有自己的云、有自己的模型、也有自己的芯片投入,是"三位一体",与谷歌的TPU+模型+云的架构有相似之处。这种垂直整合的好处非常大——"不仅仅涉及芯片和模型,还涉及云,因为调度都是跟云有关的"。
第三,云调度优化。通过不同模型、不同任务、不同时段的智能调度——比如夜间跑批任务——将GPU利用率从30-50%拉升到更高水平。这是一个很"云"的概念:利用率的提升直接转化为成本的下降。
"推理成本基本上都是按照半年快接近一个量级的这样一个下降。大家可以理解为一个量级就是十倍。" —— 徐栋
2025年:应用为何在此时爆发?
2025年是AI从模型走向应用的关键一年,Agent大爆发,中国应用创新尤其活跃。徐栋认为,这不是单一因素的突破,而是四个能力的叠加,在2025年这个时间点形成了合力。
首先是推理能力(reasoning)。2024年底OpenAI o1推出后,模型不再依赖单一的概率输出,开始表现出"逻辑偏好"。徐栋认为这是"非常根本性的一件事情"——推理能力让模型从"猜"变成了"想"。
其次是指令遵循。过去做应用要依赖workflow来兜底——因为模型有偏差,需要在关键节点交叉验证。如今模型的指令理解和遵循能力大幅增强,给定足够的context后,能在泛化性与准确性之间找到平衡点。这直接降低了从"模型"到"应用"的工程门槛。
第三是工具调用的标准化。MCP等标准让工具被"显性化"。模型不再局限于输入输出窗口,开始进入SaaS流程、硬件交互、商业闭环等生产环节。
第四是模型可控性的整体提升。预训练改进让模型在变大的同时可控性提高,复杂指令的精准执行成为可能。
这四个能力的叠加,让Agent从一个"你问我答"的Chatbot,开始走向可以连续运行两个礼拜、自动调用搜索引擎、CRM、ERP、办公软件,最终产出一份深度报告或一个AI for science研究成果的自主系统。
开源战略:从7B的破圈到全球生态
千问(Qwen)的开源故事始于2023年8月——7B模型获得了巨大的市场反馈,打开了全球格局。如今,千问在海外开源社区的活跃度极高,"基本上很多北美的公司也会用它作为一个基模"。
开源给阿里带来了三个显而易见的好处:人才吸引力(顶尖科研工作者和学生从学校就开始用千问)、社区反馈加速迭代(推理框架和端侧部署的开发者最早围绕生态做建设、提bad case)、开源带动云的商业正循环(阿里云是一家云公司,开源模型推动云基座发展,闭源API版本则解决离线开源版的问题)。
千问的开源模型家族覆盖从0.5B到235B的极广范围,迭代节奏极快——每月发3个小版本,3到6个月发5个大版本。而最大的千问3 Max则保持闭源,通过API服务高需求场景。
关于DeepSeek开源对阿里的冲击,徐栋的回应相当坦率:"今天这市场还是属于一个中早期阶段,更多的模型公司去推动技术进步,这是最重要的事情。"在他看来,DeepSeek的开源反而带动了整个开源生态的活跃,让Qwen在全球范围内有更多人用起来——"这是个相互促进的过程"。
端云结合:70%的任务端侧解决
一个关键的变化正在发生:今天的4B端侧模型效果已经超过两年前的百B级别大模型。这意味着通用类任务、基本语音视觉交互——约七成可以通过端侧模型解决。
阿里发布的Omni 4B模型引发了手机厂商和车厂的浓厚兴趣,背后是一个经过了两三年打磨的新架构:端侧处理隐私敏感和高时效性任务,云侧通过百炼平台处理复杂推理和大规模并发。徐栋称之为进入了"深水区"——端云模型的结合开始成为一个大家真正关心的话题。
客户的需求也在进化。最早关心的是"效果"(模型能不能用),最近半年到一年转向"性能"(够不够快、并发够不够高),现在核心关注变成了"成本"(使用量扩大了几十到上百倍,用不用得起)。
"今天的端侧模型比两年前我们的最大杯的模型效果都要来得好。" —— 徐栋
影石Insta360:全景AI剪辑的挑战
影石Insta360的核心产品是全景相机,理念是"先拍后剪"——用360度全角度覆盖现场,后期从中挑选最佳视角和节奏。但360度素材与普通平面素材本质不同:通用大模型在360度素材上的训练数据远远少于平面素材,理解力差很多。
影石的解决方案是自研全景理解模型(类似世界模型的研究方向)负责从全景素材中提取高光片段,再调用通用大模型(千问多模态+万象视频生成)负责平面内容的语义理解和编排。
但最核心的难点不在技术,而在用户意图识别。用户说"剪出我滑雪失败的瞬间"——AI要先理解"失败"的语义,再在视频中识别哪些画面属于"失败"。更难的是,用户自己往往也不知道如何精确表达剪辑意图。齐露坦言:"这个是现在模型层面上还是比较难的一个事情。"
成本也是一个现实挑战:剪一段3分钟左右的360度视频,目前需要十几块钱的成本。影石希望通过全景素材的高可压缩性来降低token消耗。
语义科技:AI降本与增效的真实案例
语义科技是一家AI To B SaaS公司,服务于雀巢、宝洁、泡泡玛特等头部消费品牌。他们的核心业务是通过AI对消费者的进线数据做意图识别,帮助品牌从传统的"流量思维"转向"流量+消费者思维"。
吕总描述了三类意图识别:第一是消费者画像(不同于传统的年龄/白领标签,而是肤质、过敏情况等与产品直接相关的深层特征);第二是消费者意图(对产品、服务、物流、营销的正面/负面反馈);第三是归因分析,这也是最有意思的部分——每个企业都不同。
吕总举了一个具体案例:某头部日化企业原来安排六个人负责对消费者退货进行原因登记和责任部门归因,AI agent部署后现在只有一个人在复审。吕总坦率地指出:"省掉五个人,企业发现对我这个体量的企业来说,省掉五个人的钱也就是这么回事,没有带来特别大的公司层面上的效益价值。"
这引出了一个关键转折:从降本到增效的范式转移。
23%增长背后的洞察:AI增效的真实力量
降本有上限——省掉五个人的工资也就那么回事。但增效没有上限。
吕总分享了一个最有说服力的案例:国内某头部家电品牌的高端产品线(客单价两万以上),通过语义科技的AI消费者画像识别和细分反馈分析,重新设计了营销卖点和接待话术。合作一年半以后,整体销量涨幅23%,高端线客单价再提升6%以上。
这是一个"涨价还增销"的案例。背后的逻辑是:AI从消费者的进线数据中提取出了品牌在设计卖点时未曾关注的细分功能需求,将这些需求转化为营销话术中的核心卖点,直接推动了转化率。
效果立竿见影:因为销量好了,数据量自然变大,AI费用随之上涨;而集团看到效果后,从单一事业部推广到了全集团所有事业部都接入AI识别模型。这是一个典型的数据飞轮。
语义科技自身也受益于此:2024年完成了100%的同比增长。
AI时代的决策:工具在升级,判断在人
当被问到"如果所有企业都用上AI,竞争优势会不会被抹平"时,吕总给出了一个深刻而清醒的回答:
"AI未来的核心价值还是掌握在人手里的——看如何去使用它的人。它可能在意图识别、商品匹配、Deep Search报告生成上,每个企业最后发现大的方向上可能都会比较一致。但是最后做出决策的这个人,他如何去看待这些数据呈现出来,如何能够挖掘出AI处理过数据之后的一些insight,这个就是非常看人的洞察能力了。" —— 吕总,语义科技CEO
吕总的判断是,AI能做到的是数据清洗、意图识别、标签化处理、深度搜索报告生成——把海量非结构化数据变成可读的洞察。但AI做不到的是从洞察中发现真正的机会点。AI处理过的数据摆在那里,谁能从中看到别人看不到的东西——这取决于人的洞察能力。最终决策由人来做。
他的结论是:"好的产品经理、好的伙伴永远是有机会的。"
AI如何重塑中国To B SaaS的付费逻辑
吕总还分享了一个非常敏锐的行业观察:AI正在从根本上改变中国To B SaaS的收费逻辑。
过去,中国To B客户付费意愿低,原因是客户认为"谁都可以做这个软件,你没有特别大的价值"。SaaS的边际成本接近于零,客户不理解为什么要持续付费。
但AI改变了这个认知。因为AI按token计费——客户明确知道,处理多少数据就产生多少成本。AI SaaS供应商是"有成本地在提供服务",而非"复制粘贴软件"。用吕总的话说:"客户现在是明确认知到,因为AI是按照token计费的嘛,那就是我用了多少数据量,你们作为基模以外的供应商,你们就会有这样相应的成本,那我如果不付给你这个钱,那你没办法给我提供这样的一个服务。"
语义科技自己的定价模式是"License费 + 数据使用量费"——按处理的对话数据、语音数据、社媒帖子数量计费。吕总甚至说:"我们也是比较感谢,确实是AI带来的商业化的一个机会改变点,就是中国To B SaaS的收费底层逻辑的一个改善。"
这或许是这期播客中被低估的最重要观察:AI不仅改变了产品,还改变了行业的基本商业规则。
核心金句
本期对谈中最值得记住的几句——每一条都在原始transcript中可验证。