营收超1亿美元!可灵,凭什么? -

2025.08.06


本文字数:9814,阅读时长大约14分钟

作者 |第一财经 何昕晔、吴洋洋

3周前,Youtube上出现了一条讨论克隆议题的短片《Kira》(克隆人),片长近16分钟,剧情、画面和音乐风格都类似《黑镜》。但与《黑镜》一集制作成本至少数百万美元不同,《Kira》的创作者Hashem AI-Ghaili称,他这条短片是花了12天跟「多个AI工具」交互了600次后制作出来的,成本只要500美元。

这条短片在YouTube上获得了5.9万次观看,搬运到国内网站Bilibili后,观看量达到47.9万,而且,短片前半段的弹幕中,观众还在为影片是否为AI生成争论不停,后半段,弹幕内容就都在讨论剧情了——他们已经被内容吸引。

<video src="https://removemp4/" data-video="https://flv0.bn.netease.com/c4c5d5bbecbbc23672ae9b2ac63956b7cfc79b6d6cdea1f1d1211fd92d8bb150ef1e8a03d8268104a3c6f66a14cc3571551216ded8bbdc4eee9d715bbd2421adb31dbfd94055532b5f7808d0fdb012565e104c00754c2a7b3cff74ae3f399afde638ccb979b3996e880b4b78c8d2e932139ba1e8f90c0d68.m3u8,https://removemp4" data-img="http://videoimg.ws.126.net/cover/20250806/09OsSnYhW_cover.jpg" data-topicid="1000" data-commentid="" data-commentboard="" data-vid="VF5CQP0GI" alt=" 营收超1亿美元!<a target=" _blank"="" href="https://ent.163.com/keywords/5/e/53ef7075/1.html" poster="http://videoimg.ws.126.net/cover/20250806/09OsSnYhW_cover.jpg" preload="auto" style="box-sizing: inherit; display: block; margin: 0px auto; min-width: 600px; min-height: 360px; max-width: 640px; max-height: 480px; background: rgb(0, 0, 0);">


《Kira》,讲述克隆人的故事。影片来源:Hashem AI-Ghaili YouTube频道

《Kira》之前,Hashem还制作过另一条火进中国社交媒体的短片《The Colorless Man》(无色人),同样只要600美元和两周时间。Hashem称,他自己写了无色人的故事和脚本,然后其它都是AI干的:ChatGPT、MidJourney和Dreamina(即梦)处理图像,Kling(可灵)处理视频,ElevenLabs处理语音,Dreamina处理唇形同步,Suno处理音乐,MMAudio和ElevenLabs处理音效。


《The Colorless Man》,讲述一个无色人的故事。影片来源:Hashem AI-Ghaili YouTube频道

Hashem出生于1990年,本人是一名分子生物学家,他同时还有两个身份是科学传播者和导演,在Facebook上有3491万粉丝。创作以上两部AI辅助的影片之前,他创作过《Simulation》(模拟)并获得到过伦敦独立电影奖提名。

1年前,视频生成还是个不怎么被看好的赛道。后,百川智能王小川直接拍板「不跟」,理由是视频生成「既不代表AGI,也不代表场景」。去年3季度内部总监会上,百度CEO李彦宏的说法与此类似:「Sora这种视频生成的投入周期太长,10年、20年都可能拿不到业务收益。无论多么火爆,百度都不去做。」

然而1年后,像Hashem这样的创作者用AI制作的影片开始或拿下电影节奖项、或俘获用户的注意力和情感。而且,包括可灵在内的不少视频生成模型和公司都在这个技术不成熟领域赚到了钱。

根据可灵母公司快手今年6月初公布的数据,可灵年化营收(ARR)今年3月就已突破1亿美元。这个数字超过MiniMax,英国《金融时报》去年10月报道称,MiniMax当时告诉投资者,其2024年有望创造7000万美元的收入。MiniMax当时以语言模型为核心,核心赚钱产品是面向海外市场的。

用户量方面,快手CEO程一笑在2024年第三季度业绩电话会上透露的数据是,当时可灵的用户已超过500万。今年4月发布可灵2.0时,可灵宣布其全球用户规模超过2200万。接下来的WAIC2025大会上,可灵最新公布的用户规模数超过4500万。考虑到这些用户都是付费用户,4500万是个不小的数字。对比而言,QuestMobile数据显示,腾讯元宝今年上半年的月活还只有2480万。

视频生成模型的技术成熟度仍然不如语言模型。视频生成公司(注:Haiper创始团队已于今年3月被微软收购)去年7月对第一财经「新皮层」称,视频生成仍在LLM的GPT 2阶段——Sora会画出5条腿的猫,就像GPT-2会说出「脚上有两只眼睛」一样,充满对常识和逻辑的违背。

基于并不够成熟、仍然充满幻觉的模型,可灵获得了比腾讯元宝还多的用户、赚到了比MiniMax还高的收入。这个结果及背后的过程表明,至少在视频生成领域,技术并不是商业化成功与否的唯一决定因素。而作为国内最早上线并开放用户使用的类Sora模型,可灵面对的功课还包括:如何保住这种先发优势、不被即梦等资源更充足的对手追上。

交互层的功能创新被外界低估了

去年6月发布国内首个上线即可用的视频生成模型可灵1.0以来,快手分别在去年9月、今年1月和4月发布了可灵模型的1.5、1.6和2.0版本。3个更新版本中,快手除了迭代基座模型的训练数据和参数量,最大变化是在交互层引入了一系列便于提升模型生成结果的「可控性」功能。

首先是「首尾帧」,它让用户只需上传两张图片,一张作为视频的首帧,一张作为尾帧,模型就能在中间生成连贯的过渡画面。


可灵1.5中上线运动笔刷功能。

一个多月后更新的可灵1.5模型中,可灵上线了「运动笔刷」「人脸一致性」以及「口型同步」等功能。这些功能从不同角度提升了模型生成视频的可控性,比如「运动笔刷」,只要为图片中的元素制定运动轨迹,模型就能跟随指令,控制图片中的元素按照指定的运动轨迹移动;「人脸一致性」则可以让用户上传多张人脸图片训练模型对人脸的记忆,从而令模型生成视频中的人物形象可以在不同场景中都保持一致,这一功能对凡是以人为主角的短片制作都相当重要,没有人脸一致性,广告商、电影制作人等商业创作者就难以将视频生成模型当作可靠工具使用。


可灵1.6中上线多图参考功能。

今年1月更新的可灵1.6模型中,可灵又推出了「多图参考」功能,同样通过让用户上传多张图片作为参考,模型会综合分析这些图片的元素、风格、色彩等信息,生成更贴合用户预期的视频内容。比如如果用户上传了猫、夹克和太阳镜图片,并提出要模型生成「穿着夹克和太阳镜的人形猫在舞台上对着相机摆pose」,模型就能将用户上传的图片元素应用到视频中,生成结果更可控的视频。甚至,用户可以指定以某张图片为背景、某个人物为主角进行视频生成。

在这些功能被推出之前,用户使用模型生成视频时能拿到怎样的结果,很大程度上凭运气,业内用「抽卡率」一词描述根据语言描述获得满意视频效果的成功概率。去年Sora发布后,多伦多视频制作团队Shy Kids的后期制作成员Patrick Cederberg曾在试用后称,Sora生成的300个视频中,大约只有1个是可用的,抽卡率大概只有0.3%。

可灵AI事业部负责人盖坤在可灵2.0模型发布时称,这种低迷的抽卡率主要是由文字这一单一模态作为prompt产生的。「很明显,仅靠文字无法传达视觉信息。我们需要一种新方法,让人们能够准确表达他们的想法。」盖坤说。

今年4月,可灵推出2.0版本视频生成模型,整合了之前在交互层更新过的所有功能,允许用户以多模态——不仅是文字——的方式与模型交互,比如提交参考图像、参考视频片段,并指定视频中的人物身份、外观、风格、场景、动作、表情、相机运动等元素。可灵将这种交互方式命名为「MVL」(multi-model visual language,多模态视觉语言),并称它是「全新的人机交互语言」。

可灵运营负责人曾雨珅对第一财经「新皮层」称,「1.6模型是可灵的一个重要分水岭,2.0是第二个里程碑。」1.6模型发布时,可灵用户量刚刚超过600万,到2.0模型发布时,可灵全球用户数已超过2200万,用户3个月内增长了近2倍。而自今年4月发布可灵2.0以来,可灵用户再次翻倍,目前达到4500万。

很多功能不是可灵最早创造的,但它是跟进最快的

作为可灵的用户增长分水岭,1.6模型中发布的多图参考功能功不可没。但包括首尾帧、人脸一致性、多图参考等在内的功能,其实都不是可灵首创的,全球第一个发明首尾帧功能的公司是Luma,人脸一致性和多图参考的发明者则是生数科技。

去年6月,Luma率先在其视频生成模型Dream Machine中推出了「首尾帧」功能,快手则在去年人工智能大会即将结束时的7月8日宣布支持这一功能。

去年7月底,生数科技旗下的Vidu推出解决人脸一致性问题的「角色一致性」功能,可灵在去年9月更新的可灵1.5中跟进了这一功能。11月,生数科技在Vidu 1.5版本中上线「多图参考」功能,今年1月,快手在可灵1.6版本中为用户提供了「多图参考」。

全球看,可灵在视频生成领域的赚钱能力与行业标杆公司Runway不相上下。The Information报道称,Runway去年12月的ARR为8400万美元。而在国内,生数科技、字节跳动的即梦AI、Minimax的海螺AI等虽然也开始赚钱了,但规模比可灵小了一个数量级。生数科技7月30日公布的数字是,其Vidu产品在3月底的ARR是2000万美元。第三方机构非凡产研发布的数据显示,字节跳动的即梦AI、Minimax的海螺AI的ARR均未达到1000万美元。

模型仍然重要,而且可能是前面那个1

可灵AI运营负责人曾雨珅也认为,交互层的价值被低估了。不过她强调,模型层的能力才是前面那个1,如果没有模型层的能力支撑,交互层的创新就难以存在。

目前,可灵在Poe、Freepik等多个聚合式模型服务商中的份额都是最高的,超过Runway。Poe于5月13日发布《2025年春季AI模型使用趋势》报告显示,可灵5月初的市场份额高达30%,超过Runway的23.6%和Veo2的16.6%。

而Freepik的CEO Joaquin Cuenca Abela在今年WAIC2025期间提供的数据称,其平台接入了超过10个不同的视频生成大模型,用户选择使用可灵AI生成的视频数量,超过其他模型加起来的总和。


poe平台的视频生成模型调用分布变化。

不过,这种领先地位没那么容易保持。去年,Luma AI发布新模型Dream Machine后,4天内就获得了1000多万用户,这些用户之前应该都用过Runway和Pika。这种没有忠诚度的现象目前仍然存在。Poe榜单中的市场份额变化可以明显看出这一点:每当有新模型上线,份额占比就会迅速发生变化。1月,Runway在Poe平台内的市场份额还高达40%,到了5月,份额只剩下20%左右。而Google的Veo 2模型上线后,份额迅速从0增长至30%;可灵2.0大师版也在推出仅3周后占据了21%的份额。

包括可灵、Runway等在内的视频生成公司都以P(Professional)端的专业用户为核心,这些付费用户对模型表现天然地比免费用户敏感。而且,资源更丰厚的大公司追赶得越来越快。在全球,Google已于今年5月发布了能在生成视频中直接自带声音的veo 3模型,在此之前,市面上的视频生成模型生成的视频都是「默片」,需要后期补充音频才能使用。SimilarWeb发布的数据显示,Veo 3发布后,带动Google AI相关服务的流量同比激增了162%。


今年5月,字节发布整合后的视频生成模型Seedance 1.0。

在国内,字节跳动旗下的即梦也在追赶可灵。字节发布首个类Sora模型的时间比快手晚了3个多月,去年9月底,它才发布PixelDance和Seaweed,这两个模型分别由字节当时的AI Lab团队和Seed团队分别开发(注:今年4月,AI Lab已并入Seed团队)。然后直到。今年5月,字节将两个模型进行了整合,发布了豆包视频模型Seedance。团队和产品的整合意味着,字节要在视频生成这个方向上加速了。

可灵领跑了视频生成行业1年,它接下来的挑战可能更大。

以下为第一财经「新皮层」与可灵AI运营负责人曾雨珅的对话,内容经删减和编辑:

新的交互方式:灵动画布

新皮层:可灵在WAIC期间发布了「灵动画布」 这一功能,这个功能主要能让用户做些什么呢?

曾雨珅:我们认为,它能够更好地帮助用户保持创作时的心流状态,让整个创作体验更加流畅,同时增加了团队协作功能。它在很大程度上类似于一个工作流(workflow)。我们在一个画布上整合了文生图、图生视频等各种功能,形成流程化的操作,而且每个步骤都具备协同能力,能让团队成员进行协作。

我们发现,在AI时代,其实很多场景下一个人也无法完成所有的创作,10人左右的小型生产工作室很常见,灵动画布也能解决他们在协作上的问题。

新皮层:它其实是一个创作工具,而不是最终成品的展示模块?

曾雨珅:没错,它是一个创作工具。我们的目标是让可灵从一个AI素材生成器转变为一站式的AI创意平台。AI素材生成需要在多个不同的页面、窗口间切换,过程非常繁琐,我们希望通过灵动画布工作台,让大家能在一个页面完成所有创作。

工具之间的切换确实存在不便,每次生成的结果都是独立呈现的。即便在同一个平台,图生视频和文生视频的入口也可能是分散的。例如,做完文生图后再去进行图生视频操作,入口都不同,不够直观。而把这些功能放在一个画布上后,每一步之间的关系会更清晰。比如,想要保持人物的一致性,使用同一张图片进行多次不同的生成,结果会在画布上集中展示,这样更容易挑选出满意的素材。

新皮层:这相当于一种新的交互方式?

曾雨珅:更准确地说,是一种交互方面新的产品体验。

新皮层:关于灵动画布提到的团队协作,它只能管理可灵平台上生成的素材,还是也能管理从其他应用获取的素材?

曾雨珅:目前主要管理可灵平台上生成的素材,同时我们支持导入其他平台生成的图片、视频等。

从一开始,我们就知道可控能力很重要」

新皮层:可灵过去发布的1.5、1.6以及 2.0版本的模型,在交互层面做了很多工作。你们公布的年化营收已经达到一亿多美元,这在多大程度上得益于交互层的创新?

曾雨珅:我认为模型和交互都有影响,但第一阶段的成功更多源于模型效果的优势,这包括动态质量、画面质量、美学表现等方面。

大家之所以更关注视频的商业潜力,可能有几个原因。首先,视频素材生成市场规模达千亿,并不小。现在很多自媒体已经能制作纯AI内容,在一些内容平台上,能看到诸如猫猫狗狗等主题的纯AI生成内容。另一方面,业界已将AI工具大量应用到传统工具流中,比如Netflix最近在财报中提到,其新剧集《the eternaut》(永恒者)使用了AIGC镜头;Amazon Prime上线的电视剧《House of David》也用到了AIGC镜头。

广告营销行业对AI技术的应用也非常深入,智能硬件终端、游戏等领域亦是如此。所以无论是个人还是行业,都有很多落地案例,这也解释了为什么能实现不错的商业化营收——模型效果已能在存量市场实现部分替代,增量市场也已开始出现。

当然,交互或者说可控能力也很重要。刚刚提到的模型效果是一方面,可控能力则是技术和产品交互共同迭代的结果。从可控性来看,协作性和易用性是我们在产品端比较重视的点。比如首尾帧功能、早期的运动笔刷功能,以及最近上线的多图参考功能,都帮助创作者更好地实现了人物角色、物体、场景等的一致性。而像灵动画布这样的新交互体验,提升了协作性,能让创作者更高效地整合繁杂的AI创意生产过程。

新皮层:你提到的首尾帧、运动笔刷等功能,是从去年下半年开始迭代到模型中的,你们当时为什么会想到开发这些功能?

曾雨珅:其实从一开始,我们就知道可控能力很重要。一方面,我们与不同层级的创作者保持着密切沟通;另一方面,DiT(Diffusion Tranformer)模型架构本身存在一定的不可控性,但也带来了创意的发散性。结合用户需求,我们从一开始就明确,可控性是让用户生成优质内容的关键。没有一致性,就无法制作出完整的1分钟、3分钟甚至30分钟的片子。

新皮层:可控性会限制视频的长度?

曾雨珅:不仅如此,还会限制讲故事的能力,进而决定这项技术在内容产业中的应用广度。

新皮层:这些可控功能或工具,能让视频生成从一种什么状态转变为另一种状态?

曾雨珅:可以理解为从随机状态转变为能够讲述指定故事的状态。如果没有主体、物体、环境的一致性,可能只能制作一些片段式的片子。比如,这一秒是我们在接受采访,下一秒就是其他人的采访,没有一致性的话,这个片子就无法成立。

大多数故事都有固定的主角、场景,包括场景中的细节,比如有几个花瓶等,这些都需要保持一致性,否则一个具有合理性的故事就很难实现。

新皮层:Sora刚发布时,可能出现同一画面中的猫在这个场景有4条腿,到另一个场景就有5条腿,或者在这个场景是蓝眼睛,到另一个场景变成黑眼睛的情况。

曾雨珅:是的。如果这只猫是主角,就不能让它今天是这样,明天是那样。对于讲故事和内容产业而言,大多数内容题材都需要人物的一致性。

新皮层:这种可控性主要是在模型层实现的,还是在交互层实现的?

曾雨珅:两个层面都有涉及。像首尾帧和多图参考功能,是结合底层技术能力和产品交互共同实现的。因为一致性是生成素材的结果,所以在生成素材阶段需要技术深度介入和训练。而像灵动画布这样的功能,则是纯产品交互层面的,能帮助用户在生成一致内容后,更高效地进行后续创作,或更好地调出具有一致性的作品。这两个部分相辅相成。

新皮层:在可控性方面,哪些功能能让模型更可控?这些功能是如何被创造出来的?

曾雨珅:从模型角度来说,其实并不复杂,因为目前还是基于DiT架构,更多是通过强化学习和参数提升来不断优化效果。如果是垂类能力,就会针对该垂类进行相应的训练。

新皮层:在技术上,比如将一个人的照片作为参考,模型是如何知道要保持这个人的特征不变的呢?

曾雨珅:这源于模型内置的指令。模型会将这张照片的关键特征进行解析和理解,并把这些特征转化为模型能够理解的信息注入到视频生成任务当中,从而实现更加精准的人物特征的保持。

新皮层:也就是说,模型能够理解它被要求保持不变的东西是什么?

曾雨珅:在可控能力中,指令遵循能力也很重要。从技术层面讲,指令遵循是最理想的方式,通过文字就能控制所有想要保持一致的效果。但有些内容很难用文字描述,比如人的长相,即使能描述,也很难准确呈现。

在这种情况下,我们提出了多模态视频生成的技术路径,即多模态输入、多模态输出。也就是说,不仅可以用文字,还可以用图片、视频作为参考,输出形式也是多模态的。

同时,用户可以在上传照片的时候,选择希望模型参考的区域,比如只需要保持人脸,还是需要保持包括服饰在内的全身特征,从而实现更加灵活的控制。

可灵1.6是个分水岭

新皮层:你们在可控一致性方面推出的第一个功能是什么?

曾雨珅:是首尾帧和运镜控制功能,固定第一帧和尾帧后,基本上能控制画面主体部分的一致性,这是一种简单但在商业化场景中被广泛使用的方式。

新皮层:从效果来看,你们推出的首尾帧、运动笔刷、多图参考等功能,是否收到了明确的市场反馈?这些功能推出后,市场有什么变化吗?

曾雨珅:有明确的反馈。可灵从1.0到1.5、1.6、2.0、2.1版本,每一代都有很大提升。1.6版本及其首尾帧功能受到了广大创作者的喜爱和认可,因为它在动态质量、画面质量、美学表现等方面有了更好的呈现,而且首尾帧等功能让创作者能够完成一分钟、三分钟左右的完整故事,而不是只能制作片段。我们会通过产品使用量、用户规模、收入数据等直接指标来判断,这些都表明业务取得了收益。

新皮层:从1.5到1.6,再到2.0模型,你们的用户规模有了很大的跨越吗?

曾雨珅:1.6版本是第一个重要的分水岭,当时用户规模和口碑都非常好。2.0和2.1版本则是第二个里程碑。


新皮层:多模态交互的概念是你们在业内第一个提出的吗?

曾雨珅:多模态编辑语言(Multi-modal Visual Language,MVL)确实是我们第一个提出的。当然,我认为行业内大家在方向上有一些共识,因为创作的痛点是客观存在的。但我们在多模态路线的选择和坚定程度上,可能比其他公司更强一些。目前来看,大家更多还是在已验证效果更好的DiT视频生成模型基础上做更多工作。

新皮层:你们比很多同行更早意识到在交互层提供多模态交互的重要性吗?

曾雨珅:是的。我们的终极愿景是,未来不仅支持图片作为参考,还能支持图片、视频、声音等多种参考模式,输出后还能通过部分涂抹、文字指令等方式对视频进行二次编辑,这将大大提升用户在可控性方面的体验。以广告为例,同一个模特可以推广水瓶、杯子等不同产品,这能让广告素材的生成变得非常快速。

新皮层:我们发现,很多功能,比如首尾帧是Luma最早推出的,Vidu在多图参考或人脸一致性方面做得似乎更早,但你们跟进得很快。

曾雨珅:我觉得各家推出帮助提升可控性的功能的时间差不多,运动笔刷功能应该是我们最早推出的。

新皮层:在视频领域第一个实现某项功能,对用户来说有多重要?

曾雨珅:在我们看来,确实存在一定的先发优势。因为目前工具的使用还需要一些技巧,用户会形成特定的使用习惯,在平台上积累资产,与平台建立互动和信任。当拥有较早的用户社群时,他们更愿意尝试产品。而对于后发者来说,需要说服用户自己的产品不错,相对更难。

但同时,这个市场竞争也很激烈,先发优势并非最高的护城河,最高的护城河在于技术、产品的领先性,以及创作者社区的口碑。

新皮层:我们看到poe平台的一项统计,显示视频模型份额变化很快。可能一个模型在这个月某两周的份额很高,但到下半个月可能就不一定了。

曾雨珅:poe的数据只能作为参考。Freepik是全球头部的AI创意工具,更能反映创意领域的情况。可灵在这个平台上的视频调度量超过了平台上所有其他视频生成模型的总和,平台上有数十款模型,包括Veo3以及所有主流的视频生成工具产品。所以在偏专业的创意工具市场,我们的份额一直很强劲,尤其在海外市场。

新皮层:从1.6到2.0版本,可灵的用户规模从600万增长到了4500万。600万时,用户主要是哪类人群?增长到目前的4500万时,用户群体又扩大到了哪些人?

曾雨珅:因为我们面向全球市场,全球市场的不断增长可能帮助我们获得了更多用户。同时,在这个过程中,除了网页版,我们还推出了App版本,不同版本也帮助我们吸引了更多用户。总体来说,技术迭代带来的效果提升、APP的上线以及全球市场的拓展,共同促进了用户增长。

从0到4500万,行业变化最快是在今年上半年

新皮层:1年内从600万增长到2200万,再到4500万,这样的增长结果在你们意料之中吗?

曾雨珅:确实有点意外,但这也让我们更有信心,说明目前的用户和商业模式相对成功且可持续。

新皮层:探索市场的过程中,有没有出现超出你们预期的事情,与你们的理解不同?

曾雨珅:用户规模的增长数字确实略超出我们的内部预期,这也让我们对整个行业的预测发生了一些变化,可能这个行业的发展比大家认为的要更快。

尤其是在今年上半年,技术迭代改变了很多事情。去年好莱坞还在罢工,今年就有了很大变化。比如《阿凡达》的导演James Cameron加入了一家AI创意公司的董事会;奥斯卡颁奖礼上,最佳男演员和最佳影片都使用了AI对口型功能,以修正演员的匈牙利口音;奥斯卡还修改了规则,明确提出了使用AI工具不影响评奖等。

今年上半年是很关键的时期,能看到业界对AI的态度从抵触、怀疑转变为全面拥抱。

新皮层:是因为AI开始被当作他们的工具,而不是取代他们的东西吗?

曾雨珅:对,他们开始将AI工具应用到工作流中,而且现在已经出现了专门的AI相关职业,比如AI分镜师、AI图片生成师、AI视频生成师等,职业开始细分。

这个行业真的已经形成了,上半年的变化很大。大家不再怀疑是否有人使用AI工具、AI能否盈利,因为它确实能提高效率、提升质量,有明确的落地场景,这可能也是视频生成领域涌现出一些不错的公司的原因,那就是我们的产品能创造价值。

这与大语言模型不同,很难判断一个能帮忙点咖啡的助手值多少钱,用户可能觉得它不值钱,但免费的话会用。由于产出的东西不同,定价方式也不一样。

新皮层:算下来,从你们发布视频生成模型,其实也就一年左右的时间,在这一年多里,行业变化最快的是哪个阶段?

曾雨珅:我觉得去年年底到今年上半年是加速发展的阶段。去年6月刚开始的前半年,发展相对较慢,市场反馈有,但竞争远没有现在激烈。今年上半年,国内外在这个领域的投入和竞争都更加激烈,这也印证了行业在蓬勃发展且具有商业前景,否则不会有这么多参与者加入竞争。

新皮层:去年下半年乃至年底,发生了什么让这个行业竞争加剧、投入增多,并且开始盈利?

曾雨珅:首先,去年6月我们发布了可灵1.0,让大家看到了这件事(注:指视频生成)的可行性。技术上可行后,大家有了明确的技术选型方案,从而更坚定地投入,因为不坚定投入的话,产出效果会比较慢。像可灵这样的先行者让大家看到,这条技术路线是可行的。

同时,我们的用户和营收增长也让大家意识到这件事是可以做的。当然,不止我们一家,同期OpenAI、Google等国内外很多公司也开始发布相关产品。

新皮层:你们下一步的方向会是什么?

曾雨珅:现在比较热门的Agent会是我们接下来探索的方向,因为它能够大大提升AI视频创作的便捷性,进一步降低门槛。

有了Agent,用户可以输入指令,就让它自动完成从文生图到图生视频的创作。目前的创作过程本质上还是人机交互,人参与的部分较多,比如需要输入指令、生成视频、不断尝试等。而有了Agent之后,这些过程可以自动化。比如,用户想制作一个3岁小朋友的绘本,Agent会先帮忙生成脚本、分镜,可能还会生成初步的脚本,用户可以在此基础上进行迭代,这和编程领域的Agent类似。

以前生成脚本、文本或图片,需要使用不同的工具单独生成,无法在制作片子时一气呵成。Agent可以将整个流程串联起来,用户可以基于Agent的结果进行二次迭代。简单来说,就是更方便,相当于有了一个小助理,就像从一个人拍片子,变成有一个助理协助拍片子。

新皮层:到那个时候,可灵面向创作者的交互界面会和现在不一样吗?

曾雨珅:我们正在探索,有可能会不一样,比如灵动画布就有完全不同的交互体验。这方面我们会继续研究。

新皮层:Runway创始人将视频生成比喻为新的电影技术,认为将出现新的内容形式、AI原生内容,而非仅将AI作为为电影、广告、短视频等既有内容形式服务的辅助技术,可灵认为视频生成的未来内容形态会如何变化?

曾雨珅:可灵这类AI视频生成平台是一种新型的生产工具,可以提升人类想象力和创作力的上限,提升视频生成的效率,降低视频创作的成本。我们认为它首先会作用在存量视频内容市场——电影、广告、短视频等,同时孕育新的增量内容形态,会更具备实时性和互动性。


若本站收录的文章侵犯了您的权益,请联系我们删除侵权内容!