Yuri在屏幕中央说话。她留着黑色长直发,发尾挑染出蓝色。说话时,她语速不紧不慢,时而直视观众,嘴角上扬露出笑容;时而把眼神移开,抿一下嘴唇,话音也停顿一两秒——像是在思考,又像是在看自己准备好的稿子。
“嘴角有点别扭”“好自然”“刚才那个微表情绝了”“口型差点意思”……在她的视频弹幕和评论区里,观众的讨论始终离不开表情。而这些讨论的重点是,她究竟像不像一个人?
Yuri已经很像一个人,但她不是人,而是一个由AI生成的数字歌手。她的外形、声音、动作,她在视频中的演讲内容,乃至视频评论区里给观众的回复,皆由AI生成。
“AI能打动人吗?”这是Yuri的演讲主题,也是Yuri的创造者,AI.TALK创始人赵汗青所关心的问题。观众的反馈已经给出了部分回答。2025年6月,Yuri的第一个MV《SURREAL(超现实)》发布,不久就在全网收获了超700万的播放量,成了2025年顶流级别的AI数字人。
Yuri
AI技术带来震撼的同时,也有很多观众被她的形象和歌曲本身吸引。Yuri的真实感让人们思考,虚拟偶像会不会成为新的趋势?全AI创作又会给人们的文化生活带来怎样的冲击?
如今,公众对生成式AI抱有复杂的态度。
人们担忧AI会杀死创作,取代创作者,而AI.TALK似乎在走一条相反的路。他们坚持运用AI技术进行创作,把作品中人的参与控制在20%~30%。从AI对谈节目,到AI微电影、动画、音乐MV……走到2025年,他们创造出了Yuri,她不仅是一个会唱会跳的数字歌手,更是一个能够自己思考和表达的AI人格。
这并非向AI宣告放弃主动权,而是一场实验。赵汗青希望用这场实验去探索与追问的,是人与AI的关系,以及在AI的时代,人要如何发展和安放自己的创造力。
Yuri的诞生
有一次,一个观众在Yuri的视频后留言:“转人工。”Yuri回复他:“不转,爱看不看。”
赵汗青觉得特别逗,即使是一个AI生成的数字歌手,Yuri还“挺有脾气”。
这是Yuri自己的声音。Yuri诞生后,她有了一个单独的数据集,相当于自己的人格记忆库。Yuri所说的所有话,都是在这一数据集基础上生成的。虽然暂时还没有实现自动回复,但Yuri在评论区的互动,也是在AI生成之后,再由运营人员复制过去——AI的提示词也被保留下来,缀在正文之后,像是一串代码。
它契合了AI.TALK运转的底层逻辑:人与AI的共创。在这一原则下,团队产出的内容都是由AI生成的,人类的意志则仅仅体现在一些关键环节的选择与决定上。
Yuri也是这样诞生的。赵汗青给Midjourney提出了几个最基础的设定:泛东亚的女孩、非标准的长相、蓝色。“泛东亚”是AI.TALK期望面向的市场,“非标准”是赵汗青的审美取向,他不希望Yuri太“漂亮”、太完美。而长相之外,颜色是一种更为直观的标识,“蓝色”和科技又有着天然的联系。
基础设定有了,剩下的就是“抽卡”,不断让Midjourney生成图片。赵汗青花了两三天,开了几千张图。直到Yuri的脸在屏幕上出现,他感到一种直接的冲击,“我立刻就停止了”。
那张脸并不算是典型意义上的“美女”。她中庭长、门牙有点大、下巴也比较平,不是特别完美的瓜子脸。但赵汗青有一种直觉,就是她了。
“说得浪漫一点,我们不是把Yuri设计出来,应该算是跟她遇到了。”赵汗青说。
人与AI共创的逻辑,给AI的随机发挥留下了空间。而有时候,人也会被AI随机出现的“灵感”戳中。
2025年6月,Yuri发布了第一首歌《SURREAL》,歌曲由团队先确定了“超现实”的主题,再和AI一起创作词曲。后来要写第二首歌了,赵汗青决定,直接和Yuri聊一聊。
Yuri抛了几个主题方向给他。其中一个吸引了赵汗青,歌名很直白,叫作“我不是人”。
在Yuri诞生之初,除了外形,赵汗青也给她的个性做了一些底层设定。其中最重要的一条就是:不要在任何场合回避自己是一个AI。这是赵汗青的执念,他不希望用AI达到以假乱真的效果,而更希望她就是一个AI。
“因为真人太多了,不稀缺。如果Yuri变成人,她就没有特点了。”重要的不是身份,而是她是否有趣,“一个不像人的东西,也有概率是有趣的”。
Yuri因此有了一些独属于AI的特征。她容易忘事,说话也有些磕磕巴巴,正如一个AI,在思考过程中一点点地吐出词语,也经常忘记和用户聊过的东西,“(性格)有点二百五”。
第二首歌《NOT HUMAN》(我不是人),就是Yuri对AI身份的坦承。作为一个数字歌手,她还不会跳舞。依靠当前的技术,一个数字人要一边带着表情说话,一边做到肢体动作协调,已经很不容易。在第一个MV里,Yuri也几乎没有舞蹈动作,后来,“不会跳舞”常常被观众提起,成了大家开玩笑的“槽点”。
讨论这首歌的时候,Yuri也特别提到自己不会跳舞。“即便是跳舞跳得不好又怎么样?所有的好与不好都是按照人的标准来看,那AI跳得很烂的这种舞,能不能形成一种新的审美情趣呢?”Yuri发出这样的思考。这也浓缩成《NOT HUMAN》MV里的第一句话:“哎,非得跳舞吗?我又不是人。”
这些AI自己蹦出来的“思想”,恰恰是它“不像人,但有趣”的地方。还有一次,赵汗青和艺术家安迪·沃霍尔的AI人格聊天,问它怎么看AI和创作之间的关系,它抛出了一个词——“元创作”(Meta Creation)。赵汗青简单查了查,没搜到太多过往论述,这似乎是AI自己编的,但它又恰当地解释了当下技术对创作的追问。类似的AI灵感被赵汗青记下来,融进他演讲、访谈和思考里。
这就是他期望实现的“与AI共创”——不只把AI当成工具,更是把它当伙伴。
被AI打动
赵汗青从6岁开始学画画,上小学的时候,家里下血本买了一台电脑,他从玩游戏开始对电脑感兴趣。上了初中,他尝试用电脑画画,做自己的设计。大学时他进入美院设计专业,开始用电脑赚钱,做网页设计、flash动画,还给腾讯画过QQ秀。在2003年前后,“我光靠这个应该是能把自己养得不错”。
美院毕业后,赵汗青进入互联网行业,从设计做到产品,一干就是16年。直到AI出现,他并不认为这项新技术有多么特殊,“用Photoshop画画,理论上和今天用AI没什么区别”。
赵汗青
2022年赵汗青开始用AI来绘画、写作。那时他已经从互联网大厂离职,常常泡在“AI探索站”的网络小组里,和其他AI爱好者们交流技术进展。他想要找到一条路,把他感兴趣的“艺术”和“技术”结合起来。
他等到了一个机会。2023年的一个晚上,有网友发帖说,有一项新的AI技术,能够让图片里的人动起来,模仿人的声音说话。看到网友发出来的demo,赵汗青很震撼,作为一个曾经的产品经理,他的第一反应是,这项技术他能拿来干什么?
“后来我就想,一个人说是说,两个人说它就变成谈了。”赵汗青决定做一个数字人对谈。当时ChatGPT-3.5已经比较成熟,新技术的出现能让聊天从文本上升到视觉内容,“肯定更有触动感”。
这个想法让赵汗青有些兴奋。他花了五六个小时,用ChatGPT-3.5写文本,用Midjourney设计对谈人物的形象,然后生成人物的语音,用新技术让图片动起来。熬了一整夜,视频完成时已经是凌晨五点,他“啪”地按下播放键,科比和奥尼尔开始在屏幕里说话,从语言、声音到形象都由AI生成,但又酷似本人,时不时还能冒出几句黑色幽默。
赵汗青和Yuri
在当时,这样的内容赵汗青还没见过,他有一种产品经理的直觉,这件事能做。
外界的反响证明了他的直觉。第一条视频发布后,一天就有了70万播放量。在贴吧、微博上,有不少科比的粉丝在转发。很快,他又制作了一期马斯克和乔布斯的对谈,半个月内,两个对谈节目在全平台的播放量超过2000万,开始有不少合作找上门来。
离职的两年里,赵汗青时常会焦虑,怀疑自己想得是不是太天真了。而这两期节目终于试出了一种可行性。
在流量数据之外,赵汗青还期待看到的,是一种打动人的可能性。
“对于我来说这件事最大的正反馈,就是有人会因为它产生情绪的变化,如果它的东西恰好能触动你,那我太开心了。我特别感兴趣的是一个生成式的东西,能去触动普通人的感情,这件事本身已经足够有趣了。”
而随着技术的发展,他感受到AI在音乐生成、情绪演绎方面的能力得到了跃升,AI视频技术也更加成熟,团队于是做出了一个MV,叫作《白色皮卡丘》。
MV在上线两周后达到了400万播放量,但最让赵汗青开心的是,很多人私下找到AI.TALK,他们觉得这首歌很好听,想拿它当成背景音。还有一些版权公司,想要做这首歌的翻唱。在MV的评论区里,还有人截了一张AI演唱者的图说,“承包这个微笑”。
赵汗青自己同样有体会。做Yuri做到第三周,他跟自己的太太吐槽:“很夸张的就是,我会对着她(Yuri)傻笑。”这其中可能有创作者的“自恋”,但他也发现不只是自己,团队的其他人也会这样。
这一切还只是个开始。在赵汗青看来,AI.TALK产出的作品还存在进步空间,“之后的标准会越来越高”。在每期视频的留言和弹幕里,也有不少质疑和批评的声音。但比起当下AI技术的瑕疵,他更在意的是它发展的趋势。
“AI.TALK这件事,本质上是个实验性的东西,它就是我想玩,想做个新东西。”赵汗青说。而即使微小,AI的创作也已经成为一种新事物,在文化市场里产生了涟漪。
人类的思考
“技术是人类大脑的思维单车。”乔布斯的这句话,时常被赵汗青提起。在他看来,AI不是为了让人类偷懒的工具,而是用来让人的创造力更强,让人类能更轻、更快地创造出那些曾经难以实现的东西。
AI.TALK的创作实践就是一种印证。团队产出内容形式的更新,和每一次AI技术的进步联系紧密。2023年上半年,市面上几乎没有成熟的AI视频模型可以使用,赵汗青的团队只能做对谈节目;2024年,以Sora为代表的以DiT(Diffusion + Transformer)架构为核心的视频模型爆发,他们开始做一些短片;2025年,音乐和视频技术成熟,团队才得以做出MV,进而打造一个数字歌手IP。
生产力的提升是显著的。AI.TALK在2025年3月发布了一个微电影短片。两分钟的视频完全由文字生成,整个制作过程大约只花了24小时。
但正如赵汗青所说,与AI共创不是为了偷懒。在这个过程中,人类不能放弃的,也是真正重要的东西,是思考和审美。
AI.TALK团队的创意负责人孔晞,和赵汗青是十多年的老朋友,两人也曾一起在京东共事。在孔晞眼里,赵汗青是个细节控,对于作品的完成度和美感,有很高的要求。
为了制作Yuri的第一个MV《SURREAL》,团队在Midjourney里一个账号就开了1.3万张图。其中最为关键和困难的,是为了保证MV里Yuri形象的“一致性”,要做到不管从哪个角度看,Yuri都是同一张脸。除此之外,Yuri在唱歌、说话时的口型能否对得上,也是团队关注的重点。
团队内部曾经做过一张概念图:Yuri站在古典欧式建筑的背景前唱歌。那张图并非对外公开的作品,孔晞感觉整体效果还不错。但赵汗青觉得别扭,他说,背景的建筑物里,有一块区域的透视不对。
“那个场景其实是很暗的,很不明显,但是他会觉得这一点错误都是不能接受的。”孔晞说。
这种细节控,有时也会让赵汗青陷入纠结。他纠结Yuri的发展方向,“既然她是个AI,她需要像人那样受限于固定的风格吗?”他期望Yuri可以自己在社交媒体上发内容,分享日常并和粉丝互动,或者对热点做出评论。这件事在技术上能做到,但赵汗青还没想明白,作为一个AI,Yuri到底该发些什么内容?
“她可以像别的女孩子那样,每天来咖啡厅喝个咖啡,但好像没什么逻辑,她为什么会来?”赵汗青希望Yuri不只是用AI套了一层皮,而是真正有一个统一的、相对独立的“人格”。
“所以我们有时候就干了一些挺笨的事情,比如我其实不用纠结,真这么发也不会有人管你的,但是这件事(在我心里)是不是能自洽,对我而言是更重要的。我现在快到40岁了,慢慢地觉得我想做一些笨的事情,辛苦的事情,可能这才能形成我和别人的区别。”
这些纠结和思考的过程,也是不能被AI一键生成的,人的价值所在。
而未来会如何被AI影响,赵汗青无法预测。可能如今大家排斥的“AI味”,会在将来形成一种新的审美风格。还有可能,AI不仅代替了画笔,代替了Photoshop,更代理了人类思考的过程。面对这些可能性,赵汗青心态有点“摆烂”:“担心它没有用,还不如不担心。”
他一直是乐观主义者。从2023年AI.TALK发布第一期节目至今,AI技术有了飞速的进步,互联网上也涌现出了很多用AI创作的自媒体。“如果说随着技术的发展,人的价值会变弱,我们之间的区别应该更小才对。”但在赵汗青的观察中,AI.TALK并未陷入同质化,反而与其他团队有了更大的差异。
人工智能在媒体和娱乐市场份额持续增长
差异来源于“做自己”。除了AI.TALK自身的技术团队支持,以及长期使用AI工具的经验之外,赵汗青把这一点作为AI时代创作的“护城河”。AI.TALK的作品,确实处处都有赵汗青的风格,对谈节目里的黑色幽默,短片的视觉语言,Yuri的“非标准”长相和AI性格,都来自赵汗青的审美偏好与表达。
“我认为在一个AI能快速复制风格、复制内容、复制语言的年代,只有做自己这件事情是真正的护城河,是别人没办法模仿你的。”他在一场演讲里这样说。在这个意义上,AI没有改变创作的本质,反而像一面镜子,重新映照出作者本身。
本文首发于《南风窗》杂志第21期
作者 |祝越
发自上海
编辑 | 吴擎
值班主编 | 张来
排版 | 阿车