AI技术在日常生活中的渗透,从家族群里各种创意十足的AI创作,到普通大众无需了解复杂技术就能轻松使用AI,展现了AI技术从精英工具向大众玩具的转变。同时提到百度在降低AI创作门槛、处理方言等方面的贡献,以及AI在不同场景下的广泛应用,体现了AI与烟火气的化学反应。
来源:新莓daybreak(此处已去除版权相关的特殊限制表述)
马斯克也可能会被要求拱手作揖拜年哦。想象一下家族群里那些有趣的场景吧,二舅能把全家福P到月球表面舞狮,三婶可以在喜马拉雅山顶煮出会发光的饺子,表哥还能够把财神爷请到自家客厅里来呢。这些创意满满的画面,都是AI带来的神奇效果。
那些参与创作、发布以及体验这些有趣内容的用户,他们中的大部分人可是从来都没有接触过AI工具的。他们不需要深入理解像CLIP或者Diffusion这样复杂的模型,只要像跟自家儿孙聊天一样,用自己熟悉的方言说出心中所想就可以了。比如说“在巴黎跳广场舞”或者“我要恭喜发财拜年视频”这样的需求。
技术真正的价值并不在于它能创造多少惊人的记录,而是在于它能够深入到多少普通人的生活当中。当不会说普通话的老人可以用方言与AI对话,当从未出过远门的大妈能在世界著名地标处翩翩起舞,当小学生可以利用AI设计旅游路线,当不会打字的大爷大妈用四川话就能让AI生成全家福贺卡,这才是技术真正意义上的“出圈”,真正走进大众的生活。
02 技术蹲下来
技术只有降低姿态,深入到市井生活的层面,才能够理解真实世界的需求。真正的技术革命,往往是在人们都没有意识到这是“技术”的情况下悄然发生的。就像现在,当爷爷奶奶们操着东北话、河南话、绍兴话对着手机大声说:“给俺整个在埃菲尔铁塔扭秧歌的视频”的时候,他们并不知道,这么一句话其实正在促使全球最先进的多模态大模型协同工作呢。
百度悄悄地降低了AI的创作门槛,让男女老少都能享受到技术带来的乐趣。以前,AI生图和AI生视频在普通人中没有流行起来,主要原因就是创作门槛太高了。你得使用非常精准的指令(prompt),甚至还要加上像“4K ultra - detailed”“cinematic lighting”之类的专业术语,经过多轮调整和反复测试,才有可能像抽盲盒一样得到理想的结果。而且AI生图和文本模型一样,本质上是对每个像素点进行预测,很容易出现不符合现实的奇怪画面,就像经典的“威尔·史密斯吃意大利面”那样。
以前要是让AI画“大妈在埃菲尔铁塔前跳舞”,画面可能会出现大妈长着六根手指,或者铁塔上挂着兰州拉面旗这样怪异的情况。现在有了IRAG就不一样了,就像有了一个严格的监工,红绸缎要有飘扬的质感,大妈抬腿的角度也必须符合人体工学。
方言的处理也是如此。以前,每个方言都需要单独开发一套系统,比如上海话、广东话都有各自不同的处理模块。再比如说,要是想用周杰伦的声音说东北话,还需要模型能够区分音色和方言特征。之前,AI要学会说方言,不仅要收集成千上万个小时的纯正发音,还要像语文老师一样逐个标注声调,仅仅是让AI分清广东话的“九声六调”,可能就需要花费半年时间来调整参数。好不容易教会AI说粤语,要是换成闽南语又得从头再来。
但是现在,通过深度神经网络,百度的语音AI系统能够将语音分解为独立控制的模块:音色(谁在说话)、内容(说什么)、方言(怎么发音)、情感(用什么语气)。这种参数化重组技术,让方言研发从手工操作提升到了工业化生产的水平。这就意味着周杰伦的声音可以说出纯正的东北话,重庆嬢嬢的语调也能完美地运用到英语拜年视频当中。
现在,仅仅需要几分钟的数据就能达到超越真人的语音合成(tts)水平,这就意味着大爷大妈只要录制两句话,就能让AI模仿他们的音色、音调和方言,在网络世界里代替他们拜年送祝福。
百度把创作门槛降低了。在技术专家眼里,这些成果体现在主体一致性、物理合理性、时空连贯性、语音和口型的匹配度等硬性指标的提升;但对于普通老百姓来说,就是感觉“这东西真像那么回事”。当大妈们制作出广场舞视频的时候,她们可不会关心背后的技术是怎么优化的,她们只在乎在家族群里能收到多少点赞的表情包,这才是技术普惠最生动的体现。
03 AI与烟火气的化学反应
我们不难发现一个趋势,那就是AI应用正在从“精英工具”转变为“大众玩具”,我们可能正处在2025年超级应用爆发的前夕。两年前,当ChatGPT写出莎士比亚风格的十四行诗时,全世界都为之惊叹。但是这个春节让我们明白了,文字只是人类表达的一小部分,真实的世界是多模态的,真正的智能必须要理解红绸扇舞动的物理学原理,以及乡音的抑扬顿挫。
2024年的AI还在实验室里比拼参数、较量基准测试(benchmark);到了2025年的春节,它已经出现在千家万户的团圆饭桌上了。从用于写论文、画图表的精英专属工具,变成大妈跳舞、给亲戚拜年的大众工具,AI正在经历一次意义深远的转变。
这种转变的背后,是过去几年的积累和普及。大模型赋予的AI原生应用正在渗透到各行各业,并且从城市走向下沉市场,AI的含量越来越高,破圈效应即将出现。
百度就是一个很好的例子,它展现了AI在不同场景下的广泛应用。从推动生产力变革的工作场景,到日常生活中的情感陪伴,百度的产品在不断深入民心。李彦宏在2025年的全员信中提到,大模型赋能的AI原生应用正在各个行业和各种场景中迅速普及,虽然超级应用还没有出现,但是AI的实际渗透率已经不低了,并且在2025年还会继续呈井喷式增长。
百度文心智能体平台已经有15万家企业和80万开发者入驻,在律师、情感、健康等多个领域都成功建立了模式。这表明AI的应用已经不再局限于理论和实验阶段,而是真正开始在各个行业发挥作用,为不同领域的企业和开发者提供了强大的支持和赋能。
因为文心大模型的赋能,百度文库新增了上百项AI能力,涉及写作、PPT制作、搜索、文生图等方面,这使得这个老产品焕发出新的活力,百度文库AI功能的月活跃用户(MAU)突破9000万,日活跃用户(AI DAU)同比增长230%,甚至成为了付费领域的佼佼者。4000万愿意付费的用户,可不是单纯依靠营销手段就能实现的,本质上还是因为解决了用户的真实需求,得到了大家的认可。
包括今年春节出圈的方言搜索,也是因为AI的神奇力量,穿透了不同人群的圈层,拉近了人与人之间的距离。方言作为一种承载地域文化和情感的特殊语言形式,通过AI的搜索和识别功能,让更多人能够方便地使用和交流,这不仅促进了文化的传承和交流,也体现了AI在情感连接方面的巨大潜力。
过去两年,全球的科技巨头在寻找AI的杀手级应用(killer app)的道路上历经坎坷。他们投入了大量的资源和精力,试图找到那个能够真正引爆AI市场的应用。但是这个春节给出了答案,当全家人围坐在一起,看着AI生成的拜年视频笑得前仰后合的时候,超级应用就有了萌芽的力量。
文章阐述了AI技术在日常生活中的普及,从家族群里创意使用到大众无需复杂知识就能操作,体现其从精英向大众的转变。讲述百度在降低AI创作门槛、处理方言等方面的成果,以及AI在不同场景下广泛应用。还提到AI应用从精英工具向大众玩具转变背后的积累普及,以百度为例展示AI在各场景的渗透,最后指出春节期间家庭对AI生成拜年视频的喜爱暗示超级应用即将爆发。
原创文章,作者:Daniel Adela,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/5659.html