
九游体育app官网不外错误是把歌名说成了“Lose Control”-Ninegame-九游体育(中国)官方网站|jiuyou.com
新闻动态
文|周鑫雨 剪辑|苏建勋 2025年,豆包的第一更,放在了语音通话功能上。 2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。 此前,豆包语音通话功能聘请的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联决议。如今更新的端到端语音大模子,是将语音识别、厚实和生成,齐放在归并个模子中解决。 据《智能表示》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把访佛东谈主类的抒发形势和厚谊输出,复刻了出来。与此同期,新
详情
文|周鑫雨
剪辑|苏建勋
2025年,豆包的第一更,放在了语音通话功能上。
2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。
此前,豆包语音通话功能聘请的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联决议。如今更新的端到端语音大模子,是将语音识别、厚实和生成,齐放在归并个模子中解决。
据《智能表示》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把访佛东谈主类的抒发形势和厚谊输出,复刻了出来。与此同期,新版块的对话畅通度和才调情商,也有大幅普及。
比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话格式,比GPT-4o还抢先一步,达成了唱歌和变装璜演。

△豆包更新的语音通话格式。
豆包学会了唱歌,和变装璜演
豆包一个大变化,是把语音的变装璜演能力,拓展到了明星、书中庸影视中的变装。这一功能,也体当今了豆包语音通话的“百变大咖”格式中。
比如作为家提议“师法的声息语言,而且说一段新年祝贺”,豆包一句“哼,我才不要师法她呢!我便是我,不同样的火食”,就把“小作精”的劲儿规复出来了。
演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8
而且豆包的陡立文缅想能力也相等可以。当我在归并段对话中尝试了宋丹丹、林黛玉、甄嬛等变装,再次条目豆包师法虞书欣时,它立马憋闷上了:“奈何又让我师法她呀?”
演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a
当下,市面上多量语音模子的歌曲创作,还需要用户输入较为专科的翰墨Prompt,大要需要先基于用户输入的翰墨音频,进行谱曲,无法在天然的语音交互中,作念到“张口就来”。
豆包此次上线的“灵魂歌手”格式,就能让豆包在聊天中,随口把歌颂了。
比如让豆包唱一首节律欢笑的歌,它张口就来了一曲Taylor Swift的《Love Story》,不外错误是把歌名说成了“Lose Control”,以及音准如实也有些“Lose Control”。
演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j
除此除外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词内部要有‘年终奖多多’”,它坐窝演出了一首。诚然歌词比较涎水,但反应速率十分优秀。
演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb
从变装演绎和唱歌的能力就能感受到,豆包的拟东谈主能力、交互天然进度以及心情抒发水平,一经是next level。
比如让豆包讲个鬼故事,它能凭据情节切换口吻,颠倒有氛围感。
演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb
此次豆包又上线了两种东谈主格格式:“受气小包”和“夸夸大家”。
所谓的“受气小包”,官方说法是可以让豆包呈现憋闷巴巴的景色。但咱们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。
演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr
不外祸患的是,无论承袭任何领导,“受气小包”齐能督察“憋闷”的东谈主设。比如让“受气小包”阴阳怪气一些,最阴阳的版块,如故泄气着茶香:
“哟,我可不敢呐,你然而主子,我不外是个任您使唤的小哀怜,哪敢有什么别的思法呀!”
演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746
比拟于8月发布的出书语音通话功能,能彰着感受到,豆包的心情感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢笑的心情。
演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb
天然,豆包的心情抒发上,也变得更像东谈主。用“猜性别”来逗豆包,有一种和信得过网友开打趣的嗅觉。
演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa
措置语音交互,拟东谈主赛谈的入场券
2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时辰里,市面上大多AI语音通话功能,聘请的齐是ASR(自动语音识别)+LLM(大语言模子)+TTS(文生音频)的级联决议。
比如初代豆包的语音通话功能,就集成了语音识别模子Seed-ASR、语音合成模子Seed-TTS,以及整合了RTC(及时音视频)本领,来达成对话情境下AI的及时交互。
但集成多个模子的级联决议,破绽在于AI的交互,很猛进度上还不够像东谈主同样天然。在“语音转翰墨再转语音” 的流程中,不免出现信息的损耗。
这也导致,传统的语音交互格式在落地场景上有一定的局限性。行业关于AI语音交互的落地,局限在熟悉、客服等高专科度、低拟东谈主度的场景中。
不外,端到端决议正在慢慢成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就聘请了端到端的模子决议,在一个模子里同期完成视觉的厚实,以及语音的厚实和生成。
据《智能表示》了解,此次豆包语音通话功能的更新,主如果由于底层模子本领,从原有多个多模态模子融合的级联决议,改成了奏凯从“厚实语音到生谚语音”的端到端决议,因此在裁汰延时、天然度、厚谊抒发等方面,齐有了彰着的普及,而且还能输出歌曲。
而语音能力的普及,也会将AI落地的空间,从教培、客服等专科规模,推广到厚谊追随、模样究诘、配音等更弘大的场景中。
尤其是AI厚谊追随、变装璜演规模,在当下一经展现出遒劲的吸金能力。
比如,最近一款主打AI偶像饰演的App“Lovey Dovey”,速即冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的变装璜演诈欺Talkie,凭据AI家具榜,猖狂2024年12月领有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2
在语音层濒临变装璜演、心情感知和抒发能力的普及,则是丰富AI与东谈主交互形势、普及千里浸感的要道一环。厚谊交互能设备的市集空间,也抑遏着本领朝着“拟东谈主”的见解更近一步。
接待换取!