AI 文生音频模型的潜力,似乎还没完全发掘出来
这两天玩 Gemini 2.5 TTS,已经试出了一些有效的提示词类型,意外发现去年 4 月就有人用 Udio 生成了很多质量略惊艳的音频内容。
原本 Udio 这个工具是类似 Suno 那种 AI 生成音乐的,不过 Mckay Wrigley 这老哥用它跑出了很多可能工具开发方都没想过的音频内容,像是:
- 脱口秀
- 公开演讲
- 电台广播(有扬声器那种噪点的质感)
- 体育赛事播报
- 带游戏 BGM 的 NPC 对话
- 自然声
- ASMR
老哥也分享了 Udio 播单,每个生成结果都可以查看用到的提示词、歌词,感觉对后面的 AI 文生音频边界探索也会有启发。
推文:https://x.com/mckaywrigley/status/1778867824217542766
Udio 播单(试听、看提示词):https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
评论区
共 条评论热门最新