杭州一家名为萌小译(PettiChat)的公司,推出了一款 AI 宠物项圈,声称能把猫狗的叫声实时翻译成人类语言,准确率高达 94.6%,众筹价 179 美元,海外预售阶段就卖出了一万台。
很多人把它当成「AI 智商税」,但我真正感兴趣的,是他们提及的两个词:
千问能理解狗叫了?「500 万声纹」又是什么意思?带着这些问题,我去翻了他们的海外 Kickstarter 众筹页面。
产品通过对 500 万+ 真实宠物声音样本的训练,能够在 1 秒内将猫狗的叫声、呜咽、呼噜等声音信号转化为人类语言。
而 Kickstarter 页面则公开了它们的技术路线:PETTI 模型。
简单说就是:把宠物行为视频和声音同时输入模型,通过「对齐(Alignment)」建立对应关系。
比如兽医拍下一段猫叫视频,视频里能看到猫是在冲着鸟叫,还是在警告别人别靠近,再用这些看得见的行为去标注听得到的声音,最后交给 AI 学习。
不同情绪下,宠物叫声的声波纹会不一样,我们通过 AI 进行测算、匹配,再翻译成人类语言。
这个逻辑本身成立,也是目前动物声学研究里的标准做法。
Kickstarter 页面里还有一张性能对比图。里面最显眼的数据,是右上角那个98.6%。
但仔细看图注会发现,他们测的并不是宠物在说什么,而是模型能不能在电视声、家电声、家庭背景音里,识别出这里有宠物在叫。
上面这张图真正的核心,其实是 PETTI 与千问系列的横向对比。无论是自有测试集,还是公开数据集 DogSpeak,PETTI 的成绩都高于 Qwen2-Audio、Qwen2.5-Omni 和 Qwen3。
但问题在于:DogSpeak其实也不是「翻译狗语」数据集。
它是 2025 年 ACM Multimedia 发布的公开数据集,包含 156 只狗、77202 段录音,主要用于品种识别、性别识别和个体识别,回答的是这是哪只狗,而不是「它想表达什么」。
声纹更像「声音身份证」。它擅长识别是谁,却未必知道「叫的意思是什么」。
视频里猫是在警告、撒娇,还是单纯想引起注意,仍需要人类主观判断。区别只是,从「主人猜测」升级成了「兽医判断」。
所以,如果我们真想知道猫狗在和我们说什么,就必须了解它们的语言体系,仅仅匹配声纹和视频,远远达不到理解动物语言。
在野外,成年猫之间几乎不互相喵。它们更多依赖气味和肢体语言交流。「喵」这个声音,反而是家猫在驯化过程中,专门发展给我们的一种沟通方式。
2003 年,康奈尔大学研究者 Nicholas Nicastro 提出一个很有意思的观点:猫未必知道自己在说什么,但它知道,只要一喵,我们往往会做出对它有利的反应。
更重要的是,每只猫都会根据主人的反馈,慢慢调整自己的音调和频率,最后形成一套只属于你们之间的沟通密码。
研究普遍认为,狗叫在声学上确实能区分不同情境。比如低频更容易被感知为攻击性,高频短促则更偏向友好或兴奋。
狼的吠叫只占全部发声行为约 2.4%,而且多用于警告和防御,所以人们总觉得狼孤傲。
狗则完全相反。由于幼态延续,成年狗保留了狼幼崽时期频繁呜咽、吠叫的特征,更习惯通过声音主动向我们索取关注。
但目前机器学习对狗叫的理解能力依然有限。因为狗的交流不只靠叫,还包括肢体动作、气味等。
匈牙利罗兰大学研究发现,模型在六千多个样本上的情境分类,最好成绩也只有约 43%;更接近真实环境的 2024 年研究,最高约 62.18%。
一旦脱离同一只狗、同一个家庭,准确率就会明显下滑。
真正严肃的动物语言研究,其实已经不再执着于把动物声音「翻译成人话」。
比如 Google DeepMind 的 DolphinGemma,用了 40 年海豚声音与行为数据,目标不是把海豚声翻译成英语,而是让 AI 在声音序列内部寻找规律,看看海豚是否存在某种词汇系统。
它平时不怎么叫,但我给它剪下巴打结的毛时,它会突然咕一声,我就知道,剪到肉了。
龙猫虽然叫猫,但更接近鼠的习性,所以很多时候都特别警惕。
有时我会想,如果真有龙猫语翻译器,我最想和它说的话,大概是:
1.我对你没恶意,这里很安全 2.要多吃草,不然没法磨牙。
因为它虽然怕人,却还是会在我身上爬来爬去,钻进袖子和怀里。我觉得和它有种默契。
猫狗可能也一样,喵汪是它和你的专属密语。这种浪漫,或许并不需要 AI 来配旁白。
评论区
共 条评论热门最新