拆解萌小译：千问翻译狗叫靠谱吗？

本文系用户投稿，不代表机核网观点

杭州一家名为萌小译（PettiChat）的公司，推出了一款 AI 宠物项圈，声称能把猫狗的叫声实时翻译成人类语言，准确率高达 94.6%，众筹价 179 美元，海外预售阶段就卖出了一万台。

很多人把它当成「AI 智商税」，但我真正感兴趣的，是他们提及的两个词：
阿里千问大模型
500 万级宠物声纹训练
千问能理解狗叫了？「500 万声纹」又是什么意思？带着这些问题，我去翻了他们的海外 Kickstarter 众筹页面。
萌小译到底在做什么？
国内宣传里，萌小译的核心说法是：
产品通过对 500 万+ 真实宠物声音样本的训练，能够在 1 秒内将猫狗的叫声、呜咽、呼噜等声音信号转化为人类语言。
而 Kickstarter 页面则公开了它们的技术路线：PETTI 模型。

简单说就是：把宠物行为视频和声音同时输入模型，通过「对齐（Alignment）」建立对应关系。
比如兽医拍下一段猫叫视频，视频里能看到猫是在冲着鸟叫，还是在警告别人别靠近，再用这些看得见的行为去标注听得到的声音，最后交给 AI 学习。

所以他们采访里才会说：
不同情绪下，宠物叫声的声波纹会不一样，我们通过 AI 进行测算、匹配，再翻译成人类语言。
这个逻辑本身成立，也是目前动物声学研究里的标准做法。
但问题也恰恰在这里。
98.6%到底测的是什么？
Kickstarter 页面里还有一张性能对比图。里面最显眼的数据，是右上角那个98.6%。

但仔细看图注会发现，他们测的并不是宠物在说什么，而是模型能不能在电视声、家电声、家庭背景音里，识别出这里有宠物在叫。
它更接近声音检测、降噪提取，而不是语言翻译。

上面这张图真正的核心，其实是 PETTI 与千问系列的横向对比。无论是自有测试集，还是公开数据集 DogSpeak，PETTI 的成绩都高于 Qwen2-Audio、Qwen2.5-Omni 和 Qwen3。
但问题在于：DogSpeak其实也不是「翻译狗语」数据集。
它是 2025 年 ACM Multimedia 发布的公开数据集，包含 156 只狗、77202 段录音，主要用于品种识别、性别识别和个体识别，回答的是这是哪只狗，而不是「它想表达什么」。
这其实也对应了500 万声纹这个宣传词。
声纹更像「声音身份证」。它擅长识别是谁，却未必知道「叫的意思是什么」。
更关键的是，整个训练过程依然高度依赖人类标注。
视频里猫是在警告、撒娇，还是单纯想引起注意，仍需要人类主观判断。区别只是，从「主人猜测」升级成了「兽医判断」。
所以，如果我们真想知道猫狗在和我们说什么，就必须了解它们的语言体系，仅仅匹配声纹和视频，远远达不到理解动物语言。

猫其实不是在说话
猫的情况很有意思。
在野外，成年猫之间几乎不互相喵。它们更多依赖气味和肢体语言交流。「喵」这个声音，反而是家猫在驯化过程中，专门发展给我们的一种沟通方式。
2003 年，康奈尔大学研究者 Nicholas Nicastro 提出一个很有意思的观点：猫未必知道自己在说什么，但它知道，只要一喵，我们往往会做出对它有利的反应。
更重要的是，每只猫都会根据主人的反馈，慢慢调整自己的音调和频率，最后形成一套只属于你们之间的沟通密码。
这也是为什么，「通用猫语翻译器」天然困难。
你家猫讨食的方式，和别人家的猫可能完全不同。

狗做了一个违背祖宗的决定
狗的情况稍微不同。
研究普遍认为，狗叫在声学上确实能区分不同情境。比如低频更容易被感知为攻击性，高频短促则更偏向友好或兴奋。
而且狗爱叫，是因为它违背了祖宗。
狼的吠叫只占全部发声行为约 2.4%，而且多用于警告和防御，所以人们总觉得狼孤傲。
狗则完全相反。由于幼态延续，成年狗保留了狼幼崽时期频繁呜咽、吠叫的特征，更习惯通过声音主动向我们索取关注。
但目前机器学习对狗叫的理解能力依然有限。因为狗的交流不只靠叫，还包括肢体动作、气味等。
匈牙利罗兰大学研究发现，模型在六千多个样本上的情境分类，最好成绩也只有约 43%；更接近真实环境的 2024 年研究，最高约 62.18%。
一旦脱离同一只狗、同一个家庭，准确率就会明显下滑。
这和猫的情况差不多，日久见狗心。

真正严肃的动物语言研究，其实已经不再执着于把动物声音「翻译成人话」。
比如 Google DeepMind 的 DolphinGemma，用了 40 年海豚声音与行为数据，目标不是把海豚声翻译成英语，而是让 AI 在声音序列内部寻找规律，看看海豚是否存在某种词汇系统。
结语
我家里有一只龙猫。
它平时不怎么叫，但我给它剪下巴打结的毛时，它会突然咕一声，我就知道，剪到肉了。
龙猫虽然叫猫，但更接近鼠的习性，所以很多时候都特别警惕。
有时我会想，如果真有龙猫语翻译器，我最想和它说的话，大概是：
1.我对你没恶意，这里很安全    2.要多吃草，不然没法磨牙。
但某种程度上，我又庆幸并不存在这种东西。
因为它虽然怕人，却还是会在我身上爬来爬去，钻进袖子和怀里。我觉得和它有种默契。
猫狗可能也一样，喵汪是它和你的专属密语。这种浪漫，或许并不需要 AI 来配旁白。
其他拆解系列：
拆解OneTaste：顶级销冠如何售卖女性高潮？
拆解AlphaGPT：14岁女孩的币圈算法如何战胜人性？
拆解HongKongDoll：P站顶流的流量操盘
拆解《人妻X会X南》：叔本华的不屑，李X野的恨