只需一台录音机就可实现攻击，阿汤哥是怎么做到的？

【编者按】雷锋网专栏特约作者宫雅卓，聚虹光电创始人，上海交大博士，主攻生物识别领域，在虹膜识别领域有15年的专研。本文是《碟中谍5》背后的生物识别技术系列科普的下篇——语音识别篇。

电影中，伊森.亨特重复播放由若干单词组成的一小段英国首相的录音，就轻松骗过了语音识别系统。看似轻松的破解过程，只需要一台录音机就能完成的攻击手段，让“语音识别技术”在黑科技云集的科幻大片中并不那么耀眼。

日常生活中，我们也有接触到各种形式的语音识别技术，用来取代键盘输入，或者变身成Siri一般的智能小助手，与人类进行简单的对话。

语音识别技术，到底在研究什么？能多大程度改变我们的生活？

我为各位一一道来。

（“碟中谍5”中的语音识别系统）

语音识别的特点

语音识别，是一种结合了生理和行为两种成分的生物认证技术。气管、鼻腔、咽喉、舌头等组织的相互配合，影响了声音的音调、音强和音色，从而形成了每个人声音的独特性，这构成语音的生理基础；而每个人不同的说话内容，则构成了语音的行为基础。

因此，语音识别是一种很有趣的过程，既要知道你在说什么内容（行为特征），又要知道你在以什么样的方式说（生理特征）。

语音识别，是成本最低的生物识别技术。

因为不需要依赖昂贵的成像芯片和光学镜头，也没有台式PC和移动终端的限制，只需要一枚麦克风即可采集语音，因此在各种身份认证产品中都可以集成该功能。用户对着麦克风说出特定的短语，系统将用户的语音样本过滤后，与先前存储的语音样本比较，达到一定的近似度阈值，用户就通过了身份认证。

语音识别的应用

语音识别技术，分为“语义识别”和“语音身份识别”两大类应用模式。

语义识别，也被称作话语识别、非特定人语音识别，其目的在于理解话语中的单词和句子——也就是话语中的内容。

由于几乎可以被任何人使用，语义识别技术的应用场景非常多样化，被集成到各种设备上，已经成为智能硬件发展的主流趋势。

手机的进化历史，就是文本输入技术的发展史，也是语义识别技术的革命史。最早的功能手机屏幕很小，带有26键或9键实体键盘；随着智能手机发展，实体按键越来越少，甚至整合进入屏幕成为虚拟键盘。实体键消失的大趋势，让文本输入技术发生着改变，而手环、手表、眼镜等小屏或无屏可穿戴式设备的兴起，人们不得不寻找比键盘更有效的文本输入方式。于是，语音识别技术，成为文本输入的最轻松、最自然方式。

正如Siri为我们展示的那样，我们已经习惯于通过语音拨打电话、打开应用、查询天气，也能不动一根手指，用语音输入法发送消息，但这些语义应用，依然借助了屏幕这一载体。未来，智能设备几乎是没有屏幕可以触摸，最终只能通过语音这种采集成本低、容易集成的方式来实现人机交互。

（苹果的Siri是语义识别技术的应用典范）

语音身份识别，也称说话者识别，将语音作为一种稳定的生物特征来识别说话者的身份。

早期的身份识别精度很低，缺乏特定的语音处理和特征提取技术，只能判断一个人的种族。二战时，美日双方经常夜战，黑暗中无法判断对方是敌是友。美国人根据“日本人对l，r发音不准确”这一声音特性，制定了一个口令“lollapalooza（意为：非常出色的人）”，一旦对方发音不准确，就直接开火。

今天的语音识别精度，已经可以判断一个人的身份。用户对着麦克风说出特定的短语，系统将用户的语音样本进行背景噪音过滤、特征提取，再与先前存储的语音样本比较，达到一定的近似度阈值，用户就通过了身份认证。

（语音身份识别的流程）

语音识别的缺陷

语音的采集成本虽然低，但在身份识别中并未大规模应用。目前看来，主要是因为语音识别面临着不易提取、不够稳定、容易模仿三大问题。

缺乏多样性和噪音影响，是语音特征不易提取的两大原因。

语音是一维线性特征，与指纹、人脸、虹膜等二维图像特征相比，信息量更少，精度也更低。此外，语音识别的性能，还会受到外界环境的影响，如同时有多个说话者，或者环境噪音嘈杂，也会导致语音识别精度降低。

语音会受时间、年龄、身体状况影响而发生改变，是导致语音特征不稳定的重要原因。

每个人在青春期都会经历“变声”的过程，常见的感冒、鼻塞、咽喉炎、声带疲劳都会影响语音识别的性能。因此，语音识别的稳定性并不好。

语音是一种较易模仿的生物特征，如果口技演员改行做声音窃取，破解成功率将非常惊人。录音是攻破语音系统的另一种常用方法，“谍5”对此有准确描绘：伊森·亨特只用一台录音机就轻松窃取到英国首相的语音。为防止录音攻击，一些语音识别系统从较小的词汇表中随机产生一个变化的短语让用户朗读。这种方式能够阻挡一般的攻击者，但经验丰富和准备充分的老手仅需多花一点时间而已。

综上所述，不易提取、不够稳定、容易模仿这三大问题困扰着语音识别技术，难道它注定只能在低端徘徊，无法满足更高安全等级、更高识别精度的要求吗？

鱼和熊掌：价格最低 & 性能最好

语音用于身份识别，无法回避识别精度过低的先天缺陷，但是将语音和其他高精确度、高稳定性的生物特征相结合，既保留语音的低成本优势，又弥补其低精度的弱点，打造出一种“鱼和熊掌”兼得的完美生物特征。

为了弥补语音的缺陷，我们选择哪一种最高精确度、最高稳定性的生物特征呢？学术界早有结论：虹膜识别，在精确度和稳定性两方面，是所有生物特征中最好的，目前最优秀的虹膜识别算法甚至将误识率降低到1/500万以下。

虹膜位于眼球前部，表面覆盖角膜，是一种隐藏在身体内部的特征。虹膜是瞳孔周围具有多种颜色的环状组织，呈现出一种复杂的放射状纹理。虹膜在出生之前随机发育产生，因此所有的虹膜都是独一无二的，从出生6个月直到死亡都保持不变。

将“价格最低廉的语音识别”与“识别精度最高的虹膜识别”组合，可以依据不同的需要进行精度调整，使系统安全等级具有更大的弹性。特别针对用户规模达到数十万、甚至上百万的大型身份识别应用，“语音+虹膜”的组合已经成为最具竞争力的技术方案。

比如，国内已经推出集成虹膜和语音两种识别技术的社保支付终端，用户可以根据支付金额及环境情况，选择更具灵活性的身份认证方式，如小额支付用语音识别，大额支付用虹膜识别；安静环境使用语音识别，嘈杂环境使用虹膜识别。

“语音+虹膜”的组合，将两者的优点（低成本、高精度）集于一身，正是《碟中谍5》启发我们提出的最具技术前瞻性的身份识别方案。

为您推荐

Python网络安全:最强工具,保护你的网络世界

Ollama AI 框架中的严重缺陷可能导致 DoS、模型盗窃和中毒

美国大选进入冲刺阶段！网络安全问题再成关注焦点！

300个网络安全专业术语,懂一半绝对高手

PTZOptics相机的零日漏洞正在被广泛利用

谷歌警告安卓系统中存在被主动利用的 CVE-2024-43093 漏洞