AudioPaLM：能听、说、翻译的语言模型

网贝WebBay • 2023年06月28号 4:23 pm • 人工智能 • 阅读 1475

Google-AudioPaLM-Language-Model-that-can-Listen-Speak-Translate-750x422-1

AudioPaLM 是一种多模式架构，它顺利地融合了两个强大的现有模型 PaLM-2 和 AudioLM，以利用 Google 创建的自身功能。PaLM-2 是一种基于文本的语言模型，能够全面理解文本内容特有的语言复杂性。

另一方面，AudioLM 擅长捕获副语言因素，例如说话者识别和语气。但 AudioPaLM 通过结合这些模型实现了对文本和语音的广泛理解和生成，为即将到来的人工智能系统设定了新的基准。

AudioPaLM 概述

AudioPaLM 背后的关键创新是，它使用有限数量的离散标记有效地表示语音和文本。这一突破允许将语音识别、文本到语音合成和语音到语音翻译等许多任务集成到单一架构和训练过程中。

广泛的测试和评估表明，AudioPaLM 的性能优于以前的语音翻译系统。令人惊讶的是，它还可以对以前从未遇到过的语言配对执行零样本语音到文本翻译。这种无与伦比的能力使用户能够跨越语言障碍顺利交谈，实现前所未有的全球连接。

AudioPaLM 还具有基于简短口头命令跨语言传输语音的独特功能。用户现在可以轻松地使用自己选择的语言进行交流，同时保留其独特的语音特征，即使在使用多种语言进行交流时也是如此。这一发现对于在各种语言环境中运作的多语言人员和组织具有深远的影响。

AudioPaLM的推出代表了人工智能技术的另一项关键进步。谷歌对人工智能的全部潜力的不懈追求已经产生了一种改变游戏规则的语言模型，有望改变日益互联的世界中的沟通、翻译和理解。

语音到语音转换

AudioPaLM 语言模型已证明其能够通过在翻译后的音频中保留原始说话者的声音来将语音转换为语音。这一发现是通过对 CVSS-T 数据集进行彻底测试而实现的，该数据集建立了语言翻译的新基准，并提高了跨越语言障碍的交流的真实性。

翻译音频输出对比分为几栏：

CVSS-T 示例中的原始音频：这反映了以指定语言传送的初始音频内容。
目标语言的 CVSS-T 音频示例：此列显示目标语言的 CVSS-T 数据集的音频输出。
目标语言中的英语口音音频： AudioPaLM 的输出，可将原始音频正确翻译为目标语言，同时保留说话者的英语口音。
不保留语音的目标语言音频：此列代表 Translatotron 2 的输出，如 Jia 等人的工作中详细介绍的。(2022)，没有特定的语音保存功能。