机器心脏报告
编辑:小舟、陈晨
LLaMA-Omni 可以接收语音命令并同时生成文本和语音响应。响应延迟较低,为226 毫秒,低于GPT-4o 的平均语音响应延迟320 毫秒。
大规模语言模型(LLM),例如ChatGPT,已经成为强大的通用任务求解器,但大多数LLM仅支持基于文本的交互,这使得它们不适合文本输入/输出场景,应用受到限制。随着GPT-4o 的引入,现在可以通过语音与LLM 进行交互。然而,开源社区仍然缺乏构建这种基于LLM的口语交互模型的研究。
实现与LLM语音交互的最简单方法是使用基于自动语音识别(ASR)和文本到文本(TTS)模型的级联系统。 ASR模型将用户的语音指令转换为文本,TTS模型综合LLM的响应。对于音频。
然而,级联系统按顺序输出转录文本、文本响应和音频响应,这往往会增加整体系统延迟。相比之下,一些多模态口语模型将语音离散化为标记,并扩展LLM 词汇表以支持语音输入和输出。这种口语模型理论上可以直接从语音命令生成语音响应,而无需生成中间文本,从而导致响应延迟非常短。然而,在实践中,生成直接的语音到语音翻译通常非常困难,因为它需要语音之间的复杂映射。
针对上述问题,中国科学院计算技术研究所和中国科学院大学的研究人员提出了一种新的模型架构————LLaMA-Omni,可以实现低延迟、高质量的交互。法学硕士。
论文:https://arxiv.org/pdf/2409.06666 代码:https://github.com/ictnlp/LLaMA-Omni 模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 论文标题:LLaMA-Omni : Seamless S Speech具有规模语言模型的大型交互LLaMA-Omni由音频编码器、音频适配器、LLM和流式音频解码器组成。用户的语音指令由语音编码器编码,经过语音适配器后输入LLM。 LLM 直接从语音命令解码文本响应,无需将语音转录为文本。音频解码器是一种非自回归(NAR) 流转换器,它将LLM 的输出表示形式作为输入,并使用联结时间分类(CTC) 来预测与音频响应相对应的离散单元序列。
在推理过程中,当LLM自回归生成文本响应时,音频解码器同时生成相应的离散单元。在本研究中,我们根据语音交互场景的特点,通过重写现有的文本指令数据并进行语音合成,构建了名为InstructS2S-200K的数据集。实验结果表明,LLaMA-Omni 可以同时生成高质量的文本和语音响应,延迟低至226 毫秒。
此外,与SpeechGPT 等口语模型相比,LLaMA-Omni 显着减少了所需的训练数据和计算资源,从而能够高效开发基于现代LLM 的强大口语交互模型。
LLaMA-Omni 模型概述
如图2所示,LLaMA-Omni由语音编码器、语音适配器、LLM和语音解码器组成,用户的语音指令、文本响应和语音响应分别表示为X^S、Y^T和Y。 ^S。
语音编码器
在本研究中,我们使用Whisper-large-v3 (Radford et al. 2023) 编码器作为音频编码器E。 Whisper 是一种基于大量语音数据训练的通用语音识别模型,其编码器可以从语音中提取有意义的表示。
具体来说,对于用户的语音命令X^S,编码后的语音表示由H=(X^S)给出。其中H=[h_1, h_N ] 是长度为N 的语音表示序列。音频编码器的音频在整个训练过程中被冻结。
音频适配器
为了使LLM 能够理解输入语音,LLaMA-Omni 结合了一个可训练的语音适配器A,它将语音表示映射到LLM 的嵌入空间中。音频适配器首先对音频表示H 进行下采样以减少序列的长度。具体来说,每k个连续帧沿着特征维度进行拼接。
H'然后通过具有ReLU激活的两层感知器以获得最终的语音表示S。
大规模语言模型
在本研究中,我们使用Llama-3.1-8B-Instruct(Dubey 等人,2024)作为法学硕士。这就是目前SOTA开源的LLM,具有强大的推理能力,并且符合人类的喜好。提示模板P(·)如图3所示。
在相应位置嵌入语音表示序列S,并将整个序列P(S)输入到LLM中。最后,LLM 直接根据语音指令自回归生成文本响应Y^T=[y^T_1, y^T_M],并使用交叉熵损失进行训练。
音频解码器
为了与文本响应同步生成音频响应,LLaMA-Omni 在LLM 之后添加了流式音频解码器D。它由几个与LLaMA 具有相同架构的标准Transformer 层组成(Dubey et al. 2024),每层包含一个因果自注意力模块和一个前馈网络。
音频解码器以非自回归方式运行,并将LLM 的上采样输出表示作为输入,并生成与音频响应相对应的一组离散单元。
火车
如图2 所示,LLaMA-Omni 采用两步训练策略。第一阶段训练模型直接从语音命令生成文本响应的能力。具体来说,语音编码器被冻结,并且使用等式(3)中的目标L_LLM来训练语音适配器和LLM。音频解码器在此阶段不参与训练。第二阶段训练模型生成音频响应。在此阶段,语音编码器、语音适配器和LLM被冻结,并且仅使用等式(5)中的目标L_CTC来训练语音解码器。
推理
语音命令数据配置:INSTRUCTS2S-200K
为了训练LLaMA-Omni,我们需要构建语音命令、文本响应和语音响应的三元组数据。
对于语音命令数据,分为三个步骤:命令重写、响应生成和语音合成。
对于基本的文本指令,作者从Alpaca 数据集中收集了大约50,000 条指令。这涵盖了广泛的主题。此外,作者还从UltraChat 数据集中收集了大约150,000 条指令。这主要是关于世界的问题。虽然UltraChat 是一个大型的多轮对话数据集,但值得注意的是,作者只选择了前150,000 个条目,并且仅使用了第一轮指令。最终,我们获得了200K的语音命令数据,称为InstructS2S-200K。
实验结果
训练数据。作者使用InstructS2S-200K 数据集,其中包含200K 的语音命令数据。
型号配置。作者使用Whisper-large-v3 编码器作为音频编码器,使用Llama-3.1-8B-Instruct 作为LLM。
火车。 LLaMA-Omni 遵循两步训练过程。在第一阶段,作者对语音适配器和LLM 进行了总共3 个epoch 的训练,批量大小为32。在第二阶段,我们使用以下方法训练音频解码器:相同的批量大小、步骤数等。整个训练过程在四个NVIDIA L40 GPU 上大约需要65 小时。
在评估方面,作者从以下几个方面对模型进行了评估:
ChatGPT 分数、语音到文本响应延迟。此外,口语模型的基线系统包括SpeechGPT、SALMONN (+TTS) 和Qwen2-Audio (+TTS)。
主要成就
表1 显示了InstructS2S-Eval 基准测试的主要结果。
首先,对于S2TIF 任务,LLaMA-Omni 比以前的模型显示出显着的改进。这主要是因为LLaMA-Omni是基于最新的Llama-3.1-8B Instruct模型开发的。了解强大的文本命令的以下功能:
从风格角度来看,SALMONN 和Qwen2-Audio 得分较低。这是因为输出风格与语音交互场景不太一致的语音到文本模型通常会产生带有大量冗余描述的格式化内容。相比之下,SpeechGPT 作为语音合成模型获得了更高的风格得分。
LLaMA-Omni 获得了最高的风格得分。这表明在InstructS2S-200K 数据集上训练后,模型的输出风格与语音交互场景匹配得很好。
关于S2SIF 任务,LLaMA-Omni 在内容和风格得分方面也优于之前的模型。这进一步证实了LLaMA-Omni能够以简洁高效的方式有效地处理语音用户命令。
此外,LLaMA-Omni 在音频和文本响应一致性方面的ASR-WER 和ASR-CER 分数最低。相比之下,SpeechGPT 在协调音频和文本响应方面表现不佳,可能是因为它按顺序生成文本和音频。
SALMONN+TTS 和Qwen2-Audio+TTS 等级联系统的音频和文本协调也不是最佳的。这主要是因为生成的文本响应可能包含无法合成为语音的字符。这个问题在Qwen2-Audio中尤为明显,它偶尔会输出汉字,导致音频响应不准确。
相比之下,LLaMA-Omni 的ASR-WER 和ASR-CER 分数最低,表明生成的语音和文本响应之间具有更高的一致性,并且在同时生成文本和语音响应时,LLaMA-Omni 的优势得到了进一步证明。
语音质量和响应延迟之间的权衡
为了更好地了解 的影响,作者研究了系统延迟、语音和文本响应之间的协调以及不同 设置产生的语音质量。
如表2所示,当设置为10时,系统响应延迟低至226 ms,甚至低于GPT-4o的平均音频延迟320 ms。
综上所述,可以根据不同场景调整的值,以实现响应延迟和语音质量之间的权衡。
解码时间
表3显示了S2TIF和S2SIF任务中不同模型的平均解码时间。
LLaMA-Omni 直接提供了简洁的答案,显着减少了解码时间,每条指令的平均时间仅为1.49 秒。
LLaMA-Omni 同时输出文本和音频响应,并使用非自回归架构来生成离散单元。这仅使总生成时间增加了1.28倍,体现了LLaMA-Omni在解码速度上的优势。
案例研究
为了直观地理解各种模型响应的差异,作者在表4 中提供了一个示例。
您可以看到Qwen2-Audio 的响应非常冗长,并且包含换行符和括号等无法合成为音频的元素。
SALMONN 的回复也有点长。
SpeechGPT响应方式更适合语音交互场景,但响应信息量较少。
相比之下,LLaMA-Omni 给出的响应在保持简洁风格的同时更加详细和信息丰富,并且在语音交互场景中比之前的模型表现更好。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。