[翻译]Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition

# 摘要
混合CTC/注意端到端自动语音识别(ASR)将CTC ASR系统和注意ASR系统组合成一个单一神经网络。尽管混合CTC/注意ASR系统在训练和解码方面同时兼顾了CTC和注意架构的优点，但其注意机制、CTC前缀概率和双向编码器等特点，仍难以应用于流式语音识别。本文提出一个稳定的单调区块方向注意（sMoChA）流化其注意分支，截断CTC前缀概率（T-CTC）流化其CTC分支。在声学模型方面，我们利用延迟控制的双向长短期存储器（LC-BLSTM）来流化其编码器。在联合CTC/注意力机制译码侧，我们提出动态等待联合译码算法（DWDJ）来收集来自CTC和注意分支的译码假设。通过以上方法的结合，我们在没有大量的误字率下降的情况下，实现了混合CTC/注意ASR系统的流化。
## Introduction
端到端的语音识别系统在大规模语音识别（ASR）任务上与传统的混合系统具有较强的竞争力。端到端系统集成了声学模型、词汇和语言模型，直接将声学特征转化为目标标签。两种主流的语音识别框架应用于端到端语音识别领域。一个特征是帧同步预测，即每个输入帧有一个目标标签。连接式时间分类(CTC) [1]损耗函数一直被用于训练帧同步模型。另一种是标签同步预测，即ASR模型决定何时输出目标标签。基于注意的编码器-解码器体系结构[2, 3]被广泛地用于这种框架，其中注意力机制决定了哪些编码器特性应该被注意。
到目前为止，已经提出了一些改进，以提高CTC框架和基于注意的编解码器框架的性能。为了消除CTC的有条件独立性假设，有些尝试已经在CTC的框架中纳入了注意机制[4,5,6]。听和拼写(LAS)应用金字塔BLSTM[7]，使人们更容易关注从次抽样特征中建模更广泛的输入上下文。此外，还介绍了多头注意[8,9]、自注意网络[10,11]和其他复杂的注意。最近，混合CTC/注意力体系结构被提出[12]，将CTC和注意力框架组合成一个单一神经网络。在这种结构中，CTC分支将引导注意力机制执行单调对齐，因此CTC和注意的结合可以产生高质量的假设。
目前，大多数有竞争力的端到端ASR系统由于双向编码器网络和全局注意力机制，不适合在线ASR任务。在混合CTC/注意架构方面，CTC和注意力分支在联合CTC/注意力解码中都以离线方式执行[13]。幸运的是，已经有一些工作侧重于低延迟双向声学建模[14, 15]和在线关注，如单调注意力[16]和单调Chunkwise注意力(MoChA)[17]，另外最近一些在线端到端ASR模型[17,18,19]也提出建议。
这项工作是首次尝试将混合CTC/注意体系结构流化。首先，我们发现标准MoChA在系统中是不稳定的，因此我们提出了一个稳定的MoChA(sMoChA) ，它改变了关注权重的计算方式，从而取代了全局关注。其次，我们利用基于CTC的网络对音频进行分段，在分段的音频上计算T-CTC前缀概率，而不是在完整的音频上计算T-CTC前缀概率。在同时流化CTC和注意分支后，我们设计了动态等待联合译码算法，以解决波束搜索中这两个分支预测标签异步的问题。最后，本文实现了在线混合CTC/注意力体系结构，并在LibriSpeech进行了实验。与离线混合CTC/注意架构相比，我们的在线混合CTC/注意架构在test-clean/test-other上退化的绝对错误率为1.8%/3.3%。
# Related works
## Hybrid CTC/attention architecture
L = λlogPctc(Y|X) + (1−λ)logPatt(Y|X),
where λ is a hyperparameter satisfying 0 ≤ λ ≤ 1
## Monotonic Chunkwise Attention (MoChA)
记：
– 编码器特征 H = {h1,…,hu}
– 隐状态向量 S = {s0,..,si,..}
– 输出标签 Y = {y1,..,yi,..}
– 注意力向量 C = {c1,…ci,..}
– ti 输出yi时的指针
– pi 为了yi选择hi的概率
##

★····论文 / ❤····深度学习

[翻译]Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition

You may also like...

发表评论取消回复

★····论文 / ❤····深度学习

[翻译]Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition

You may also like...

[翻译] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation

[略读]FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

[略读] RouteLLM

发表评论 取消回复

发表评论取消回复