# 摘要
混合CTC/注意端到端自动语音识别(ASR)将CTC ASR系统和注意ASR系统组合成一个单一神经网络。尽管混合CTC/注意ASR系统在训练和解码方面同时兼顾了CTC和注意架构的优点,但其注意机制、CTC前缀概率和双向编码器等特点,仍难以应用于流式语音识别。本文提出一个稳定的单调区块方向注意(sMoChA)流化其注意分支,截断CTC前缀概率(T-CTC)流化其CTC分支。在声学模型方面,我们利用延迟控制的双向长短期存储器(LC-BLSTM)来流化其编码器。在联合CTC/注意力机制译码侧,我们提出动态等待联合译码算法(DWDJ)来收集来自CTC和注意分支的译码假设。通过以上方法的结合,我们在没有大量的误字率下降的情况下,实现了混合CTC/注意ASR系统的流化。
## Introduction
端到端的语音识别系统在大规模语音识别(ASR)任务上与传统的混合系统具有较强的竞争力。端到端系统集成了声学模型、词汇和语言模型,直接将声学特征转化为目标标签。两种主流的语音识别框架应用于端到端语音识别领域。一个特征是帧同步预测,即每个输入帧有一个目标标签。连接式时间分类(CTC) [1]损耗函数一直被用于训练帧同步模型。另一种是标签同步预测,即ASR模型决定何时输出目标标签。基于注意的编码器-解码器体系结构[2, 3]被广泛地用于这种框架,其中注意力机制决定了哪些编码器特性应该被注意。
到目前为止,已经提出了一些改进,以提高CTC框架和基于注意的编解码器框架的性能。为了消除CTC的有条件独立性假设,有些尝试已经在CTC的框架中纳入了注意机制[4,5,6]。听和拼写(LAS)应用金字塔BLSTM[7],使人们更容易关注从次抽样特征中建模更广泛的输入上下文。此外,还介绍了多头注意[8,9]、自注意网络[10,11]和其他复杂的注意。最近,混合CTC/注意力体系结构被提出[12],将CTC和注意力框架组合成一个单一神经网络。在这种结构中,CTC分支将引导注意力机制执行单调对齐,因此CTC和注意的结合可以产生高质量的假设。
目前,大多数有竞争力的端到端ASR系统由于双向编码器网络和全局注意力机制,不适合在线ASR任务。在混合CTC/注意架构方面,CTC和注意力分支在联合CTC/注意力解码中都以离线方式执行[13]。幸运的是,已经有一些工作侧重于低延迟双向声学建模[14, 15]和在线关注,如单调注意力[16]和单调Chunkwise注意力(MoChA)[17],另外最近一些在线端到端ASR模型[17,18,19]也提出建议。
这项工作是首次尝试将混合CTC/注意体系结构流化。首先,我们发现标准MoChA在系统中是不稳定的,因此我们提出了一个稳定的MoChA(sMoChA) ,它改变了关注权重的计算方式,从而取代了全局关注。其次,我们利用基于CTC的网络对音频进行分段,在分段的音频上计算T-CTC前缀概率,而不是在完整的音频上计算T-CTC前缀概率。在同时流化CTC和注意分支后,我们设计了动态等待联合译码算法,以解决波束搜索中这两个分支预测标签异步的问题。最后,本文实现了在线混合CTC/注意力体系结构,并在LibriSpeech进行了实验。与离线混合CTC/注意架构相比,我们的在线混合CTC/注意架构在test-clean/test-other上退化的绝对错误率为1.8%/3.3%。
# Related works
## Hybrid CTC/attention architecture
L = λlogPctc(Y|X) + (1−λ)logPatt(Y|X),
where λ is a hyperparameter satisfying 0 ≤ λ ≤ 1
## Monotonic Chunkwise Attention (MoChA)
记:
– 编码器特征 H = {h1,…,hu}
– 隐状态向量 S = {s0,..,si,..}
– 输出标签 Y = {y1,..,yi,..}
– 注意力向量 C = {c1,…ci,..}
– ti 输出yi时的指针
– pi 为了yi选择hi的概率
##
2020年9月2日