标签: asr

228 0

[略读]Sequence Transduction with Recurrent Neural Networks

RNNT原文下载地址Abstract很多模型都进行的是转换任务,例如语音识别、机器翻译、蛋白质二级结构生产、文字转语音等。在时序转换任务中,有一个关键挑战是寻找一种在收缩、拉伸、平移下有序列不变性的方式表示输入和输出序列。Introduction例如在语音识别中,需要面对由不同的音色、可变的说话速率、背景噪声等造成的明显失真。语言模型在输出序列时也需要使用先验知识来保持在缺失字符、发音、非语...
- 阅读全文 -
454 0

[翻译]Joint CTC/attention decoding for end-to-end speech recognition

Abatract当前系统严重依赖围绕传统技术发展起来的复杂遗留架构的脚手架。存在的问题有:目前的HMM+GMM+DNN方法,训练声学模型(语音->音素)、语言模型(音素->单词)、词典模型(单词->句子),由于上述模块是单独优化的,因此这种因式分解形式也产生局部最优为了很好地分解声学模型和语言模型,系统需要基于词典模型的语言知识,而词典模型通常基于手工制作的语音词典来映射单...
- 阅读全文 -