我的博客 最新博文

43 0

[翻译]See Better Before Looking Closer

See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual ClassificationAbstract数据增强一般用来增加训练数据数量,防止过拟合并提升模型效果。然而在实际中,随机数据增强尤其是ramdom cropping很低效同时会引入不可控的...
- 阅读全文 -
175 0

[翻译]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract尽管Transformer结构在自然语言处理领域已经成为主流,但在计算机视觉领域仍然受到限制。在视觉领域,注意力结构要么和卷积网络一起应用,要么在保证总结构不变的情况下用于替换卷网络中的某些组件。本文表明,这种对于CNN的依赖是没有必要的,直接在transformer结构中输入一系列图像块也可以达到非常好的效果。在大量图像上预训练后,在中小型数据集(ImageNet,CIFA...
- 阅读全文 -
95 0

[略读]mixup: BEYOND EMPIRICAL RISK MINIMIZATION

Abstract深度神经网络功能强大,但是存在一些不良行为例如记忆性和对对抗样本的敏感性。(it:关注点偏移,趋向简单规则+对异常分布敏感)Mixup给神经网络增加了正则信息,使网络在训练样本中和训练样本之间的简单线性表现中获得收益。Introduction在大多数成功的深度学习实践中,存在两个共性。首先,他们追求在训练数据上的经验风险最小化原则ERM(与之对应的是结构风险最小化SRM,即防...
- 阅读全文 -
37 0

[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

INTRODUCTION本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降;然后,我们发现瓶颈结构的transformer效率不高,因此去除了FFN(feed-forward network);另外,在结构上并行,引入卷积捕捉局部信息。本文贡献如下:在计算量上,瓶颈结构对1-D注...
- 阅读全文 -
225 0

[略读]Sequence Transduction with Recurrent Neural Networks

RNNT原文下载地址Abstract很多模型都进行的是转换任务,例如语音识别、机器翻译、蛋白质二级结构生产、文字转语音等。在时序转换任务中,有一个关键挑战是寻找一种在收缩、拉伸、平移下有序列不变性的方式表示输入和输出序列。Introduction例如在语音识别中,需要面对由不同的音色、可变的说话速率、背景噪声等造成的明显失真。语言模型在输出序列时也需要使用先验知识来保持在缺失字符、发音、非语...
- 阅读全文 -
239 0

[工具]希腊字母读法

Α α:阿尔法 AlphaΒ β:贝塔 BetaΓdu γ:伽玛 GammaΔ δ:德尔zhi塔 DelteΕ ε:艾普西龙 EpsilonΖdao ζ :捷塔 ZetaΕ η:依塔 EtaΘ θ:西塔 ThetaΙ ι:艾欧塔 IotaΚ κ:喀帕 Kappa∧ λ:拉姆达 LambdaΜ μ:缪 MuΝ ν:拗 NuΞ ξ:克西 XiΟ ο:欧麦克轮 Omicron∏ π:派 PiΡ ρ...
- 阅读全文 -
446 0

[翻译]Joint CTC/attention decoding for end-to-end speech recognition

Abatract当前系统严重依赖围绕传统技术发展起来的复杂遗留架构的脚手架。存在的问题有:目前的HMM+GMM+DNN方法,训练声学模型(语音->音素)、语言模型(音素->单词)、词典模型(单词->句子),由于上述模块是单独优化的,因此这种因式分解形式也产生局部最优为了很好地分解声学模型和语言模型,系统需要基于词典模型的语言知识,而词典模型通常基于手工制作的语音词典来映射单...
- 阅读全文 -
20 0

[翻译]Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition

# 摘要 混合CTC/注意端到端自动语音识别(ASR)将CTC ASR系统和注意ASR系统组合成一个单一神经网络。尽管混合CTC/注意ASR系统在训练和解码方面同时兼顾了CTC和注意架构的优点,但其注意机制、CTC前缀概率和双向编码器等特点,仍难以应用于流式语音识别。本文提出一个稳定的单调区块方向注意(sMoChA)流化其注意分支,截断CTC前缀概率(T-CTC)流化其CTC分支。在声学模型...
- 阅读全文 -
347 0

[Trick]标签平滑

引用自 https://blog.csdn.net/sinat_36618660/article/details/100166957why在深度学习样本训练的过程中,我们采用one-hot标签去进行计算交叉熵损失时,只考虑到训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误标签位置(one-hot标签为0的位置)的损失。这样一来,模型可以在训练集上拟合的很好,但由于...
- 阅读全文 -