我的博客 最新博文

65 0

[工具]希腊字母读法

Α α:阿尔法 AlphaΒ β:贝塔 BetaΓdu γ:伽玛 GammaΔ δ:德尔zhi塔 DelteΕ ε:艾普西龙 EpsilonΖdao ζ :捷塔 ZetaΕ η:依塔 EtaΘ θ:西塔 ThetaΙ ι:艾欧塔 IotaΚ κ:喀帕 Kappa∧ λ:拉姆达 LambdaΜ μ:缪 MuΝ ν:拗 NuΞ ξ:克西 XiΟ ο:欧麦克轮 Omicron∏ π:派 PiΡ ρ...
- 阅读全文 -
57 0

[翻译]Joint CTC/attention decoding for end-to-end speech recognition

Abatract当前系统严重依赖围绕传统技术发展起来的复杂遗留架构的脚手架。存在的问题有:目前的HMM+GMM+DNN方法,训练声学模型(语音->音素)、语言模型(音素->单词)、词典模型(单词->句子),由于上述模块是单独优化的,因此这种因式分解形式也产生局部最优为了很好地分解声学模型和语言模型,系统需要基于词典模型的语言知识,而词典模型通常基于手工制作的语音词典来映射单...
- 阅读全文 -
150 0

【Trick】标签平滑

引用自 https://blog.csdn.net/sinat_36618660/article/details/100166957why在深度学习样本训练的过程中,我们采用one-hot标签去进行计算交叉熵损失时,只考虑到训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误标签位置(one-hot标签为0的位置)的损失。这样一来,模型可以在训练集上拟合的很好,但由于...
- 阅读全文 -
935 0

[小结]Bottom-Up Higher-Resolution Networks for Multi-Person Pose Estimation

项目地址https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation总结用高分辨率网络完成Bottom-Up姿态识别。聚合关节点使用Hourglass中的聚合方法,扩大特征图使用反卷积,热图损失使用MSE,都没有做创新。简介本文关注到为了使用热图,对图像尺度进行缩放的过程中,产生了误差导致网络能力下降。因此使用高分辨率网络保持较高尺度...
- 阅读全文 -
1643 0

[小结]Distribution-Aware Coordinate Representation for Human Pose Estimation

项目地址https://ilovepose.github.io/coco/总结因整数导致回归目标有偏,对网络效果有较大影响。简介对于单人姿态估计的监督方法有两种,回归关节点坐标、回归关节点热图。而回归热图因为能更利于网络归回,有效防止过拟合,是目前的主流。因此在这个过程中有两个问题,且都会产生一定的误差:训练时需将关节点坐标转换为关节点热图,会导致带小数坐标被转换到临近的整数位置;应用时需将...
- 阅读全文 -
1173 0

[翻译] Deep High-Resolution Representation Learning for Human Pose Estimation

Abstract在本文中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法分辨率从高到低再从低到高恢复。相反,我们提出的网络在整个过程中都保持高分辨率表示。我们将高分辨率子网作为网络第一部分,然后将由高到低分辨率的子网逐步添加到网络中,然后将多分辨率子网并行连接。我们进行反复的多尺度融合,以便每一个高到低分辨率的表示都反复从其他并行表示中接收信息,从而获得丰富的高分...
- 阅读全文 -
1239 0

[翻译] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation

配合OpenPose、AlphaPose等网络先提取2D骨骼点,再使用RepNet估计3D骨骼点,并进行姿态估计,目前SOTA。Abstract本文解决了从单张图像进行3D人体姿势估计的问题。在很长一段时间内,通过最小化重投影误差来对人体骨骼进行参数化及拟合观察,如今研究人员直接使用神经网络从观测中推断出3D姿态。但是,这些方法大多数都忽略了重投影约束需要最小化且其对过拟合敏感的事实。我们通...
- 阅读全文 -
1051 0

[翻译] CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark

这是来自上海交通大学的最新一篇(CVPR2019)姿态估计论文,基于AlphaPose的思路进一步提升了在拥挤状态下的人体姿态识别水平,同时提供了拥挤状态下的姿势数据集。Abstract多人姿势估计是许多计算机视觉任务的基础,并且近年来取得了重大进展。然而很少有先前的方法探讨拥挤场景中的姿势估计问题,尽管在许多情况下它仍然具有挑战性和不可避免。与此同时,当前的基准无法对此类情况进行适当的评估...
- 阅读全文 -
1583 0

[翻译] A Discriminative Feature Learning Approach for Deep Face Recognition

深度人脸识别的判别特征学习方法Center Loss一、介绍对于人脸识别任务,深度学习特征需要可分离性和有辨别度。因为在训练阶段无法收集到所有可能的测试样本,CNN预测的样本标签不能总是适用。深度学习特征需要有足够的具有辨别力和概括性,以便在没有预测标签的情况下区分未见过的类别。判别特征可以通过最近邻(NN)或k-最近邻(k-NN)这类不需要预测标签的算法分好类。然而softmax只鼓励特征...
- 阅读全文 -
836 0

[翻译] Adaptive Pooling in Multi-Instance Learning for Web Video Annotation

多实例学习中的自适应池为网络视频标注摘要网络视频一般为弱标签,即当相关概念出现在视频中时,该视频就被打上没有何时、何地发生说明的标签。这种弱标签给众多网络视频应用带来了巨大困扰。在本文中,我们提出基于多实例学习的有着可学习池化层的新网络视频标注方法。通过将网络视频标注转化为多实例学习(MIL)问题,我们提出一个端到端的深度神经网络解决帧(instance)级别注释是通过卷积神经网络(CNN)...
- 阅读全文 -