我的博客 博文列表

87 0

[翻译] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation

配合OpenPose、AlphaPose等网络先提取2D骨骼点,再使用RepNet估计3D骨骼点,并进行姿态估计,目前SOTA。Abstract本文解决了从单张图像进行3D人体姿势估计的问题。在很长一段时间内,通过最小化重投影误差来对人体骨骼进行参数化及拟合观察,如今研究人员直接使用神经网络从观测中推断出3D姿态。但是,这些方法大多数都忽略了重投影约束需要最小化且其对过拟合敏感的事实。我们通...
- 阅读全文 -
82 0

[翻译] CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark

这是来自上海交通大学的最新一篇(CVPR2019)姿态估计论文,基于AlphaPose的思路进一步提升了在拥挤状态下的人体姿态识别水平,同时提供了拥挤状态下的姿势数据集。Abstract多人姿势估计是许多计算机视觉任务的基础,并且近年来取得了重大进展。然而很少有先前的方法探讨拥挤场景中的姿势估计问题,尽管在许多情况下它仍然具有挑战性和不可避免。与此同时,当前的基准无法对此类情况进行适当的评估...
- 阅读全文 -
580 0

[翻译] A Discriminative Feature Learning Approach for Deep Face Recognition

深度人脸识别的判别特征学习方法Center Loss一、介绍对于人脸识别任务,深度学习特征需要可分离性和有辨别度。因为在训练阶段无法收集到所有可能的测试样本,CNN预测的样本标签不能总是适用。深度学习特征需要有足够的具有辨别力和概括性,以便在没有预测标签的情况下区分未见过的类别。判别特征可以通过最近邻(NN)或k-最近邻(k-NN)这类不需要预测标签的算法分好类。然而softmax只鼓励特征...
- 阅读全文 -
267 0

[翻译] Adaptive Pooling in Multi-Instance Learning for Web Video Annotation

多实例学习中的自适应池为网络视频标注摘要网络视频一般为弱标签,即当相关概念出现在视频中时,该视频就被打上没有何时、何地发生说明的标签。这种弱标签给众多网络视频应用带来了巨大困扰。在本文中,我们提出基于多实例学习的有着可学习池化层的新网络视频标注方法。通过将网络视频标注转化为多实例学习(MIL)问题,我们提出一个端到端的深度神经网络解决帧(instance)级别注释是通过卷积神经网络(CNN)...
- 阅读全文 -
579 0

[略读] Weakly Supervised Complementary Parts Models for Fine-Grained Image Classification from the Bottom Up

使用弱监督补充局部信息的自底向上的细粒度图像分类模型摘要给定由图像和相应的类别标签组成的训练集,深度卷积神经网络在挖掘用于图像分类的判别部分方面表现出强大的能力。然而使用图像级标签训练的深度卷积神经网络仅倾向于关注最具辨别力的部分,忽视了可提供补充信息的其他部分。在本文中,我们从不同的角度处理这个问题。我们以弱监督的方式构建互补局部模型,以得到被卷及网络关注的显著部分所抑制的信息。仅给定图像...
- 阅读全文 -
401 0

Android 后台不被杀套路

保持进程存活的基本策略是提升进程的oom_adj优先级,对于国产系统之前的各种保活方式均失效。目前尚且有效的方法有:锁屏下唤起前台Activity。在App关闭屏幕后,后台进程启动一个不可见的Activity,借以提升进程优先级,当屏幕打开后,关闭该Activity。对于低于7.0版本的手机,使用两个Service配合的方式将服务提升为前台服务。
- 阅读全文 -
445 0

[翻译] Beyond Part Models: Person Retrieval with Refined Part Pooling

原文链接这是一篇可在图像领域通用的小trick,同时也是一种细粒度算法的设计。摘要使用基于人体局部图像的特征对行人图像进行描述为任务提供了细粒度的信息,并且在最近的文献中已被证实对于行人重识别是有益的。发现局部细粒度特征的先决条件是每个局部都应该被准确的定位。本文不使用额外标注(例如姿势估计)来直接定位局部位置,而是强调每个局部位置的内容一致性。具体来说,我们的目标是学习用于人物检索的区别性...
- 阅读全文 -
757 0
[翻译] RetinaNet: Focal Loss for Dense Object Detection

[翻译] RetinaNet: Focal Loss for Dense Object Detection

摘要迄今为止最高精度的物体检测器是由两级组成的检测器,典型代表是R-CNN,其中R-CNN的分类器被应用于有很少元素的预选框集。相反,一级检测器被更加广泛地使用,密集的区域预选使网络有可能变得更快更简单,但到目前为止,其检测的准确性仍落后于两级检测器。在本文中,我们讨论了为什么会出现这样的情况。我们发现在训练密集检测器的过程中遇到的极端的前景 - 背景类不平衡是造成一级检测器准确性较差的主要...
- 阅读全文 -
397 0
[鹅厂] 惊悚图像分类日志

[鹅厂] 惊悚图像分类日志

警告:本文可能出现部分惊悚内容导致不适!前言有幸来到鹅厂学习,接手了惊悚图片分类的问题。这问题一听就很惊悚,事实上也很惊悚,每次打开数据集前我都要做一下心理建设。数据量很大,有标注的惊悚数据4w,正常数据6w;数据花样很多,囊括了形形色色的网图,从大字报到游戏场景,从屠宰场到显微镜下,就看我能不能玩出点花样了。要求目标:二分类,只需要标记出惊悚图片即可精度:准确率>80% 召回率>...
- 阅读全文 -
712 0

ResNet:网络复现

手画网络结构终归不如直接实现一遍搞得清楚,直接上网络结构代码,Res-152改良版(根据后续版本,残差块里的“卷积、批量归一化和激活”结构改成了“批量归一化、激活和卷积”)# Mxnet 实现 # 残差模块 class Residual(nn.Block): def __init__(self, num_channels, num_channels_out, use_1x1co...
- 阅读全文 -