标签: 图像分类

52 0

[翻译]See Better Before Looking Closer

See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual ClassificationAbstract数据增强一般用来增加训练数据数量,防止过拟合并提升模型效果。然而在实际中,随机数据增强尤其是ramdom cropping很低效同时会引入不可控的...
- 阅读全文 -
190 0

[翻译]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract尽管Transformer结构在自然语言处理领域已经成为主流,但在计算机视觉领域仍然受到限制。在视觉领域,注意力结构要么和卷积网络一起应用,要么在保证总结构不变的情况下用于替换卷网络中的某些组件。本文表明,这种对于CNN的依赖是没有必要的,直接在transformer结构中输入一系列图像块也可以达到非常好的效果。在大量图像上预训练后,在中小型数据集(ImageNet,CIFA...
- 阅读全文 -
101 0

[略读]mixup: BEYOND EMPIRICAL RISK MINIMIZATION

Abstract深度神经网络功能强大,但是存在一些不良行为例如记忆性和对对抗样本的敏感性。(it:关注点偏移,趋向简单规则+对异常分布敏感)Mixup给神经网络增加了正则信息,使网络在训练样本中和训练样本之间的简单线性表现中获得收益。Introduction在大多数成功的深度学习实践中,存在两个共性。首先,他们追求在训练数据上的经验风险最小化原则ERM(与之对应的是结构风险最小化SRM,即防...
- 阅读全文 -
1835 0

[翻译] A Discriminative Feature Learning Approach for Deep Face Recognition

深度人脸识别的判别特征学习方法Center Loss一、介绍对于人脸识别任务,深度学习特征需要可分离性和有辨别度。因为在训练阶段无法收集到所有可能的测试样本,CNN预测的样本标签不能总是适用。深度学习特征需要有足够的具有辨别力和概括性,以便在没有预测标签的情况下区分未见过的类别。判别特征可以通过最近邻(NN)或k-最近邻(k-NN)这类不需要预测标签的算法分好类。然而softmax只鼓励特征...
- 阅读全文 -
1020 0

[翻译] Adaptive Pooling in Multi-Instance Learning for Web Video Annotation

多实例学习中的自适应池为网络视频标注摘要网络视频一般为弱标签,即当相关概念出现在视频中时,该视频就被打上没有何时、何地发生说明的标签。这种弱标签给众多网络视频应用带来了巨大困扰。在本文中,我们提出基于多实例学习的有着可学习池化层的新网络视频标注方法。通过将网络视频标注转化为多实例学习(MIL)问题,我们提出一个端到端的深度神经网络解决帧(instance)级别注释是通过卷积神经网络(CNN)...
- 阅读全文 -
2754 0

[略读] Weakly Supervised Complementary Parts Models for Fine-Grained Image Classification from the Bottom Up

使用弱监督补充局部信息的自底向上的细粒度图像分类模型摘要给定由图像和相应的类别标签组成的训练集,深度卷积神经网络在挖掘用于图像分类的判别部分方面表现出强大的能力。然而使用图像级标签训练的深度卷积神经网络仅倾向于关注最具辨别力的部分,忽视了可提供补充信息的其他部分。在本文中,我们从不同的角度处理这个问题。我们以弱监督的方式构建互补局部模型,以得到被卷及网络关注的显著部分所抑制的信息。仅给定图像...
- 阅读全文 -
1120 0
[鹅厂] 惊悚图像分类日志

[鹅厂] 惊悚图像分类日志

警告:本文可能出现部分惊悚内容导致不适!前言有幸来到鹅厂学习,接手了惊悚图片分类的问题。这问题一听就很惊悚,事实上也很惊悚,每次打开数据集前我都要做一下心理建设。数据量很大,有标注的惊悚数据4w,正常数据6w;数据花样很多,囊括了形形色色的网图,从大字报到游戏场景,从屠宰场到显微镜下,就看我能不能玩出点花样了。要求目标:二分类,只需要标记出惊悚图片即可精度:准确率>80% 召回率>...
- 阅读全文 -