Densely Connected Convolutional Networks

Recent work has shown that convolutional networks can be substantially deeper, more accurate, and efficient to train if they contain shorter connections between layers close to the input and those close to the output. In this paper, we embrace this observation and introduce the Dense Convolutional Network (DenseNet), which connects each layer to every other layer in a feed-forward fashion. Whereas traditional convolutional networks with L layers have L connections—one between each layer and its subsequent


BERT:预训练的深度双向 Transformer 语言模型

摘要

我们提出了一种新的称为 BERT 的语言表示模型,BERT 代表来自 Transformer 的双向编码器表示(Bidirectional Encoder Representations from Transformers)。不同于最近的语言表示模型(Peters et al., 2018Radford et al., 2018), BERT 旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的 BERT 表示进行微调,从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。


Fast R-CNN

​ 本文提出了一种快速的基于Region的卷积网络方法(Fast R-CNN)用于目标检测。Fast R-CNN建立在以前使用的深卷积网络有效地分类目标proposals的成果上。相比于之前的工作,Fast R-CNN使用了很多创新,提升了训练和测试速度,同时也提高检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍测试快213倍,并在PASCAL VOC上得到更高的精度。与SPPnet相比,Fast R-CNN训练VGG16网络比它快3倍测试速度快10倍,并且更准确。Fast R-CNN的Python和C ++(使用Caffe)实现,以MIT开源许可证发布在: https://github.com/rbgirshick/fast-rcnn。


Aggregated Residual Transformations for Deep Neural Networks

​ 我们为图像分类提出一个简单高度模块化的网络结构。网络通过重复一个block来构建,这个block聚合了一组有相同拓扑的转换。我们的简单设计产生了一个同构的多分支的 架构,它只需要设置几个超参数。这个策略揭示了一个新的维度,我们称之为"基数-cardinality"(这组转换的大小),除了深度和宽度之外的一个关键因子。在ImageNet-1K数据集上,我们的实验表明,在控制复制度的受限情况下,增加基数可以提升分类精度。而且当提升模型容量时(即增加模型复杂度),提升基数比更深或更宽更加有效。我们的模型叫ResNeXt,是参加ILSVRC 2016分类任务的基础,我们获得了第二名。我们进一步在ImageNet-5K 数据集和COCO检测数据集上研究ResNeXt,同样展示了比对应的ResNet更好的结果。代码和模型公布在https://github.com/facebookresearch/ResNeXt


FaceNet: A Unified Embedding for Face Recognition and Clustering

尽管人脸识别领域最近有显著进步[10, 14,15,17],有效的实施大规模的人脸验证和识别对当前的方法存在严重的挑战。本文提出一个系统,叫FaceNet,直接学习人脸图像到紧密欧式空间的一个映射,欧式空间中的距离直接度量人脸的相似度。一旦这个空间产生,诸如人脸识别、验证、聚类任务可以使用标准方法轻易实现,该方法用FaceNet embeddings作为特征向量


SSD-Single Shot MultiBox Detector

​ 本文使用单个深度神经网络来做目标检测。我们的方法称为SSD;将bounding boxes输出离散化为在每个feature map上的一组不同长宽比及不同尺寸的一组默认边框。相对于需要对象提议的方法,SSD非常简单,因为它完全消除了提案生成和随后的像素或特征重新采样阶段,并将所有计算封装在单个网络中。


You Only Look Once Unified Real-Time Object Detection

   本文提出了一个新的物体检测的方法:You Only Look

Once(YOLO)。之前的物体检测方法通常都转变为了一个分类问题,如 R-CNN、Fast R-CNN 等等。YOLO将检测看作一个 regression problem,YOLO 从输入的图像,仅仅经过一个 neural network,直接预测 bounding boxes 以及每个 bounding box 所属类别的概率。正因为整个的检测过程仅仅有一个网络,所以它可以直接 end-to-end 的优化。


Proof of Hammersley-Clifford Theorem

​ 最近看语义分割论文DeepLab,有使用全连接CRF恢复局部的细节信息,提升分割精度。又回去复习了下CRF,仍然有一个问题很困扰: "根据Hammersley Clifford定理,一个无向图模型的概率可以表示为定义在图上所有最大团上的势函数的乘积";为什么可以这么定义,也就是Hammersley Clifford定理证明过程,书中并没有给出;网上看到也有一些童鞋有同样的困惑,本文翻译并备注了证明过程,希望对大家有所帮助。