BERT：预训练的深度双向 Transformer 语言模型

2021-09-182021-09-18论文笔记2 小时读完 (大约13745个字)

摘要

我们提出了一种新的称为 BERT 的语言表示模型，BERT 代表来自 Transformer 的双向编码器表示（Bidirectional Encoder Representations from Transformers）。不同于最近的语言表示模型（Peters et al., 2018，Radford et al., 2018）， BERT 旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此，只需要一个额外的输出层，就可以对预训练的 BERT 表示进行微调，从而为广泛的任务（比如回答问题和语言推断任务）创建最先进的模型，而无需对特定于任务进行大量模型结构的修改。

CV, Bert

YOLO9000 Better Faster Stronger

2021-09-042021-09-04论文笔记35 分钟读完 (大约5308个字)

YOLO 是一个最先进的实时对象检测系统。在一个Titan X GPU上，它以40-90 FPS的速度处理图像，在数据集VOC 2007的mAP值为78.6％，在数据COCO test-dev上的mAP值为48.1％。

CV, YOLO9000

Fast R-CNN

2021-08-282021-09-18论文笔记1 小时读完 (大约9908个字)

本文提出了一种快速的基于Region的卷积网络方法(Fast R-CNN)用于目标检测。Fast R-CNN建立在以前使用的深卷积网络有效地分类目标proposals的成果上。相比于之前的工作，Fast R-CNN使用了很多创新，提升了训练和测试速度，同时也提高检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍，测试快213倍，并在PASCAL VOC上得到更高的精度。与SPPnet相比，Fast R-CNN训练VGG16网络比它快3倍，测试速度快10倍，并且更准确。Fast R-CNN的Python和C ++(使用Caffe)实现,以MIT开源许可证发布在: https://github.com/rbgirshick/fast-rcnn。

CV, Fast R-CNN

Aggregated Residual Transformations for Deep Neural Networks

2021-08-182021-09-18论文笔记1 小时读完 (大约8328个字)

我们为图像分类提出一个简单、高度模块化的网络结构。网络通过重复一个block来构建，这个block聚合了一组有相同拓扑的转换。我们的简单设计产生了一个同构的、多分支的 架构，它只需要设置几个超参数。这个策略揭示了一个新的维度，我们称之为"基数-cardinality"(这组转换的大小)，除了深度和宽度之外的一个关键因子。在ImageNet-1K数据集上，我们的实验表明，在控制复制度的受限情况下，增加基数可以提升分类精度。而且当提升模型容量时(即增加模型复杂度)，提升基数比更深或更宽更加有效。我们的模型叫ResNeXt，是参加ILSVRC 2016分类任务的基础，我们获得了第二名。我们进一步在ImageNet-5K 数据集和COCO检测数据集上研究ResNeXt,同样展示了比对应的ResNet更好的结果。代码和模型公布在https://github.com/facebookresearch/ResNeXt

CV, ResNet

FaceNet: A Unified Embedding for Face Recognition and Clustering

2021-08-152021-08-28论文笔记1 小时读完 (大约7304个字)

尽管人脸识别领域最近有显著进步[10, 14,15,17]，有效的实施大规模的人脸验证和识别对当前的方法存在严重的挑战。本文提出一个系统，叫FaceNet，直接学习人脸图像到紧密欧式空间的一个映射，欧式空间中的距离直接度量人脸的相似度。一旦这个空间产生，诸如人脸识别、验证、聚类任务可以使用标准方法轻易实现，该方法用FaceNet embeddings作为特征向量。

CV, FaceNet

SSD-Single Shot MultiBox Detector

2021-08-082021-08-25论文笔记16 分钟读完 (大约2408个字)

本文使用单个深度神经网络来做目标检测。我们的方法称为SSD;将bounding boxes输出离散化为在每个feature map上的一组不同长宽比及不同尺寸的一组默认边框。相对于需要对象提议的方法，SSD非常简单，因为它完全消除了提案生成和随后的像素或特征重新采样阶段，并将所有计算封装在单个网络中。

SSD, CV

You Only Look Once Unified Real-Time Object Detection

2021-08-022021-08-25论文笔记18 分钟读完 (大约2671个字)

   本文提出了一个新的物体检测的方法：You Only Look

Once（YOLO）。之前的物体检测方法通常都转变为了一个分类问题，如 R-CNN、Fast R-CNN 等等。YOLO将检测看作一个 regression problem，YOLO 从输入的图像，仅仅经过一个 neural network，直接预测 bounding boxes 以及每个 bounding box 所属类别的概率。正因为整个的检测过程仅仅有一个网络，所以它可以直接 end-to-end 的优化。

CV, YOLO

Proof of Hammersley-Clifford Theorem

2021-08-012021-08-25论文笔记16 分钟读完 (大约2428个字)

最近看语义分割论文DeepLab，有使用全连接CRF恢复局部的细节信息，提升分割精度。又回去复习了下CRF，仍然有一个问题很困扰: "根据Hammersley Clifford定理，一个无向图模型的概率可以表示为定义在图上所有最大团上的势函数的乘积"；为什么可以这么定义，也就是Hammersley Clifford定理证明过程，书中并没有给出；网上看到也有一些童鞋有同样的困惑，本文翻译并备注了证明过程，希望对大家有所帮助。

ammersley-Clifford

支持向量机

2021-07-302021-08-21统计学习方法34 分钟读完 (大约5046个字)

1．支持向量机最简单的情况是线性可分支持向量机，或硬间隔支持向量机。构建它的条件是训练数据线性可分。其学习策略是最大间隔法。可以表示为凸二次规划问题，其原始最优化问题为

笔记, SVM

PageRank算法

2021-07-292021-08-21统计学习方法9 分钟读完 (大约1357个字)

PageRank是互联网网页重要度的计算方法，可以定义推广到任意有向图结点的重要度计算上。其基本思想是在有向图上定义随机游走模型，即一阶马尔可夫链，描述游走者沿着有向图随机访问各个结点的行为，在一定条件下，极限情况访问每个结点的概率收敛到平稳分布，这时各个结点的概率值就是其 PageRank值，表示结点相对重要度。

笔记, PageRank

BERT：预训练的深度双向 Transformer 语言模型

摘要

YOLO9000 Better Faster Stronger

Fast R-CNN

Aggregated Residual Transformations for Deep Neural Networks

FaceNet: A Unified Embedding for Face Recognition and Clustering

SSD-Single Shot MultiBox Detector

You Only Look Once Unified Real-Time Object Detection

Proof of Hammersley-Clifford Theorem

支持向量机

PageRank算法

广告

分类

最新文章