决策树

2021-03-272021-05-31统计学习方法19 分钟读完 (大约2901个字)

笔记摘要

决策树可以认为是if-then规则的集合，也可以认为是定义在特征空间上的条件概率分布
根据损失函数最小化的原则建立决策树模型
决策树的路径或其对应的if-then规则集合具有一个重要性质：互斥且完备
决策树的学习算法包含特征选择、决策树的生成与决策树的剪枝
决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择

笔记, 决策树

word2vec中的数学原理详解

2019-11-132021-05-24深度学习 / NLP2 小时读完 (大约18757个字)

简介

word2vec最初是由Tomas Mikolov 2013年在ICLR发表的一篇文章Efficient Estimation of Word Representations in Vector Space，并且开源了代码，作用是将所有词语投影到K维的向量空间，每个词语都可以用一个K维向量表示。由于它简洁，高效的特点，引起了人们的广泛关注，并应用在很多NLP任务中，用于训练相应的词向量。

笔记, 数学原理, word2vec

迁移学习

2019-11-052019-11-05深度学习 / 迁移学习2 小时读完 (大约15277个字)

本章主要简明地介绍了迁移学习的基本概念、迁移学习的必要性、研究领域和基本方法。重点介绍了几大类常用的迁移学习方法：数据分布自适应方法、特征选择方法、子空间学习方法、以及目前最热门的深度迁移学习方法。除此之外，我们也结合最近的一些研究成果对未来迁移学习进行了一些展望。并提供了一些迁移学习领域的常用学习资源，以方便感兴趣的读者快速开始学习。

笔记, 迁移学习

C++Primer

2018-02-272019-12-26C++1 小时读完 (大约12601个字)

变量

类型

算术类型
- 整形
  - 包括char和bool在内
- 浮点型
  - 单精度
  - 双精度
  - 扩展精度
空类型（void）

Language Modeling

2017-11-182019-12-13深度学习 / NLP9 分钟读完 (大约1307个字)

N-Gram

这里首先有个语料库，记录了很多条句子，然后预测给定句子出现的概率。给定一个句子，这里句子的长度为n，也就是\(|V|=n\)，第i个单词用字母\(x_i\)表示，那么概率公式表示为：\(P(X_1=x_1,X_2=x_2,...X_n=x_n)\)

笔记, 语言模型

Pandas 学习

2017-07-022021-06-08Python1 小时读完 (大约7601个字)

该笔记摘录自微信公众号“每天进步一点点2015”的文章《Python数据分析之pandas学习（一）》和《Python数据分析之pandas学习（二）》。我对代码和讲解中不够清晰的地方进行了一些改动和补充。

使效率倍增的Pandas使用技巧

2017-07-012021-06-08Python1 小时读完 (大约7911个字)

本文取自Analytics Vidhya的一个帖子12 Useful Pandas Techniques in Python for Data Manipulation，浏览原帖可直接点击链接，中文版可参见Datartisan的用 Python 做数据处理必看：12 个使效率倍增的 Pandas 技巧。这里主要对帖子内容进行检验并记录有用的知识点。

深拷贝与浅拷贝的区别

2017-06-302021-06-08Python8 分钟读完 (大约1258个字)

关于Python中的深拷贝和浅拷贝，有一篇很好的文章：图解Python深拷贝和浅拷贝，这篇文章用示例代码和图解很好地阐释了两者的区别。这里自己简单地归纳一下。

Numpy 学习

2017-06-292021-06-08Python19 分钟读完 (大约2782个字)

Python模块中的numpy，这是一个处理数组的强大模块，而该模块也是其他数据分析模块（如pandas和scipy）的核心。下面将从这5个方面来介绍numpu模块的内容：

常用内建模块（下）

2017-06-282021-06-08Python1 小时读完 (大约6736个字)

Python之所以自称 “batteries included”，就是因为内置了许多非常有用的模块，无需额外安装和配置，即可直接使用。

本章将介绍一些常用的内建模块。