在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。

分词, Viterbi

Attention机制

2019-12-162021-05-24深度学习 / NLP22 分钟读完 (大约3232个字)

Encoder-Decoder

所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。

什么是seq2seq呢？简单的说，就是根据一个序列x，来生成另一个输出序列y。seq2seq有很多应用，例如翻译，文档摘要，问答系统等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。

Attention, Seq2seq

GloVe数学原理详解

2019-12-132021-05-24深度学习 / NLP18 分钟读完 (大约2688个字)

什么是GloVe？

正如论文的标题而言，GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。我们通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。

Word representation, 数学原理, GloVe

word2vec中的数学原理详解

2019-11-132021-05-24深度学习 / NLP2 小时读完 (大约18757个字)

简介

word2vec最初是由Tomas Mikolov 2013年在ICLR发表的一篇文章Efficient Estimation of Word Representations in Vector Space，并且开源了代码，作用是将所有词语投影到K维的向量空间，每个词语都可以用一个K维向量表示。由于它简洁，高效的特点，引起了人们的广泛关注，并应用在很多NLP任务中，用于训练相应的词向量。

笔记, 数学原理, word2vec

循环神经网络详解

2019-10-312021-05-24深度学习 / NLP40 分钟读完 (大约5945个字)

概述

CNN等传统神经网络的局限在于：将固定大小的向量作为输入（比如一张图片），然后输出一个固定大小的向量（比如不同分类的概率）。不仅如此，CNN还按照固定的计算步骤（比如模型中层的数量）来实现这样的输入输出。这样的神经网络没有持久性：假设你希望对电影中每一帧的事件类型进行分类，传统的神经网络就没有办法使用电影中先前的事件推断后续的事件。

RNN, GRN, LSTM

Log-Linear Models

2018-08-182019-11-18深度学习 / NLP11 分钟读完 (大约1622个字)

Introduction

log-linear 模型在自然语言处理上使用非常广泛，其最主要的原因在于其灵活性，允许很多特征被使用在该模型上，相比于之前的简单估计技术(比如HMMs的标记问题，PCFGs的解析问题)。

数学原理, Log-Linear Models

CYK算法详解与代码实现

2018-07-152021-05-24深度学习 / NLP13 分钟读完 (大约1913个字)

概述

在计算机科学领域，CYK算法（也称为Cocke–Younger–Kasami算法）是一种用来对上下文无关文法（CFG，Context Free Grammar）进行语法分析（parsing）的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasami分别独立提出，其中John Cocke还是1987年度的图灵奖得主。CYK算法是基于动态规划思想设计的一种自底向上语法分析算法。

CYK, python

条件随机场CRF(三) 模型学习与维特比算法解码

条件随机场CRF(二) 前向后向算法评估标记序列概率

条件随机场CRF(一)从随机场到线性链条件随机场

文本挖掘的分词原理

Attention机制

Encoder-Decoder

GloVe数学原理详解

什么是GloVe？

word2vec中的数学原理详解

简介

循环神经网络详解

概述

Log-Linear Models

Introduction

CYK算法详解与代码实现

概述

广告

分类

最新文章