| NLP Nature Language Processing自然语言处理 |
NLP的目标是使计算机能够理解、解释和生成人类语言,以便更好地与人类沟通和执行各种语言相关的任务 |
| NLU Nature Language Processing自然语言理解 |
机器像人一样,具备正常人的语言理解能力 |
| NLG Nature Language Processing自然语言生成 |
让机器能按照人的语言习惯输出所需的内容 |
| 分词 – Tokenization |
将句子,段落分解为字词单位,方便后续的处理的分析。将复杂问题转化为数学问题 |
| 词干提取 – Stemming (英文分词) |
词干提取是去除单词的前后缀得到词根的过程。如「名词的复数」、「进行式」、「过去分词」还原 |
| 词形还原 – Lemmatisation(英文分词) |
词形还原是基于词典,将单词的复杂形态转变成最基础的形态。如「drove」会转换为「drive」 |
| 词性标注 – Part of speech |
以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果 |
| 命名实体识别 – Named-entity recognition | NER |
是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 |
| 成分句法分析 |
对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构 |
| 依存句法分析-Constituency-based parse trees |
输入的文本句子进行分析以得到句子的句法结构的处理过程 |
| 文本挖掘 – Text mining |
大致相当于文本分析,是从文本中获取高质量信息的过程 |
| 文本表示(Representation) |
将文本等非结构化的信息转化为结构化的信息(如向量),主流的方法有Word2vec和Glove |
| 词嵌入 | Word embedding |
文本表示的一种方法,将词转化为向量的过程 |
| Word2vec |
Word embedding的方法,不过现在已经不用了 |
| CBOW(Continuous Bag-of-Words Model) |
Word2vec的一种形式,通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。 |
| Skip-gram |
Word2vec的一种形式,用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。 |
| Encoder-Decoder |
架构是一种常用于处理序列数据的神经网络结构,目标经Encoder转化为固定长度的向量,解码器将编码后的向量解码,并生成输出内容,训练过程可能复杂,比较消耗资源。在深度学习的发展过程中,Encoder-Decoder架构已经演变成了更复杂的变体,如序列到序列(Seq2Seq)模型,这些模型在处理复杂任务时展现出了更高的性能。此外,Transformer模型的出现进一步推动了Encoder-Decoder架构的发展,它通过自注意力机制替代了传统的RNN结构,提高了处理长序列的效率。 |
| Seq2Seq |
Encoder-Decoder不论输入和输出的长度是什么,中间的「向量 c」 长度都是固定的,这也是它的缺陷。许多重要的问题,例如机器翻译、语音识别、自动对话等,表示成序列后,其长度事先并不知道。因此如何突破先前深度神经网络的局限,使其可以适应这些场景,成为了13年以来的研究热点,Seq2Seq框架应运而生。Seq2Seq(强调目的)不特指具体方法,满足「输入序列、输出序列」的目的,都可以统称为 Seq2Seq 模型。 |
| Attention |
Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。Attention 机制就是为了解决「信息过长,信息丢失」的问题。Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。心逻辑就是「从关注全部到关注重点」。模型复杂度相比于CNN、RNN,参数更少,速度更快,效果更好 |
| Bert |
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder.因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation |