您好,今天欣欣来为大家解答以上的问题。embedding具体计算过程相信很多小伙伴还不知道,现在让我们一起来看看吧!
苹果好吃苹果公司:embeddingg的计算过程
苹果好吃苹果公司:embeddingg的计算过程
苹果好吃苹果公司:embeddingg的计算过程
苹果好吃苹果公司:embeddingg的计算过程
1、文本处理是NLP领域的一个重要分支,其细分领域又包括文本聚类、分类、机器翻译、人机交互等等,而这一切的前提都是将文本表示成计算机可以理解和易于处理的数据。
2、经过成千上万年的进化,人类的语言本身变得十分抽象和复杂,要搞懂一段文字,那么要理解词本身的意义、语义关系、上下文关系(苹果好吃/苹果公司),如何将文字用计算机语言表达出来,并尽量减少编码过程中造成的信息损失,一直是一个业界难题和很重要的研究方向。
3、本文总结一下目前热门的 Word Embedding 表示方法的历史和原理,以供参考。
4、现有的机器学习方法往往无法直接处理文本数据,因此需要找到合适的方法,将文本数据转换为数值型数据,由此引出了 Word Embedding 的概念。
5、如果将 word 看作文本的最小单元,可以将 Word Embedding 理解为一种 映射 ,其过程是:将文本空间中的某个 word ,通过一定的方法, 映射 或者说 嵌入(embedding) 到另一个数值向量空间(之所以称之为 embedding ,是因为这种表示方法往往伴随着一种降维的意思,详见下文的讨论)。
6、Word Embedding 的输入是原始文本中的一组不重叠的词汇,设有句子: apple on a apple tree 。
7、那么为了便于处理,我们可以将这些词汇放置到一个 dictionary 里,例如: ["apple", "on", "a", "tree"] ,这个 dictionary 就可以看作是 Word Embedding 的一个输入。
8、Word Embedding 的输出就是每个 word 的向量表示。
9、对于上文中的原始输入,设使用最简单的 one hot 编码方式,那么每个 word 都对应了一种数值表示。
10、例如, apple 对应的 vector 就是 [1, 0, 0, 0] , a 对应的 vector 就是 [0, 0, 1, 0] ,各种机器学习应用可以基于这种 word 的数值表示来构建各自的模型。
11、当然,这是一种最简单的映射方法,但却足以阐述 Word Embedding 的意义。
12、下文将介绍常见的 Word Embedding 的方法和优缺点。
13、Word Embedding 也是有流派的,主流有以下两种:下面分别介绍之。
14、基于频率的 Word Embedding 又可细分为如下几种:其本质都是基于 one-hot 表示法的,以频率为主旨的加权方法改进,下面逐一介绍。
15、设有一个语料库 C ,其中有 D 个文档: {d1, d2, ..., dD} , C 中一共有 N 个 word 。
16、这 N 个 word 构成了原始输入的 dictionary ,我们据此可以生成一个矩阵 M ,其规模是 D X N 。
本文到这结束,希望上面文章对大家有所帮助。