二、词向量和语义

如题所述

第1个回答 2022-06-22

基于统计的词向量目的是，希望通过低维稠密向量来表示词的含义，例如：

在上面三个句子中，比如对于like这个词，在三个句子中，其左右共出现2次I，1次deep 和1次NLP，所以like对应的词向量中，I、deep和NLP维的值分别为2,1,1。

词梳理很多时，矩阵很大，维度很高，需要的存储空间也很大
当词的数目是在不断增长，则词向量的维度也在不断增长
矩阵很稀疏，即词向量很稀疏，会遇到稀疏计算的问题

表示上下文单词
代表单词
表示在特定大小的上下文窗口(context window)内共同出现的次数。这个次数的最小单位是1，但是 GloVe不这么认为: 它根据两个单词在上下文窗口的距离dd.提出了一个衰减函数(decreasing weighting): 用于计算权重，也就是说距离越远的两个单词所占总计数(total count)的权重越小。

其中，是我们最终要求解的词向量; 分别是两个词向量的bias term
那它到底是怎么来的，为什么要使用这个公式?为什么要构造两个词向量 ?
有了上述公式之后，我们可以构建Loss function:

实验中作者设定，并且发现时效果比较好。

GloVe 与word2vec，两个模型都可以根据词汇的 "共现 co-occurrence" 信息，将词汇编码成一个向量。

两者最直观的区别在于，word2vec是 "predictive" 的模型，而GloVe是 "count-based" 的模型。

Glove 和 word2vec 从算法实现的角度来说，它们区别在于loss的计算是不同的：

两个模型在并行化上有一些不同，即GloVe更容易并行化，所以对于较大的训练数据，GloVe更快。

相似回答

词向量工作原理是什么答：一种最简单的词向量方式是one-hotrepresentation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的位置。但这种词表示有两个缺点：容易受维数灾难的困扰，尤其是将其用于DeepLearning的一些算法时；不能很好地刻画词与词之间的...

详解自然语言处理5大语义分析技术及14类应用(建议收藏)答：深入探索，我们还有词性标注的HMM技术，同义词分析面对文化差异的智能处理，词向量分析则是将文字转化为深度学习的输入，从one-hot到分布式表示，转换过程充满魅力。依存文法分析揭示语法结构的核心脉络，词位置权重则影响着语义的解读。语义归一化，是共指消解和信息抽取的关键步骤，文本纠错则挑战着机器的敏感...

词语表示:从词向量到预训练模型答：RNN通过语言模型预测下一个词，训练过程中，词向量逐渐呈现出丰富的语义含义。C&W模型则采用替换策略，直接学习词向量的优化策略，CBOW和Skip-gram，作为word2vec的两大支柱，CBOW通过上下文词的平均向量预测中心词，Skip-gram则反之，展现了词与上下文的巧妙关系。然而，词向量的局限在于局限于局部上下文。为...

er向量是什么意思?答：er向量是指对一个词进行向量化处理后的结果，也称为“词向量”。这种处理方法可以将文本信息转化为机器能够直接处理的数字形式，并进行相关性计算，从而实现对文本的分析和理解。er向量的生成方法有很多种，比如Word2Vec、GloVe、FastText等，它们在语料库的选择、权值计算、维度设置等方面有所不同，所得到...

Bert技术答：BERT的出现,彻底改变了预训练产生词向量和下游具体NLP任务的关系,提出龙骨级的训练词向量概念。词向量,就是用一个向量的形式表示一个词。 (1)one-hot编码:词的符号化。 (2)词的分布式表示:词的语义由其上下文决定。以(CBOW)为例,如果有一个句子“the cat sits one the mat”,在训练的时候,将“the cat ...

第一节词(字)向量答：词嵌入（Word Embedding）是将自然语言表示的字、单词转换为计算机能够理解的向量或矩阵形式的技术。例如为“你好”的词向量。从几何角度，就是把词语放置到维空间中，这样一个词向量为该空间中的一个点，这个点代表该词语。字词蕴含了语义，好的词向量的互相之间的相似性是能表示词语义之间的...

词向量维度越高越好吗答：词向量维度越高越好。词向量维度越高越好的原因有以下：1、增加表示能力：高维向量能够提供更多的维度来表示词的语义信息。较高的维度可以提供更丰富的语义和语法特征，使得词向量能够更准确地捕捉词语之间的关联性和语义关系。2、更好的语义相似性：高维词向量能够更好地捕捉词语的语义相似性。随着维度的...

word2vec是如何得到词向量的?答：word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。一、理论概述：1.词向量是什么？自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。NLP 中最直观，也是到目前...

Glove词向量答：Glove的全称是Global Vectors for Word Representation,中文意思是全局词向量，它是一个基于全局词频统计（count-based&overall statistics）的词表征(word representation) 工具。跟word2vec一样，它可以把一个单词表示成一个由实数组成的向量，向量可以捕捉单词之间的一些语义特性，如相似性（...

大家正在搜

不同语言词语之间在语义语义和词义的关系词义和语义的区别在哪里语义不同的同义词语义巨大变化的词语词语的语义包括什么用语义特征描写词义词汇和语义变化词向量需要去停用词么