BERT词嵌入与文本相似度对比（附代码）

如题所述

第1个回答 2022-08-02

2018年是迁移学习模型在NLP领域大放异彩的一年。像Allen AI的ELMO，Open AI的GPT和Google的BERT模型，研究人员通过对这些模型进行微调（fine-tuning）不断刷新了NLP的多项benchmarks。

在本教程中，我们将使用BERT从文本数据中提取特征，即单词和句子嵌入向量。这些单词和句子的嵌入向量可以做什么？首先，这些嵌入可用于关键字/搜索扩展，语义搜索和信息检索。例如，如果您想将客户问题或搜索结果与已回答的问题或有据可查的搜索结果进行匹配，即使没有关键字或词组重叠，这些表示形式也可以帮助您准确地检索出符合客户意图和上下文含义的结果。

其次，也许更重要的是，这些向量被用作下游模型的高质量特征输入。 NLP模型（例如LSTM或CNN）需要以向量形式输入，这通常意味着将诸如词汇和语音部分之类的特征转换为数字表示。过去，单词被表示为唯一索引值（one-hot编码），或者更有用地表示为神经词嵌入，其中词汇词与诸如Word2Vec或Fasttext之类的模型生成的固定长度特征嵌入相匹配。 BERT提供了优于Word2Vec之类的模型的优势，因为尽管每个单词在Word2Vec下都具有固定的表示形式，而不管该单词出现的上下文如何，但BERT都会根据周围的单词动态地产生单词表示形式。例如，给出两个句子：

“The man was accused of robbing a bank.”
“The man went fishing by the bank of the river.”

Word2Vec将在两个句子中为单词“ bank”嵌入相同的单词，而在BERT下，每个单词中“ bank”嵌入的单词将不同。除了捕获诸如多义性之类的明显差异外，上下文通知的单词嵌入还捕获其他形式的信息，这些信息可产生更准确的特征表示，从而带来更好的模型性能。

从学习的角度来看，仔细检查BERT单词嵌入是学习使用BERT及其迁移学习模型系列的好方法，它为我们提供了一些实践知识和背景知识，可以更好地理解该模型的内部细节。

BERT是预训练的模型，它期望的输入应该是有特定格式的。接口为我们处理好了一部分的输入规范。

(持续更新中...)

相似回答

文本相似度计算(一):距离方法答：距离方法 1、文本的表示 1.1、VSM表示 1.2、词向量表示 1.3、迁移方法 2、距离计算方法 2.1、欧氏距离（L 2 范数)、曼哈顿距离（L 1 范数)、明氏距离 2.2、汉明距离 2.3、Jaccard相似系数、 Jaccard距离( 1-Jaccard相似系数) 2.4、余弦距离 2.5、皮...

图解BERT模型结构输入输出答：因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示,如下图所示(为方便描述且与BERT模型的当前中文版本保持一致,本文统一以字向量作为输入): 从上图中可以看出,BERT模型通...

BERT - 论文解读答：作者使用了有 30000 个 token 的 vocabulary 词嵌入。 3.1 Pre-training BERT : 我们不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反,我们使用本节所述的两个无监督任务对BERT进行预训练。这一步如图1的左半部分所示。 Task #1: Masked LM 标准的语言模型只能实现从左到右或从右到左的训练,...

从Siamse孪生网络到Sentence-BERT综述答：总的来说,SBert直接使用Bert的原始权重进行初始化,在具体数据集上微调,训练过程和传统Siamse Network差异不大。但是这种训练方式能让Bert更好的捕捉句子之间的关系,生成更优质的句向量。在评估测试阶段,SBert直接使用余弦相似度来比较两个句向量之间的相似度,极大提升了推理速度。有实验为证!作者在7个文本匹配相关的...

一文概览NLP算法(Python)答：词向量技术，如One-hot编码（词袋模型）和词嵌入（Word2Vec、FastText、BERT），是理解自然语言的关键。BERT等预训练模型的崛起，极大地推动了NLP的发展，通过神经网络学习的低维关系向量，使得相似词在向量空间中紧密相连。学习后的词向量，如TF-IDF，能显著提升文本处理效果。句法和语义分析则挖掘词语间...

AI干货分享:PaddlePaddle官方九大NLP模型盘点答：ERNIE在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理(NLP)各类中文任务上的验证显示,模型效果全面超越BERT,如下表所示。项目地址:ERNIE:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE语义匹配-DAM,AnyQ-SimNet语义匹配是一种用来衡量文本相似度的NLP任务。很多NLP的任务可以转化为...

美团大脑百亿级知识图谱的构建及应用进展答：如图所示,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最...

NLP名词解释:各向异性(Anisotropic)答：深度解析：NLP中的神秘面纱——各向异性(Anisotropic)探索在BERT-flow的视角中，各向异性（Anisotropic）犹如词嵌入领域的一道独特的风景线：它意味着词向量在向量空间中呈现出一种定向的、非均匀的分布，仿佛一个精致的锥形结构（锥形体的形象并不完全准确，但确实揭示了其方向敏感的特性）。各向异性并非孤...

Word文本中的文档部件里的域打开之后不是一个方框,而是一个代码是怎么...答：该方式在敏感精准度指标上是有提升的,但是却有较低的召回。同时在进行规则扩充时,也比较繁琐。 2019年上半年:以Bert为代表的迁移学习诞生,并且可以在下游进行fine-tune,使用较小的训练数据集,便能取得不错的成绩。进行以舆情业务数据为基础,构建一个简易的文本平台标注平台,在其上进行训练数据的标注,构建了一个...

大家正在搜

长文本相似度比较短文本相似度文本相似度分析艺术字对象位置为嵌入文本文本相似性相似文本生成怎么选中相似文本选定格式相似的的文本短文本相似性