词汇共现算法

首先说下我做的课题，这是我的毕业设计，比较难，是关于中文文本错误的自动修改。最近查了很多资料，将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种，先对文本进行分词，然后进行词单元的二元共现频率校验，如果共现频率大于某个阙值，则说明这个句子连续，句子中没有错误，否则有错。

前期的分词算法根据我这几天查找文献已经做出来了，现在要解决的问题是二元词的共现频率问题，我已经写了一个统计二元词共现绝对次数的算法，但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的，而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数，那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小，这样的话该怎么判断文本的错误？

如果你不能解决我的问题，如果能够提供一些能够帮助我的文献也万分感谢。
恩，我也觉得这种计算方法统计的不准确，所以现在寻求一个准确的方法，“Google距离”方面的能够提供一些资料吗？

举报该问题

推荐答案 2015-11-05

一词汇共现理论Hoey 1991年指出实现语篇连贯可通过多种衔接机制,其中词汇衔接是最突出也是最重要的形式,占篇章衔接形式的40%左右。在词汇衔接的构成中,Halliday和Hasan 1976将其分为复现和共现关系两类。本文所讨论的“词汇共现”(co-occur-rence)指的是在某一语篇中词汇的使用与篇章的主题密切相关,同类词汇共同出现在同一语境中,以达到篇章连贯与衔接的目的,实现语篇的连贯功能。英国语言学家Firth提出了词汇衔接关系的搭配理论(collocation),[1]认为语篇通过对共现词汇的运用以达到语篇的完整及流畅。综合各家之言,词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。这种共现既可以出现在同一句子中,也可散落在这篇文章的每个角落。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/Uspn2U9sx.html

其他回答

第1个回答推荐于2018-05-09

“频率是二元词共现绝对次数除以总词数。。。”这样计算出来的频率应该不太可行，个人建议科研看下“Google距离”的相关文章，这是一个新提出来的通过计算词语间在Google中共现的概率来衡量相互的语义关联程度的方法，希望对你有点小用~~本回答被提问者和网友采纳

第2个回答 2019-06-11

"如果频率是二元词共现绝对次数除以总词数，那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小，这样的话该怎么判断文本的错误？"
我觉得不应该除以总词数，应该是指定窗口内的词数吧。

相似回答

TermWeight 词权重算法答：term weight训练，方法主要分为两种：(1) 基于点击词共现和 (2) 基于偏序关系。基于点击词共现法将term weight看做是回归任务来解，标注数据计算时采用term recall得分来表示query中各term的重要性关系。词共现：基于uclog的query-title点击数据构建训练集，即通过计算指标 term recal...

蔡斯认为议题识别的首要环节是识别答：比较典型的方法有TF-IDF算法、词共现图(Word Co-occurrence Graph)等。这种方法具有可解释性强、易于实现等特点，但是对于异构性和多义性比较高的语言领域难以适应。而近年来，基于机器学习的方法逐渐成为了议题识别的主流算法，其优势在于能够适应不同的领域。如最近比较火的深度学习神经网络技术就可以充分...

什么是Shingling算法答：shingling算法用于计算两个文档的相似度，例如，用于网页去重。维基百科对w-shingling的定义如下：In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The w ...

cTxNOMO是什么意思?答：cTxNOMO是一个较为新颖的缩写，其全称为“Contextualized Text Normalization for Medical Ontologies”。顾名思义，该术语与医学本体论相关，是指一种基于语境的文本规范化方法。在医疗领域应用中，文本规范化非常重要，可以提高数据间的一致性，促进研究数据的再利用。cTxNOMO的核心是语境化词汇替换算法，...

二、词向量和语义答：GloVe 与word2vec，两个模型都可以根据词汇的 "共现 co-occurrence" 信息，将词汇编码成一个向量。两者最直观的区别在于，word2vec是 "predictive" 的模型，而GloVe是 "count-based" 的模型。Glove 和 word2vec 从算法实现的角度来说，它们区别在于loss的计算是不同的：两个模型在并行化上有一些不...

词汇量测试的原理是什么?为什么检测少量单词就能得知词汇量?求数学角度...答：这个是抽样调查啊，就像了解电视节目收视率，不需要调查所有观众，只要随机抽样即可，部分可以反映整体的特征。单词可以按照使用频率分为“高级”、“低级”单词，而典型学习情况都是由浅入深的，那么高级词汇会的越多，说明词汇量越高。具体算法上，词汇量=难度1词库*掌握比例+难度2词库*掌握比例+...+...

自然语言处理——7.5 自动分词基本算法答：求最短路径：贪心法或简单扩展法。把输入字串(句子) 作为的输入；切分后的单词串为状态的输出，即观察序列。词性序列为状态序列，每个词性标记对应中的一个状态，。将分词过程看作是字的分类问题。该方法认为，每个字在构造一个特定的词语时都占据着一个确定的构词...

Python中,已经得到一个包含所有单词的词典,如何统计词典中的单词在每...答：定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会...

自建库论文查重是如何进行的?答：3.建立索引：为每篇文献建立一个唯一的索引，以便在后续的查重过程中快速定位和比较。4.相似度计算：使用特定的算法（如余弦相似度、Jaccard相似度等）计算待检测论文与自建库中文献的相似度。这些算法会考虑到词汇的共现关系、语义相似度等因素，从而得到一个综合的相似度评分。5.结果分析：根据计算出的...

大家正在搜

英语词汇复现记忆法用什么软件算词汇复现率词汇同现词汇复现率怎么统计英语词汇教学现状词汇复现率公式哪些词汇体现了中医词汇教学现状表格中选择出现最多的词汇