词汇共现算法

首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。

前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?

如果你不能解决我的问题,如果能够提供一些能够帮助我的文献也万分感谢。
恩,我也觉得这种计算方法统计的不准确,所以现在寻求一个准确的方法,“Google距离”方面的能够提供一些资料吗?

一词汇共现理论Hoey 1991年指出实现语篇连贯可通过多种衔接机制,其中词汇衔接是最突出也是最重要的形式,占篇章衔接形式的40%左右。在词汇衔接的构成中,Halliday和Hasan 1976将其分为复现和共现关系两类。本文所讨论的“词汇共现”(co-occur-rence)指的是在某一语篇中词汇的使用与篇章的主题密切相关,同类词汇共同出现在同一语境中,以达到篇章连贯与衔接的目的,实现语篇的连贯功能。英国语言学家Firth提出了词汇衔接关系的搭配理论(collocation),[1]认为语篇通过对共现词汇的运用以达到语篇的完整及流畅。综合各家之言,词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。这种共现既可以出现在同一句子中,也可散落在这篇文章的每个角落。
温馨提示:答案为网友推荐,仅供参考
第1个回答  推荐于2018-05-09
“频率是二元词共现绝对次数除以总词数。。。”这样计算出来的频率应该不太可行,个人建议科研看下“Google距离”的相关文章,这是一个新提出来的通过计算词语间在Google中共现的概率来衡量相互的语义关联程度的方法,希望对你有点小用~~本回答被提问者和网友采纳
第2个回答  2019-06-11
"如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?"
我觉得不应该除以总词数,应该是指定窗口内的词数吧。
相似回答