首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。
前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?
如果你不能解决我的问题,如果能够提供一些能够帮助我的文献也万分感谢。
恩,我也觉得这种计算方法统计的不准确,所以现在寻求一个准确的方法,“Google距离”方面的能够提供一些资料吗?