谁知道如何批量去除双语语料库中重复出现的语句啊?

最近在做一个语料库,语料对齐后发现一个问题,一个句子重复出现和一个句子多种译法的情况比较多,请问有没有什么简单的方法能批量将他们去除?

语料清洗和去重。翻译记忆库中是否掺有杂质对记忆库质量影响很大。大量的杂质还会导致调取记忆库的速度变慢,因此要对杂质进行清洗。

例如原文与译文完全相同的条目,例如纯数字或者符号。需要进行清洗。

此外记忆库中完全相同的条目,只保留一条即可。

记忆库中的句子应是标准译法,因此对于一句多译的情况请予以避免。

利用Tmxmall在线对齐可以在制作记忆库之后将这些杂质批量过滤出来,可以进行一键去重等等操作。挺好用的。网页链接

温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-06-06

试试Tmxmall在线对齐呀,它里面有语料去重的功能,这个功能可以快速筛选出原文与译文相同句对,便于快速去除错误句对,也可以快速筛选出文件中一句多译句对,可根据自己需要随机保留其中一条译法。

第2个回答  2018-03-30

Tmxmall在线对齐对齐页面的右上角,高级功能,一键去重。

相似回答