最近在做一个语料库,语料对齐后发现一个问题,一个句子重复出现和一个句子多种译法的情况比较多,请问有没有什么简单的方法能批量将他们去除?
语料清洗和去重。翻译记忆库中是否掺有杂质对记忆库质量影响很大。大量的杂质还会导致调取记忆库的速度变慢,因此要对杂质进行清洗。
例如原文与译文完全相同的条目,例如纯数字或者符号。需要进行清洗。
此外记忆库中完全相同的条目,只保留一条即可。
记忆库中的句子应是标准译法,因此对于一句多译的情况请予以避免。
利用Tmxmall在线对齐可以在制作记忆库之后将这些杂质批量过滤出来,可以进行一键去重等等操作。挺好用的。网页链接
试试Tmxmall在线对齐呀,它里面有语料去重的功能,这个功能可以快速筛选出原文与译文相同句对,便于快速去除错误句对,也可以快速筛选出文件中一句多译句对,可根据自己需要随机保留其中一条译法。
Tmxmall在线对齐对齐页面的右上角,高级功能,一键去重。