机器翻译的流程是怎么样的

如题所述

著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:王biubiu
链接:http://www.zhihu.com/question/24588198/answer/38342825
来源:知乎

目前最重要的两种机器翻译方式:规则法和统计法
1. 规则法(rule based machine translation, RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。
规则法机器翻译系统的运作通过三个连续的阶段实现:分析,转换,生成,根据三个阶段的复杂性分为三级。
- 直接翻译:简单的词到词的翻译。
- 转换翻译:翻译过程要参考并兼顾到原文的词法、句法和语义信息。因为信息来源范围过于宽泛,语法规则过多且相互之间存在矛盾和冲突,转换翻译较为复杂且易出错。【别说转换了,光是根据各种语法规则,对源语言进行分析都会崩溃好吗!
- 国际语翻译:迄今为止,还只是设想。大概是想凭借通用的完全不依赖语言的形式,实现对语言信息的解码。【国际语本身就是人工语言啊,还怎么做到不依赖语言形式。这个想法最早出现在13世纪orz
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:王biubiu
链接:http://www.zhihu.com/question/24588198/answer/38342825
来源:知乎

Bernard Vauquois' pyramid

2. 统计法 (statistical machine translation, SMT),通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或是语言模式),进而使用此模型进行翻译,一般会选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。假设要把一个英语句子A翻译成汉语,所有汉语句子B,都是A的可能或是非可能的潜在翻译。Pr(A)是类似A表达出现的概率,Pr(B|A)是A翻译成B出现的概率。找到两个参数的最大值,就能缩小句子及其对应翻译检索的范围,从而找出最合适的翻译。
SMT根据文本分析程度级别的不同分为两种:基于词的SMT和基于短语的SMT,后一个是目前普遍使用的,Google用的就是这种。翻译文本被自动分为固定长度的词语序列,再对各词语序列在语料库里进行统计分析,以查找到出现对应概率最高的翻译。【所以,不要嫌弃谷歌翻译啦,如果不是依托于它自己强大的搜索引擎,能获取相对数量的语料库,翻译的质量可能更糟,可以对比必应和百度。非在线的开源机器翻译也有做得很棒的,多也是使用的统计法模式。
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:王biubiu
链接:http://www.zhihu.com/question/24588198/answer/38342825
来源:知乎

其他方式还有如范例法(example based machine translation, EBMT),类似统计法原理,不同的点在于比对对象是相对小型的语料库,从中找到对应的翻译片段的类似范例,再用片段组成相应的翻译;上下文法(context based machine translation, CBMT);知识法(knowledge based machine translation, KBMT)和混合法,但是不及前面两种使用率高。

刚好这两天在看Daniel Stein写的MT概述"Maschinelle Übersetzung – ein Überblick",有提到机器翻译的不同类型和原理,以上。
温馨提示:答案为网友推荐,仅供参考
相似回答