
古今翻译器
-
2023年3月17日发(作者:深圳市人才补贴)甚也!微软AI解锁⽂⾔⽂翻译,中秋⼀起品古⽂之美
(本⽂阅读时间:8分钟)
中秋节⼜叒叒叒的来了,别告诉我你的朋友圈只有:“哇塞,这⽉亮真圆。”“嘤嘤嘤,我好想Ta”?
博⼤精深的汉语⾔⽂化请你了解⼀下。你就会发现,关于表达浪漫还是古⼈有⼀套。
如果古⼈有朋友圈,看看他们怎么说?
额…….
这⽂⼤⼈是要说送星星⼀个坠⼦,跟⽉亮搓⿇将吗?
“这道题太难,我有点不会”
相信遇到这种难题的,肯定不⽌⼩编⼀个。古⼈携风⽉⼊墨,落笔如画,仿佛能把世间最美的风景都放在字⾥⾏间。古
代⽂⼈对⼈、事、物、景的诸多描写,为我们留下了灿烂的⽂化瑰宝。然⽽,当我们遇到⽣疏的古诗词以及甚⾄有些拗
⼝的古⽂,对于⼤多数⼈来说理解起来不免有些困难,很难完全体会出诗⼈所表达的意境。
⽂⾔⽂也能被翻译
为了解决⽂⾔⽂理解的问题,微软亚洲研究院的研究员们通过采⽤最新的神经⽹络机器翻译模型和训练框架,实现了⽂
⾔⽂/古⽂与现代汉语之间的双向互译,以及⽂⾔⽂与微软翻译⽀持的其他90多种语⾔和⽅⾔的互译。
▲微软翻译应⽤
下⾯我们就⽤这款软件来看看这句话的⽰意吧:
▲点击查看答案
这⼩编字⾥⾏间的浪漫,⼩编磕到了。给研究员们加鸡腿!
⽬前,微软⽂⾔⽂翻译已经集成到了微软翻译应⽤、Azure认知服务的翻译⼯具API,以及微软翻译服务⽀持的包括
⽬前,微软⽂⾔⽂翻译已经集成到了微软翻译应⽤、Azure认知服务的翻译⼯具API,以及微软翻译服务⽀持的包括
Office在内的多个微软产品中。
让传统⽂化“活”起来
⽂⾔⽂是中华传统⽂化的重要载体。卷帙浩繁的古书、古⽂记录了中华五千年来博⼤精深的⽂化,其中沉淀、蕴含的思
想和智慧,值得不断地探索与思考。不少⼈与⽂⾔⽂的上⼀次“亲密接触”⼤概还停留在学⽣时代,有些甚⾄早已遗忘。
这回好了,微软让现代⼈可以与古⼈“对上话”了。
近年来,⽆论是汉服⽂化的流⾏,还是九⼤博物馆联⼿让国宝活起来的《国家宝藏》,以现代⾳乐奏响经典诗词的《经
典咏流传》,聚焦⽂化典籍的《典籍⾥的中国》等等,全新的展⽰形式让越来越多的⼈重新关注中华传统⽂化的魅⼒。
可以说,⽂⾔⽂对于传承和传播中华⽂化⾄关重要,正如想理解西⽅⽂化的精髓要从读懂莎⼠⽐亚开始⼀样。游览群⼭
峻岭、⼤好河⼭的过程中有了这样的⼯具,深厚的⽂化“种⼦”便可以在⼈们内⼼的深处绽放、盛开。
“从技术⾓度上,⽂⾔⽂可以看作是⼀个单独的语种,当⽂⾔⽂与现代汉语实现⾃由互译后,⽂⾔⽂与英语、法语、德
语等语⾔的互译也就⽔到渠成,”微软亚洲研究院⾼级研究员张冬冬说道。届时,国际友⼈在阅读中国经典古籍时也能
瞬间秒懂,了解更加原汁原味的中华传统⽂化。
“⼀键翻译”背后的复杂⼯序
⼈⼯智能模型训练最关键的要素是数据,数据体量⾜够⼤、质量⾜够⾼,才能训练出更加精准的模型。在机器翻译中,
模型的训练更是需要原⽂数据和⽬标语⾔数据进⾏⽀撑。由于⽂⾔⽂翻译并⾮⽇常⽤语,所以与其他语种的翻译相⽐,
能够提供的训练数据⾮常少,并不利于机器翻译模型的训练。
尽管研究员们前期收集了不少公开的古今汉语数据,但原始数据却⽆法直接使⽤,需要通过数据清洗,对数据的不同源
头、多样的格式以及标点符号、全⾓/半⾓等进⾏标准化的统⼀,尽可能减少⽆效数据对模型训练的⼲扰。
这样下来,切实可⽤的⾼质量数据⼜进⼀步减少。为了解决数据少的问题,微软的研究员们接着做了⼤量的数据合成和
增强⼯作。
⾸先是对共⽤字符对齐、扩展,扩⼤数据量。与英⽂、法⽂、俄⽂等其他语⾔的翻译不同,⽂⾔⽂与现代⽂有相同、共
通的字符。利⽤这个特点,微软亚洲研究院的研究员们通过创新算法,让机器翻译通过对共同字符进⾏召回、⾃然对
齐,再进⼀步扩展到词语、短语、短句,从⽽合成了⼤量可⽤的数据。
其次是句式的变形,提升机器翻译的鲁棒性。针对句⼦、诗⽂不同的断句,研究员们增加了多种变形,让机器在古诗⽂
学习⽅⾯更全⾯。
以《寻隐者不遇》为例,⼀般的断句⽅式是“松下问童⼦,⾔师采药去”。但对于⼈来说,即使是“⾔师采药去,只在此⼭
中”这样⾮正常断句,看见时也知道它的上下句关系和意思。但对于没见过如此断句的翻译模型来说,就会“懵”,因此,
通过数据格式的变形不仅能扩⼤训练的数据量,也能提升训练模型翻译的鲁棒性。
▲点击查看答案
第三,繁简字互译训练,增加模型适应性。汉语⾔中,⽆论是⽂⾔⽂还是现代⽂,都存在繁体字,为了提升模型的适应
性,在训练翻译模型时不仅有简体中⽂的训练,还加⼊了繁体中⽂的数据,以及繁简字夹杂的数据,让翻译模型都能看
懂。
第四则是增加集外词训练,提升翻译准确度。如微软、电脑、⾼铁等近现代才出现的实体词。针对这样的“意外”,研究
员们训练了⼀个⼩模型来识别实体,先将实体之外的意思翻译完成,再把实体填写回去,以确保机器对集外词处理的准
确性。
此外,针对⾮正式⽂体,如博客、论坛、微博等⾮正规的⽂体,该机器翻译模型也都进⾏了针对性的训练,进⼀步提升
了现代汉语与⽂⾔⽂之间翻译的鲁棒性,是不是很惊喜?
基于当前的翻译系统,微软还在丰富数据集、改进模型训练⽅法上不断精进,使⽅法变得更加鲁棒、通⽤,未来或许不
只是在⽂⾔⽂翻译中能够使⽤,还可以扩展到更多应⽤场景中。
▲⽂⾔⽂翻译流程
技术创新,让⽂化传承更有安全感
中华⽂明上下五千年的历史,由于时间和空间的限制,能够传承下来,⼜被后⼈了解和记录的内容很有限。多年来,微
软亚洲研究院⼀直致⼒于将最前沿的技术和研究成果应⽤于历史、⽂化、考古等⽅⾯的保护和传承,让⽂化遗产以更直
观、互动的⽅式展现在⼈们⾯前。
如何通过先进的技术让⽂化、遗址、乃⾄整个“传承”都变得更有“安全感”,这不是靠嘴上说说,科技正在助⼒,并让我们
已经看到了创新与变⾰。⾃2005年起,微软亚洲研究院就基于⾃然语⾔处理、机器学习等⼈⼯智能技术研发了微软对
联系统,并逐渐增加了微软字谜和微软绝句。
2010年,微软亚洲研究院与故宫博物院和北京⼤学三⽅合作完成了“⾛进清明上河图”沉浸式数字⾳画展⽰项⽬的研发,
独创性的三维布局恢复算法和虚拟环境组织⽅法,让观众可以⾝临其境地欣赏画中的每个细节,不仅以新⽅式保护和传
承了书画类历史⽂物,也给传统博物馆在新技术时代的发展带来启⽰。
▲【张择端清明上河图卷】
图⽚来源于故宫博物院官⽹
2011年,微软亚洲研究院向敦煌研究院捐赠了专门为敦煌莫⾼窟量⾝定制的“飞天号”⼗亿级像素数字相机系统,突破性
地解决了敦煌壁画和佛龛数字化拍摄过程中的难题。
▲图为技术⼈员在壁画进⾏拍摄
以创新的技术⽅式和途径,让传统与科技对接。⽂⾔⽂翻译器的出现绝不只是技术的融⼊与创新这么简单,⽽是其背后
对于传统⽂化的继承和发扬。对此,微软始终⾝体⼒⾏着。
对于传统⽂化的继承和发扬。对此,微软始终⾝体⼒⾏着。
最后,⼩编为⼤家列上⼀道题助助兴,测试⼀下你的⽂⾔⽂底蕴有多深?
▲点击查看答案
你也可以访问微软必应的在线翻译服务体验,如果你是开发者,不要错过微软Azure认知服务的翻译⼯具API,开发更
多有趣⼜有⽤的⽂⾔⽂翻译应⽤。
识别⼆维码,体验在线翻译
推荐阅读
中秋氛围组已上线,Surface商⽤版+Windows11=更多福利
2021全球⼈⼯智能博览会微软论坛圆满收官
微软中国获“2021中国社会影响⼒⼤奖”双奖肯定
精彩活动
微软邀您共探⼈⼯智能新世界,共同鉴证产业发展未来!
点击这⾥,⽴刻体验!
↓↓↓