日经中文网
NIKKEI——日本经济新闻中文版

  • 20xx 水曜日

  • 0708

  • 搜索
Home > 产业聚焦 > 科学/技术 > 日本开发专业级同传AI,准确无延时

日本开发专业级同传AI,准确无延时

2021/01/20

PRINT

      日本情报通信研究机构在预处理中采用按“语块”(chunk,或称:语义块)断句的方法,比以句子为单位断句翻译得更精准。专业的同声传译人员也使用这种方法。这样可以保证翻译准确度,并减少延时。

   

      日本情报通信研究机构在开发中将使用大量的数据。该机构在2021年度末之前,将从同声传译人员等手中收集划分语义的位置及其译文的数据。2022年度将开发按照语义断句并翻译的AI。

    

      与英译日相比,日译英的同声传译难度更高。因为断句的预处理比较难。

   

      在日语中,动词及表示否定等的重要词语出现在句尾,因此需要预读,然后进行翻译。而动词等关键词语在句子前半部分出现的英语等更好翻译。在日语中,句子省略主语的情况也很多,AI要补充完整句子以后再翻译,因此容易出错。

  

      为了防止误译,需要进行修正的技术。比如提前给AI提供演讲内容相关数据,让它进行学习,它就能够读懂后面要说的话,从而更准确地完成同声传译。

  

      日本情报通信研究机构还将改进翻译引擎。通过日英、英日及所有语言翻译都使用的技术来控制翻译准确度。如果这项性能不高,即使预处理速度再快、修正功能出色,也起不到作用。

  

      日本情报通信研究机构的翻译引擎除了市售的便携式翻译机以外,还被松下、NTT docomo及NEC等的语音翻译服务采用。该机构的研究员隅田英一郎自信地说“英日翻译准确率换算成托业考试(TOEIC)分数的话,相当于900分左右”。

  

      在提高翻译准确率方面值得期待的是,得到美国特斯拉首席执行官(CEO)马斯克等人资助的研究企业OpenAI在2020年6月公布了语言AI“GPT-3”。这款AI可以写出跟人水平接近的比较自然的文章。

   

      GPT-3利用巨大的“大脑”学习大量文件,获得了很强的能力。开发中使用的数据相当于数千亿词汇量。如果能在翻译引擎中应用GPT-3的系统,就有可能大幅提高性能。

  

      围绕同声传译,全球的大型IT企业都在竞争,不过日本情报通信研究机构仍有胜算。隅田研究员指出“美国微软、中国百度及美国谷歌都是以句子为单位进行断句,以语块断句的方法尚未取得成果。都在同一水平上”。各公司都在下力气开发的中英语同声传译也跟日本情报通信研究机构开发一样,存在10秒左右的延时。

  

      如果能实现日语翻成其他主要语言的同声传译,在国际上就会占据优势。

   

      英语、中文及法语等使用人数较多的语言都是动词跟在名词后面的类型。占到全球语言的约4成。其实,世界上有一半语言和日语一样,把动词放在句尾。同类型的语言之间更容易实现同声传译。如果在不同类型语言之间的同声传译方面,能开发出优异的技术,则有可能应用于9成的语言。

  

      日本经济新闻(中文版:日经中文版)大越优树

版权声明:日本经济新闻社版权所有,未经授权不得转载或部分复制,违者必究。

报道评论

非常具有可参考性
 
4
具有一般参考性
 
0
不具有参考价值
 
1
投票总数: 5

日经中文网公众平台上线!
请扫描二维码,马上关注!

・日本经济新闻社选取亚洲有力企业为对象,编制并发布了日经Asia300指数和日经Asia300i指数(Nikkei Asia300 Investable Index)。在2023年12月29日之后将停止编制并发布日经Asia300指数。日经中文网至今刊登日经Asia300指数,自2023年12月12日起改为刊登日经Asia300i指数。