返回栏目
首页人工智能 • 正文

3D多语种AI记者来了,不仅文章和翻译没有压力,还能一线报道国际体育大比武

发布时间:  来源:河洛网

本文从雷锋网络转载,转载时请向雷锋网络官方网站申请行政许可。

3D多语种AI记者来了,不仅文章和翻译没有压力,还能一线报道国际体育大比武

世界上第一个3D多语言AI报录人诞生!

最近,字节跳跃AI Lab联合上海交大研究工作团队发布了新的升级版AI报录人小明bot。 小明博最早诞生于2016年,2017年荣获吴文俊自动智能技术发明奖。 吴文俊奖被称为中国智能科学技术最高奖,代表着中国自动智能领域的最高荣誉。

此次的最新版小明bot除了提供了新闻消息撰稿人的基本功能外,还提供了一个3D漫动画分区图像,可以根据文本的内容实现多语种的广播新闻塔斯克。

小明博特

据3D多功能新闻记者小明bot研究人员介绍,小明bot软件系统包括新闻消息生成器、翻译机、跨语言引导人和人头像工作站,可以独立完成新闻消息报道的整个工作流程。 接下来,让我们通过大型体育上通告的demo网络视频来看看小明bot的业务能力

首先写文章是报道新闻消息的基本任务。 可以看出,小明bot的文本生成与比赛的进行大致同步进行。 比赛中出现目标等特殊比赛点时,小明会自动捕捉信息并转换为对应的文本内容。 图中:

左侧是比赛网络视频,右侧是生成的新闻消息

运动员查理得了成功的一分,小明博特实时生成文本

第90分钟,纳赛尔·; 查理( Nacer Chadli )抓住机会为比利时赢得1分,现在分成3-2。

适当的专业现场解说员。 此外,小明博也可以从数据推断比赛结果,并附上对应的图像。

比利时与日本对战以三比二获胜

在2018年世界杯第16轮比赛中,比利时和日本于7月3日凌晨2点开始了比赛。 比利时运动员金伯顿、纳卡德里、马罗uane fell aini bakkioui各得一分,日本运动员根基·哈拉格uchi和塔克斯·希尼各得一分,最终比利时以3:2战胜日本

研究人员说,小明博对数据很敏感,例如由于比赛的得分、股票价格的变化、收益的增减等,非常擅长体育上通告和财经新闻消息领域的写作。

其次是多语种翻译功能。 Xiongmingbot可以为同一新闻消息生成多种语言格式,并为全球用户提供新闻消息文章。

是葡萄牙文、对外汉语、日语

最重要的是,上述不同语言的文本内容可以在3D漫动画下实时声音广播。 其头部、嘴唇可以配合文本内容同步移动,整体效果真实自然。

现在小明bot在媒体平台开设了小明见世界、小明财经等多个社交账号,超过60万页,吸引了15万人以上的关注。 那篇报纸报道的专业程度好像被认可了。

背后的实现原理——“小明bot:amultilingualrobotnewsreporter”的论文被公开。 通过论文中完整的工作流程图,小明bot首先在比赛视频的基础上,输出完整的文本信息,在此基础上提取化学基最重要最相关的内容,制作文本摘要,然后将文本内容机器翻译,文本转换为语音和人头像动态视频三个模块

完整的例子

从Xiongmingbot的系统体系结构来看,这些个的功能主要由四个模块实现。 接下来,我们将简要介绍与这些个阶段相关的模型,以及它们如何工作。

小明博系统体系结构

生成关新闻消息字:由数据到文本的转换和文本总结两个环节组成

到目前为止,Xiongmingbot一直擅长监控和捕获数据。 为了将数据转换为文本,论文采用了基于table2text技术的数字大板块转换方法。

研究人员对比赛阶段、类型等多个维度设定了不同类型的数字大板块。 这些个的数字大板块通常包含时间、得分、界外球、选手、工作团队名和其他许多指标。 小明bot系统根据需要选择相应的数字大板块类型,然后将其转换为文本。

除了数据部分,Xiongmingbot需要根据句子完成文本提取和抽象总结两个塔斯克。 在这里,研究人员训练了两种修订模式。 一种是基于BERT的通用文本摘要模型。 我们使用TTNews数据定径套进行了培训。 其中包括50,000个包含手动书面摘要的对外汉语文件。 另一个是针对泡泡纱等体育上通告训练的特殊模式。 该模型考虑到泡泡纱的比赛结构,可以用不同的方法处理界外球等重要事件,使比赛报告更好地总结。

新闻消息翻译:使用基于Transformer架构的机器模型进行实时翻译。

在此,研究人员预先训练了多个神经机器翻译模型,作为NMT ( neuralmachinetranslationsysterm )组件采用了最先进的Transformer Big Model。

另外,为了提高翻译速度,NVIDIA发表的通用并行计算体系结构即基于cuda ( computeunifieddevicearchitecture )的NMT系统也被创建,成为Transformer体系结构的

该模型使用的训练数据定径套也同样庞大,中英转换的数据定径套包括1亿个并列句对,对外汉语包括6000万个并列句对。

读取新闻消息:采用从文本到语音( TTS )的合成模型,实现跨语言输出。

研究者所使用的TTS合成模型在训练数据中只需要一种语言的少量语音。 像中文语言处理一样,只包含数百名发言者的声音。 另外,该TTS模型具有语言间的语音爱沙尼亚克朗反应历程,可以简单理解为能够用与我们提供给在先的完全相同的语音以不同的语言实现广播新闻。

人头像区:同步嘴唇和语音输出动作,完成三维渲染

小明bot生成与TTS模型的输出音频同步的嘴唇运动,并渲染头发、衣服等。 对于嘴唇动作,采用顺序模型( Seq2Seq )。 这个模型的输入系列是从TTS模型抽出的音素和与其对应的持续时间,输出系列是嘴的重量(嘴唇的动作的漫动画残奥表)。 由于这些个的不同嘴巴的重量,小明bot可以做出很多不同的表情。 渲染眼睛、头发和蒙皮的算法与三维渲染引擎Unity不同。

最后研究者表示,小明bot系统现在只是建构多功能AI系统的第一次尝试。 在文本生成、话语、表达等方面有很大的局限性和进步空之间。 将来,我们将从可扩展的工作区域和对话交流能力两个方面进行改进和改进。

最后,我们将为您提供小明bot体育上通告报道的完整网络视频

【建议编辑】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com