返回栏目
首页人工智能 • 正文

如果让AI根据文字画“抽象画”,那会是什么样的呢? |DeepMind新算法

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

如果让AI根据文字画“抽象画”,那会是什么样的呢? |DeepMind新算法

由文字生成图像的话,AI早就做好了。

现在,以前的“ 写实派” 不是。 AI是“ 抽象派” 是艺术!

不用说,AI画的一些输入文字是“ 丛林之虎” 的作品:

AI的“ 艺术与艺术; 你get到了吗? 这离真正的抽象派巨匠的画有多远?

这次AI生成的图像和我们至今为止看到的GAN模型的样式有很大不同,是因为DeepMind使用了新的算法。

该算法最终允许用户输入一系列文本,AI可以对这个字符串做出创造性的反应,输出解释该字符串的艺术作品。

例如“ 云与雷达奎; 生成以下作品。

“ 一张脸” “ 悲鸣” “ 一只猫” “ 笑容” “ 着火的房子” “ 一个人走” “ 丛林之虎” “ 壁画” :

… …

这样惊人的新技能有什么技术革新吗?

神经语法系统和双编码器总的来说,DeepMind的这种算法与用GAN生成图像有三种不同:

首先,该算法的形象是“ 进化” 不是使用反向传播直接生成,而是来自( evolve )。

使用进化搜索( evolutionary-search )与其他不同“ 美学输出” 也可以人为地进行更多的输出控制。

其次,该算法没有直接进化图像,而是进化出生成图像的视觉语法。 只有这样才能生成有趣的结构化图像。

最后,该算法采用了事先训练的多模态“ 评价器” ( critic )、网络上大量的图像和说明文) )的训练。 该算法“ 理解” 文字的视觉意义能力很重要。

用于进化图像的神经视觉语法系统,以及用于评价图像适当性的图像文本双编码器“ 评价器” 。

神经语法系统采用分层结构,可以大大扩展核心神经发生器的功能。

它将用户输入的字符串输入到顶级LSTM中。 为每一笔划( lstm )指定中间输入字符串( intermediate input string )。

这个中间输入字符串和原始输入字符串很相似。 然后,将该中间字符串输入到下面的LSTM中,并输出最终图像的笔划描述。 如下图所示。

具体地说,中间向量的第二个位置决定了编码笔划是不透明还是透明。

第三个位置确定是使用顶级指定的位置还是中间级别指定的位置来确定笔划的原点。

第四个位置决定笔划产生的行数。

… …

为了起到评价的作用,需要有评价图像和句子相似度的评分机制。

因此,他们选择了Frome的双编码方法。 这个方法最近在大量的网络数据集上取得了很大的成功。

双编码器模型由分别处理文本和图像的两个编码器组成。 该团队通过align(alargeimageandnoisy-text )数据集对其进行了训练。

视觉编码器基于NF-Net-F0模型,输入224x224分辨率的RGB图像; 文本编码器是80M参数因果变换器( causal Transformer )。

该文本编码器保留了单词的顺序以及大小写的差异,“ 角标与角标; “ 在君角和雷四角; 生成不同的图像。

另外,得益于进化搜索,可以使用裁剪程序确定有助于图像得分(准确性)的重要标记。 通过进化的过程,也可以删除多余的标记,“ 调教” 尽量做出满意的图像。 下图为“ 苹果树” 的标记裁剪。

可以继续改善。 初始画布不需要空白色那样的技术。 什么实际上有用呢?

小组介绍说,可以用于支持艺术创作,发明新的标记制作方法,将其生成过程作用于3D模型等。

此外,画布背景的初始条件不必为空白色,也可以从照片或现有图像开始,每次重复都用不同的文本进行调整。 最终,将图像一点一点地发展为更加丰富的作品。

当然,他们的算法也有一些需要改进的地方,生成的图像有时令人惊讶,有时显得平淡、混乱,通过拟合产生了越来越抽象的作品。

如果允许背景颜色进化得更丰富,图像的其他方面也会降低多样性。

目前,该算法中有几个“ 偏见” 例如“ 自画像” 有时,最终大部分肖像画都是白人男性。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com