返回栏目
首页人工智能 • 正文

清华杰团队打造“中文ai设计师”,效果超Dall·E

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

清华杰团队打造“中文ai设计师”,效果超Dall·E

2021年,说到OpenAI最火热最具创意的产品,非Dall·; 是emo属的。 这是“ AI设计师” 只需赋予文字,即可根据需要生成图像。 遗憾的是,戴尔& middot; e不支持中文。

那么,最近清华大学的唐杰团队成立了&ldquo中文版Dall·; E” — — CogView,可以将中文文字转换为图像。

谷歌视图是“ 小河在山谷中流淌” :

“ 猫” :

“ 悲伤的博士生” :

CogView目前是开放式AI的戴尔和中间产品; e只有几个关键字修改选项。

能够指定画风和设计服装的CogView的能力,不仅可以从文字中输入图像,还可以应对风格学习、超分辨率、文本图像排名、时尚设计等各种微调策略的下游任务。

使用CogView时,可以添加不同的样式限制,以生成不同的绘制效果。 微调期间,图像对应的文本也将显示“ XX风格的图像” 。

CogView设计的服装也很体面,看起来像电子商务店的展示页,没有虚假痕迹。

原理CogView是具有VQ-VAE分词器40亿参数的Transfomer,其整体结构如下。

CogView利用GPT模型处理离散词典上的token序列。 然后,将学习过程分为两个阶段。 学习编码器和解码器将最小化重建损失,单个GPT通过连接文本来优化两个负对数似然值( NLL )损失。

结果,第一阶段退化为纯离散自动编码器,作为图像tokenizer将图像转换为标记序列; 第二阶段的GPT承担着建模任务的大部分。

图像tokenizer的训练非常重要,方法有最近邻映射、Gumbel采样、softmax近似三种,Dall·; e使用的是第三个,但对CogView来说三个差不多。

CogView的主干是一个方向的转换器,共有48层,40个注意头,40亿参数,隐藏层的大小为2560。

在训练中,作者发现CogView存在溢出(以NaN损失为特征)和下溢)发散损失为特征)两种不稳定性,提出用PB-Relax、Sandwich-LN解决它们。

最后,CogView通过MS COCO实现了最低的FID,与以前的基于GAN的模型和同样的Dall·; e

另一方面,在人工评价的测试中,CogView被选为最佳概率的为37.02%,远远超过了其他基于GAN的模型,能够与groundtruth(59.53% )竞争。

另外,作者已经发布了GitHub项目页面,但是现在没有代码,有兴趣的人请关注并等待代码的发布。

论文地址: https://arxiv.org/ABS/2105.13290

尝试使用demo:https://lab.aminer.cn/cog view /索引. html

GitHub网页: https://github.com/th udm/cog view

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com