当前位置：首页 > 热文 > > 内容页

内测了下阿里的AI画图，带来了点大厂的震撼

2023-07-08 07:38:05 来源: 机器之心Pro

机器之心报道

(资料图)

作者：杜伟、泽南

要问今年的 WAIC 世界人工智能大会，谁是主角？AI 大模型当之无愧。

大会一共三天，各家公司机构陆续要亮相 30 多个大模型。

这场大模型的盛宴中少不了语言大模型，当然也有屡屡带给人视觉感官震撼的绘画大模型。这不，在 AI 画图领域，又一个国内实力选手入场了。

继发布大语言模型通义千问三个月后，阿里的 AI 绘画创作大模型也来了，而且是基于自研的组合式生成模型 Composer。

7 月 7 日的 WAIC 大会上，阿里云通义大模型家族揭幕了旗下最新成员「通义万相」。

WAIC 阿里云《MaaS：以模型为中心的 AI 开发新范式》主题论坛上，通义万相登场。

它的文本生成图像效果是这样的，生成速度很快。

通义万相还可以为一张原图生成另一种指定风格的新图。

更有一种套娃玩法，为一张原图生成一些相似的图片。

阿里表示，通义万相拥有的文生图和图生图能力，可以辅助人类进行图片创作，大幅降低图片设计门槛。未来还可应用于艺术设计、游戏和文创等应用场景。

目前，该模型已开启定向邀测。

在 ChatGPT 火起来之前，AI 领域最出圈的话题就是 AI 画图。扩散模型把生成式 AI 向前带进了一大步，一时间业内出现大量输入文字、生成各种风格图像的 AI 模型。之后又出现了图像生成图像、图像指定风格转换的更多玩法，让人们眼花缭乱的同时感叹于生成式 AI 的神奇。

在 WAIC 这个大舞台上，阿里推出了这个既能文生图又能图生图的 AI 神器，可见对其生成效果非常有信心。

在拿到体验资格后，机器之心当然要先试上一把。

通义万相实测：玩法多样、一出手就是大作

这个通义家族的新模型究竟有没有给 AI 画图领域带来改变呢？我们用结果来说话。

目前，通义万相上线了 文本生成图像、相似图像生成和图像风格迁移三大功能 。

我们先从标准的文本生成图像测起。在文生图时，你可以在水彩、油画、中国画、扁平插画、二次元、素描、3D 卡通等多种风格中进行选择。在输入文字描述并选定风格后，AI 便可自动生成创作图片了。同时为了方便使用，输出图像的比例有现成的 1:1、16:9 和 9:16 三种可选。

我们先来点不那么复杂的，选取元曲四大家之一马致远《天净沙・秋思》中的一组文字描述「小桥、流水、人家」，风格则选择「中国画」。

结果出来，通义万相完全向我们展示了一幅幅古韵十足的画作，细节丰富，还添加了描述中没有的一些元素，比如远处的山、水里游的鸭子等。

我们不妨再换两种风格，这次选择「素描」和「油画」。通义万相多种风格切换自如，生成的素描和油画图片同样惊艳。不夸张地说，这些图片完全是可以拿来直接用的水平。

再来另一组文字描述「穿宇航服的猫咪、太空、遨游、星空」，这次风格上选择「二次元」和「3D 卡通」。效果一目了然，尤其是 3D 卡通风格这组，猫咪太可爱了。

图上：二次元；图下：3D 卡通

这里突然想让通义万相与大名鼎鼎的 Stable Diffusion 较量一下。同样的文字描述翻译成英文「cat in a spacesuit, space, travel, starry sky」，然后再加上「style of 3D carton」，生成的图片是下面这样的。

这波没想到是通义万相赢了，Stable Diffusion 生成的猫咪要么太抽象，要么太写实了，没有表现出 3D 卡通风格。

既然简单的文字描述难不倒通义万相，那就给它上上难度。

这次来段更长的「一位日系女孩、棕色直发、白皙肌肤、身穿连衣裙、蕾丝和蝴蝶结、挎着小提包、面带微笑」，风格选择「二次元」。想问一下喜欢二次元的小伙伴，这些生成的图片符合你们心目中的日系女孩吗？

再来一组魔幻风格的描述「超现实主义、质感突出、4k 分辨率、赛博朋克、战舰、气势磅礴、硝烟、金属巨物、激光武器、辛烷渲染器」，风格选择「油画」。看着下面这些图片，瞬间升起了一种末日之战来袭的紧张氛围感。

我们再次将相同的描述放进 Stable Diffusion。在细节丰富度上，Stable Diffusion 更胜一筹，但其画面风格看起来灰暗，给不了人强烈的色彩冲击感。而且更偏写实风格，与超现实主义略有出入。

看起来，至少在文生图这个赛道，通义万相似乎完全拿捏住了。让人不由感叹，生成式 AI 在画图领域的能力一直在进化。

接下来讲通义万相的相似图生成功能 ，用户只要提供一张参考图像，就能够获得内容、风格相似的 AI 画作。这里要注意，上传的图像大小要在 10M 以下，格式则支持常见的 JPG、JPEG、PNG、BMP 等。

我们先放进去一张 AI 画图世界的常客马斯克，看看通义万相眼中的马斯克「分克」长什么样子。相较于马斯克真身，生成的图片偏老一些，但笑容同样开朗。

再来一张风景图，生成效果非常不错。溪水潺潺流下，水中也点缀了更多落叶，跟原图比毫不逊色。

在体验中，机器之心还发现，通义万相文本生成的图片可以直接生成相似图。这里选取上文 3D 卡通风格「穿宇航服的猫咪」的其中一张作为原图，结果一出来，生成的猫咪更呆萌了，背景元素也更加丰富。

最后看风格迁移功能 。你只要上传想要变换风格的原图和目标风格的示意图，就可以很快将原图处理为目标风格的创意图了。与相似图像生成一样，原图和风格图的大小不得超过 10M，格式相同。

我们首先选择一张偏写实的原图、一张印象派的风格图。结果来看，偏写实的原图完全变换了风格，成了一幅幅印象派画作。

接着尝试一张 3D 卡通原图、一张素描风格图。从结果看得出来，两种风格之间的切换游刃有余。

最后选择一张中国画风格的原图、一张水彩风格图。生成结果同样不错。

一番体验下来，无论是文生图还是图生图，通义万相从语义相关性、画面完整性以及细节丰富度等方面来看，都给了我们很大的惊喜。尤其是风格迁移功能，不同风格的切换如此丝滑，生成的图片几乎没有拼接感和涂抹感，就像本就属于目标风格一样。

作为阿里云通义大模型家族的新成员，阿里表示，通义万相现有的能力只是牛刀小试，其能力仍在不断进化中。未来也会逐步向行业客户开放相关能力。

自研 Composer 模型：50 亿参数、登上顶会

此前很多公司的大模型都在立「多模态」的人设，带有 AI 画图能力。相比之下，阿里这个通义万相有多少技术含量呢？看起来它不是简单的模仿，而是有自己的独门能力。

据了解，通义万相基于阿里自研的组合式生成模型 Composer，它拥有 50 亿参数，并在数十亿个文本、图像对上进行训练。在业界都在考虑如何提升 AI 绘画模型的可控性这一点上，Composer 给出了它的创新性思路。

通过一个基于扩散模型的「组合式生成」框架，Composer 能够对配色、布局、风格等图像设计元素进行拆解和组合，实现了高度可控性和极大自由度的图像生成效果。

结果正如你我所见，仅需一个模型就能支持多类图像生成类任务能力。阿里云首席技术官周靖人了参与 Composer 的研究，相关成果已被国际 AI 顶会 ICML 2023 收录。

论文地址：/pdf/ GitHub 地址：/damo-vilab/composer

所谓拆解 - 组合，首先将图像分解为不同的设计元素，比如配色、草图、布局、风格、语义、材质等。然后使用 AI 模型将这些设计元素重新组合成新的图像。这里，拆解 - 组合过程中允许对用到的元素自由修改编辑，如此一来可控性大大增强。

拆解 - 组合图像生成过程。

不仅如此，Composer 还可以通过「压榨」拆解 - 组合的潜力来实现更广阔的创作空间。假设有 100 张图片，每张拆成 8 种元素，则全部元素的组合方式有 100 的 8 次方种。这一指数级的数量增长被称为组合爆炸现象，无疑为 AI 模型创造了一个极大的生成空间。同时人类设计师在生成定制化图片时也被赋予了极大的自由度和定制化能力。

图像重组合过程。

正是基于 Composer 框架，通义万相才能让我们体验到相似图生成和风格迁移这两种图生图功能 。一边用图像理解模型将图像拆解为不同元素，一边用扩散模型将这些元素重新组合成新图像，双管齐下，图生图水到渠成。

其中对于相似图生成，保持图像语义内容不变，仅仅改变图像中的局部细节，就能生成相似图片。过程中既可以较好地保持原图主体一致性，还提升了生成图的多样性和质量。

对于风格迁移，一方面保留原图的基本形态、结构，另一方面将目标风格图片的风格、色彩、笔触等个性化信息，最终实现风格迁移。

以大模型为核心，打造生成式 AI 的统一底座

看起来，通义万相超出预期的效果，来自于阿里自己的核心技术。

其实在国内，阿里是较早开始探索生成式 AI 的大厂之一，其在 2018 年就启动了大模型技术的研发。2019 年，达摩院提出的大语言训练模型 StructBERT 超越了谷歌、微软和 Facebook 的研究，登顶了当时 NLP 权威基准测试榜单 GLUE。

2021 年，阿里发布国内首个百亿参数级多模态大模型 M6 和被称为「中文版 GPT-3」的语言大模型 PLUG。其中，M6 在多次迭代之后，实现了十万亿级别的参数规模，并且 M6 和支付宝、淘宝的业务需求相结合。

在去年的 WAIC 上，阿里发布通义大模型系列，为业界首次构建一个「基础模型」，做到了模态表示、任务表示、模型结构统一。而且，相关核心模型向全球开发者开源开放。

有关生成式 AI 落地，我们一直面临着几个挑战：算力成本高、构建过程复杂、通用性有限。通义打造了业界首个 AI 统一底座，并构建大小模型协同的层次化人工智能体系，其目标就是直面挑战，让 AI 从感知迈向认知。

可以说，在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等方面，阿里为中文大模型的发展做了一些前沿性、引领性的贡献。

在通义万相之前，阿里已陆续发布了面向自然语言处理的「通义千问」和专攻音视频生产力的「通义听悟」。至此，AI 的三大主要方向已经全部打通。 面对大模型及生成式 AI 的巨大潜在需求，阿里云有着得天独厚的优势 。