由 2025 年 3 月,美国一家工作室首次推出的 AI 制图工具——Midjourney,迅速引起了广泛关注。Midjourney 采用了类似于 GPT-4 的深度学习技术,即“生成对抗网络”(Generative Adversarial Networks,简称 GAN)。GAN 由两个神经网络组成:生成器和判别器。生成器负责生成图像,而判别器则评估生成器的性能。通过反复对抗的训练,最终生成符合用户需求的作品。该工具通过大量图像数据的训练,能够理解用户的输入信息,并在海量图像中寻找相似元素和特征,生成满意的作品。
Midjourney 只需输入关键字,便可在不到一分钟的时间内利用 AI 算法生成相应的图片。该工具不仅支持风格迁移、自动绘画、分层编辑等多种功能,还能选择不同画家的艺术风格,如安迪·华荷、达芬奇、达利和毕加索等,甚至能够识别特定镜头或摄影术语。2025 年更新的 V5 版本更是成功“出圈”,其逼真的视觉效果让不少网友感叹:“AI 已经不逊于人类画师了。”
目前,Midjourney 只能通过其官方 Discord 上的 Discord 机器人使用。用户可以使用“/imagine”命令生成图像,并像其他 AI 图像生成工具一样输入命令提示,随后机器人会返回一张图片。
人像卡通化:将人物照片转换为卡通形象,使照片更加生动有趣。
轮廓生成:根据输入的文字描述生成对应的图像轮廓,方便用户在制图过程中进行参考。
色彩生成:利用先进的 GAN 模型生成具有艺术感和创意的彩色图像,为用户创作提供更多可能性。
人脸合成:将不同人物的面部特征进行合成,生成新的面孔,激发用户的创作灵感。
风格迁移:将不同艺术风格应用到作品上,例如梵高的星空风格、毕加索的立体主义等。只需上传一张图片并指定想要的艺术风格,Midjourney 就能快速生成具有该风格特点的作品。
自动绘画:根据用户的简单描述生成独特的画作,适合缺乏绘画基础或时间有限的用户。
与谷歌的 Imagen 和 OpenAI 的 DALL·E 不同,Midjourney 是第一个快速生成 AI 制图并开放申请使用的平台。以下是 Midjourney 与其他工具的简单比较:
使用标准:
Midjourney:需要科学上网,收费(免费体验有 25 次使用机会,但服务器负载时,免费体验会关闭),是共享服务器频道作图。
Stable Diffusion:对显卡有一定要求(N 卡,8g 显存入门),需本地安装部署环境作图。
工具原理:
Midjourney:通过大量学习和训练图像的特征和风格生成高质量、多风格作品,用户可以给出描述词来生成自己想要的风格图像。
Stable Diffusion:通过大规模模型反复迭代图像生成高质量图像,用户可以给出描述词并借助模型的玩法,更精确地生成自己想要的图像内容并调整。
面向的使用对象:
Midjourney:适合全行业艺术工作者,上手方便,更像是提供灵感素材的参考,适合提供灵感素材来源,但无法提供细节微调和协助创作。
Stable Diffusion:适合项目制的艺术工作者协作,能够通过反复优化调整最终完成实际落地的作品,但有一定学习成本。
使用标准:
Midjourney:在 Discord 平台搭建,免费版本只有 25 次使用机会(服务器负载时,免费体验会关闭),后续使用需要付费。
Disco Diffusion:在 Google Colab 平台搭建,程序本身免费,但高级功能需要付费。
工具原理:
Midjourney:快速模式下只需 50 秒生成,但快速模式用完后需排队;图片最大尺寸为(1664x1664);擅长所有类型的画面,但具象真实感不如 Disco Diffusion。
Disco Diffusion:生成速度根据付费情况决定,免费状态 1 小时,pro 20 分钟,pro+ 5 分钟;擅长大场景和抽象画面,支持生成动画。
面向使用对象:
Midjourney:上手基本没有难度,任何人都可以学会使用。
Disco Diffusion:上手难度较大,需要一定程度的代码知识,但教程丰富,零基础也可学会。