译者 | 布加迪
审校 | 重楼
有没有想过 别人 是如何使用 AI 图像生成如此超 逼真 的 人脸 ,而 你 自己的尝试最终却 充斥着缺陷 和 失真 ,看起来明显 很 假 ? 你 试着调整了提示和设置,但 质量还是 无法与 你 看到其他人生 成 的 图像 相 媲美 。 你 做错了什么 ?
这篇博文将逐一介绍三项 关键技术,开始使用Stable Diffusion生成 超逼真 的人脸。首先,我们将介绍提示工程的基础知识,帮助 你 使用基本模型生成图像。接下来,我们将探讨如何升级到Stable Diffusion XL 模型可以通过更大的参数和训练 显著 提高图像质量。最后,我将介绍一个专门用于生成高质量 图像的自定义 模型 。
1. 提示工程
首先,我们将学习写正面和负面的提示,以 生成 逼真的 人脸 。我们将使用在 H ug ging Face Spaces 上提供的Stable Diffusion 版本 2.1 演示 版 。它是免费的, 你 根本不用 设置 就可以开始入手。
链接 : hf.co/spaces/stabilityai/stable-diffusion
创建正面 提示时,确保包括 图像的 所有必要 的 细节和风格。在这个例子中,我们想生成一个走在街上的年轻女子的图像。我们将使用 基本 的 负面 提示,但 你 可以添加额外的关键字,以避免图像中 的 任何重复 性 错误。
正面提示 : “ 一个 20 多岁的年轻女子,走在街上,直视镜头,自信而友好的表情, 穿着 随意 ,一身现代 时尚的服装,城市街景背景,阳光明媚的白天光 线 ,鲜艳的色彩。 ”
负面提示: “外貌丑陋 , 难看 ,不成熟,卡通,动漫, 3 D ,绘画,卡通, 插图 ,最差质量,低质量 ”。
我们有一个良好的开端。图像 是 准确的,但图像的质量还有待提高。 你 可以 调整 提示,但这是 你 从基本模型得到的最好结果。
2. Stable Diffusion XL
我们将使用Stable Diffusion XL ( SDXL ) 模型来生成高质量图像。 先 使用基本模式生成 latent图像 ,然后使用 提炼 器对其进行处理,以生成详细而准确的图像。
链接 : hf.co/spaces/hysts/SD-XL
在生成图像之前,我们将向下滚动 , 并打开 “ 高级选项 ” 。我们将添加一个 负面 提示,设置种子,并 运用提炼器以获得 最佳图像质量。
然后,我们将编写与之前相同的提示,只是做了一些小的更改。我们将 生成 一个年轻的印度女 性 的 图像, 而不是一个普通的年轻女性 的图像 。
这 个结果经过了大幅 改善 。人脸 五官完美。 不妨 尝试生成其他种族 的人脸,以 检查偏差并比较结果。
我们 得到了 逼真的脸,但所有 图像 都有 Instagram 滤镜。通常,皮肤在现实生活中并不光滑 ,会 有粉刺、斑点、雀斑和皱纹。
3. CivitAI : RealVisXL V2.0
在 这一部分中,我们将生成带有 疤痕 和逼真皮肤的 精致 人脸 。为此,我们将使用 CivitAI 的自定义模型 ( RealVisXL V2.0 ) ,该模型 进行了微调,以获得 高质量 图像 。
链接 : civitai.com/models/139562/realvisxl-v20
你 可以通过点击 “ 创建 ” 按钮在线使用该模型,也可以通过 Stable Diffusion WebUI 下载到本地使用。
首 先,下载模型并将文件移动到 Stable Diffusion W eb UI 模型目录 : C:\WebUI\ w eb ui \ models\Stable- Diffusion 。
要在 W eb UI 上显示模型, 你 必须按刷新按钮,然后选择 “ realvisxl20… ” 模型检查点。
我 们将从编写相同的 正面提示 和 负面 提示开始 入手 ,生成高质量的1024X1024图像。
这 张照片看起来很完美。为了充分利用自定义模型,我们必须更改提示。
新 的 正面 和 负面 提示可以通过向下滚动模型页面并点击 你 喜欢的逼真图像来获得。CivitAI上的图像 随带正面 和 负面 提示以及先进的转向。
正面提示: “一 个印度年轻女子的形象,专注,果断, 逼真 ,动态姿势,超高分辨率,锐利的纹理,高细节的RAW照片, 精致的 人脸, 浅景深,锐利的眼睛, ( 逼真的皮肤纹理 : 1.2 ) ,浅色皮肤, DSLR ,胶片纹理 ”
负面 提示 : “( 最差质量,低质量,插图,3 D , 2 D ,绘画,漫画,素描 ) ,张嘴 ”
我们有一个印度女人的详细图像,皮肤逼真。与基本的SDXL 模型 相比,它是一个改进版。
我们又生成了三 个图像 来比较不同的种族。结果惊人,包含皮肤 疤痕、 凹凸不平的皮肤 和 准确的 脸部 特征。
结论
生成 式 艺术 方面 的进步将很快达到真实图像和合成图像 难以区分 的水平。这标志着 在将来 ,任何人都可以利用基于各种现实世界数据训练的自定义模型, 由 简单的文本提示创建高度逼真的 可传播媒介 。快速的进步意味着令人兴奋的潜力——也许有一天,生成逼真 的 视频可能像输入描述性提示一样简单。
我们 在这篇文章中学习了提示工程 、 先进的 Stable 设计模型和服装微调模型,以生成高度准确和逼真 的 人脸 。如果 你 想要更好的 效果 ,建议在civitai.com上 探究 各种高质量的模型。
原文标题: 3 Ways to Generate Hyper-Realistic Faces Using Stable Diffusion ,作者:Abid Ali Awan