SDXLモデルのおすすめ refiner不要の実写系とアニメ系

SDXLモデルのおすすめ

SDXLモデルのおすすめ

SDXLはStable Diffusionの最新モデルで、従来より高画質な画像生成が可能。ただし、必要なGPUメモリ(VRAM)が多いのがデメリットで16GB以上のVRAMが推奨されます。

もし、モデルのサイズがデカすぎてパソコンで動かない…という場合は、ユーザインタフェースを変えると動くケースもあります。

Fooocusなど、省メモリ化を測って、8GB程度のVRAMでも動作するようにメモリ使用効率が最適化されているんですね。

関連 fooocusの使い方インストールとモデル追加、SDXL

それでもダメな場合は、Google Colabo（クラウド）上でも動かせるので試してみてください。

Juggernaut XLは2023年に登場したSDXLモデルの中でもCivitaiの人気ランキングで1位を獲得するなど、Stable Diffusionユーザーから非常に注目されているモデルで、バージョンアップも早いです。

実写系の人物に加えて、風景画の描写力も高いです。美しすぎないリアルな人物が出せるので、ブログ記事の挿絵として使っても悪目立ちしないです。

Cherry Picker XL – v2.7

Cherry Picker XLはSDXLの中でも特に写実的な人物画像の生成に優れた高品質モデル。複数のモデルを組み合わせたマージモデルで、3D的な立体感が特徴で、人物の肌の色合いや光の反射、影のつき方、表情の表現力に優れています。ややアンリアルな美しい美女が生成可能。アジア系にも強いです。

real pony – cute_jp_Fixed_No.03

ポニーモデルとリアルモデルをミックスして、アニメ要素を取り込んだ実写系を実現。特にアニメ風のかわいらしい日本人の顔が得意。幼い顔も上手く生成できます。肌は白めに仕上がる傾向あり。プロンプトで制御しないと、すぐに巨乳化する傾向があり、工夫が必要。

2次元絵モデルのおすすめ

CounterfeitXL – v2.5

CounterfeitXLはアニメ風イラストが得意なモデル。透明感がありながらも光と影やボカシなどの表現力が高く、塗りの美しい水彩画テイストのイラストを生成できます。多くのユーザーに利用されている人気モデルCounterfeit-V3.0の後継SDXLモデル。

anima_pencil-XL – v3.1.0

鉛筆画風の柔らかくリアルなタッチが特徴。繊細な陰影表現が可能。アニメ・イラスト系の中でもリアル寄りの画風を生成できます。グラデーションが綺麗。出てくる絵柄にやや幅がある印象で、くっきりデフォルメ系からアニメ塗りまで出せます。女性キャラクターの顔の魅力的な描画が得意で。アジア系の顔も上手く生成可能。

Animagine XL V3.1 – v3.1

高解像度で詳細なアニメ画像の生成に特化したモデル。多くのアニメキャラを学習していて、影や手の描写など、細部の表現力が向上しています。masterpeaceなどの品質系プロンプトが不要になり、シンプルなテキスト入力で高品質な画像生成が可能。ときどき、有名アニメのキャラそのまんまが出てくるので扱いには注意。

SDXLモデルのrefinerとは

SDXLのrefinerは、baseモデルが生成した画像をさらに洗練し、ディテールを強化する役割を担っています。特に複雑で精緻な画像の生成に効果的。

具体的には、SDXLモデルは実質的に2つのモデルが連携して機能します。まずbaseモデルが画像の全体的な構図を生成し、オプションのrefinerモデルを適用すると、画像により細かなディテールが追加されるという仕組み。

ただし、最近はrefinerなしの単体で動作するSDXLモデルも多いです。

Refinerモデルは、ノイズの少ない低ステージの画像をデノイズすることに特化しています。必須ではないですが、ディテールを大幅に強化できるんですね。その分、メモリを多く消費します。（メモリ上にSDXLモデルとrefinerモデル両方をロードする必要があるため）

SDXLモデルのVAEとは

モデルにより、「～のVAE推奨」などと指定されていることがあります。

Stable Diffusion XL (SDXL)モデルにおけるVAE (Variational Autoencoder)とはなんでしょうか？

ざっくり言うと、描画生成時に、本来AIが学習しているはずの特徴が薄められてしまうので、画像生成の最終段階で特徴情報を追加する、というような処理をするのがVAE。

感覚的に言うと、ぼやけたり彩度の低い画像を、よりシャープで色鮮やかな高品質の画像に変換することができます。

具体的には、以下のような処理を内部的に行っているんですね。

VAEは画像を高次元の画素空間から、より低次元の潜在空間に圧縮する役割を担っています。この潜在空間では画像のより本質的な意味的特徴が捉えられています。
潜在空間に圧縮された画像表現に対して、ガウスノイズが反復的に加えられます(forward diffusion)。
最終的にVAEのデコーダーが、潜在表現を画素空間に戻すことで最終的な画像を生成します。

利用する側としては、「推奨VAEを使うと、画像がくっきりする」と考えておけばいいでしょう。

SDXLモデルとは

Stable Diffusion XL (SDXL)は、画像生成のコアとなるモデルの種類。

要するに、以前より大きいサイズの画像で学習させたので、生成画像の品質があがったよ、というものです。（そのぶん、サイズも大きくなった）

従来のStable Diffusionモデルと比べて、以下の点で大きな改良が加えられています。

UNetが3倍に拡大され、2つ目のテキストエンコーダー(OpenCLIP ViT-bigG/14)が追加されたことで、パラメーター数が大幅に増加
画像のサイズとクロップ位置を条件付けすることで、トレーニングデータの情報をより効果的に活用し、生成画像のクロップをコントロールできるようになった
2段階のモデル処理を導入。ベースモデルで画像を生成した後、リファイナーモデルで高品質な詳細を追加

SDXLは従来モデルと比べて、より写実的で詳細な画像を生成できます。人物の顔がリアルになり、画像内のテキストが判読可能になったのが特徴です。また、より短いプロンプトでも望む結果が得られるようになりました。

SDXLはローカル環境のStable Diffusion WebUI (AUTOMATIC1111)で使用可能で、ベースモデル、VAE、リファイナーモデルの3つのファイルをダウンロードする必要があります。（モデルによっては、単一モデルのみで動作します）