Stable Diffusion 3
Stable Diffusion 3 — Stability AI
Stable Diffusion 3の一般公開はいつ?
Stable Diffusion 3が現在「早期プレビュー」段階で、API経由で使うことができます。
参考 Stability AI Image Models — Stability AI
どうやら、GoogleColab上で動かすことができるようですね。
Google Colabが開いたら、上から順番に「再生ボタンっぽいアイコン」をクリックしていけば動きます。
途中で、API KEYの入力箇所があるので、Stability AIからKEYをコピーして貼り付けましょう。Googleアカウントで簡易アカウント作成・ログインできます。
関連 Stability AI – Developer Platform(API KEY発行画面)
しばらく下に進んでいくと、Text to Imageというセクションがあり、プロンプト入力欄が出てきます。ここで画像を生成。
せっかくなので、SD3で強化されたという「文字描画」の威力を試してみましょう。
New yorkの文字が出ていますね。
こちらも、少し文字は小さいですが、それっぽい文字が出ています。
では、日本語はどうでしょうか?
あー。
んー。
しかし、微妙にそれっぽいというか、文字っぽくはなってる気がします。
Stability AIは、Stable Diffusion 3の一連のモデルが800Mから8Bのパラメータを提供し、拡散トランスフォーマー・アーキテクチャとフロー・マッチングを組み合わせていることを明らかにしています。
一般公開に向けて、モデルを継続的に改善していく予定であり、API経由での提供が開始されています。
Redditの投稿では、Stable Diffusion 3の一般公開に関する具体的な日付や詳細はまだ不明であり、コミュニティ内でもリリース日についての確定情報はないとの声があります。
以上の情報から、Stable Diffusion 3の一般公開については、Stability AIが早期プレビューのフィードバックを収集し、モデルの性能と安全性をさらに向上させた後に行われることが予想されますが、具体的な公開日は現時点では未定です。公式なアナウンスを待つ必要があります。
Stable Diffusion 3の論文の概要
Stable Diffusion 3は、最新のテキストから画像生成システム(例えば、DALL·E 3、Midjourney v6、Ideogram v1)を上回る性能を持つことが示されています。特に、タイポグラフィとプロンプトの遵守において優れた結果を示しています。
どうやら「文字を書く」点が強化されているようですね。公式サイトでも、バスや標識に描かれた文字がちゃんと読めるように描かれていることがわかります。これまでもStableDiffusionの精鋭画像では、文字が入っているところは謎文字だったりめちゃくちゃなスペルだったりしたことが多かったので、文字がかけるようになると画像の説得力が増しそうです。
関連 Stable Diffusion 3: Research Paper — Stability AI(論文)
Multimodal Diffusion Transformer (MMDiT) アーキテクチャ
画像と言語の表現に対して別々の重みを使用することで、テキストの理解とスペル能力が向上しています。
Rectified Flow (RF) フォーミュレーション
データとノイズがトレーニング中に線形の軌跡で接続されるため、推論パスが直線的になり、サンプリングステップが少なくて済みます。
新しい軌跡サンプリングスケジュールが導入されています。
プロンプトの遵守
Stable Diffusion 3は、異なる主題や品質に焦点を当てた画像を生成する能力があり、画像のスタイルに対しても非常に柔軟です。
タイポグラフィ生成
T5を使用することで、タイポグラフィ生成の性能が大幅に向上します。
結論
Stable Diffusion 3は、現行の最先端テキストから画像生成システムと比較して、全ての評価項目で同等以上の性能を示しています。論文は近日中にarXivで公開される予定です。