bard(Gemini)の画像生成
Googleの対話型AI「Bard」(現在は「Gemini」に名称変更)では、2024年2月のアップデートで画像生成機能が追加されました。…が、現在、画像生成はできませんでした。(2024年4月)
- 「Imagen 2」モデルを搭載しており、写実的な画像生成が得意。現時点では英語のプロンプトのみ対応。
- 生成された画像には「SynthID」の電子透かしが埋め込まれ、AIによる生成画像だとわかるようになっている。
- 「Gemini Pro」モデルも搭載され、40以上の言語・230以上の国と地域で利用可能に。
- 画像とテキストを組み合わせた入力が可能で、創造性を高められる。Google Lensの機能も統合。
- 無料で利用でき、数秒で高品質の画像生成が可能。ChatGPTやMidjourney等の有料サービスと比べても遜色ない
以上のように、Googleの画像生成AIは無料で手軽に利用でき、高品質な出力が特徴です。ただし現時点では英語入力のみなど、まだ一部制限もあるようです。今後のアップデートにも注目が集まります。
Imagen 2の精度はどの程度?
Imagen 2の画像生成精度は非常に高く、従来の画像生成AIを上回るレベルだと評価されています。
現時点では、画像を生成させようとすると、「画像生成能力の向上のため努力しています…」というようなメッセージが出て、画像は出てきませんでした。
うーん…。前評判としては、以下のような感じになります。
高い写実性と詳細度
Imagen 2は、テキストプロンプトから非常に写実的で詳細な画像を生成できます。人間が手で描いたり撮影したりした画像と遜色ない品質を実現しています。
複雑なプロンプトへの対応力
Imagen 2は、複雑で具体的な指示を含むプロンプトでも、その内容を忠実に画像化できる高い言語理解能力を持っています。従来の画像生成AIでは難しかった表現も可能になりました。
DALL-E 2を上回る生成品質
DrawBenchというベンチマークで人間評価を行った結果、Imagen 2の生成画像の品質はDALL-E 2を上回るスコアが出ています。
SynthIDとは
SynthIDは、GoogleのAI研究部門DeepMindが開発した、AIで生成された画像に肉眼では見えない電子透かしを埋め込み、その透かしを検出して生成された画像かどうかを識別できるツールです。
主な特徴
- AIが生成した画像のピクセルに直接、人間の目では知覚できない電子透かしを埋め込む。
- 透かし用と識別用の2つのディープラーニングモデルを搭載している。
- 画像にフィルター追加、色変更、トリミング、圧縮などの編集を加えても、透かしは維持される。
- 従来の可視透かしと異なり、画質や作品の世界観を損なわない。
目的
- AIで生成された画像とそうでない画像を区別できるようにする。
- AIによる誤情報拡散を防止する。
- 責任あるAI開発・導入を推進する。
提供状況
- 現在はGoogleのVertex AI上の画像生成AI「Imagen」でのみベータ版が提供されている。
- 今後は他のGoogle製品やサードパーティー製品への搭載を目指す。
ただ、これはあまり広まらないんじゃないかなという気はします。画像を公開する側に、これを使うメリットがあまりないですからね…。
Googleとしては、Imagen2に絶対の自信があって、「リアルすぎてフェイクニュースに使われまくるだろうから、予防措置としてSynthIDを埋め込んでおこう」という意図があったんじゃないかと思います。