AIのお絵描きは「砂嵐テレビ」から始まる
AIに絵を描いてもらうプロセス(現在主流となっている拡散モデルという手法)は、古いテレビの「砂嵐(ザーッという画面)」から絵を見つけ出す作業に似ています。
- ステップ1: 材料は「砂嵐」の画面
まず、AIは真っ白なキャンバスではなく、意味のないゴチャゴチャした砂嵐の模様を用意します。これが全ての絵の元になります。 - ステップ2: あなたが「お題」をささやく
次に、あなたはAIに「こんな絵が見たいな」というお題(プロンプト)を言葉で伝えます。例えば、「宇宙を泳ぐクジラ」とお願いしたとしましょう。 - ステップ3: 模様の中から「お題」を探し出す
ここからがAIのすごいところです。
AIは「宇宙を泳ぐクジラ」というお題を元に、目の前の砂嵐の模様の画面を眺めます。そして、「もしこの砂嵐が『宇宙を泳ぐクジラ』の絵だとしたら、ほんの少しだけ見えるクジラの形はどこだろう?宇宙のキラキラはどこだろう?」と考えます。
AIは、砂嵐の中から「これはクジラの背中に見えるかも」「これは星に見えるかも」という部分をほんの少しだけハッキリさせ、関係ない部分をほんの少しだけボカします。この「ちょっとだけハッキリさせて、ちょっとだけボカす」という作業を、ものすごいスピードで何百回も繰り返します。
すると、最初はただの砂嵐だった画面から、徐々にクジラの大きなシルエットや、キラキラ光る星々が魔法のように浮かび上がってくるのです。そういった意味では画像修復の進化版とも言えるかもしれません。
サンプル作品
Midjourneyという画像生成システムで作ったのが以下の作品です。
なぜAIはお題の絵を知っているの?
AIは、事前にインターネットにある無数の画像と、その説明文をセットで見て「勉強」しています。
- 「クジラ」という言葉と、どんな形がセットになっているか。
- 「宇宙」という言葉と、どんな色がセットになっているか。
まるで、たくさんの絵本を読み聞かせてもらった子供のように、言葉と絵のイメージがしっかりと頭の中に入っているのです。だから、砂嵐の中からお題にピッタリの形や色を見つけ出すことができるんですね。
補足情報
初期段階におけるノイズの模様は、その生成画像に大きな影響を与えます。
同じお題(プロンプト)で画像を生成しても、ノイズの模様が違えば、全く異なる構図や雰囲気の画像が出来上がります。
「シード値(Seed)」という考え方
この最初のノイズの模様を決めているのが「シード値(Seed)」と呼ばれる数字です。
AIは、このシード値という数字を元にして、最初の砂嵐のようなノイズパターンを作り出します。
- 同じシード値を使えば、全く同じノイズが作られる。
- 違うシード値を使えば、全く違うノイズが作られる。
なぜノイズの模様が重要なのか?
AIは、ノイズの中からお題に合う絵の「種」のようなものを見つけ出して、それを少しずつ育てていくように画像を生成します。最初のノイズの模様が違うということは、絵の「種」が見つかる場所や形が全く違うということです。
例えば、「猫」というお題で画像を生成する場合を考えてみましょう。
- あるノイズ(シード値A)では、AIは画面の右側に猫の顔になりそうな模様を見つけるかもしれません。その結果、右側に顔のアップがある猫の絵ができます。
- 別のノイズ(シード値B)では、画面の中央に猫が丸まっているような模様を見つけるかもしれません。その結果、中央で香箱座りをしている猫の絵が出来上がります。
詳細情報
デジタルキャンバスから知能的創造主へ:AIが画像を生成する仕組み、完全ガイド







