
Chat GPTというAIサービスを聞くことが急激に増えていた昨今。
数年前までは一部の人しか扱うことができなかったAIが今では当たり前のように一般の人でも使えるようになったことは少し驚きです。
それだけ技術革新のスピードが早いということも言えるかもしれませんが、弊サイトでもAIに関する考察やフェティッシュコンテンツの未来について考察を重ねてまいりました。
特に誰でも画像が生成できるようになったということで、AIに水着姿のイラストを生成して紹介したこともあります。
今回はよりフェティッシュな視点で見たAIによる画像生成について、生成の方法や覚えておきたいこと、コツなどについて解説いたします。
なお解説にあたって使用するAI画像生成サービスはこちらです。
AIで画像を生成する前に覚えておきたいこと
画像生成AIのサービスは爆発的に増えており、さまざまなサービスが存在するためすべて当てはまるというわけではありませんが、弊サイトでもいろいろ試してみてわかったことがあります。
ポイント1:Promptと呼ばれるものを組み合わせて画像を生成する
概ね画像生成AIに画像を描かせるには「Prompt(プロンプト)」と呼ばれる魔法のコトバを組み合わせて生成します。
「魔法のコトバ」と言ってもなにかのプログラミング言語でもなければ、難解な呪文のようなものではありません。
ごく一般的な言葉をPromptと呼びます。
例えば「水着」「女の子」といった名詞や「水着姿の女の子」もプロンプトになります。
あとはこのプロンプトを英語に訳せば問題ありません。
上記の例で言えば「swimsuit」「Woman(Female)」「Swimsuit woman」といった感じです。
一部の画像生成AIは日本語に対応している場合もありますが、海外のサービスである場合は英語のほうが無難と言えます。
もちろん英語に訳すのはWeb翻訳サービスを使って構いません。
おすすめはDeepL翻訳です。
ポイント2:なるべくきれいな画像を生成するには一定のプロンプトが必要
もちろん誰もが思うことかもしれませんが、AIに生成してもらう画像は一定のクオリティだったり要素が入っていなくては満足しないでしょう。
その点で言えば例えば女性水着のグラビア画像を生成したいとなった場合「female,swimsuit」とプロンプトを入れますが、それだけではうまくいきません。
試しに「female,swimsuit」とプロンプトを入力して生成したものですが、結果はこういったものでした。

今回の場合、AIはおそらくこれまで学習したデータから最適解を導き出していることは間違いありませんが、これが私達の望む結果だとは言えないでしょう。
ポイントになるのは「どういった要素が入っているか」です。
- 主体として描き出したいもの(水着、女性など)
- 主体に対して補助的な要素(赤い、青いといった形容詞。日本人の女性、ポーズの指定など)
- どのような場面か(プール、町中など)
- 全体的な画風、クオリティ指定
ここで様々なものを入れてみます。

するとこのような画像が生成されました。
しかしここに描き出されているのは、人の形をしているかもしれませんが、明らかに化け物です。
これはどういったことなのでしょうか。
実はAIは学習を重ねて画像を生成しますが「とんでもなく絵はうまいけど、常識も何も知らない想像力が超豊かな人」と考えればいいかもしれません。
つまり私達が想像もしなかったようなことを表現してしまう、という点です。
ポイント3:プロンプトは短めに設定するほうがコントロールしやすい

先述の通りプロンプトは単語や短い文章で設定したほうがコントロールしやすい傾向になります。
文章で短いプロンプトを作る際はできれば要素を3つくらいまでに絞ったほうがいいかもしれません。
例えば「青いラテックス(blue latex)」「28歳の日本人女性(28 year old Japanese female)」といった感じです。
画像生成AIは入力したプロンプトを理解しようとしますが、場合によっては無視されることもあり、長い文章だとどのような要素が無視されたかわかりにくくなります。
ポイント4:プロンプトに何を取り入れて、何を捨てるか

Playgroundでは画像生成する際に生成したい画像のプロンプトを入力できる他に「なにを表現してほしくないか」を入力できる項目があります。
これは設定でONにすることで利用が可能となりますが、ここに生成したくない表現を入力することでコントロールことができます。
例えば「多頭」や「多脚」といったものを入力することで先程のような画像を生成する確率は減ります(完璧に対応してくれるわけではありません)
そのようなプロンプトをネガティブプロンプトとして設定した画像がこちらになります。
先程よりもかなり良くなったのではないでしょうか。
ポイント5:使用するモデルで調整する

Playgroundでは「Model」という設定項目にあるいくつかの選択肢を選ぶことで生成される画像の結果に違いが生まれます。
おそらく学習モデルのことだと思われますが、上からバージョンの古いもの順に並んでいます。
- Playground v1
- Stable Diffusion 1.5
- Stable Diffusion 2.1
- DELL-E 2(有料)
※2023年5月1日現在
この中でどれを選べばいいか、というのは実は決まった何かがあるわけではありません。
ただ使っていて感じるのはバージョンが新しいものを使えば必ずいいものができるというわけではなく、最古のバージョンでも満足の行くものができることがあります。
おそらく古いもののほうが安定版。新しいものになるとデバッグが必要なバージョンというような感じかもしれません。
ポイント6:プロンプトガイダンスと品質と詳細で調整する

Playgroundではもう一つ調整できる項目として、プロンプトガイダンスと品質の調整をスライドバーで動かせる項目があります。
これらの設定は基本的に無料で使えますが、数字を大きくしすぎたりすると無料では使えないこともあります。
値を高くすると、画像がプロンプトに近くなります(設定に関する英文説明の意訳)
つまりこの要素の数値を大きくすればAIに伝えたいプロンプトの要素を多く反映してくれます。
ただし闇雲に数字を大きくすればすべての要素を反映してくれるか、ということにはなりません。
プロンプトの内容や組み合わせによっては無視されるものもあります。
また傾向としては始めに書いたあたりのプロンプトを重要視する傾向にあるため、プロンプトを書き出す順番とプロンプトガイダンスを組み合わせて理想に近づけてください。
ステップ数を増やすと高画質になりますが、時間がかかります(設定に関する英文説明の意訳)
値を高くするとステップ数が増えるため、画質や描かれる画像が高精細になります。
こちらもプロンプトガイダンスと同様になりますが、数字を大きくしたからと言って美麗な画像が生成されるわけではありません。
プロンプトの内容、プロンプトガイダンスとの関係によって画像が生成されるため、単純に数字を上げただけだと画像がガビガビになってしまうこともあります。
手っ取り早く生成するなら他ユーザーのプロンプトを参考にしてみる

上記のポイントを抑えた上でさまざまな画像生成にチャレンジすることができますが、一番難しいのは基本となるプロンプトで何を設定するか、ということです。
いろいろ試してみても最初のうちは思ったような結果が得られないかもしれません。
そこでおすすめしたいのは他ユーザーのプロンプトを参考にするということです。
Playgroundでは他ユーザーが生成した画像をアーカイブで見ることができ、どういったプロンプト、ネガティブプロンプトが設定されているかを併せて確認することができます。
プロンプト単体でもアーカイブを見ることができるので、自分が生成したい主体となるプロンプトから気になる画像が見つかったら、他にどのような設定がされているかを確認し、参考に画像生成に取り組んだほうがいいでしょう。
AIによる画像生成はプロンプトが要
このように画像生成AIを使えば誰でも簡単に画像を生成することができる時代になりました。
しかし勘違いしてはいけないのが、誰でもきれいな画像を生成できるか、というわけではありません。
先述のように画像生成AIを人間に見立てるのだとしたら「とんでもなく絵はうまいけど、常識も何も知らない想像力が超豊かな人」という人に、どういった仕事をさせるのか、という視点が必要です。
何でもそうかもしれませんが、人間でも仕事をお願いするときにはしっかりとした仕事の進め方や何が必要かを伝えるものです。
こういった細やかな配慮がAIに仕事をさせる・・・今回で言えば画像を生成する基本的な姿勢かもしれません。
ChatGPTでも「今日の晩御飯の献立」とだけ聞いても「カレーライス、ハンバーグ、ラーメン」と返ってくるだけで、本当に食べたいものが出てくるわけではありません。
「今日は魚料理が食べたいけど、焼き魚がいいのでいくつかレパートリーを出してください」と指定することで、初めてAIは希望について考えてくれるものです。
つまるところ「なんでもいい」とすべての考えを他人に丸投げにする姿勢が良くないということですね。
そういった視点で画像生成AIを使いこなすためのプロンプト操作術は重要となってくるはずです。