画像生成AIを自由にコントロールするプロンプトの組み方

画像生成AIさわってみて、Xとかの有名なプロンプトをコピーして使っているのに、なぜか自分が欲しい絵にならねぇなあ。みたいな経験をするとやっぱやんなくていいかなぁ、みたいになっちゃいますよね

もしかしたらその不満すぐ消せるかもです、原因は結構シンプルです。コピーしたプロンプトはその画像のためだけに作られたもので、ポーズを変えたいとかアングルを変えたいとか、そういう改変には対応していない。呪文を唱えているだけで、中身を理解していないから応用が効かないんですね。

そんな事わかってるけど、じゃ、どうしたらええねん、という人のためにめちゃ簡単に画像をコントロールするプロンプトの書き方を。

まずベースを作る
まず日本語で書いてみる
写実かアニメか、も一行で切り替える
英語にするとさらに精度が上がる
背景の描写は「見えているもの」だけ書く
有名プロンプトのコピーでは応用が効かない理由
今日からできること

まずベースを作る

いきなり長いプロンプトを書こうとすると詰まります。最初にやることは、項目を分けて空欄を用意してみてください。

Person:
Outfit:
Location:

Angle:
Pose:
Additional:

これだけでいい。被写体・衣装・場所・カメラアングル・ポーズ・追加情報の6項目に分けて考える。頭の中で整理してから書くより、この枠に当てはめていくほうが圧倒的に早い。

まず日本語で書いてみる

最近のサービスは日本語でもたいてい動きます。

Person: 日本人、三つ編み、キュート
Outfit: 白キャミソール
Location: 少し散らかった部屋

Angle: 斜め上から
Pose: 座っている
Additional: 少しいじけたような表情

これを入れると、ちゃんとそれらしい画像が出てくる。ここから「Outfitを黒いニットに変えたい」「Poseを立っているに変えたい」となったとき、変える場所が明確だから迷わない。コピーした1行書きプロンプトから該当箇所を探す必要がなくなります。

項目ごとに独立しているので、1か所変えても他に影響しない。これがベース方式の強みっす。

写実かアニメか、も一行で切り替える

この方式なら同じプロンプトで画風も変えられます。Additionalの欄に一行足すだけ。

Additional: 少しいじけたような表情、リアルな写真

「リアルな写真」「アニメ風」「水彩イラスト」「油絵」など、表現スタイルを一言入れるだけで出力がガラッと変わる。プロンプトを全部作り直す必要はない。ベースはそのまま、この一行だけ差し替える。

英語にするとさらに精度が上がる

ここは使うサービスにもよるけど、英語のほうが正確に描画されることが多い。という伝説を聞いたことがあります、日本語でやってみて、う～ん、ってなったら英語に直してやってみるといい感じになるかも。

Person: Japanese girl, short cut, cute, Korean makeup, thick lips
Outfit: Loose-fitting loungewear, shorts
Location: Slightly messy room
Angle: At an extremely low angle
Pose: Gymnastics sitting
Additional: Happy expression, realistic photo

日本語版と英語版で同じ内容を入れて比較してみると、英語のほうが細部の描写が安定しやすい、、気がする。特にアングルやポーズの指示は英語のほうが反映されやすい印象がありますね。

Googleの翻訳を常に出しておくといいかも。

背景の描写は「見えているもの」だけ書く

この方式のやりやすさがここにあります。

たとえば「ピクニックでレジャーシートに仰向けに寝ている女性」を生成したいとする。「晴れた日」「公園」と書くと、AIは空や木や遠景を描こうとする。仰向けの人物から見えるはずのない風景が画面に入り込んで、構図がおかしくなったり仰向けになってなかったりします。

このとき意識するのは「カメラに映っているものだけ書く」ということ。

❌ 公園、晴れた日、青空、木々 ✅ レジャーシート、地面、温かくまぶしい日差しが差し込んでいる

後者のほうが、仰向けの人物に寄った構図で、ちゃんと「ピクニックの昼間」という雰囲気が出る。空を書かなくても、日差しの描写があれば晴れた日だとAIは理解します。

見えていないものを書かない。見えているものだけを書く。

有名プロンプトのコピーでは応用が効かない理由

有名なプロンプトはその1枚のためにチューニングされてます。スタイル・雰囲気・色調・各エフェクトまで全部込みで一本の文章になっていることが多くて、どこを変えると何が変わるかが見えない。

ポーズだけ変えたい、アングルだけ変えたいと思っても、どこを触ればいいかわからないまま手探りになる。下手に変えると手の動作が３つ記述されて3本手が生えてきたりします。

結果として「なんとなく似たような画像しか出せない」状態が続く。

ベース方式で自分のプロンプトを持っていれば、変えたい部分だけ差し替えればいい。構造がシンプルなぶん、何を変えたら何が変わったかもわかりやすい。環境が整備されていると試行錯誤のスピードが上がります。

今日からできること

まず空のベース枠を1つ作って、メモに保存しておく。次に画像を生成するとき、いきなり文章で書かずにこの枠に当てはめてみる。好きな写真とかを見て項目に当てはめて書いてみてください。

慣れてきたら日本語を英語に変えて、Additionalに画風を足してみる。そのうち「ここを変えたらこうなる」という感覚がついてくる。これが最初にやってみると応用が効くプロンプト方式です。

そのうちにだんだん独自のやり方が見えてくるはずです。「Additional：」が増えてきたらカテゴリを増やしていくのもありですね。「face：」とか「expression：」を作って顔の特徴や表情を細かくコントロールしたりすると更に雰囲気が出ます。

文字打てば美女が爆誕する時代です、やらなきゃ損！

生成した画像は思った以上に溜まるので、外付けSSDを一台用意しておくといいです。画像は軽いからと安心してると一瞬で1０ギガくらい飛んでたりします。モニターも4Kがあると細部の確認が段違い！

https://amzn.to/4cZxQBt

https://amzn.to/40OGD1K

読んでいただいてありがとうございます！

画像生成AIでなんか思い通りの絵が出ない人、これから始めてみたい人