ChatGPTのDALL・E3で遊びました - CCCMKホールディングス TECH LABの Tech Blog

こんにちは、CCCMKホールディングスTECH LABの井上です。

ChatGPTでDALL・E3とGPT4Vが使えるようになりました。
ChatGPTの中から画像生成できるというお手軽さもあり早速試してみました。

お遊びで適当に文言入れて生成するといい感じのものができあがりました。

プロンプト：「黒いフレンチブルドッグがピンクのオープンカーに乗って海岸沿いを運転している。助手席には白いフレンチブルドッグが座っている。後部座席には子犬のバイドのフレンチブルドッグが座っている。すごいいい天気で海が見える。海ではフレンチブルドッグがサーフィンに乗っている。」

この画像の生成に使われたプロンプトは以下のようになっていました。
Cartoon of a sunny day on the coast, with a pink open car cruising. The driver is a confident black French Bulldog and the co-driver is a white French Bulldog. Behind them, in the car, are curious French Bulldog puppies. On the sparkling sea, a French Bulldog is having the time of its life surfing.
年賀状やTシャツに使えそうです。

では、狙い撃ちした画像が作れるのか？ということに挑戦してみました。
今回は巷で言われている呪文のコツのような小難しいことや呪文作るプラグインなどを考慮せず一般人が普通に使いそうな方法で行いました。

昔のauのCMのワンシーンの画像です。こちらを目標画像とします。

（引用元：懐かしっ！「三太郎」お供の犬・サル・キジ声優は、一世風靡したアノ芸人｜シネマトゥデイ）

これをプロンプトで生成できるのか試してみます。

とっかかりとして、まずGPT4Vに目標画像を生成するためのプロンプトを作ってもらいます。すると下記のような文章が出てきました。
「和風の庭園を背景に、木製のベランダに座る柴犬、孔雀、および日本の猿。太陽が優しく差し込む朝の風景」

そのままこの文言をプロンプトにしてDALL・E3で画像を生成させます。

確かにプロンプトに近いイメージですが目標画像とはだいぶ異なります。
プロンプトを改良して目標画像に近づけられるか試しました。その結果のプロンプトと画像です。

プロンプト：「古民家の縁側に、庭を背にして茶色の柴犬が座っている。その右隣にはキジがいる。さらにその右隣には顔が赤く胸からお腹にかけて白いニホンザルが座っている。犬とニホンザルの高さはほぼ同じだがわずかに犬の方が高い。庭の左側に灯篭が１つ見える。灯篭の横には竹がまばらに生えている。外は曇っていてうっすらと明るい。」

30回程プロンプトを変更して試行したのですが目標画像には程遠かったです。残念ながらGPT4Vが出したプロンプトの方がよいですね。
プロンプトを詳しくすればいいというものでもなさそうです。ハルシネーション的なものもChatGPTを遥かに超えてきます。

（サルはどこ行った！？犬と鳥がどうして増殖した！？）

ここでは掲載しませんが、出力された画像に対して修正点を指示していく方法も試みたのですが一向に目標画像に近づく気配がないので諦めました。

今回やってみて以下のようなことを実感しました。
・DALL・E3はおおまかなイメージ作成やラフ案作成には使える
・細かくレイアウトやデザインが決まったものを再現するのは難しい
・そもそも、言葉で画像の詳細を説明するのが難しい。日本語力、語彙力も必要
・正確で詳しいプロンプトが必ずしもいいプロンプトではない
・業務で使うにはやはり呪文のコツの習得はした方がよさそう

そして折角なので他の画像生成AIでも試してみました。使用したプロンプトはGPT4Vが出したものです。

・BingのImage Creator

・Adobe Firefly

BingはDALL・E3を使ってるためかテイストが似てる感じがします。