moon

COLUMN

カテゴリ:

生成AIでウェス・アンダーソンの世界観を再現 vol.2

こんにちは、ムーングラフィカのスタッフNagaokaです!
前回のコラムでは、「Lucy in the Sky with Diamonds」をテーマに、MidJourneyを使った生成AI制作の第一歩をご紹介しました。今回は、曲の世界観を再現する上で直面した課題や、動画化を見据えた制作プロセスについて掘り下げていきます。

歌詞の再現とスタイルのバランス調整

楽曲の歌詞を視覚化するにあたり、最も苦労したのは歌詞の再現度と実写画像のバランスを取ることでした。
例えば、以下のような描写が登場します。

  • A girl with kaleidoscope eyes 万華鏡の目を持った女の子
  • With tangerine trees and marmalade skies マンダリンオレンジの木々とマーマレードの空

これらは現実には存在しない幻想的な風景であるため、プロンプトに忠実に入力すると、どうしてもアニメーション風の画像が生成されてしまいます。

MidJourneyで生成したウェス・アンダーソン風の画像

Wes Anderson style,film still,A beautiful girl sitting in a boat, with orange fruit trees, sides of the river, yellow flowers, and a rainbow-colored sky, star, colorful fantasy realism, fantastic

そこで、実写スタイルと歌詞の再現度のバランスを調整するプロンプトを試行錯誤しました。結果、幻想的ながらもウェス・アンダーソン風の実写的なスタイルに近づけることができました。

MidJourneyで生成したウェス・アンダーソン風の画像
Wes Anderson style,film still, Lucy super cute 18 Japanese girl with black long hair and Sparkling Eyes, Wearing a white dress, flowers of yellow and green,With tangerine trees and marmalade skies,in a boat on a river

動画を意識した画像生成

MidJourneyで生成した画像を5秒間の動画にすることを見据え、次の工夫を行いました。

合成による調整

うまく生成できなかったシーンでは、Photoshopで風景画像とキャラクターを合成し、動画に適したビジュアルを作成することもありました。以下は合成を活用した例です。
MidJourneyで生成したウェス・アンダーソン風の画像

MidJourneyで生成したウェス・アンダーソン風の画像

さらに、合成後の画像をRunway GEN3で動画化しました。

 

広角指定とハルシネーションの課題

動画生成において、カメラワークに[Wide angle:広角]を指定すると、以下のような問題が発生することがあります。

  • 人物の不自然な生成:人物の手や足が不自然に伸びたり形状が崩れたりする。
  • 風景の不整合:元の画像のスタイルに合わない要素が、生成された背景に含まれる。

これらを防ぐために、MidJourneyで画像を生成する段階から広角に対応する工夫を行いました。MidJourneyでは、[zoom]という機能があり、生成した画像を1.5倍や2倍の広角比に拡大できます。これを活用することで、動画化を見据えた調整を実施しました。

Wes Anderson style, movie still, sky and diamonds in the background, Lucy is a super cute 18 year old Japanese girl with long black hair, white dress, Eating a moon pie

MidJourneyで生成したウェス・アンダーソン風の画像

nomal

MidJourneyで生成したウェス・アンダーソン風の画像。広角バージョン

zoom

活用したMidJourneyの便利機能

今回、イメージ通りの画像を生成するために活用したMidJourneyの便利な機能やコマンドをご紹介します。これらのツールを駆使することで、より理想的な画像制作が可能になりました。

/describe:画像からプロンプトを生成する

MidJourneyでは、Discord上で参考画像を基にプロンプトを生成してくれる「/describe」というコマンドがあります。
例えば、レトロでカラフルな遊園地や電話ボックスを生成しようとした際、単純にキーワードを入力するだけではなかなか思い通りの画像が作れませんでした。そんなときは以下の手順でプロンプトを調整しました。

  1. 画像検索で参考になるビジュアルを探す。
  2. /describeコマンドでプロンプトを生成。
  3. 出力されたプロンプトを自分で調整し、オリジナル画像を生成。

この機能により、具体性の高いプロンプトが作成でき、生成精度が大幅に向上しました。

--cw /--sw:引用度を調整するパラメーター

MidJourneyでは、Style ReferenceやCharacter Referenceとして設定した画像の引用度を細かく調整することで、より統一感のある画像を生成できます。以下のパラメーターが役立ちました。

  • --cw:0〜100の範囲で引用度を指定可能。数値を高くすると、人物の生成結果がAIらしさを感じるスタイルになることが多いため、実写風の画像では低めに設定。
  • --sw:0〜1000の範囲で指定可能。他のパラメーター(--stylize、--weird)と組み合わせることで、多様なバリエーションを生成可能。

引用度を適切に調整することで、キャラクターや背景などの細部を統一させ、全体のクオリティを高めました。

/shorten:プロンプトの影響度を分析・要約

プロンプトに入力したキーワードが思い通りに反映されないときに、「/shorten」コマンドを活用しました。
たとえば、「White Dress」というキーワードを指定しているにもかかわらず、生成画像で黄色のドレスになってしまう問題が発生した際、このコマンドが役立ちました。

  • [Show Details]で各キーワードの強度を表示。
  • 反映されていない要素の原因を特定。
  • 強度と照らし合わせて要不要のキーワードを調整

この分析をもとにプロンプトを調整することで、画像の精度を向上させることができました。

次回予告

次回は、生成した画像や動画を編集し、いよいよMVの完成版をご紹介します。また、制作プロセスを通じて学んだ生成AIの可能性と課題についても深掘りしていきます。お楽しみに!