【クリエイター必見】ミュージックビデオの作り方に革命!全編AI動画の解説!
こんにちは。
今回は、自作曲”fateful day”のミュージックビデオ(MV)がついに完成したので、その制作秘話をお届けします。曲に込めた想いや、映像づくりの裏話、ちょっとしたこだわりポイントまで、楽しんで読んでいただけたらと思います。
まずは、こちらをご覧ください。なんとこのMV、全編AI動画で作りました!なので、どこにもロケせず誰とも調整せず、自分だけで粛々と作成。そしてこのクオリティができるのが今のAI動画生成!その凄さをかみしめました。

もうこんな時代になったんです!革命!
とっかかりは、Mr.Childrenの「over」という曲を聴いた時に、いつかこういう曲を作りたいなとずっと思っていたことです。切ない別れの歌詞なのに、メロディはキャッチーで明るいアレンジ。そこのギャップが印象的で感激したのです。
“fateful day”は、仕事ばかりのデキル女性が、同僚の男性に惹かれていくものの、突然の男性との別れがやってくる。とても悲しいけれど乗り越えて、また明日から仕事するぞーという、どん底から前向きになっていくストーリーです。
普段の会社員生活の中でいろいろある。下向いたり、上向いたり、その繰り返し。最後は前向いていこうという思いを込めています。

MV作るにはキャリアウーマンどうしようって思ってました
曲のストーリーは明確だったので、MVの構想は最初からできていました。キャリアウーマンの仕事ぶりを映し出し、途中の男性とのやりとりから別れ、最後の前向きになっていくという物語です。
当初はロケや出演女性どうするか問題があり、MV制作は進められずにいました。しかし、昨今のAI動画の進歩によって、非常に高品質な画像や動画が作れるようになっていたのでチャレンジして取り組むことにしました。
登場は女性メインとして、男性は極力出さないようにしました。男性の顔はワンシーンだけです。あとは後姿です。これはAIでの出力の仕方をできるだけシンプルにするためという意味もありますが、なるべく女性に感情移入してもらえるような意図が大きいです。
メインは花火を見に行った場面です。このシーンでぐっと距離が縮まることを表現しなければならず、何度もAIで書き出したので苦労しました。その苦労もあって満足いく象徴的なシーンにできたと思います。

MV制作の流れは下記です。AI動画じゃない場合は、STEP3がロケ撮影になります。
※今回は曲の時点ですでに固まっていたのでスキップです
ストーリーをどういうシーンで割っていくかを決めます。今回は、歌詞をcopilotにいれて、シーン案を出してもらいました。それを修正した結果、12シーンとなりました。
画像生成はMidjourney、そこから得た画像を動画に変換するのをKling AIで行いました。それぞれ、商用利用のためには課金が必須なので、最低プランに加入しました。それぞれ10ドルくらいです。ここは思い切りが必要でした。目玉の技術はリップシンクです。歌詞に合わせて画像が口を動かしてくれます。
各AI動画を曲に合わせて自分の手でつなぎ合わせます。この工程が最も時間かかりました。タイムエフェクト、トランジション、レイアウター、カラーエフェクト、オーバーレイなどなど、細かいところまでこだわりぬいてます。
全体のバランスをみて各箇所に調整を入れていく工程です。
最も時間かかったのはSTEP4の編集です。ここはAIじゃないです!自らの編集スキルでつなぎ合わせる必要があります。ここの部分はまだまだ人力なんです。それでも6hくらいで収まりました。
自分が使用している編集ソフトはEDIUSです。安定性に優れサクサク使いやすいです。他記事で紹介していますのでご参考まで。

シーン割りは2h程度、AI動画の書き出し(12シーン)は2h程度で、2日で完成できました。
AI動画でない場合、ロケ地を探すところから始まって、俳優の日程調整を行い、ロケ当日も移動したりと大忙しです。これだけで最低でも1週間かかると見込みます。これがAIにより2日で作れたため時間効率が1/3にできています。
制作コストは、主に画像・動画生成のAI使用の課金の部分です。それでも合わせて2500円程度。人件費は自分1人。
一方、ロケ撮影は、だいたい4人くらいで撮影し往復1000円くらいの交通費、その他飲食代かかり3000円/人がいいところかと思いますので合計5.5万くらい(人件費1万円/人とした)。このようにざっとみても、通常のロケ撮影より1/5低コスト化できています。
クオリティですが、非常に高品質です。驚愕でした。ロケに行って自分たちでこのレベルは撮れる自信がありません。。
以上より、ロケ撮影と比べて、AI動画作成の費用対効果は圧倒的に勝ります。絶対に使うべきです。個人のクリエイターでもこのレベルができる時代になりました。使いこなせる人が勝つことになります。プロンプトエンジニアリングを学びましょう。

登場人物について
女性のキャリアウーマンが主人公、もちろん架空の人物です。Midjourneyにて「キャリアウーマン」と打ってでてきた4人のうちの一人であり、即決しました。Midjourneyでは事前に2枚の画像選択を100回行うパーソナライズがありました。ここで自分の思考が理解されたのかもしれません。うまくできていると感じました。
リップシンクのレベル
MV制作の中では登場人物が歌うシーンを作りたくなることもあるでしょう。今回の作品の中では幾つか取り入れたかったので、リップシンクの技術を試しました。
リップシンクというのは、予め用意した人物の動画を使って、音声やテキストに合わせて口を動かすという技術です。テキスト入力も試しましたが、イントネーションが日本語に合わないため断念しました。音声ファイルを読み込ませて吹替する方法をとりました。

これはスゴイ技術だね!
音声ファイルは、曲のヴォーカル部分だけを抜き出して読み込ませました。ちょうど4小節が10秒でしたので動画の書き出し10秒にバッチリ合いました。
読み上げソフトを使って音声ファイルを作るのも試しましたが、曲のテンポと合わせるのが難しかったのと、あまり大きな改善はありませんでした。
出来栄えとしては、シンクロ率が7割といったところでしょうか。完璧に合っているかというとそうではないですが、MVとしてみている分にはちょっとのズレも味があるように見えたので採用しました。ただ、出来が良ければ、最初の歌いだしと、ラストサビも続けて使いたかったのですが、結局ラストサビの4小節だけの採用にしました。
リップシンクはこれからまだまだ進化する予感です。MV作成の重要な技術です。
こだわりポイント
・シーン割りはGPTを使う!
・Midjourneyで高画質画像を使う!
・プロンプトもGPTを積極活用する!
・冒頭部分のタイトル浮き出し、まあまあ時間かかってる!
・回想シーンはモノクロにして、少しだけ動かしている!
STEP2のシーン割にはGPTを使いました。自分の場合はcopilot。歌詞を読み込ませて、「これに合うカット割りを考えて」というとフレーズごとにシーンを列挙してくれました。これはすごく便利で時短になるので絶対使うべきです。
画像には定評のあるMidjourneyを使いました。他の画像生成AIも試しましたが、一番画質がきれいで気に入ったので課金をしました。課金した理由は、商用利用するためです。最低課金で3hのエンジン稼働ができます。今回のMVでおよそ3h分の消費でちょうど使い切りました。
Midjourneyで生成する前に、一度copilotに「英語でプロンプト書いて」と打ち込んで画像を生成しました。これはアングルや色合いなどを事前に確認するためです。ここであまりにも違ったら修正をいれます。copilotは無料です。一方、Kling AIでは動画生成をしますが、ここではDeep thinkという機能がありおすすめのプロンプトを提案してくれます。なので、英語が良い感じであればそのまま動画生成をしました。copilotでは動画生成はできないので、Klingで一発勝負です。うまくいかなければ、プロンプトを修正して再度生成します。動画生成の方が納得する動画を得るのに時間かかりました。

冒頭部分のタイトルが出てくる前の白いワイプは、自分が編集ソフトでタイミング合わせています。ですので、ここの部分はAIではないです。普通にフェードで文字が浮かび上がるのでもよかったのですが、こだわりを見せてカッコよく見せたいと思ったため時間かけました。全シーンの中でも作業時間は多い箇所です。
途中の回想シーンではモノクロのエフェクトをいれています。ただそのまま静止画を挿入するだけだとノペーっとしてしまったので、レイアウターの機能で画像が移動するように編集しました。これも自力です。5%ほどストレッチして画像を移動させることでより印象的に仕上がりました。
苦労したところ
・プロンプトの書き方の問題。
・間奏部分の穴埋め問題。
・尺の問題。5秒の動画をいかに使いこなすか。
やはり、イメージする動画を得るのに、プロンプト入力が最も苦労しました。Klingでの動画生成の方が苦労しました。Klingでは課金してクレジットを得て、動画生成するたびに消費します。なので数多く無尽蔵にできるわけではありません。
全シーンの中で難しかった箇所が1つあります。男性とぶつかって書類を拾うシーンがあるのですが、あの部分では何度やっても女性の足がうまく描かれませんでした。ですので、自分の編集で足が映る前まででシーンカットして使っています。そして、男性の方を同じ登場人物で表現できなかったので、なるべく後ろ向きにして違和感ないように工夫しています。このあたりプロンプトの書き方がとても難しかったです。

自分のイメージ通りの動画を得るのにプロンプトの慣れが必要!
今回copilotにシーン割を作ってもらったため、歌詞がある部分はシーンが作れるのですが、間奏部分は当然ながら空白になります。つまり、間奏部分を埋める必要がありました。悩みに悩んだ結果、回想シーンとして、静止画を挿入することにして尺を埋めました。シーンの流れの中でいろいろなことを試したかったのですが、クレジットとの兼ね合いがありました。
動画生成のファイルは5秒を基本としました。10秒も可能ですが、クレジット消費との兼ね合いがあります。5秒動画で尺をいかに埋めるかということに苦労しました。そこで苦慮して、時間エフェクトで50%スローにして10秒にして使うこととしました。同時にスローにすると印象深く効果があります。なので男性と見つめ合うシーンなど印象深く見せたいところでは積極的にスローにしています。
ただ、全体をスローばかりにするとテンポが単一になるために、通常速度のところとスローのところとを混合してバランスしています。ここはコストとの兼ね合いで、お金をかけてシーンを増やせばいいという考えもあります。

お金と時間をどれだけかけるかは常に自問自答!

筆者が感じたAI動画作成の難点

世の中の進歩が速いのですぐに改善されそうですね!
AI動画をはじめて3日の超初心者の自分でも低コストで高クオリティなMVが作成できました。クリエイターにとって制作過程の革命が起きています。ミュージックビデオ制作は低コストで高品質が可能なAI動画を積極活用するのがおすすめです。
一方で、本当に全てがAIでできたというわけではありません。いまはまだ、つなぎ合わせは自力の編集スキルが必要です。今後はこの工程もAIに置き換わるかもしれませんが、まだ少し先でしょう。編集ソフトをさわって自らのスキルを高めるのは重要です。
また、そもそものMVの構想はクリエイターのイメージが重要です。GPTツールでブラッシュアップしていくのが最善でしょう。

課金は自己投資!割り切りが重要と実感しました!


※コメントは最大500文字、5回まで送信できます