Index
前回の記事では、Nanobananaを軸にした画像生成工程を整理しました。
今回はその続きとして、完成した画像をどう動画へと変換していったのか、その全工程を記録します。
結論から言うと、
動画生成は作業全体の約7割を占める最難関工程でした。
画像生成が「試行回数の勝負」だとすれば、
動画生成はツール選定・順序・割り切り判断を誤ると一気に泥沼化します。
今回は、用途ごとにAIツールをどう使い分けたのかそして、なぜそれが必要だったのかを整理します。


画像ができても、まだスタート地点です
画像生成と動画生成は、まったく別の思考が必要だった
画像生成では、Nanobanana Proを中心に主要用途の大半をカバーできました。
現在では、日本語テキストの画面内生成まで可能になり、
業務用画像AIの選定に迷う場面はほぼありません。
しかし動画生成は、事情がまったく異なります。
画像生成での「ガチャ」が試行回数の問題だったのに対し、動画生成では
- ツールの特性を理解した選択
- プロンプトの順序や構成の最適化
- シーンの難易度に応じた戦略立て
これらすべてが複雑に絡み合います。
無策で進めると、
時間・クレジット・精神力のすべてが削られていきます。
動画生成工程を分解して考える
実際の制作で最も重要だったのは、各ツールの特性を理解し、シーンに応じて使い分けることでした。

- 設定を語るアバン
- 激しい殺陣シーン
- セリフ中心の会話カット
はじめの段階で
「どのAIに任せるか」を決めておかないと、後工程で苦労します。
使用した動画生成AIと役割分担
Hailuo
使用頻度:最も高い
最大の特徴は、
開始(in)と終了(out)を指定できる点です。
- 構え → 斬撃
- 視線固定 → ダッシュ
静止 → 爆発的な動き


▲上の2枚から中間を生成
Klingでは、スローのような等速移動で“ぬるっと”つながる場面も、
Hailuoではアクションとして成立しました。
特に殺陣・構え・切り替えのある動きでは、最も制御しやすいAIでした。

Kling
コスト感と安定して動作を出力することに優れているので、迷ったら使用するツールとして使いました。
Sora2
数少ないマルチカット生成可能なAIです。
in/outの指定だけでは再現しづらい、冒頭のインフォグラフィック的なシーンでも、納得のいく動きを作ってくれます。

リファレンス再現にはバラつきがあるものの、ネタ出し・コンテ用途としては随一です。
Hedra
音声は別で作成するため、
口パク専用ツールとして使用しました。
- 画像+音声ファイルを渡すだけ
- 破綻が少ない
- 1分まで安定生成
会話カットでは非常に重宝しました。

ElevenLabs
音声生成に使用。
- 英語演技は非常に自然
- 日本語や叫び表現はまだ課題あり
今回は英語主体だったため、十分に実用レベルでした。
動画生成のコストと現実
気になるコストですが、
1回の動画生成で約200円以上のクレジットを消費します。
しかも、
- 1カットにつき10〜15回生成
- 難易度が高いシーンほど試行回数増加
結果として、生成期間は約1か月に及びました。
動画生成のコストは想像以上に高額です。
まとめ|動画生成は「AI選定」と「割り切り」の技術
今回の制作で強く感じたのは、
動画生成はツールの性能差以上に、使い分けがすべてだということです。
次回はいよいよ、
コンテスト結果と、完成後に見えた課題をまとめます。
AI映画制作の「現実的な着地点」を、正直に記録する予定です。

コンテストの結果はいかに!?