TL;DR — ComfyUI 動画生成の主流は、1 枚絵を動かす image-to-video。ローカルは Wan 2.2 で 12〜24GB の VRAM が要るが、クラウドなら環境構築ゼロで Wan・Kling・Seedance を使い分けられる。
「ComfyUI で動画も作れるらしい」と聞いて試したものの、VRAM 不足やビルドの沼で止まってしまった——そんな人は少なくない。この記事では ComfyUI 動画生成の全体像を、必要な機材・モデル選び・コストまで初心者向けに整理する。
ComfyUI 動画生成には何が必要?
ComfyUI 動画生成の主役は「1 枚の静止画を動かす」image-to-video だ。アニメの立ち絵や生成したイラストをアップロードし、動きを指定すると数秒の動画になる。
必要なものは 3 つに整理できる。
- モデル — Wan 2.2 (オープン重み)、Kling、Seedance などの動画生成モデル
- ワークフロー — ComfyUI 公式が Wan 2.2 のネイティブワークフローを配布している
- GPU の VRAM — ここが最大の関門
ComfyUI 公式の Wan 2.2 チュートリアルによると、軽量な 5B モデルは FP8 で約 8〜12GB に収まる。一方で品質の高い 14B モデルを FP16 でフル稼働させると、text encoder 込みで 54〜65GB にも達する。
ローカルで動かすときの現実
GGUF 量子化と T5-XXL テキストエンコーダの CPU オフロードを組み合わせれば、14B でも GPU 側は 6〜8GB まで下げられ、RTX 4070 (12GB) でも 480p なら回せる。ただし system RAM は 24〜32GB が前提で、1 本の生成に 10〜15 分かかることも珍しくない。「とりあえず試したい」段階で組むには重い構成だ。
Wan・Kling・Seedance の違いは?モデルの選び方
ComfyUI 動画生成で使う主要モデルは、性格がはっきり分かれる。2026 年は「ネイティブ音声」「参照入力でのキャラ一貫性」が標準化し、用途ごとの最適モデルが変わった。
| モデル | 開発元 | 得意なこと | 重み |
|---|---|---|---|
| Wan 2.2 | Alibaba | 静止画に近い小さな動き、image-to-video | オープン (ローカル可) |
| Kling v3 / v2.5 | Kuaishou | 大きな動き・シネマ表現、絵コンテ対応 | API (クラウド) |
| Seedance 2.0 | ByteDance | 品質とコストのバランス、最初の 1 本 | API (クラウド) |
選び方の目安はシンプルだ。
- イラストをふわっと動かしたい → Wan 2.2 の image-to-video
- 爆発・走るなど大きな動き → Kling
- 迷ったら、コスパ重視 → Seedance
Kling 3.0 は 2026 年 4 月時点で全動画モデル中トップクラスの ELO スコアを記録し、シネマティックな表現に強い。一方 Wan はオープン重みなので、後述のとおりローカルでも動かせるのが利点だ。逆に Kling・Seedance は API 提供のクローズドモデルで、自宅 PC に重みを落として動かすことはできない。
ローカルとクラウド、どちらで動かすべき?
ComfyUI を触って動画生成で挫折する人の多くは、モデルの使い方ではなく VRAM 不足とビルドの沼 でつまずく。ここが分岐点になる。
- ローカル向き — 高性能 GPU を持ち、ノードを自分で組みたい人。オフライン・プライバシー要件が厳しい人
- クラウド向き — VRAM が足りない、環境構築に時間を割きたくない、Wan 以外 (Kling / Seedance) も試したい人
クラウドの大きな利点は、オープン重みでない Kling や Seedance も同じ画面で使い分けられること。ローカルでは Wan のようなオープンモデルしか動かせないので、表現の幅が頭打ちになりやすい。画像生成ツールの選び方で迷っている人は、ComfyUI と Automatic1111 の違いも合わせて読むと、ローカル/クラウドの考え方が整理できる。
ComfyStudio で ComfyUI 動画生成を試す手順
ComfyStudio は ComfyUI のワークフローをクラウドで実行する日本発の AI イラスト生成 SaaS だ。手元の GPU を問わず、ブラウザだけで ComfyUI 動画生成ができる。料金は 1 クレジット = 1 円の従量課金で、生成前に 1 本あたりのコストが見えるのが特徴だ。
- 画像を用意する — 動かしたいイラストや写真を 1 枚アップロード
- モデルを選ぶ — image-to-video なら Wan 2.2、大きなアクションなら Kling
- 動きを指定して生成 — プロンプトで動きを書いて実行。数十秒〜数分で完成
料金は用途別に明朗だ。
| 用途 | モデル | 秒数 | コスト |
|---|---|---|---|
| 動画プレビュー | LTX-Video 2B | 35 | ¥88 |
| image-to-video 化 | Wan 2.2 | 55 | ¥138 |
| 標準動画 | Seedance 1.5 Pro | 75 | ¥188 |
| シネマ動画 | Kling v2.5 Turbo | 90 | ¥225 |
| ハイエンド動画 | Seedance 2.0 Pro | 180 | ¥450 |
自分の描いた 1 枚絵が ¥138 で動き出す体験は、ローカルで GPU と格闘していた頃には考えられなかった手軽さだ。まずは Wan 2.2 の image-to-video や Kling のアクション動画 のプリセットから、会員登録なしのお試しで始められる。ほかのモデルやコストは 料金ページとワークフロー一覧で確認してほしい。
よくある質問
Q. ComfyUI 動画生成にはどのくらいの VRAM が必要ですか? A. Wan 2.2 の 5B は FP8 で約 8〜12GB、14B を FP16 で回すと 54〜65GB 必要です。GGUF 量子化と T5 の CPU オフロードを使えば 12GB の GPU でも 480p なら動きますが、system RAM は 32GB を推奨します。VRAM に不安があるならクラウド実行が無難です。
Q. 画像を動画にする image-to-video では何ができますか? A. アップロードした 1 枚のイラストや写真を、プロンプトで指定した動きに沿ってアニメーションさせる機能です。Wan 2.2 は静止画に近い穏やかな動き、Kling は走る・爆発するような大きな動きが得意で、SNS リールや VTuber の待機画面づくりに向きます。
Q. ComfyUI を入れなくても動画生成はできますか? A. はい。ComfyStudio のようなクラウド型 SaaS なら、ComfyUI のインストールや GPU の用意なしに、ブラウザだけで ComfyUI 動画生成のワークフローを実行できます。オープン重みの Wan に加え、API 提供の Kling・Seedance も同じ画面で使い分けられるのが利点です。
Q. 動画生成は 1 本いくらかかりますか? A. ComfyStudio は 1 クレジット = 1 円で、Wan 2.2 の image-to-video が ¥138、シネマ品質の Kling が ¥225 など、生成前に 1 本あたりのコストが表示されます。使った分だけの従量課金なので、月額固定のサービスより少額から試せます。
よくある質問
- Q. ComfyUI 動画生成にはどのくらいの VRAM が必要ですか?
- A. Wan 2.2 の 5B は FP8 で約 8〜12GB、14B を FP16 で回すと 54〜65GB 必要です。GGUF 量子化と T5 の CPU オフロードを使えば 12GB の GPU でも 480p なら動きますが、system RAM は 32GB を推奨します。VRAM に不安があるならクラウド実行が無難です。
- Q. 画像を動画にする image-to-video では何ができますか?
- A. アップロードした 1 枚のイラストや写真を、プロンプトで指定した動きに沿ってアニメーションさせる機能です。Wan 2.2 は静止画に近い穏やかな動き、Kling は走る・爆発するような大きな動きが得意で、SNS リールや VTuber の待機画面づくりに向きます。
- Q. ComfyUI を入れなくても動画生成はできますか?
- A. はい。ComfyStudio のようなクラウド型 SaaS なら、ComfyUI のインストールや GPU の用意なしに、ブラウザだけで ComfyUI 動画生成のワークフローを実行できます。オープン重みの Wan に加え、API 提供の Kling・Seedance も同じ画面で使い分けられるのが利点です。
- Q. 動画生成は 1 本いくらかかりますか?
- A. ComfyStudio は 1 クレジット = 1 円で、Wan 2.2 の image-to-video が ¥138、シネマ品質の Kling が ¥225 など、生成前に 1 本あたりのコストが表示されます。使った分だけの従量課金なので、月額固定のサービスより少額から試せます。