[動画生成AI] Wan2.2 インストール&ComfyUI設定マニュアル(RTX4070Ti)

はじめに

AI動画生成モデル Wan 2.2 は高画質・高負荷ですが、RTX 4070 Ti(VRAM 12GB)でも設定次第で動作可能との事でインストールしてみました。

以下は、wan2.2で作成したアニメーションサンプル。

サイバーパンク系

prompt:

A rainy night in a dense cyberpunk market, neon kanji signs flicker overhead. The camera starts shoulder-height behind a hooded courier, steadily tracking forward as he weaves through crowds of holographic umbrellas. Volumetric pink-blue backlight cuts through steam vents, puddles mirror the glow. Lens flare, shallow depth of field. Moody, Blade-Runner vibe.

1. 前提環境

推奨スペック

  • GPU: RTX 4070 Ti(VRAM 12GB)
  • RAM: 32GB(最低16GB)
  • OS: Windows 10 / 11(Linux可)
  • ストレージ: 50GB以上の空き容量(モデル・キャッシュ含む)

必要ソフト

  • CUDA対応 NVIDIAドライバ
  • Python 3.10.x
  • Git
  • ComfyUI(動画生成UI)

2. Wan 2.2 導入手順

2.1 EasyWan22 の利用(初心者向け)

  1. GitHubから EasyWan22 をダウンロード

  2. EasyWan22Installer.bat を作業フォルダに保存(例: C:\AI\EasyWan22\)


  1. 実行 → ComfyUI環境とモデルを自動セットアップ
  2. ComfyUi.bat で起動

※ Civitai API Key を求められた場合はCivitaiで取得
※ Microsoft Visual C++ 2015-2022 Redistributable のインストールあり


2.2 手動インストール(中級者向け)

# 任意の場所で ComfyUI をクローン
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 仮想環境作成&有効化(Windows PowerShell)
python -m venv venv
.\venv\Scripts\activate

# 依存関係インストール
pip install -r requirements.txt

# Wan 2.2 モデルダウンロード(例)
# モデルのパスは ComfyUI/models/checkpoints/
# VAEは models/vae/ に配置

必要なファイルをダウンロード

AI(ChatGPT5)の指示通りやってもうまくいかなかったので、以下の海外サイトを参考にさせてもらいました。

テキストエンコーダー「umt5_xxl_fp8_e4m3fn_scaled.safetensors」をダウンロード。

保存場所

 ComfyUI/models/text_encoders/

VAEをダウンロード。

  • wan_2.1_vae.safetensors
  • wan2.2_vae.safetensors

保存場所

ComfyUI/models/vae

ビデオモデルをダウンロード

  • wan2.2_ti2v_5B_fp16.safetensors

保存場所

ComfyUI/models/diffusion_models/

ワークフロー(JSON)をダウンロード

ComfyUIからワークフローを読み込みます

これで、サンプルを起動すると動画が作成できます。

補足:hf_xetとは?

hf_xetHugging Face Hub の高速ダウンロード用アダプター のようなもので、 内部的には XetHub(Git+差分同期型の大容量ファイル管理システム) を使ってモデルファイルを効率的に取得するためのモジュールです。

  • 通常の Hugging Face ダウンロード

    • HTTP/HTTPS でファイルを丸ごと取得
    • 数GBあるモデルファイルでも1回で全ダウンロード
    • 再開はできるけど、途中で切れると再取得になる場合あり
  • hf_xet 経由のダウンロード

    • XetHub プロトコルで部分的に取得
    • Git のように差分管理しているため、更新時は差分だけダウンロード
    • キャッシュの扱いが効率的(複数環境間でも同期しやすい)
    • 大容量ファイルのダウンロードが安定・高速化しやすい

EasyWan22 での表示について

  • hf_xet が無い場合は**「Falling back to regular HTTP download」**と出て、普通のHTTP経由に切り替えます
  • これはエラーではなく、速度最適化の機能が使えないだけです
  • もし使いたければ、Python環境で以下を実行すれば有効になります
pip install huggingface_hub[hf_xet]

結論

  • 必須ではない(無くても最後までインストール可能)
  • 速度・効率は上がる可能性がある
  • モデル更新や再ダウンロードの機会が多い人には有効

補足:Python の仮想環境(Virtual Environment)

(venv) は Python の仮想環境(Virtual Environment)


仮想環境(venv)とは?

  • Python の依存パッケージやライブラリを、他のプロジェクトやシステム環境と分離して管理できる仕組み
  • EasyWan22 インストーラが、自動で C:\AI\EasyWan22\EasyTools\Download\env に作成して有効化したもの
  • この状態でインストールされたライブラリ(例:torch, comfyui関連, huggingface_hub など)は、この venv 専用に保存されます

メリット

  • 他のPythonプロジェクトと依存関係が衝突しない
  • EasyWan22のアップデートや再インストールがしやすい
  • システム全体のPython環境を汚さない

使い方のポイント

  • (venv) が表示されている間は、EasyWan22専用環境でPythonやpipを実行しています

  • 仮想環境を抜けたいときは:

    deactivate
    
  • 再び有効化するときは(PowerShellの場合):

    .\venv\Scripts\activate
    

3. ComfyUI最適化設定(12GB向け)

3.1 起動オプション

ComfyUi.bat または起動スクリプトに以下を追加:

set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6,max_split_size_mb:128
set CUDA_LAUNCH_BLOCKING=1
python main.py --lowvram --precision full --disable-smart-memory

3.2 設定ポイント

  • --lowvram : VRAM使用量削減
  • --precision full : float16での精度低下を回避(画質優先)
  • --disable-smart-memory : メモリ管理を安定化

4. 推奨ワークフロー設定

項目 推奨値(安定) 備考
解像度 1024×576 or 768×768 アスペクト比は生成物に合わせる
フレーム数 81〜121 長すぎるとVRAM不足
精度設定 float16 画質と速度のバランス
サンプリング 15〜20 steps 処理時間短縮
モード I2V(画像→動画)推奨 T2Vはプロンプト精度が重要

5. VRAM不足回避テクニック

  1. 量子化モデル(GGUF, FP8)を使用

    • モデルサイズを大幅削減、VRAM負荷軽減
  2. 解像度とフレーム数を抑える

    • まずは 1024×576 / 81フレームで試す
  3. 他アプリを終了して生成

    • ブラウザや動画再生アプリは閉じる
  4. タスクは1つずつ実行

    • 並列生成は避ける

6. 動作確認例(RTX 4070 Ti / VRAM 12GB)

解像度 フレーム数 モデル VRAM使用量 所要時間(目安)
1024×576 81 FP16 ~9GB 約2分
1024×1024 121 FP16 ~11GB 約4分
1024×576 121 GGUF ~8GB 約3分
1920×1080 81 FP16 13GB超 × エラー

7. まとめ

  • RTX 4070 Ti / 12GB でも、解像度・フレーム数を調整すれば安定稼働可能
  • 初心者は EasyWan22 + ComfyUI が最速導入ルート
  • VRAM不足は 量子化モデル+Low VRAM設定 で回避
  • 長時間レンダリングや高解像度は分割生成→結合が安全