FramePackによるAIアニメーション

はじめに

2025年4月17日、AI界隈で著名なイリヤスフィール氏が、ローカル環境で動作する動画生成AI「FramePack」を発表し、AI界隈で話題になりました。

それまでの動画生成AIでは、ハイエンドなGPUを搭載したパソコン(特に多くのVRAMを積んでいるモデル)でなければ動作させる事が困難でしたが、FramePackは、VRAMが6GBの環境でも動画を作成できる点で注目を浴び評価され、生成AI界隈に新たな波を起こしています。

うちのPC環境では、GPUは NvidiaのRTX4070Ti(VRAM 12GB)を使用しており、FramePackの動作要件を満たしており、インストールから動画生成するまで手順を軽くまとめてみました。

FramePack の概要・特徴

  • 画像1枚から最大120秒の動画生成可能
  • 最低6GBのGPUメモリで動作
  • TeaCacheを使用すれば1フレーム約1.5秒で生成可能

FramePack推奨スペック

項目 内容
GPU NVIDIA RTX 30XX / 40XX / 50XX
VRAM(GPUメモリ) 最低6GB(生成速度は容量に比例)
OS Windows 10 / 11 / Linux
Python Version 3.10
ストレージ 65GB~(モデル含め約64GB)
メモリ(RAM) 最低16GB(推奨は32~64GB)

CPUは RTX3060をベースとしても最低 第10世代のIntel CPUがあった方が安心だと思います。
※13世代CPUに関しては、上位モデルで不都合の報告がある為、注意。

FramePack‑eichiとは

lllyasviel氏のFramePackをベースに、nirvash氏の改良版をさらに強化した動画生成AIフレームワークです。

■FramePack‑eichiの特徴

  • 多言語対応 - 日本語、英語、繁体字中国語のUIをサポート
  • 柔軟な動画長設定 - 1〜20秒の各セクションモードに対応
  • セクションフレームサイズ設定 - 0.5秒モードと1秒モードを切り替え可能
  • オールパディング機能 - すべてのセクションで同じパディング値を使用可能

FramePack-eichiの最大の特徴は、キーフレーム(複数設定可能)を設定できる事で、 動画の開始画像(必須)と終了画像に加えて、中間のキーフレームを設定することにより、アニメーションの流れを細かくコントロールすることが可能になります。

実際に動かした環境

この記事を書いている私のPC環境:

項目 内容
CPU: Core i7-12700K
MB: ASRock Z690 Steel Legend
MEM: ArkARD4-U32G48HB-24R-D DDR4 64G
GPU: GK-RTX4070Ti-E12GB/WHITE/TP

FramePackで1秒(33フレーム)の動画を生成するのに1分30秒程度かかっています。 VRAMも重要ですが、メモリは当初32GBでしたが、Stable Diffusionで画像生成をした際に、解像度を上げるとメモリ不足になった経験があり、その際に容量アップで64Gにしています。

FramePack‑eichiに関しても、生成時にはかなりメモリを消費するので、32GB~64GBあった方が安心だと思います。

動画作成までの流れ

Stable Diffusionで画像生成

スマホなどで撮った写真から動画生成してもいいのですが、今回はStable Diffusionで画像生成し、それを動画生成AIで動かしてみます。

CyberRealistic Ponyとは、Stable Diffusionで画像を生成する際に使用するPony系のモデルの1つになります。単にリアルな表現を追求するだけでなく、プロンプトの忠実な再現など、ユーザビリティの向上にも重点を置いている点が特徴

AIアニメーションのデモ

以下はFramePack-eichiで生成したMP4動画のデモです。

現状の限界点・特徴的な制約

  • 複数キャラの独立した動きが難しい

  • シーンの一貫性(例:猫が横切るなど)

  • 逆に、だからこそ省リソースで動作する利点

まとめ+今後の展望

  • 課題(多キャラ制御、連続動作など)

  • 期待(eichiの進化、次世代FramePack など)