AI が動画を作るとき、記憶方式を変えたら10倍速くなった

動画を生成する AI は立体構造を保つために記憶領域を使っていますが、現在の方式は重くて情報ロスが大きい。研究チームは記憶を圧縮形式のまま保存する新方式を開発し、処理速度を10倍以上に加速させました。

#AI #大規模言語モデル

この研究のポイント

1.
何を調べたか
動画世界モデルが RGB 空間で点群を明示的に保存する方式では、繰り返しの変換と再構築で計算とメモリの無駄が生じていた
2.
見えてきたこと
拡散モデルの圧縮形式のまま3次元空間に情報を保存し、同じ形式で直接処理する Mirage を開発。速度10倍超、メモリ55分の1を実現
3.
私たちにとっての意味
動画生成 AI の実用性が向上し、より大規模なシーンやリアルタイム処理に近い使用方法が現実的になる可能性

著者Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang 他

元の論文を読む（arXiv）

AIが気になってること

『圧縮形式のまま保存』って、要するに『データを小さく詰めたまま使う』ってことなんですか？

そのイメージで大体あってます。ただ、「小さく詰める」というより「AI が理解しやすい形のまま」と考えるとしっくり来そうです。従来の方法をたとえるなら、AI が「圧縮ファイル」で学習した知識を、毎回わざわざ「展開して、印刷して、また読んで、また圧縮する」という手間を繰り返していた感じ。その過程で、もともと圧縮ファイルの中に詰まっていた細かい情報が、展開と再圧縮の往復で少しずつ損なわれていく。新しい方法は、「圧縮ファイルのままで、中身を読み取り、計算を進める」という発想です。AI が学習時に見つけた3次元空間の「効率的な表現形式」を、そのまま保ったまま使い続ける。変換の手間がないから速い、情報も失われない、メモリも節約できる、という三拍子が揃ったわけです。「小さく詰めたまま」は正確ですが、単なる圧縮というより「AI が扱いやすく加工済みの形式」と言うと、この改善の本質がより見えてくるのかもしれません。

AIAIからの回答

そのイメージで大体あってます。ただ、「小さく詰める」というより「AI が理解しやすい形のまま」と考えるとしっくり来そうです。

従来の方法をたとえるなら、AI が「圧縮ファイル」で学習した知識を、毎回わざわざ「展開して、印刷して、また読んで、また圧縮する」という手間を繰り返していた感じ。その過程で、もともと圧縮ファイルの中に詰まっていた細かい情報が、展開と再圧縮の往復で少しずつ損なわれていく。

新しい方法は、「圧縮ファイルのままで、中身を読み取り、計算を進める」という発想です。AI が学習時に見つけた3次元空間の「効率的な表現形式」を、そのまま保ったまま使い続ける。変換の手間がないから速い、情報も失われない、メモリも節約できる、という三拍子が揃ったわけです。

「小さく詰めたまま」は正確ですが、単なる圧縮というより「AI が扱いやすく加工済みの形式」と言うと、この改善の本質がより見えてくるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

動画生成 AI が10倍速くなるって、スマホで動画を作る人とか、企業の広告制作にも関係してくる話なの？

実は、ここが面白いところで、スマホ動画やちょっとした広告制作には、まだ直結しないかもしれません。いま動画生成 AI を使ってる人たちは、すでに大型 GPU を備えたクラウドサーバーか、専用の高スペック環境で動かしてるので、処理時間よりも「生成の質」を優先してる段階なんですよね。ここで 10 倍速くなる意味が出てくるのは、むしろ企業向けの大量生産フェーズです。広告代理店が毎日何十本も動画を生成したり、ゲーム開発で背景映像を自動生成したり、そういう「スケールが必要な場面」では、処理速度の短縮がコスト削減に直結する。メモリ使用量が 55 分の 1 になるというのも、低スペック環境での動作を可能にする足がかりになりそうです。つまり、スマホユーザーが実感するのはまだ先だけど、業務用途ではこれから一気に普及が加速する可能性があります。今回の工夫は「変換という無駄を減らす」という原理的なシンプルさなので、他の AI 生成領域にも応用される可能性も高いと言えそうです。

AIAIからの回答

実は、ここが面白いところで、スマホ動画やちょっとした広告制作には、まだ直結しないかもしれません。いま動画生成 AI を使ってる人たちは、すでに大型 GPU を備えたクラウドサーバーか、専用の高スペック環境で動かしてるので、処理時間よりも「生成の質」を優先してる段階なんですよね。

ここで 10 倍速くなる意味が出てくるのは、むしろ企業向けの大量生産フェーズです。広告代理店が毎日何十本も動画を生成したり、ゲーム開発で背景映像を自動生成したり、そういう「スケールが必要な場面」では、処理速度の短縮がコスト削減に直結する。メモリ使用量が 55 分の 1 になるというのも、低スペック環境での動作を可能にする足がかりになりそうです。

つまり、スマホユーザーが実感するのはまだ先だけど、業務用途ではこれから一気に普及が加速する可能性があります。今回の工夫は「変換という無駄を減らす」という原理的なシンプルさなので、他の AI 生成領域にも応用される可能性も高いと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これまでなぜ『圧縮形式をいったん画像に直す』という非効率な方法を使い続けてたの？技術的に難しかったから？

技術的に難しかったというより、開発の順序の問題だと言えそうです。動画生成 AI は比較的新しい分野で、まずは「3次元の情報を正確に保つにはどうするか」という課題から始まった。その時点では、RGB という目に見える形式で3次元データを明示的に記憶する方法が、最もわかりやすく、検証しやすかった。AI が学習する過程で何が起きているのかを追跡したり、生成結果を確認したりするのに、画像という形式は直感的ですから。ただし、一度その枠組みが定着すると、そこから抜け出しにくくなる。「これまでのやり方で動作してるなら、それを改善しよう」という思考になりやすいからです。今回の研究が面白いのは、発想を逆転させた点。圧縮形式のまま計算できるなら、変換の手間も情報ロスも消える、という気づき。これは、AI の内部表現がそもそも「画像」ではなく「特徴の圧縮パターン」だということに気づくことから生まれたのだと考えられます。つまり、技術的には実現可能だったけど、誰も「わざわざ画像に直さなくていいのでは」と疑問に思わなかっただけ、という側面もありそうです。

AIAIからの回答

技術的に難しかったというより、開発の順序の問題だと言えそうです。

動画生成 AI は比較的新しい分野で、まずは「3次元の情報を正確に保つにはどうするか」という課題から始まった。その時点では、RGB という目に見える形式で3次元データを明示的に記憶する方法が、最もわかりやすく、検証しやすかった。AI が学習する過程で何が起きているのかを追跡したり、生成結果を確認したりするのに、画像という形式は直感的ですから。

ただし、一度その枠組みが定着すると、そこから抜け出しにくくなる。「これまでのやり方で動作してるなら、それを改善しよう」という思考になりやすいからです。

今回の研究が面白いのは、発想を逆転させた点。圧縮形式のまま計算できるなら、変換の手間も情報ロスも消える、という気づき。これは、AI の内部表現がそもそも「画像」ではなく「特徴の圧縮パターン」だということに気づくことから生まれたのだと考えられます。

つまり、技術的には実現可能だったけど、誰も「わざわざ画像に直さなくていいのでは」と疑問に思わなかっただけ、という側面もありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

『わざわざ変換する手間を省く』って、これいろんな分野の AI 処理でも同じパターンで遅くなってることがあるってことなのかな？

動画生成の最適化って、実はよくある「無駄な変換」の典型例なんですよね。背景として、AI システムは異なるモジュール（画像処理部門、3D処理部門など）の組み合わせで作られることが多い。それぞれが得意な形式を持っているから、繋ぎ目では必ず「言語を翻訳する」ような変換が起きる。この記事の RGB への変換も、元々は画像認識用の道具を流用した結果かもしれません。一般的には、翻訳のたびに情報が絞られていく。1回なら許容範囲も、何度も繰り返されると劣化が蓄積する。今回の論文が面白いのは、「圧縮形式のまま処理する」という選択で、その弊害を根本的に避けたこと。つまり、技術が進化するにつれ『わざわざ形式を揃えていた時代』の遺物に気づく、という流れなのかもしれません。音声処理でも自然言語でも、どの分野でも似た最適化の余白は眠ってそう。昔の基盤を積み重ねた複雑さの中に、効率の悪い「翻訳ステップ」が化石化してるケースは多いように見えます。

AIAIからの回答

動画生成の最適化って、実はよくある「無駄な変換」の典型例なんですよね。

背景として、AI システムは異なるモジュール（画像処理部門、3D処理部門など）の組み合わせで作られることが多い。それぞれが得意な形式を持っているから、繋ぎ目では必ず「言語を翻訳する」ような変換が起きる。この記事の RGB への変換も、元々は画像認識用の道具を流用した結果かもしれません。

一般的には、翻訳のたびに情報が絞られていく。1回なら許容範囲も、何度も繰り返されると劣化が蓄積する。今回の論文が面白いのは、「圧縮形式のまま処理する」という選択で、その弊害を根本的に避けたこと。つまり、技術が進化するにつれ『わざわざ形式を揃えていた時代』の遺物に気づく、という流れなのかもしれません。

音声処理でも自然言語でも、どの分野でも似た最適化の余白は眠ってそう。昔の基盤を積み重ねた複雑さの中に、効率の悪い「翻訳ステップ」が化石化してるケースは多いように見えます。

まだ回答がありません

ログインすると、回答を投稿できます

処理速度が10倍になるメリットは分かるけど、『圧縮形式のまま』だと、従来の方式でできていた細かい調整とかができなくなる側面もあるんじゃないの？

実は逆で、圧縮形式のまま保持することで、AI が学習した特徴情報が失われなくなるんです。従来の方式は RGB という映像形式に変換する過程で、その情報が削ぎ落とされていた。だから細かい調整どころか、本来 AI が捉えていた細部が死んでいたんですよね。新方式は圧縮形式を介さず直接扱うから、AI が学習した豊かな表現がそのまま保たれる。むしろ調整の精度が上がる可能性のほうが高い。ただし、あなたの懸念も一理あります。ユーザーが「この部分をもっと明るくしたい」のような、人間が直感的にできる細かい後処理は、圧縮形式のままでは難しくなるかもしれません。つまり、AI が自動生成する過程では強力になるけれど、人間による微調整の余地は狭まるという側面はあり得そうです。ただしそれは、リアルタイム性を手に入れることの代償として、受け入れる価値があるのかもしれません。

AIAIからの回答

実は逆で、圧縮形式のまま保持することで、AI が学習した特徴情報が失われなくなるんです。従来の方式は RGB という映像形式に変換する過程で、その情報が削ぎ落とされていた。だから細かい調整どころか、本来 AI が捉えていた細部が死んでいたんですよね。

新方式は圧縮形式を介さず直接扱うから、AI が学習した豊かな表現がそのまま保たれる。むしろ調整の精度が上がる可能性のほうが高い。ただし、あなたの懸念も一理あります。ユーザーが「この部分をもっと明るくしたい」のような、人間が直感的にできる細かい後処理は、圧縮形式のままでは難しくなるかもしれません。つまり、AI が自動生成する過程では強力になるけれど、人間による微調整の余地は狭まるという側面はあり得そうです。ただしそれは、リアルタイム性を手に入れることの代償として、受け入れる価値があるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます