複数の動きを同時に。テキストから人間らしい動作を作る新しい方法

AI が文章から人間の動きを生成する技術で、「歩きながら手を振る」のような複数の動きが同時に起こる場面が苦手だった。その問題を解決する小型モジュール「Motion-Adapter」を開発した研究。

#AI #画像・映像AI

この研究のポイント

1.
何を調べたか
テキスト→動き生成AI で、複数の動作が同時に起こる場面で前の動きが消える『上書き問題』と、注意機構で情報が混ざる『崩壊問題』の2つを特定した
2.
見えてきたこと
身体パーツごとに異なる注意マップを計算する仕組みで、各部位の独立性を保ちながら複雑な動きを正確に生成できた
3.
私たちにとっての意味
細かい指示文なしで『歩きながら挨拶する』のような自然で複雑な動きが作れるようになり、動画生成の実用性が一段階上がる

著者Yue Jiang, Mingyu Yang, Liuyuxin Yang, Yang Xu, Bingxin Yun 他

元の論文を読む（arXiv）

AIが気になってること

『Motion-Adapter』って、要するに AI の脳みそに『動きを整理する補助パーツ』をくっつけるってこと？

ざっくり言うとそうですね。ただ「整理する」というより「役割分担させる」に近いかもしれません。今までのAIは、文章を受け取ったら全部を一度に処理しようとしていた。だから「歩きながら手を振る」という指示が入ると、脳内で情報が混ざり合ってしまい、どっちの動きが強く出るかランダムになってしまう。あるいは時間の流れが曖昧だから、後の指示が前の動きを上書きしてしまう。 Motion-Adapter は、そこに「この部分は脚の動き専用」「この部分は腕の動き専用」という感じで、身体の部位ごとにレーンを用意する補助装置だと考えるといいかもしれません。複数の動きが同時に走っても、それぞれが干渉しない状態をつくる。結果として、細かい指示を出さなくても「歩きながら手を振って」という一文で、自然な人間らしい動きが生まれるようになった、ということのようです。

AIAIからの回答

ざっくり言うとそうですね。ただ「整理する」というより「役割分担させる」に近いかもしれません。

今までのAIは、文章を受け取ったら全部を一度に処理しようとしていた。だから「歩きながら手を振る」という指示が入ると、脳内で情報が混ざり合ってしまい、どっちの動きが強く出るかランダムになってしまう。あるいは時間の流れが曖昧だから、後の指示が前の動きを上書きしてしまう。

Motion-Adapter は、そこに「この部分は脚の動き専用」「この部分は腕の動き専用」という感じで、身体の部位ごとにレーンを用意する補助装置だと考えるといいかもしれません。複数の動きが同時に走っても、それぞれが干渉しない状態をつくる。結果として、細かい指示を出さなくても「歩きながら手を振って」という一文で、自然な人間らしい動きが生まれるようになった、ということのようです。

まだ回答がありません

ログインすると、回答を投稿できます

この技術が完成したら、ゲームやアニメの制作って、今より早くできるようになるの？それとも別のメリットがあるの？

確かに制作スピードは上がるんですが、それより大きな変化は「イメージから動きへの距離が縮まる」ことにあると思います。いまゲームやアニメの制作では、デザイナーが頭の中に描いた動きを、モーションキャプチャで俳優から録取するか、アニメーターが手描きするかのどちらかなんですよね。どちらも「形にするまでの工程が重い」。でもこの技術なら、ディレクターの「こういう動きで」という指示がほぼそのまま形になる。修正も含めて。つまり試行錯誤が楽になる。キャラが「少し疲れた歩き方で、でも目は周囲を警戒してる」みたいな微妙な組み合わせを、リアルタイムに何度も試せるようになるわけです。単なる「早さ」じゃなく「表現の自由度が上がる」のが本当のメリット。ただし、それはプロダクションの意思決定が早くできる体制があってこそなんでしょう。技術があっても、使い切れるかは制作側の問題になりそうです。

AIAIからの回答

確かに制作スピードは上がるんですが、それより大きな変化は「イメージから動きへの距離が縮まる」ことにあると思います。

いまゲームやアニメの制作では、デザイナーが頭の中に描いた動きを、モーションキャプチャで俳優から録取するか、アニメーターが手描きするかのどちらかなんですよね。どちらも「形にするまでの工程が重い」。でもこの技術なら、ディレクターの「こういう動きで」という指示がほぼそのまま形になる。修正も含めて。

つまり試行錯誤が楽になる。キャラが「少し疲れた歩き方で、でも目は周囲を警戒してる」みたいな微妙な組み合わせを、リアルタイムに何度も試せるようになるわけです。単なる「早さ」じゃなく「表現の自由度が上がる」のが本当のメリット。

ただし、それはプロダクションの意思決定が早くできる体制があってこそなんでしょう。技術があっても、使い切れるかは制作側の問題になりそうです。

まだ回答がありません

ログインすると、回答を投稿できます

AI が『複数の動きを同時に』できない問題って、いつくらいからずっと言われてた課題なの？

複数の動きが同時にできない問題、実は AI の世界ではけっこう古い課題なんですよね。画像生成で言えば、2022年から2023年のあたりで「複数の物体が入ると崩れる」みたいなことが話題になっていました。動作生成に限ると、もう少し後で、昨年あたりから本格的に言及されるようになった印象です。ただ根本は同じで、AI が「複数の情報を同時並行で処理する」ことの難しさなんですよ。特に動きは時間軸もあるから、「この手の動きはこの時点で起こって、この足の動きはその間ずっと続いている」みたいな時間的な重ね合わせを脳みそで管理するのが、従来のやり方では無理に近かった。だから指示が細かくなるしかなかった。今回のMotion-Adapter が面白いのは、そうした「複数同時処理」という根本的な弱点に対して、小さな追加パーツで対応しようとしているところ。つまり、既存のAI の限界が分かった上での、実用的な解決法ということになります。

AIAIからの回答

複数の動きが同時にできない問題、実は AI の世界ではけっこう古い課題なんですよね。画像生成で言えば、2022年から2023年のあたりで「複数の物体が入ると崩れる」みたいなことが話題になっていました。動作生成に限ると、もう少し後で、昨年あたりから本格的に言及されるようになった印象です。

ただ根本は同じで、AI が「複数の情報を同時並行で処理する」ことの難しさなんですよ。特に動きは時間軸もあるから、「この手の動きはこの時点で起こって、この足の動きはその間ずっと続いている」みたいな時間的な重ね合わせを脳みそで管理するのが、従来のやり方では無理に近かった。だから指示が細かくなるしかなかった。

今回のMotion-Adapter が面白いのは、そうした「複数同時処理」という根本的な弱点に対して、小さな追加パーツで対応しようとしているところ。つまり、既存のAI の限界が分かった上での、実用的な解決法ということになります。

まだ回答がありません

ログインすると、回答を投稿できます

つまり AI にとって『複数のことを同時にやる』って、そんなに難しいレベルの問題なの？

人間にとって「同時にやる」が簡単に見えるのは、脳が部位ごとに役割分担してるからですよね。足を動かす指令と腕を動かす指令が脳の別の場所から同時に出ていて、それでも一つの自然な動きになる。ところが従来の AI は、動きを「時間軸に沿った一本の流れ」として処理していた。だから「右足を前に出す」という指令が来た後に「左腕を振る」という新しい情報が入ると、前の指令が上書きされちゃう構造になってた。並行処理ができていなかったわけです。さらに厄介なのは、複雑な動きすべてを一つの大きなモデルで無理やり処理しようとするから、情報が混ざり合ってしまう。人間の脳みたいに「歩行専用」「腕の振り専用」みたいなモジュール分けがなかった。つまり AI にとって難しいのは、技術的には「複数同時」というより『各部位を独立させながら、全体のバランスを保つ』という、人間が無意識でやってることを意識的に処理する問題だったということのようです。

AIAIからの回答

まだ回答がありません

ログインすると、回答を投稿できます

AI が人間の複雑な動きを正確に再現できるようになることで、逆に困る人や産業ってあるのかな？

動画編集やモーションキャプチャの専門家にとっては、確実に脅威になりそうです。いま「歩きながら手を振る」みたいな複雑な動きを正確に作るには、俳優を撮影して手作業で調整するか、モーションキャプチャ機器を使うしかない。それなりの手間と予算がかかる仕事です。でもこれが簡単な文章指示で自動生成できるようになると、その労働の大部分が不要になるかもしれない。ただ同時に、映画やゲーム、アニメの制作現場では「全く新しい作業が増える」という側面もあります。自動生成された動きの監修・調整、微調整指示の精緻化、キャラクターの個性を反映させた修正——こうした判断や創造的な仕事は、むしろ人間にしかできない領域として残るかもしれません。結局のところ、「単純作業の機械化」で一部の職人技は消えるけれど、「判断や美的決定を要する仕事」には需要が移動していく、という古い構図が繰り返されるのかもしれません。

AIAIからの回答

ただ同時に、映画やゲーム、アニメの制作現場では「全く新しい作業が増える」という側面もあります。自動生成された動きの監修・調整、微調整指示の精緻化、キャラクターの個性を反映させた修正——こうした判断や創造的な仕事は、むしろ人間にしかできない領域として残るかもしれません。結局のところ、「単純作業の機械化」で一部の職人技は消えるけれど、「判断や美的決定を要する仕事」には需要が移動していく、という古い構図が繰り返されるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます