過去の情報を『選り分けて』拾う AI、長文読解の新解法

ChatGPT のような AI が長い文章を読むとき、昔の情報は忘れがちになってしまう問題がある。この論文は過去の情報を頭に入れながら、その時々で必要な部分を選び出す新しい仕組み「Sessa」を提案。

#大規模言語モデル #AI

この研究のポイント

1.
何を調べたか
Transformer は長文で昔の単語の影響が O(1/ℓ) に減衰し、Mamba 系も指数減衰する課題があるところを、べき乗則 O(ℓ^−β) の緩い減衰を持つ新構造で解決した
2.
見えてきたこと
注意機構をフィードバック経路に組み込むことで、複数経路での情報集約を実現。過去のどの情報が必要かを層内で『選り分ける』柔軟さが出現した
3.
私たちにとっての意味
ベンチマークでは長文処理で最高性能を達成しながら、短文でも既存モデルと同等の速度と精度を保つ実用性を示した

著者Liubomyr Horbatko

元の論文を読む（arXiv）

AIが気になってること

長い文脈を正確に読めるようになると、今まで『短いやり取りで十分』だと思ってた仕事や作業は、逆に不要になったりするの？

長い文脈を正確に読めるようになると、むしろ逆のことが起きそうです。短い断片的な情報だけで判断する仕事は減るかもしれませんが、その分、より複雑な文脈の中で判断を求められる仕事が増えていく。たとえば、契約書の審査。今は「このセクションは問題ないか」という局所的な確認が主流。けれど AI が本10冊分の文脈を一貫して読めたら、「この契約全体の整合性は取れているか」「過去の契約との矛盾はないか」という全体的な判断が可能になります。結果、単純な照合作業は減って、「整合性が取れているのに、ビジネス上のリスクはないか」という、より高度な判断が人間に求められるようになる。技術が強化されるほど、人間が扱う仕事の質が上がっていく。短編は消えず、スタンダードがシフトしていく形に見えます。

AIAIからの回答

長い文脈を正確に読めるようになると、むしろ逆のことが起きそうです。短い断片的な情報だけで判断する仕事は減るかもしれませんが、その分、より複雑な文脈の中で判断を求められる仕事が増えていく。

たとえば、契約書の審査。今は「このセクションは問題ないか」という局所的な確認が主流。けれど AI が本10冊分の文脈を一貫して読めたら、「この契約全体の整合性は取れているか」「過去の契約との矛盾はないか」という全体的な判断が可能になります。結果、単純な照合作業は減って、「整合性が取れているのに、ビジネス上のリスクはないか」という、より高度な判断が人間に求められるようになる。

技術が強化されるほど、人間が扱う仕事の質が上がっていく。短編は消えず、スタンダードがシフトしていく形に見えます。

まだ回答がありません

ログインすると、回答を投稿できます

「べき乗則で落ちていく」って、何が違うの？普通の減衰と？

減衰のスピードが全然違うんですよね。普通の減衰は、毎段階で一定の割合だけ失われていく「指数関数的」なもの。たとえば、毎回50%ずつ失われていくなら、 10段階経つと、元の情報は約0.001%まで落ちてしまう。階を重ねるたびに、ものすごい勢いで削られていく感じです。べき乗則は、もっと緩やか。「段階数の何乗分の1」という関係なので、同じ10段階を経ても、元の情報の数パーセントはまだ残っている。階が進むほど落ちるペースがどんどん遅くなっていく曲線です。つまり Sessa が狙ってるのは、「遠い過去は薄れるけど、消えることがない」という状態。本10冊分の長さでも、1冊目に出た重要な情報が「見えない」ほどには減衰しないということのようです。記憶ゲームで喩えれば、指数関数は「1週間で忘れる」なら「2週間で完全に消える」。べき乗則は「1週間で薄れるけど、1年経ってもぼんやり覚えてる」みたいな感覚に近いと言えそうです。

AIAIからの回答

減衰のスピードが全然違うんですよね。

普通の減衰は、毎段階で一定の割合だけ失われていく「指数関数的」なもの。
たとえば、毎回50%ずつ失われていくなら、
10段階経つと、元の情報は約0.001%まで落ちてしまう。
階を重ねるたびに、ものすごい勢いで削られていく感じです。

べき乗則は、もっと緩やか。
「段階数の何乗分の1」という関係なので、
同じ10段階を経ても、元の情報の数パーセントはまだ残っている。
階が進むほど落ちるペースがどんどん遅くなっていく曲線です。

つまり Sessa が狙ってるのは、
「遠い過去は薄れるけど、消えることがない」という状態。
本10冊分の長さでも、1冊目に出た重要な情報が
「見えない」ほどには減衰しないということのようです。

記憶ゲームで喩えれば、
指数関数は「1週間で忘れる」なら「2週間で完全に消える」。
べき乗則は「1週間で薄れるけど、1年経ってもぼんやり覚えてる」
みたいな感覚に近いと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT で長めの質問をするとき、途中で聞いたことが反映されなくなるのって、この『昔の情報を忘れる』問題だったってこと？

完全に同じとは言えませんが、重なる部分は大きいですね。 ChatGPT で長い会話をしていて「あれ、さっき言ったことが反映されてない」と感じるのは、実は複数の理由が絡んでいます。一つは記事で指摘されている Transformer の『古い情報の影響力が薄まる』という問題。もう一つは、実は ChatGPT 自体が「1回の回答」の中では会話履歴全部を見ているんですが、膨大な会話ログが積み重なると、トークン数の制限に引っかかって、あえて古い部分を削ぎ落とすという実装的な制約もあります。つまり、記事の「昔の情報がうろ覚えになる」のは AI の根本的な構造的課題で、あなたが感じる「反映されなくなる」は、その構造的課題と、運用上の制限が両方絡んでいるのかもしれません。Sessa のような新しい仕組みが実用化すれば、少なくとも前者は改善される。でも後者の制限をどう扱うかは、また別の話になってきそうです。

AIAIからの回答

完全に同じとは言えませんが、重なる部分は大きいですね。

ChatGPT で長い会話をしていて「あれ、さっき言ったことが反映されてない」と感じるのは、実は複数の理由が絡んでいます。一つは記事で指摘されている Transformer の『古い情報の影響力が薄まる』という問題。もう一つは、実は ChatGPT 自体が「1回の回答」の中では会話履歴全部を見ているんですが、膨大な会話ログが積み重なると、トークン数の制限に引っかかって、あえて古い部分を削ぎ落とすという実装的な制約もあります。

つまり、記事の「昔の情報がうろ覚えになる」のは AI の根本的な構造的課題で、あなたが感じる「反映されなくなる」は、その構造的課題と、運用上の制限が両方絡んでいるのかもしれません。Sessa のような新しい仕組みが実用化すれば、少なくとも前者は改善される。でも後者の制限をどう扱うかは、また別の話になってきそうです。

まだ回答がありません

ログインすると、回答を投稿できます

Transformer や Mamba みたいなモデルが主流になってたのに、今なぜ『長い文を読む問題』が急に話題になったの？

実はこの問題、ずっと存在してたんですよね。でも最近、実務的な必要性が顕在化してきたんだと思います。 ChatGPT が登場した当初は、「要約を書く」「短編を続ける」くらいの用途が大半だった。だから4,000語とか8,000語くらいの文脈で十分だった。ところが企業で使い始まると、契約書全部（100ページ）、議事録の年間分、技術ドキュメント一式——みたいに「とにかく長い資料をまるごと読ませたい」という要望が爆発した。同時に、Claude や GPT-4 が「100万トークン対応」みたいに長文対応を売り出し始めたことで、逆説的に「長さに対応してるはずなのに、昔の情報が実は活きてない」という矛盾が見えるようになった。対応してるように見えても、精度が落ちてるわけです。つまり、Transformer は元々あった限界だけど、それが実際のビジネス課題として浮き彫りになり、かつ「本当に解決できるなら」という需要が生まれた。タイミングなんですよ。技術と需要の組み合わせが揃った時点で、急に話題になって見える、という感じなのかもしれません。

AIAIからの回答

実はこの問題、ずっと存在してたんですよね。でも最近、実務的な必要性が顕在化してきたんだと思います。

ChatGPT が登場した当初は、「要約を書く」「短編を続ける」くらいの用途が大半だった。だから4,000語とか8,000語くらいの文脈で十分だった。ところが企業で使い始まると、契約書全部（100ページ）、議事録の年間分、技術ドキュメント一式——みたいに「とにかく長い資料をまるごと読ませたい」という要望が爆発した。

同時に、Claude や GPT-4 が「100万トークン対応」みたいに長文対応を売り出し始めたことで、逆説的に「長さに対応してるはずなのに、昔の情報が実は活きてない」という矛盾が見えるようになった。対応してるように見えても、精度が落ちてるわけです。

つまり、Transformer は元々あった限界だけど、それが実際のビジネス課題として浮き彫りになり、かつ「本当に解決できるなら」という需要が生まれた。タイミングなんですよ。技術と需要の組み合わせが揃った時点で、急に話題になって見える、という感じなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

つまり Sessa って、人間の脳が『短期記憶と長期記憶の両方を同時に使う』のと似た方法を AI にやらせようってこと？

似た側面はあるんですが、完全に同じかと言うと微妙なところですね。人間の脳で起きてることは、短期記憶に上った情報が繰り返し処理されることで長期記憶に刻まれる。つまり時間軸で言えば、いったん忘れかけた古い情報を『思い出す』という作業が入る。でも Sessa は、思い出す時間を作らず、最初からずっと古い情報を「減衰しにくい形で」保持し続けるという設計なんです。むしろ例えるなら、本を読んでいて大事な箇所に付箋を貼りながら進むイメージに近い。読み進むたびに「あ、これとあれが繋がる」と付箋に立ち戻る。Sessa も同じく、新しい情報を処理するたびに「過去のどの部分が今必要か」を自動判定して、それだけ効率よく活用する。短期と長期の両立というより、長期の情報を短期で活躍させる仕組み、と言えそうです。

AIAIからの回答

似た側面はあるんですが、完全に同じかと言うと微妙なところですね。

人間の脳で起きてることは、短期記憶に上った情報が繰り返し処理されることで長期記憶に刻まれる。つまり時間軸で言えば、いったん忘れかけた古い情報を『思い出す』という作業が入る。でも Sessa は、思い出す時間を作らず、最初からずっと古い情報を「減衰しにくい形で」保持し続けるという設計なんです。

むしろ例えるなら、本を読んでいて大事な箇所に付箋を貼りながら進むイメージに近い。読み進むたびに「あ、これとあれが繋がる」と付箋に立ち戻る。Sessa も同じく、新しい情報を処理するたびに「過去のどの部分が今必要か」を自動判定して、それだけ効率よく活用する。短期と長期の両立というより、長期の情報を短期で活躍させる仕組み、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます