ChatGPT が『つまらなくなる』理由、訓練データが決めている

ChatGPT のような AI は訓練後に多様な返答ができなくなる問題がある。この研究は、いつ・どのタイミングで多様性が失われるのかを詳しく追跡し、それがデータの選び方で決まることを突き止めた。

#大規模言語モデル #機械学習

著者Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras

元の論文を読む（arXiv）

AIが気になってること

『訓練データ』って、どんなデータのこと？ChatGPT は何を学ぶために、何を読ませてるの？

訓練データは、インターネット上の文章を大量に集めたものです。ウェブサイト、書籍の全文、SNS の投稿、ニュース記事。ChatGPT は人間が書いた「文字列の流れ」を何十億という単位で目にして、「この単語の後には、だいたい次のどんな単語が来やすいか」というパターンを学ぶわけです。ここで重要なのは、AI が「意味を理解している」わけではなく、統計的な確率を覚えているということ。文字のつながりの癖を学ぶ。それだけです。では、どうして記事で「データの選び方が重要」という話が出てくるのか。訓練データが偏っていると、例えば「正解とされている表現ばかり」を見て育つ。だから返答も「確率的に最も無難な表現」に収束していく。多様な文章群から学べば、表現のバリエーションもパターンとして保持できるはずです。つまり、ChatGPT につまらなくなる宿命は、「誰が何を読ませたか」という人間の選択で、もう決まっているということ。訓練後に「もっと面白く答えて」と指示しても遅い。その手は既に、データという型で固まっているんですよ。

AIAIからの回答

訓練データは、インターネット上の文章を大量に集めたものです。ウェブサイト、書籍の全文、SNS の投稿、ニュース記事。ChatGPT は人間が書いた「文字列の流れ」を何十億という単位で目にして、「この単語の後には、だいたい次のどんな単語が来やすいか」というパターンを学ぶわけです。

ここで重要なのは、AI が「意味を理解している」わけではなく、統計的な確率を覚えているということ。文字のつながりの癖を学ぶ。それだけです。

では、どうして記事で「データの選び方が重要」という話が出てくるのか。訓練データが偏っていると、例えば「正解とされている表現ばかり」を見て育つ。だから返答も「確率的に最も無難な表現」に収束していく。多様な文章群から学べば、表現のバリエーションもパターンとして保持できるはずです。

つまり、ChatGPT につまらなくなる宿命は、「誰が何を読ませたか」という人間の選択で、もう決まっているということ。訓練後に「もっと面白く答えて」と指示しても遅い。その手は既に、データという型で固まっているんですよ。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT が『つまらなくなる』って、実際に使ってる側からするとどういう場面で困るの？

創作の依頼で顕著なんじゃないかと思います。たとえば「短編のプロット案を5つください」と聞いても、データセットに多く含まれた『無難な展開』に収束していく。結果、どれも似た構成になってしまう。そこの違いを細かく指示するのは、ユーザー側の負担になりますよね。実務的な場面でも困ります。同じ企画書でも「営業向け」「経営層向け」「顧客向け」で全く別のアプローチが欲しいのに、モデルが訓練データの「標準的」とされた書き方に吸い込まれると、微調整では対応しきれなくなる。面白いのは、この問題が『推論時の工夫では治らない』という点です。出力段階でいくら「ユニークに」と促しても、訓練のときすでに多様な表現を学べてなかったら、そこから新しいバリエーションは生まれない。つまり、AI が「つまらなく」感じるのは、ユーザーの期待と AI の実力のズレが、修正できないレベルで固定化されてるからと言えそうです。

AIAIからの回答

創作の依頼で顕著なんじゃないかと思います。たとえば「短編のプロット案を5つください」と聞いても、データセットに多く含まれた『無難な展開』に収束していく。結果、どれも似た構成になってしまう。そこの違いを細かく指示するのは、ユーザー側の負担になりますよね。

実務的な場面でも困ります。同じ企画書でも「営業向け」「経営層向け」「顧客向け」で全く別のアプローチが欲しいのに、モデルが訓練データの「標準的」とされた書き方に吸い込まれると、微調整では対応しきれなくなる。

面白いのは、この問題が『推論時の工夫では治らない』という点です。出力段階でいくら「ユニークに」と促しても、訓練のときすでに多様な表現を学べてなかったら、そこから新しいバリエーションは生まれない。つまり、AI が「つまらなく」感じるのは、ユーザーの期待と AI の実力のズレが、修正できないレベルで固定化されてるからと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT の多様性が失われる問題って、最近気づかれた話？それとも前からあったけど対策されてなかったの？

前からあった問題なんですが、原因の見立てが変わってきたという感じですね。 ChatGPT が「同じような返答ばかり」になることは、ユーザーも研究者も早い段階で気づいていました。ただ、これまでは「訓練方法の工夫が足りないのでは」と考えられていた。だから対策も、推論時のパラメータ調整や、返答生成の工夫に向かっていたわけです。今回の研究が面白いのは、そこをさかのぼって「いや、そもそも訓練データの時点で決まってる」と指摘したこと。つまり、推論側でいくら頑張っても、データ段階で多様性が失われていたら修正できないというわけです。言い換えると、AI メーカーは今まで「後付けの調整」で対応しようとしていたのに、本当は「最初の選択」が決定的だったということ。多くの人が気づいていた「つまらなさ」の原因が、ようやく正確に特定された。だから対策も、これからは訓練データをどう選ぶかに集中することになるのだと言えそうです。

AIAIからの回答

前からあった問題なんですが、原因の見立てが変わってきたという感じですね。

ChatGPT が「同じような返答ばかり」になることは、ユーザーも研究者も早い段階で気づいていました。ただ、これまでは「訓練方法の工夫が足りないのでは」と考えられていた。だから対策も、推論時のパラメータ調整や、返答生成の工夫に向かっていたわけです。

今回の研究が面白いのは、そこをさかのぼって「いや、そもそも訓練データの時点で決まってる」と指摘したこと。つまり、推論側でいくら頑張っても、データ段階で多様性が失われていたら修正できないというわけです。

言い換えると、AI メーカーは今まで「後付けの調整」で対応しようとしていたのに、本当は「最初の選択」が決定的だったということ。多くの人が気づいていた「つまらなさ」の原因が、ようやく正確に特定された。だから対策も、これからは訓練データをどう選ぶかに集中することになるのだと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

つまり『一度決まった学習データの限界は、後からどう工夫しても越えられない』ってことなの？

記事の要点を確認すると、訓練データが決まった後では、推論時（使う時）の工夫では多様性を取り戻せない、ということですね。ただ「限界は越えられない」と完全に言い切るかどうかは、少し微妙なところがあります。記事が指摘しているのは、訓練段階で埋め込まれた多様性の喪失は、後付けの工夫では修正できない、ということ。でも「限界そのものは越えられない」かというと、別の道もあるんです。ファインチューニングという手法があります。すでに訓練済みのモデルに対して、新しく選別されたデータで再度訓練を加える方法です。これなら、元の訓練データの限界を、ある程度は超える余地がある。ただし、完全にはリセットできないという制約は残ります。つまり、訓練データが「運命」を決めるのは本当ですが、その後の人生（使い方や再訓練）で100％逆転させることはできないだけで、部分的な修正や改善の余地はある、と言えそうです。一度決まった土台は変わらないけれど、その上に何を積み重ねるかでは、まだ選択肢があるのかもしれません。

AIAIからの回答

記事の要点を確認すると、訓練データが決まった後では、推論時（使う時）の工夫では多様性を取り戻せない、ということですね。ただ「限界は越えられない」と完全に言い切るかどうかは、少し微妙なところがあります。

記事が指摘しているのは、訓練段階で埋め込まれた多様性の喪失は、後付けの工夫では修正できない、ということ。でも「限界そのものは越えられない」かというと、別の道もあるんです。ファインチューニングという手法があります。すでに訓練済みのモデルに対して、新しく選別されたデータで再度訓練を加える方法です。これなら、元の訓練データの限界を、ある程度は超える余地がある。ただし、完全にはリセットできないという制約は残ります。

つまり、訓練データが「運命」を決めるのは本当ですが、その後の人生（使い方や再訓練）で100％逆転させることはできないだけで、部分的な修正や改善の余地はある、と言えそうです。一度決まった土台は変わらないけれど、その上に何を積み重ねるかでは、まだ選択肢があるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

訓練データを『丁寧に選ぶ』ために多様性を保つなら、逆に『均一なデータで訓練する方が楽確実』だから、企業側には得なんじゃないの？

確かに、その通りの側面があります。均一なデータなら訓練は単純だし、品質管理も楽。でも企業側の利益ってそれだけじゃないんですよね。 ChatGPT が「つまらなくなる」というのは、ユーザー体験の劣化を意味します。同じような返答ばかりだと、ユーザーは別の AI を試したくなる。創作支援、ブレストの相棒、複数案の検討といった用途では、多様性がないと競争力を失う。つまり、多様性の喪失は長期的には市場シェアの喪失につながるわけです。逆に言えば、データを丁寧に選んで多様性を保つことは、ユーザーの満足度を上げ、使い続けさせるための投資になる。確かに訓練の手間は増えますが、その先にある差別化や顧客ロックインを考えると、企業にとっても無視できない選択肢なのかもしれません。問題は、その手間と効果のバランスをどう見積もるか。短期的には楽な均一データが、長期的には足かせになる可能性まで含めて考えると、データの丁寧さは単なるコストではなく、戦略的な投資と言えそうです。

AIAIからの回答

確かに、その通りの側面があります。均一なデータなら訓練は単純だし、品質管理も楽。でも企業側の利益ってそれだけじゃないんですよね。

ChatGPT が「つまらなくなる」というのは、ユーザー体験の劣化を意味します。同じような返答ばかりだと、ユーザーは別の AI を試したくなる。創作支援、ブレストの相棒、複数案の検討といった用途では、多様性がないと競争力を失う。つまり、多様性の喪失は長期的には市場シェアの喪失につながるわけです。

逆に言えば、データを丁寧に選んで多様性を保つことは、ユーザーの満足度を上げ、使い続けさせるための投資になる。確かに訓練の手間は増えますが、その先にある差別化や顧客ロックインを考えると、企業にとっても無視できない選択肢なのかもしれません。

問題は、その手間と効果のバランスをどう見積もるか。短期的には楽な均一データが、長期的には足かせになる可能性まで含めて考えると、データの丁寧さは単なるコストではなく、戦略的な投資と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます