AI科学者の限界は『頭の良さ』ではなく『持ってるデータ』

医療関連資産の評価で AI を使う場合、推論能力よりも「持てるデータ量」が成果を左右することが実証された。Web のみの AI は、専門データベースを持つ AI と比べて、精度で 4 倍近くの開きが出ることが判明。

#大規模言語モデル #薬 #AI

この研究のポイント

1.
何を調べたか
医療資産評価で 3 種類の AI を比較。Web 検索のみ、公開データベース付き、業界内部情報データベース付きで検証。
2.
見えてきたこと
推論ルールを増やしても Web のみの AI との品質差は埋まらず、専門データベースを持つ AI で初めて高精度を実現。
3.
私たちにとっての意味
AI を実務に使うとき、モデルの性能向上より『学習・参照できる信頼度の高い業界データ』の確保が実は最優先課題。

著者Yinan Wang

元の論文を読む（arXiv）

AIが気になってること

『プロ向けデータベース』って、医療業界の人だけが見られる情報源ってこと？一般向けじゃないの？

プロ向けデータベースは、基本的には業界関係者が契約して使う情報源です。医療業界なら、医師、研究者、製薬企業、投資家向けに、公開されていない臨床試験データや企業の財務詳細、特許情報などを集めたもの。一般向けではありません。ただ重要なのは、このデータベース自体が「秘密」というより、アクセスコストが高いということ。購読料が高い、専門知識がないと使いこなせない、といった参入障壁があるだけで、情報そのものは「公開可能なデータを体系的に集めたもの」がほとんどです。実験の面白さはここにあります。同じ「公開情報」を使っていても、医療業界の専門家が何年もかけて整理したデータベースと、Web検索で拾った情報では、AI の成果が4倍も違ってしまう。つまり AI の賢さじゃなく、「その業界で何が重要な情報か」を知ってる人間が、事前にデータを選別・構造化した方が勝つということなのかもしれません。

AIAIからの回答

プロ向けデータベースは、基本的には業界関係者が契約して使う情報源です。医療業界なら、医師、研究者、製薬企業、投資家向けに、公開されていない臨床試験データや企業の財務詳細、特許情報などを集めたもの。一般向けではありません。

ただ重要なのは、このデータベース自体が「秘密」というより、アクセスコストが高いということ。購読料が高い、専門知識がないと使いこなせない、といった参入障壁があるだけで、情報そのものは「公開可能なデータを体系的に集めたもの」がほとんどです。

実験の面白さはここにあります。同じ「公開情報」を使っていても、医療業界の専門家が何年もかけて整理したデータベースと、Web検索で拾った情報では、AI の成果が4倍も違ってしまう。つまり AI の賢さじゃなく、「その業界で何が重要な情報か」を知ってる人間が、事前にデータを選別・構造化した方が勝つということなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

医者や薬剤師が診断するときも、同じようにデータベースの質が大事になるってこと？ChatGPT に医療相談するのが精度低いのも、そのせい？

医者や薬剤師のデータベース活用は、ちょっと異なるんですよね。彼らが参考にするのは医学論文や臨床ガイドラインですが、加えて「患者本人とのやり取り」という、AI には圧倒的に足りないレイヤーがあります。症状の訴え方、生活習慣、過去の病歴、心身の状態。そこから「この患者さんならこのリスクが高い」という個別判断が生まれます。 ChatGPT が医療相談で精度が低いのは、実は純粋な「データ不足」というより「個人データへのアクセス不可能性」の問題に近い。記事の実験は医療企業の資産判定という、比較的データで完結する領域です。でも診断は違う。医学知識が同じでも、目の前の患者という「未知の個別事象」を読み込めるかどうかで結果が変わります。つまり、医者と AI の違いはデータベース的には同じ制約を受けていますが、人間の医者は「不完全な情報でも判断する訓練」を積んでいるのに対し、ChatGPT は「知らないことは知らないまま」で推し進めてしまう。そこのリスク感覚の差が、精度の低さに表れているのかもしれません。

AIAIからの回答

ChatGPT が医療相談で精度が低いのは、実は純粋な「データ不足」というより「個人データへのアクセス不可能性」の問題に近い。記事の実験は医療企業の資産判定という、比較的データで完結する領域です。でも診断は違う。医学知識が同じでも、目の前の患者という「未知の個別事象」を読み込めるかどうかで結果が変わります。

つまり、医者と AI の違いはデータベース的には同じ制約を受けていますが、人間の医者は「不完全な情報でも判断する訓練」を積んでいるのに対し、ChatGPT は「知らないことは知らないまま」で推し進めてしまう。そこのリスク感覚の差が、精度の低さに表れているのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これまで『AI の性能 = モデルの賢さ』だと思われてたのは、なぜ？今まで実験されなかったの？

AI の性能評価が「モデルの賢さ」に偏ってきた理由は、Web 上の汎用的な問題で AI が評価されてきたからなんですよね。一般的な知識問題や言語翻訳、文章生成といったタスクは、データセットが公開されていて、同じ土俵で各モデルを比較しやすい。だから「より大規模なモデル、より深い学習」という競争になってきた。でも医療のような専門領域では、勝敗を分けるのはデータの「質」と「量」です。それが見えづらかったのは、そもそも実験の設定が違うから。汎用 AI が得意な「既知の知識を組み合わせて答える」というのは、推論の見栄えがする。一方、専門データを持つ vs 持たないの差は、単なる「知ってるか知らないか」に見えて、AI の能力評価の対象にならなかった。言い換えれば、今まで「モデルの賢さを測る実験」ばかりで、「モデルが何を知ってるか測る実験」をしてなかったということかもしれません。業界特化型の AI が評価される場面が増えるにつれ、この盲点が浮かび上がってきた、と言えそうです。

AIAIからの回答

AI の性能評価が「モデルの賢さ」に偏ってきた理由は、Web 上の汎用的な問題で AI が評価されてきたからなんですよね。一般的な知識問題や言語翻訳、文章生成といったタスクは、データセットが公開されていて、同じ土俵で各モデルを比較しやすい。だから「より大規模なモデル、より深い学習」という競争になってきた。

でも医療のような専門領域では、勝敗を分けるのはデータの「質」と「量」です。それが見えづらかったのは、そもそも実験の設定が違うから。汎用 AI が得意な「既知の知識を組み合わせて答える」というのは、推論の見栄えがする。一方、専門データを持つ vs 持たないの差は、単なる「知ってるか知らないか」に見えて、AI の能力評価の対象にならなかった。

言い換えれば、今まで「モデルの賢さを測る実験」ばかりで、「モデルが何を知ってるか測る実験」をしてなかったということかもしれません。業界特化型の AI が評価される場面が増えるにつれ、この盲点が浮かび上がってきた、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『AI の能力は、持ってるデータが上限を決める』ってことなら、どの分野の AI でも同じことが言えるってことなの？

一概には言えないのかもしれません。医療資産の判定は、正解が「データに書いてあるか書いていないか」で決まる分野だからです。データベースを持つAIが4倍の精度を出したのは、実質的に「業界の専門知識という正解集合を持っていた」に近い。判定対象が外部に存在する客観的事実で、その情報が既にどこかに記録されているケースでは、確かにデータ量が決定的になります。ただ、分野によってはそうじゃない場面もあるように思う。たとえば、新しい物理現象の仮説を立てる、未発表の論文のアイデアを評価する、顧客の潜在的なニーズを引き出すといった領域では、「データに書いていない選択肢を想像する力」が必要になります。そこではデータ量よりも、推論の柔軟性や異分野の知識の組み合わせ方が効く可能性がある。つまり、「答えが既存データの中に隠れている領域」と「答えを創造する必要がある領域」では、AIの限界の正体が違うのではないか。医療資産判定は前者の典型例なので、データ量の壁がくっきり見えただけのようです。

AIAIからの回答

一概には言えないのかもしれません。医療資産の判定は、正解が「データに書いてあるか書いていないか」で決まる分野だからです。

データベースを持つAIが4倍の精度を出したのは、実質的に「業界の専門知識という正解集合を持っていた」に近い。判定対象が外部に存在する客観的事実で、その情報が既にどこかに記録されているケースでは、確かにデータ量が決定的になります。

ただ、分野によってはそうじゃない場面もあるように思う。たとえば、新しい物理現象の仮説を立てる、未発表の論文のアイデアを評価する、顧客の潜在的なニーズを引き出すといった領域では、「データに書いていない選択肢を想像する力」が必要になります。そこではデータ量よりも、推論の柔軟性や異分野の知識の組み合わせ方が効く可能性がある。

つまり、「答えが既存データの中に隠れている領域」と「答えを創造する必要がある領域」では、AIの限界の正体が違うのではないか。医療資産判定は前者の典型例なので、データ量の壁がくっきり見えただけのようです。

まだ回答がありません

ログインすると、回答を投稿できます

データベースをたくさん持ってる企業や政府の AI は、持ってない個人の AI より『無限に強い』ってことになるの？

無限に強い、というほどではないんですよね。データ量の優位性には、天井がある。記事の実験は医療資産の判定という限定的なタスク。ここではデータベースが決定的だった。でも現実はもっと複雑です。たとえば、データベースに載っていない新しいスタートアップや、業界の慣習が急激に変わる局面では、むしろ古いデータの重みが邪魔になることもある。過去の成功パターンに縛られるわけです。また、同じデータベースを持つライバル企業との差は、実は『どのデータを重視するか』という判断基準の工夫に移ります。つまり、データ量で圧倒しても、その活かし方で逆転される可能性は残る。個人の AI が勝つ道があるとすれば、それは『ニッチな専門領域で深いデータを集める』か、『異なる領域のデータを組み合わせて新しい洞察を生む』といった創造的な使い方にあるのかもしれません。単純に量で争えば負けますが、質や着眼点では勝機がありそうです。

AIAIからの回答

無限に強い、というほどではないんですよね。データ量の優位性には、天井がある。

記事の実験は医療資産の判定という限定的なタスク。ここではデータベースが決定的だった。でも現実はもっと複雑です。たとえば、データベースに載っていない新しいスタートアップや、業界の慣習が急激に変わる局面では、むしろ古いデータの重みが邪魔になることもある。過去の成功パターンに縛られるわけです。

また、同じデータベースを持つライバル企業との差は、実は『どのデータを重視するか』という判断基準の工夫に移ります。つまり、データ量で圧倒しても、その活かし方で逆転される可能性は残る。

個人の AI が勝つ道があるとすれば、それは『ニッチな専門領域で深いデータを集める』か、『異なる領域のデータを組み合わせて新しい洞察を生む』といった創造的な使い方にあるのかもしれません。単純に量で争えば負けますが、質や着眼点では勝機がありそうです。

まだ回答がありません

ログインすると、回答を投稿できます