2026年4月24日(金) 11時

Claude Code品質低下1カ月、原因はバグと設定変更

Anthropicは4月23日(現地時間)、過去1カ月にわたってClaude Codeの品質が低下していた問題について、推論努力の引き下げやセッション管理のバグなど3件の原因を公表した。問題はv2.1.116で修正済みで、すべての加入者に対し使用制限をリセットしたという。

記事全文を読む

AIが気になってること

「推論努力」って何？高いと何が変わるの？

推論努力というのは、AIが回答を生成する前に「考える時間」をどれくらい使うかという設定です。高く設定すれば、複雑な問題をじっくり考え抜いて答える。低く設定すれば、さっさと答えを出す。その代わり、考える時間が短いぶん、答えの質が落ちたり間違える可能性が高まる仕組みですね。記事では、推論努力をhighからmediumに下げたことで、UIのフリーズ（待ち時間の長さ）を減らそうとしていました。つまり、ユーザーの待ち時間を短くするために、質を落とす方向にシフトしたわけです。でもこれが「誤ったトレードオフ」だったと同社は認めている。ユーザーからは「簡単なタスクなら低くていいけど、本気の作業なら高い知能がほしい」という声が上がったんでしょう。興味深いのは、AIの性能は変わってないのに、その「考え方」の調整だけで体験がここまで変わるという点です。同じ脳でも、考える時間が足りないとうっかりミスが増えるのと同じ感覚。結局、ユーザーは速さより質を取ったということになりそうです。

AIAIからの回答

推論努力というのは、AIが回答を生成する前に「考える時間」をどれくらい使うかという設定です。高く設定すれば、複雑な問題をじっくり考え抜いて答える。低く設定すれば、さっさと答えを出す。その代わり、考える時間が短いぶん、答えの質が落ちたり間違える可能性が高まる仕組みですね。

記事では、推論努力をhighからmediumに下げたことで、UIのフリーズ（待ち時間の長さ）を減らそうとしていました。つまり、ユーザーの待ち時間を短くするために、質を落とす方向にシフトしたわけです。でもこれが「誤ったトレードオフ」だったと同社は認めている。ユーザーからは「簡単なタスクなら低くていいけど、本気の作業なら高い知能がほしい」という声が上がったんでしょう。

興味深いのは、AIの性能は変わってないのに、その「考え方」の調整だけで体験がここまで変わるという点です。同じ脳でも、考える時間が足りないとうっかりミスが増えるのと同じ感覚。結局、ユーザーは速さより質を取ったということになりそうです。

まだ回答がありません

ログインすると、回答を投稿できます

Claude Codeを使ってる人って、この1カ月間、実際にコード生成の精度が落ちてるのを感じてたの？

記事だけからは、実際のユーザーが感じていたリアルな劣化の程度を知ることはできません。ただ、Anthropic の説明を読むと、その劣化が「一貫性のない」ものだったという点が重要です。 3月から4月にかけて、推論努力の低下、セッション管理のバグ、システムプロンプト変更が異なるタイミングでロールアウトされ、異なるモデルに異なる影響を与えていたわけです。つまり、ユーザーによって体験がまばらだったはずなんですよね。「最近なんだか変だな」と感じる人がいれば、「気のせい？」と思う人もいたかもしれない。むしろ興味深いのは、Anthropic が「ユーザーから報告を受けた」と明記している点です。会社側が気づく前に、実際に使ってた人たちが「あれ、おかしくね？」と声を上げたということ。その声がなければ、このバグは引き続き放置されていた可能性も高い。つまり、感度の高いユーザーは確実に感じていたと言えそうです。

AIAIからの回答

記事だけからは、実際のユーザーが感じていたリアルな劣化の程度を知ることはできません。ただ、Anthropic の説明を読むと、その劣化が「一貫性のない」ものだったという点が重要です。

3月から4月にかけて、推論努力の低下、セッション管理のバグ、システムプロンプト変更が異なるタイミングでロールアウトされ、異なるモデルに異なる影響を与えていたわけです。つまり、ユーザーによって体験がまばらだったはずなんですよね。「最近なんだか変だな」と感じる人がいれば、「気のせい？」と思う人もいたかもしれない。

むしろ興味深いのは、Anthropic が「ユーザーから報告を受けた」と明記している点です。会社側が気づく前に、実際に使ってた人たちが「あれ、おかしくね？」と声を上げたということ。その声がなければ、このバグは引き続き放置されていた可能性も高い。つまり、感度の高いユーザーは確実に感じていたと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

なぜ3月や4月にこんなに立て続けに変更を重ねてたの？ユーザーからの指摘を受けるたびに急いで調整してた感じなの？

記事から直接的には分かりませんが、背景を補えば、Claude Codeは比較的新しいサービスだからこその事情があるのかもしれません。推論努力の引き下げは「UIがフリーズしたように見えるほどの遅延」を解決するためで、これはユーザーの基本的な満足度に直結する問題です。セッション管理のバグ修正も、使い心地に絡む。こうした改善は、早期段階のプロダクトほど頻繁に積み重なる傾向があります。ただし記事で興味深いのは、その改善がときに悪い副作用を生んでいた点。「遅延を減らすため」という目的が、かえってコーディング品質を損なわせていた。つまり、複数の目標のバランスを取るのが難しい状態だったと言えそうです。記事の後半、再発防止策で「ソーク期間の設定や段階的なロールアウト」を挙げている点が象徴的です。これは「変更を全員に一気に適用せず、まず一部で試してから広げる」という、プロダクトが成熟するほど必須になるプロセスを、やっと組織的に導入しようとしている段階にあるということ。つまりは、スピード優先で進んでいた時期を反省して、検証プロセスを整備している途中なのかもしれません。

AIAIからの回答

記事から直接的には分かりませんが、背景を補えば、Claude Codeは比較的新しいサービスだからこその事情があるのかもしれません。

推論努力の引き下げは「UIがフリーズしたように見えるほどの遅延」を解決するためで、これはユーザーの基本的な満足度に直結する問題です。セッション管理のバグ修正も、使い心地に絡む。こうした改善は、早期段階のプロダクトほど頻繁に積み重なる傾向があります。

ただし記事で興味深いのは、その改善がときに悪い副作用を生んでいた点。「遅延を減らすため」という目的が、かえってコーディング品質を損なわせていた。つまり、複数の目標のバランスを取るのが難しい状態だったと言えそうです。

記事の後半、再発防止策で「ソーク期間の設定や段階的なロールアウト」を挙げている点が象徴的です。これは「変更を全員に一気に適用せず、まず一部で試してから広げる」という、プロダクトが成熟するほど必須になるプロセスを、やっと組織的に導入しようとしている段階にあるということ。つまりは、スピード優先で進んでいた時期を反省して、検証プロセスを整備している途中なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これって『速度と精度のバランスを取るのが難しい』という、AIサービス全般が抱える根本的な課題を映してるってこと？

その通りなんですよね。Claude Codeの1カ月間の低下は、一見すると「ユーザー体験設計の失敗」に見えますが、実はもっと根深い構造を露呈させてるんです。推論努力をhighからmediumに落とした理由が「UIがフリーズしたように見える」という遅延軽減だったのは象徴的。AIサービスは、より頭のいい回答をするには時間がかかる、でもユーザーは待たされるのが嫌という相反する要求に常に直面してます。簡単に言えば「賢さ」と「速さ」は基本的にトレードオフの関係。ただAnthropicが気づいてるのは、このジレンマに一律の答えはないってこと。だからこそ彼らは「デフォルトは高い知能、簡単なタスクでは低く」という段階的なアプローチに戻した。つまり根本的な解決じゃなく「うまく使い分ける仕組み」を探ってるわけです。再発防止策でシステムプロンプトの変更を厳密にレビューするとか、段階的ロールアウトを重視するのも、その裏返し。AIの品質低下は往々にして「全員に等しく悪くなる」のではなく「誰かには改善が、別の誰かには改悪が起きている」という非対称性を生むから、その検知と調整が極めて難しい領域なんだと言えそうです。

AIAIからの回答

その通りなんですよね。Claude Codeの1カ月間の低下は、一見すると「ユーザー体験設計の失敗」に見えますが、実はもっと根深い構造を露呈させてるんです。

推論努力をhighからmediumに落とした理由が「UIがフリーズしたように見える」という遅延軽減だったのは象徴的。AIサービスは、より頭のいい回答をするには時間がかかる、でもユーザーは待たされるのが嫌という相反する要求に常に直面してます。簡単に言えば「賢さ」と「速さ」は基本的にトレードオフの関係。

ただAnthropicが気づいてるのは、このジレンマに一律の答えはないってこと。だからこそ彼らは「デフォルトは高い知能、簡単なタスクでは低く」という段階的なアプローチに戻した。つまり根本的な解決じゃなく「うまく使い分ける仕組み」を探ってるわけです。

再発防止策でシステムプロンプトの変更を厳密にレビューするとか、段階的ロールアウトを重視するのも、その裏返し。AIの品質低下は往々にして「全員に等しく悪くなる」のではなく「誰かには改善が、別の誰かには改悪が起きている」という非対称性を生むから、その検知と調整が極めて難しい領域なんだと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

セッション管理のバグで『毎ターン古い思考が削除される』って、人間で言うと『毎回、直前の会話を忘れちゃう』みたいなことだけど、なぜそこまで気づくのに2週間かかったの？

セッション管理のバグが2週間気づかれなかったのは、おそらく「障害」と「性能」の線引きがあいまいだからなんだと思います。毎ターン思考が削除される——これは確かに明らかなバグなんですが、ユーザー側からすると「応答が遅い」「同じ質問を何度もしている」という、設定や使い方の問題に見えやすいんですよね。実際、3月26日の変更自体が「セッション再開の遅延軽減」という正当な理由。だから最初は意図通りに動いていると思い込みやすい。バグで毎ターン削除されるようになった後も、「アイドル時間の処理が厳しくなった」くらいの認識で済まされる可能性がある。何より、Claude Codeは複雑なコード生成ツール。同じミスが繰り返されたり、思考が短くなったりしても、「このタスクが難しいから」と解釈されうる余地がある。バグと性能低下の違いを、ユーザーの報告だけから切り分けるのは思ったより難しいのかもしれません。記事では「調査を行なった」とだけ書かれていますが、おそらく大量のログを分析して初めて「毎ターン」という規則性に気づいた、という流れなんでしょう。

AIAIからの回答

セッション管理のバグが2週間気づかれなかったのは、おそらく「障害」と「性能」の線引きがあいまいだからなんだと思います。

毎ターン思考が削除される——これは確かに明らかなバグなんですが、ユーザー側からすると「応答が遅い」「同じ質問を何度もしている」という、設定や使い方の問題に見えやすいんですよね。

実際、3月26日の変更自体が「セッション再開の遅延軽減」という正当な理由。だから最初は意図通りに動いていると思い込みやすい。バグで毎ターン削除されるようになった後も、「アイドル時間の処理が厳しくなった」くらいの認識で済まされる可能性がある。

何より、Claude Codeは複雑なコード生成ツール。同じミスが繰り返されたり、思考が短くなったりしても、「このタスクが難しいから」と解釈されうる余地がある。バグと性能低下の違いを、ユーザーの報告だけから切り分けるのは思ったより難しいのかもしれません。

記事では「調査を行なった」とだけ書かれていますが、おそらく大量のログを分析して初めて「毎ターン」という規則性に気づいた、という流れなんでしょう。

まだ回答がありません

ログインすると、回答を投稿できます