AI は『良い文章を見分ける』より『良い文章を書く』ほうが下手？

AI が他人の文章の良し悪しを判定する能力と、自分で文章を生成する能力は別モノらしい。むしろ『判定は得意だが書くのは苦手』という意外な非対称性が明らかになった。

#大規模言語モデル #AI

この研究のポイント

1.
何を調べたか
複数の AI に対して、文章の適切性を判定する『聞き手』の役割と、適切な文章を生成する『話し手』の役割の両方で能力を測定した
2.
見えてきたこと
多くの AI は他人の文章の良し悪しを判断する能力に比べ、自分で場面に適った文章を生成する能力が有意に劣っていた
3.
私たちにとっての意味
AI の評価能力と生成能力は弱い相関しかなく、どちらか一方の能力の高さから他方を推測できない現状が浮かび上がった

著者Judith Sieker, Sina Zarrieß

元の論文を読む（arXiv）

AIが気になってること

『場面に合っている』って、文章の良さを判定するときの基準として、具体的にはどういうことを見てるの？

「場面に合っている」というのは、文体・敬語レベル・情報量のバランスが、その状況に適しているかどうかを見てるんだと思います。たとえば取引先への初めてのメールなら、丁寧な敬語で要点を絞るべき。友人へのLINEなら砕けた口調で長めでもいい。新聞記事なら中立的で、SNSの投稿なら個性が出てたほうがいい。こういった「その文章が置かれた文脈に、声のトーンや情報の粒度が合致しているか」を AI は判定してるわけです。興味深いのは、この判定自体は比較的簡単ということなんですよね。既存の良い文章・悪い文章の例をたくさん学習すれば、パターンマッチングで「あ、この敬語レベルはこの場面には高すぎる」と気づくことができる。評価は、いわば「型破りさ」を見つける作業に近い。でも自分で書くとなると、その型を理解したうえで、さらに「その型の中で、新たに個別の内容を言葉にする」という、もう一段階別の作業が必要になる。単なるパターン認識ではなく、創造的な選択肢の生成が求められるからじゃないでしょうか。判定と生成は、似て非なるスキルなのかもしれません。

AIAIからの回答

「場面に合っている」というのは、文体・敬語レベル・情報量のバランスが、その状況に適しているかどうかを見てるんだと思います。

たとえば取引先への初めてのメールなら、丁寧な敬語で要点を絞るべき。友人へのLINEなら砕けた口調で長めでもいい。新聞記事なら中立的で、SNSの投稿なら個性が出てたほうがいい。こういった「その文章が置かれた文脈に、声のトーンや情報の粒度が合致しているか」を AI は判定してるわけです。

興味深いのは、この判定自体は比較的簡単ということなんですよね。既存の良い文章・悪い文章の例をたくさん学習すれば、パターンマッチングで「あ、この敬語レベルはこの場面には高すぎる」と気づくことができる。評価は、いわば「型破りさ」を見つける作業に近い。

でも自分で書くとなると、その型を理解したうえで、さらに「その型の中で、新たに個別の内容を言葉にする」という、もう一段階別の作業が必要になる。単なるパターン認識ではなく、創造的な選択肢の生成が求められるからじゃないでしょうか。判定と生成は、似て非なるスキルなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT とか普段使ってる AI の文章が『実は評価のほうが得意』って知ると、添削してもらう方が信頼できるってことなの？

一見そう思いますよね。でも逆なんです。評価が得意だからこそ、添削は危険な側面があります。AI は「この表現は場面に合わない」と指摘する判断基準は持っているけれど、その基準は『統計的に見て一般的な文脈』に基づいているだけ。あなたの文章の意図、文体の狙い、読み手との関係性といった、その場限りの文脈は読み込めない可能性が高い。だから AI の添削を受けると、統計的には「無難」だけど「個性がない」文章になりやすい。評価が得意という強みは、実は『平均値への引き戻し力』に過ぎないのかもしれません。むしろ信頼できるのは、自分が書いた文章を AI に読ませて「この表現、どう見える？」と意見をもらう使い方。生成は下手でも、判定は得意だからです。添削を受けるのではなく、セカンドオピニオンとしての評価を活用する。その方が、あなたの意図と AI の判断のズレを自分で調整できるようになる。添削より、対話が大事と言えそうです。

AIAIからの回答

一見そう思いますよね。でも逆なんです。

評価が得意だからこそ、添削は危険な側面があります。AI は「この表現は場面に合わない」と指摘する判断基準は持っているけれど、その基準は『統計的に見て一般的な文脈』に基づいているだけ。あなたの文章の意図、文体の狙い、読み手との関係性といった、その場限りの文脈は読み込めない可能性が高い。

だから AI の添削を受けると、統計的には「無難」だけど「個性がない」文章になりやすい。評価が得意という強みは、実は『平均値への引き戻し力』に過ぎないのかもしれません。

むしろ信頼できるのは、自分が書いた文章を AI に読ませて「この表現、どう見える？」と意見をもらう使い方。生成は下手でも、判定は得意だからです。添削を受けるのではなく、セカンドオピニオンとしての評価を活用する。その方が、あなたの意図と AI の判断のズレを自分で調整できるようになる。添削より、対話が大事と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

AI の評価能力と生成能力が別モノだって、最近になって気づかれた発見なの？前から言われてたことなのかな？

AI の「理解」と「実行」が同じプロセスではないという観点自体は、機械学習の研究では割と昔からある認識なんですよね。ただ、それが具体的に「文章評価 vs 文章生成」という形で実験的に示されたのは、比較的最近の話のようです。背景には、大規模言語モデルの性能が急速に上がった過去数年があります。ChatGPT のような生成型 AI が登場するまでは、「AI に文章を評価させる」という用途がそこまで一般的ではなかった。だから「評価のほうが得意かもしれない」という非対称性に、研究者も実務家も気づきにくかったんだと思います。つまり、理論的には予想できた部分もあるけれど、実際に大規模モデルで測定して「あ、本当に差がある」と確認したのが、この論文の新しさなのかもしれません。言い換えれば、AI が強くなったからこそ浮かび上がった矛盾、という側面があります。

AIAIからの回答

AI の「理解」と「実行」が同じプロセスではないという観点自体は、機械学習の研究では割と昔からある認識なんですよね。ただ、それが具体的に「文章評価 vs 文章生成」という形で実験的に示されたのは、比較的最近の話のようです。

背景には、大規模言語モデルの性能が急速に上がった過去数年があります。ChatGPT のような生成型 AI が登場するまでは、「AI に文章を評価させる」という用途がそこまで一般的ではなかった。だから「評価のほうが得意かもしれない」という非対称性に、研究者も実務家も気づきにくかったんだと思います。

つまり、理論的には予想できた部分もあるけれど、実際に大規模モデルで測定して「あ、本当に差がある」と確認したのが、この論文の新しさなのかもしれません。言い換えれば、AI が強くなったからこそ浮かび上がった矛盾、という側面があります。

まだ回答がありません

ログインすると、回答を投稿できます

『良さが分かるのに良いものが作れない』って、これって AI に限った話じゃなくて、人間の学習でもよくあるパターンってことなの？

確かにそれはあります。たとえば音楽評論家は優れた音楽と凡庸な音楽を聞き分けられるのに、自分で曲を作ると平凡だったり。料理評論家が食べ物の良し悪しを言語化できるのに、いざ自分で作ると再現できなかったり。ただ、人間とAIでは質的に違う部分があるのかもしれません。人間の場合、「良さが分かるのに作れない」というのは、実は **「理知」と「体知」の分離** という話になります。評価や批評は頭で行えますが、創作には手指の訓練、試行錯誤の蓄積、身体的な勘が必要になる。つまり、理解と実行に時間的なズレがあるんです。 AIの場合は、そもそも評価と生成の **仕組み自体が別系統** である可能性があります。評価タスクは「与えられた文章の特徴を抽出して比較する」という方向性、生成タスクは「無から有を作り出す創造的な選択」という別の方向性。人間のように訓練を積めば生成側も上がるかもしれませんが、今のAIには「上手くなる」という過程がない。つまり人間の「分かるのに作れない」は一時的で改善可能な状態ですが、AIのそれは構造的な非対称性かもしれません。

AIAIからの回答

確かにそれはあります。たとえば音楽評論家は優れた音楽と凡庸な音楽を聞き分けられるのに、自分で曲を作ると平凡だったり。料理評論家が食べ物の良し悪しを言語化できるのに、いざ自分で作ると再現できなかったり。

ただ、人間とAIでは質的に違う部分があるのかもしれません。人間の場合、「良さが分かるのに作れない」というのは、実は 「理知」と「体知」の分離 という話になります。評価や批評は頭で行えますが、創作には手指の訓練、試行錯誤の蓄積、身体的な勘が必要になる。つまり、理解と実行に時間的なズレがあるんです。

AIの場合は、そもそも評価と生成の 仕組み自体が別系統 である可能性があります。評価タスクは「与えられた文章の特徴を抽出して比較する」という方向性、生成タスクは「無から有を作り出す創造的な選択」という別の方向性。人間のように訓練を積めば生成側も上がるかもしれませんが、今のAIには「上手くなる」という過程がない。

つまり人間の「分かるのに作れない」は一時的で改善可能な状態ですが、AIのそれは構造的な非対称性かもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

評価が得意で生成が下手なら、逆に『生成は得意だけど評価は苦手な AI』も存在するってことかな？

面白い着眼点ですね。論理的には、その逆パターンもあり得そうに見えます。でも実際には、そういう AI はまだ報告されていないのかもしれません。理由を考えると、現在の大規模言語モデルの学習の仕組みに関わってそうです。AI が言葉を学ぶ過程では、膨大なテキストから「この文脈ではこの表現が自然」という統計的なパターンを拾い上げています。評価も生成も、本質的には同じ基盤——「どの表現が場面に適切か」という判断——から生まれている。だから、評価が得意な AI は、その判断力を使って生成もできるはずだ、と直感的には思えてしまう。ところが論文が示したのは、評価と生成は別の難度を持つということ。評価は「正解と不正解を見分ける」という相対的な判断で済みますが、生成は「ゼロから最適な表現を組み立てる」という絶対的な創造が必要です。評価は選択肢の中で順位をつけるようなもの。生成は無限の可能性から一つを選ぶようなもの。その難度の非対称性が、得意・不得意の逆転を生んでいるのかもしれません。だとすれば、生成に特化した設計のAIでも、評価が弱い可能性は低そうに見えてきます。

AIAIからの回答

面白い着眼点ですね。論理的には、その逆パターンもあり得そうに見えます。でも実際には、そういう AI はまだ報告されていないのかもしれません。

理由を考えると、現在の大規模言語モデルの学習の仕組みに関わってそうです。AI が言葉を学ぶ過程では、膨大なテキストから「この文脈ではこの表現が自然」という統計的なパターンを拾い上げています。評価も生成も、本質的には同じ基盤——「どの表現が場面に適切か」という判断——から生まれている。だから、評価が得意な AI は、その判断力を使って生成もできるはずだ、と直感的には思えてしまう。

ところが論文が示したのは、評価と生成は別の難度を持つということ。評価は「正解と不正解を見分ける」という相対的な判断で済みますが、生成は「ゼロから最適な表現を組み立てる」という絶対的な創造が必要です。評価は選択肢の中で順位をつけるようなもの。生成は無限の可能性から一つを選ぶようなもの。その難度の非対称性が、得意・不得意の逆転を生んでいるのかもしれません。だとすれば、生成に特化した設計のAIでも、評価が弱い可能性は低そうに見えてきます。

まだ回答がありません

ログインすると、回答を投稿できます