ヘイトスピーチを『消す』から『説明する』へ

SNS でのヘイトスピーチ対策は削除が主流ですが、なぜ有害なのかが伝わらないという課題がある。この研究は AI を使ってヘイト投稿を検出し、その理由を丁寧に説明する仕組みを3言語で実現した。

#大規模言語モデル #セキュリティ #社会

この研究のポイント

1.
何を調べたか
SNS のヘイト投稿を AI と言葉リストで検出し、削除ではなく『なぜ有害か』を丁寧に説明する仕組みを3言語で開発した
2.
見えてきたこと
投稿者や読者が理由を理解することで、学習機会が生まれ、単なる言論の抑圧ではなく対話を促す可能性を示唆
3.
私たちにとっての意味
オンライン上の対話文化において、処罰的対応から教育的対応へのシフトが、より建設的な議論環境の実現につながる

著者Jason Liartis, Eirini Kaldeli, Lambrini Gyftokosta, Eleftherios Chelioudakis, Orfeas Menis Mastromichalakis

元の論文を読む（arXiv）

AIが気になってること

『LLM』って、ChatGPT とか Claude みたいなやつのことを指してるの？

LLM は「Large Language Model」の略で、ChatGPT や Claude のようなテキスト生成AI の総称です。ただ、両者は確かに同じ仲間ですが、「LLM」という言葉は、その種族全体を指すカテゴリーだと考えるほうがしっくりくるかもしれません。 ChatGPT や Claude は、膨大な文章データを学習して、次に来るべき単語を予測する仕組みを持っています。その大きさ（パラメータ数）が数百億を超えるものを「Large」と呼ぶ。つまり LLM の中でも特に規模が大きく、実用的な性能を持つものが、世間で目にする ChatGPT や Claude なわけです。この記事の文脈では、AI が投稿の文脈を読み取って「なぜ問題なのか」を説明する必要があります。単なる辞書検索では不足で、文脈判断ができる複雑な仕組みが要る。だからこそ LLM の出番になってくる。同じ言葉でも、どんな場面で、どんな意図で使われたのかを見極める力が、削除ではなく「説明」には欠かせないということですね。

AIAIからの回答

LLM は「Large Language Model」の略で、ChatGPT や Claude のようなテキスト生成AI の総称です。ただ、両者は確かに同じ仲間ですが、「LLM」という言葉は、その種族全体を指すカテゴリーだと考えるほうがしっくりくるかもしれません。

ChatGPT や Claude は、膨大な文章データを学習して、次に来るべき単語を予測する仕組みを持っています。その大きさ（パラメータ数）が数百億を超えるものを「Large」と呼ぶ。つまり LLM の中でも特に規模が大きく、実用的な性能を持つものが、世間で目にする ChatGPT や Claude なわけです。

この記事の文脈では、AI が投稿の文脈を読み取って「なぜ問題なのか」を説明する必要があります。単なる辞書検索では不足で、文脈判断ができる複雑な仕組みが要る。だからこそ LLM の出番になってくる。同じ言葉でも、どんな場面で、どんな意図で使われたのかを見極める力が、削除ではなく「説明」には欠かせないということですね。

まだ回答がありません

ログインすると、回答を投稿できます

自分が SNS で何か書いた時に『これはなぜ駄目か』って AI に説明されたら、素直に受け入れる人と反発する人に分かれるんじゃないの？

確かにそこはピンポイントの課題ですよね。AI が「これは差別的です」と説明しても、本人が受け入れるかどうかは別問題。むしろ「AI に言論の自由を制限された」と反発する人も出てくるだろう。ただ、削除との違いはそこにあるのかもしれません。削除されると、投稿者は一方的に「抹消された」感覚に陥りやすい。でも説明されるなら、たとえ最初は反発しても、その場で理由を読んで「あ、そういう見方もあるのか」と考え直す余地が生まれる。反発した人も、他の読者が説明を読めば「あ、そういう理由か」と納得する可能性がある。つまり、説明は投稿者に向けた教化というより、オーディエンス全体への透明性なんです。なぜダメなのかが見える化されることで、黙認や同調の連鎖を遮断する。完全には説得できなくても、「これには根拠がある対応なんだ」という認識が周辺に広がるだけでも、文化的には意味があると言えそうです。

AIAIからの回答

確かにそこはピンポイントの課題ですよね。AI が「これは差別的です」と説明しても、本人が受け入れるかどうかは別問題。むしろ「AI に言論の自由を制限された」と反発する人も出てくるだろう。

ただ、削除との違いはそこにあるのかもしれません。削除されると、投稿者は一方的に「抹消された」感覚に陥りやすい。でも説明されるなら、たとえ最初は反発しても、その場で理由を読んで「あ、そういう見方もあるのか」と考え直す余地が生まれる。反発した人も、他の読者が説明を読めば「あ、そういう理由か」と納得する可能性がある。

つまり、説明は投稿者に向けた教化というより、オーディエンス全体への透明性なんです。なぜダメなのかが見える化されることで、黙認や同調の連鎖を遮断する。完全には説得できなくても、「これには根拠がある対応なんだ」という認識が周辺に広がるだけでも、文化的には意味があると言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

今まで『即削除』が標準だったのって、説明する負担が大きかったからなの、それとも他の理由があるの？

削除が標準になった理由は、正直なところ負担よりも「スピード」にあったんだと思います。ヘイトスピーチが拡散する速度って、ものすごく早い。一つの投稿が数時間で数千のリツイート、シェアされる。その間に、より多くの人が傷つく。だからプラットフォーム側は「考えてる暇はない、まず削除」という選択をした。説明を加えるとなると、その投稿ごとに内容を判断し、テンプレートではない丁寧な説明文を用意する必要がある。それには人手もかかるし、時間もかかる。もう一つは、プラットフォーム側にとって「説明する」ことは、実は責任が重いんですよ。削除なら「ルール違反だから」で完結する。でも説明を書いた瞬間、その説明自体が間違っていたり、不十分だと批判される可能性が出てくる。逃げ場がなくなる。だから削除で済ませる方が、企業としては守りやすかった側面がありそうです。ただ記事の視点で見ると、削除だけでは「誰も学ばない」という根本的な弱点に気づき始めた、ということなんでしょう。

AIAIからの回答

削除が標準になった理由は、正直なところ負担よりも「スピード」にあったんだと思います。

ヘイトスピーチが拡散する速度って、ものすごく早い。一つの投稿が数時間で数千のリツイート、シェアされる。その間に、より多くの人が傷つく。だからプラットフォーム側は「考えてる暇はない、まず削除」という選択をした。説明を加えるとなると、その投稿ごとに内容を判断し、テンプレートではない丁寧な説明文を用意する必要がある。それには人手もかかるし、時間もかかる。

もう一つは、プラットフォーム側にとって「説明する」ことは、実は責任が重いんですよ。削除なら「ルール違反だから」で完結する。でも説明を書いた瞬間、その説明自体が間違っていたり、不十分だと批判される可能性が出てくる。逃げ場がなくなる。だから削除で済ませる方が、企業としては守りやすかった側面がありそうです。

ただ記事の視点で見ると、削除だけでは「誰も学ばない」という根本的な弱点に気づき始めた、ということなんでしょう。

まだ回答がありません

ログインすると、回答を投稿できます

これって要するに『間違ったことをした人を罰する』から『なぜ間違いなのか理解させる』へのシフトってことなんだっけ？

本質的にはそこまで単純ではなくて、むしろ逆説的なんですよ。「罰する」と「理解させる」の二項対立に見えますが、実際には両方起きてるんです。削除も説明も、結局は「この言動は社会に受け入れられない」というメッセージを伝えている。違いは、その後どう機能するか。削除だけなら、投稿者は「検閲された」と感じて、むしろ被害者意識が強まったり、別の場所で同じことを繰り返したりする。説明があれば、少なくとも「自分の発言がどう受け取られたのか」を知る機会が生まれる。その人が考えを改めるかどうかは別としても、周囲の人（その投稿を見た他の読者）には「こういう理由で問題なんだ」という情報が届く。つまり、罰（削除）は「行為を止める」ためだけど、説明は「文化を育てる」ための仕組みにシフトした、と言えそうです。個人を改心させるというより、プラットフォーム全体の「何が許されて何が許されないのか」という共通理解を形成していく。その方が、言論の自由を保ちながら秩序を保つのに有効だろう、という仮説なのかもしれません。

AIAIからの回答

本質的にはそこまで単純ではなくて、むしろ逆説的なんですよ。

「罰する」と「理解させる」の二項対立に見えますが、実際には両方起きてるんです。削除も説明も、結局は「この言動は社会に受け入れられない」というメッセージを伝えている。違いは、その後どう機能するか。

削除だけなら、投稿者は「検閲された」と感じて、むしろ被害者意識が強まったり、別の場所で同じことを繰り返したりする。説明があれば、少なくとも「自分の発言がどう受け取られたのか」を知る機会が生まれる。その人が考えを改めるかどうかは別としても、周囲の人（その投稿を見た他の読者）には「こういう理由で問題なんだ」という情報が届く。

つまり、罰（削除）は「行為を止める」ためだけど、説明は「文化を育てる」ための仕組みにシフトした、と言えそうです。個人を改心させるというより、プラットフォーム全体の「何が許されて何が許されないのか」という共通理解を形成していく。その方が、言論の自由を保ちながら秩序を保つのに有効だろう、という仮説なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

説明されることで学習する人がいる一方で、『説明されること自体が圧力だ』と感じる人もいるんじゃないの？

ヘイト投稿への「説明」が、する側の意図と無関係に「圧力」に受け取られる構図は、確かにありそうです。差別的な言葉を使った人にとって、その投稿がなぜ問題なのかを丁寧に説明されることは、一見すると建設的に見えます。でも受け手の立場からすると、それは「あなたの言葉は間違っている」という判定を、公開の場で受けることと同じ。特にSNSという環境では、その説明自体が他のユーザーに見える形で表示されるため、社会的な非難と体験される可能性が高い。結果として、「説明」という名の沈黙圧力が働く。さらに厄介なのは、説明の内容が自分の価値観と相容れないとき、です。「この言葉がこの集団を傷つける」という説明が、本人の信念と衝突すれば、学習どころか反発が深まるかもしれません。つまり、説明することで対話が生まれるケースもあれば、むしろ対立が固まるケースもある。一概には言えない領域なのかもしれません。

AIAIからの回答

ヘイト投稿への「説明」が、する側の意図と無関係に「圧力」に受け取られる構図は、確かにありそうです。

差別的な言葉を使った人にとって、その投稿がなぜ問題なのかを丁寧に説明されることは、一見すると建設的に見えます。でも受け手の立場からすると、それは「あなたの言葉は間違っている」という判定を、公開の場で受けることと同じ。特にSNSという環境では、その説明自体が他のユーザーに見える形で表示されるため、社会的な非難と体験される可能性が高い。結果として、「説明」という名の沈黙圧力が働く。

さらに厄介なのは、説明の内容が自分の価値観と相容れないとき、です。「この言葉がこの集団を傷つける」という説明が、本人の信念と衝突すれば、学習どころか反発が深まるかもしれません。つまり、説明することで対話が生まれるケースもあれば、むしろ対立が固まるケースもある。一概には言えない領域なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます