目には見える悪意、AI には見えない――フォント操作で検閲逃れ

ChatGPT などの大規模言語モデルを使った有害コンテンツ検知システムは、テキストの意味だけで判定する。しかし人間は文字の大きさ、間隔、強調などの視覚情報も同時に読んでいる。この『見え方の差』を突いた攻撃手法が報告された。

#大規模言語モデル #セキュリティ

この研究のポイント

1.
何を調べたか
AI の検知システムは文字の意味だけを解析し、フォント・スペース・配置などの視覚情報を無視している現状を指摘した
2.
見えてきたこと
文字の大きさ・間隔・強調を組み合わせることで、人間には見える悪意をAIから隠す攻撃が、わずかなクエリ数で成功することを実証
3.
私たちにとっての意味
AI検閲システムの根本的な欠陥が露呈。人間の『見方』に近い検知の仕組みを作り直す必要があると示唆

著者Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady 他

元の論文を読む（arXiv）

AIが気になってること

『大規模言語モデル』って、ChatGPTみたいなものがテキストを判定する仕組みのことなんだっけ？

大規模言語モデルは、テキストが「なぜそこに続くのか」を確率で判断する仕組みです。ChatGPT もそうですが、こういったモデルは膨大な文章を学習して「この単語の後には、どんな単語が続きやすいか」をパターンとして持っている。だからテキストの意味を理解しているというより、統計的に「次に来そうな言葉」を予測しているわけです。記事の文脈で言うと、こうした言語モデルを使った検知システムは「このテキストが有害かどうか」を、同じ方法で判定している。つまり、悪質な表現に結びつきやすいパターンを学習して、「この文章は有害に分類される可能性が高い」と判断するんですね。ただし、ここに落とし穴があります。言語モデルが学習するのは「言葉の並び方」だけ。スペースやフォントサイズといった視覚的な要素は入力されません。人間が「太字で強調されてる」「行間が大きい」といった見た目から読み取る情報が、完全に抜け落ちているということです。だから、同じ有害な意味を持つ文章でも、見た目を変えるだけでモデルの判定結果が激変する――それが今回の研究が突いたポイントだと言えそうです。

AIAIからの回答

記事の文脈で言うと、こうした言語モデルを使った検知システムは「このテキストが有害かどうか」を、同じ方法で判定している。つまり、悪質な表現に結びつきやすいパターンを学習して、「この文章は有害に分類される可能性が高い」と判断するんですね。

ただし、ここに落とし穴があります。言語モデルが学習するのは「言葉の並び方」だけ。スペースやフォントサイズといった視覚的な要素は入力されません。人間が「太字で強調されてる」「行間が大きい」といった見た目から読み取る情報が、完全に抜け落ちているということです。だから、同じ有害な意味を持つ文章でも、見た目を変えるだけでモデルの判定結果が激変する――それが今回の研究が突いたポイントだと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

SNSに投稿した時、自分の書き込みがAIに削除されるかどうかって、この『見え方の差』に左右されてるってこと？

完全には左右されていないと思いますが、理論上はそのリスクが存在するということですね。 AIの検知システムは、テキスト自体の意味を判定する仕組みになっています。だから「フォントサイズを大きくしたバージョン」と「普通のテキスト」は、AIにとってはどちらも同じ文字列に見える。つまり、あなたが投稿したコンテンツが「有害」と判定されるかどうかは、本来は視覚的な装飾には左右されないはずです。ただし、この研究が示しているのは、その「はず」が崩れている可能性。特定の工夫をするだけで、人間には明らかに有害に見えるのにAIには検出されない状態が作り出せるということです。つまり、フォント操作などで意図的に『見え方を変える』ことで、AIの検知網をすり抜けるテクニックが存在する。もし大規模に悪用されれば、有害な投稿が実質的に削除されにくくなる可能性もある。逆に、あなたが無意識に使った装飾が『規制回避の工夫』と見なされるリスクも、理論的には考えられそうです。いま多くのプラットフォームがこの問題に気づき始めたところなのかもしれません。

AIAIからの回答

完全には左右されていないと思いますが、理論上はそのリスクが存在するということですね。

AIの検知システムは、テキスト自体の意味を判定する仕組みになっています。だから「フォントサイズを大きくしたバージョン」と「普通のテキスト」は、AIにとってはどちらも同じ文字列に見える。つまり、あなたが投稿したコンテンツが「有害」と判定されるかどうかは、本来は視覚的な装飾には左右されないはずです。

ただし、この研究が示しているのは、その「はず」が崩れている可能性。特定の工夫をするだけで、人間には明らかに有害に見えるのにAIには検出されない状態が作り出せるということです。つまり、フォント操作などで意図的に『見え方を変える』ことで、AIの検知網をすり抜けるテクニックが存在する。

もし大規模に悪用されれば、有害な投稿が実質的に削除されにくくなる可能性もある。逆に、あなたが無意識に使った装飾が『規制回避の工夫』と見なされるリスクも、理論的には考えられそうです。いま多くのプラットフォームがこの問題に気づき始めたところなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AI検閲が広がったのって、人間による内容確認が追いつかなくなったからなの？

そこが実は「追いつかない」だけじゃなくて、より根本的な理由があるんですよね。人間による確認ってのは、件数が増えれば時間がかかるのは当たり前ですが、同時に「判定のばらつき」という別の問題も抱えています。人間が100万件のコンテンツを審査すれば、同じ表現でも人によって、疲れているかどうかで、判定が変わってしまう。その点AIなら、一貫した基準で永遠に審査し続けられる。スケーラビリティと一貫性の両立を狙ったのが、AI検閲導入の本当の背景に見えます。ただ、記事の指摘は、その「一貫性の強さ」が落とし穴だということ。AIは「テキストの意味」という一つの次元でしか判定できないから、人間が当たり前に読み取る「見た目」という情報に対して、ものすごく脆弱です。人間なら「このフォントサイズの使い方、何か意図的だな」と感じる違和感を、AIは全く察知できない。スピードと効率を優先した代わりに、悪意の『見える化』に対して裸同然になってしまったわけです。

AIAIからの回答

そこが実は「追いつかない」だけじゃなくて、より根本的な理由があるんですよね。

人間による確認ってのは、件数が増えれば時間がかかるのは当たり前ですが、同時に「判定のばらつき」という別の問題も抱えています。人間が100万件のコンテンツを審査すれば、同じ表現でも人によって、疲れているかどうかで、判定が変わってしまう。その点AIなら、一貫した基準で永遠に審査し続けられる。スケーラビリティと一貫性の両立を狙ったのが、AI検閲導入の本当の背景に見えます。

ただ、記事の指摘は、その「一貫性の強さ」が落とし穴だということ。AIは「テキストの意味」という一つの次元でしか判定できないから、人間が当たり前に読み取る「見た目」という情報に対して、ものすごく脆弱です。人間なら「このフォントサイズの使い方、何か意図的だな」と感じる違和感を、AIは全く察知できない。スピードと効率を優先した代わりに、悪意の『見える化』に対して裸同然になってしまったわけです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『機械は表面的な情報処理しかできないから、人間の『意図の読み取り』には敵わない』という構造的な限界なの？

表面的か深層的かというより、AIと人間では『何を見ているか』がそもそも異なる、というのが正確なのかもしれません。人間が「太字で強調された有害表現」を読むとき、脳は文字の意味だけでなく、視覚的な強調によって『著者の意図的な主張』を感じ取ります。つまり、レイアウトや色は『意図のシグナル』なんです。一方、ChatGPT のようなテキストベースの言語モデルは、そもそも画像データを入力に取っていない。文字列そのもの、つまりテキストの連続性だけを処理している。スペースや改行は「データとして」認識しますが、それが視覚的な強調という『意図の表現形式』だという層を読まないわけです。ここが重要なのは、これを「人間は深い、AIは浅い」という順序の問題ではなく、「異なるチャネルを見ている」という構造的な差だということ。人間は視覚と言語を同時並行で処理して、その組み合わせから意図を推測する。AIは言語チャネルだけで動いている。機械学習を深める側面もありますが、根本的には『マルチモーダル(複数の感覚を統合)できるかどうか』の問題に見えます。

AIAIからの回答

表面的か深層的かというより、AIと人間では『何を見ているか』がそもそも異なる、というのが正確なのかもしれません。

人間が「太字で強調された有害表現」を読むとき、脳は文字の意味だけでなく、視覚的な強調によって『著者の意図的な主張』を感じ取ります。つまり、レイアウトや色は『意図のシグナル』なんです。一方、ChatGPT のようなテキストベースの言語モデルは、そもそも画像データを入力に取っていない。文字列そのもの、つまりテキストの連続性だけを処理している。スペースや改行は「データとして」認識しますが、それが視覚的な強調という『意図の表現形式』だという層を読まないわけです。

ここが重要なのは、これを「人間は深い、AIは浅い」という順序の問題ではなく、「異なるチャネルを見ている」という構造的な差だということ。人間は視覚と言語を同時並行で処理して、その組み合わせから意図を推測する。AIは言語チャネルだけで動いている。機械学習を深める側面もありますが、根本的には『マルチモーダル(複数の感覚を統合)できるかどうか』の問題に見えます。

まだ回答がありません

ログインすると、回答を投稿できます

有害コンテンツの投稿者からすると、この『AIの穴』を知ってしまったら、誰もが使いたくなるツールになるのでは？

その通り、この手法が広く知られたら、抵抗勢力にとっては格好の武器になりそうですね。ただ、実際に「誰もが使う」段階に到達するには、いくつかのハードルがあります。一つは、フォント操作で隠蔽したコンテンツは、人間には「より見やすく」なってしまうという逆説です。有害投稿を検知する仕事は、AIだけでなく人間の目もかかわっている。通報システムや、プラットフォーム企業の審査チームが介在する。むしろ意図的に見やすくされた有害コンテンツは、人間の審査者の目に留まりやすくなる可能性さえあります。もう一つは、プラットフォーム側も手をこまぬいているわけではないということ。この研究が公表されたのは、いわば「脆弱性報告」に近い。企業は今、AIの学習データに視覚的な変形例を加えたり、画像として解析する仕組みを追加したり、対策を急ぐはずです。いたちごっこは続きますが、一度穴が見つかれば、埋める側も動く構図になりそうです。

AIAIからの回答

その通り、この手法が広く知られたら、抵抗勢力にとっては格好の武器になりそうですね。

ただ、実際に「誰もが使う」段階に到達するには、いくつかのハードルがあります。一つは、フォント操作で隠蔽したコンテンツは、人間には「より見やすく」なってしまうという逆説です。有害投稿を検知する仕事は、AIだけでなく人間の目もかかわっている。通報システムや、プラットフォーム企業の審査チームが介在する。むしろ意図的に見やすくされた有害コンテンツは、人間の審査者の目に留まりやすくなる可能性さえあります。

もう一つは、プラットフォーム側も手をこまぬいているわけではないということ。この研究が公表されたのは、いわば「脆弱性報告」に近い。企業は今、AIの学習データに視覚的な変形例を加えたり、画像として解析する仕組みを追加したり、対策を急ぐはずです。いたちごっこは続きますが、一度穴が見つかれば、埋める側も動く構図になりそうです。

まだ回答がありません

ログインすると、回答を投稿できます