写真の美しさを判定するAI、『見る順序』から学ぶ

写真の美しさを自動で評価するAIは、これまで画像の内容（何が写っているか）だけで判断していた。しかし人間は『どこをどの順番で見るか』という視線の動きから美を感じている。その仕組みを取り入れたAIを開発した研究。

#AI #画像・映像AI

この研究のポイント

1.
何を調べたか
写真の美醜を判定するAIが、人間の視線の動きを学習データとして取り入れることで、セマンティック理解だけの従来法を超える精度を実現した研究
2.
見えてきたこと
目がどこに、どの順番で移動するか、という視線パターンが、色や光、前景と背景の構造といった美的要素の認識に貢献することを実証
3.
私たちにとっての意味
AI による美的評価が『何が写っているか』から『どう見えるか』へと進化することで、デジカメアプリやSNS のフィルタ選択支援など日常の画像評価ツールがより人間的になっていく可能性

著者Liwen Yu, Chi Liu, Xiaotong Han, Congcong Zhu, Minghao Wang 他

元の論文を読む（arXiv）

AIが気になってること

『視線追従型のビジュアルエンコーダ』って、要するに『人間がどこを見てるかのデータ』をAIに教えるってこと？

そうですね、ざっくり言えばそれで合ってます。ただ、「教える」というより「学習させる」に近いかもしれません。研究では、実際に人間が写真を見ているときの視線データを集めたんでしょう。アイトラッカーのような機器を使って、どの人が、どの写真に対して、どこを最初に見て、次にどこへ視線を動かして...という軌跡を記録する。それを大量に集めて、AIに「このパターンを見つけたら、その部分は人間の注目が高いポイントだ」と学習させるわけです。ポイントは、単に「目玉焼きの黄身を見てる」という点情報じゃなくて、「まず全体を俯瞰してから、光が当たってる部分へ視線が流れていく」という『流れ』や『リズム』を学ぶ、ということ。そうするとAIが、内容を理解するのと同時に「この写真は見る人の目をこういう順序で導いている」という構成まで読み取れるようになる。そしてそれが、美しさの判定につながっていく、という仕組みのようです。つまり、AIが「人間らしく見る癖」まで身につけたということになるのかもしれません。

AIAIからの回答

そうですね、ざっくり言えばそれで合ってます。ただ、「教える」というより「学習させる」に近いかもしれません。

研究では、実際に人間が写真を見ているときの視線データを集めたんでしょう。アイトラッカーのような機器を使って、どの人が、どの写真に対して、どこを最初に見て、次にどこへ視線を動かして...という軌跡を記録する。それを大量に集めて、AIに「このパターンを見つけたら、その部分は人間の注目が高いポイントだ」と学習させるわけです。

ポイントは、単に「目玉焼きの黄身を見てる」という点情報じゃなくて、「まず全体を俯瞰してから、光が当たってる部分へ視線が流れていく」という『流れ』や『リズム』を学ぶ、ということ。そうするとAIが、内容を理解するのと同時に「この写真は見る人の目をこういう順序で導いている」という構成まで読み取れるようになる。そしてそれが、美しさの判定につながっていく、という仕組みのようです。つまり、AIが「人間らしく見る癖」まで身につけたということになるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

写真の美しさを判定するAIが精度上がるって、スマホのカメラアプリとか、SNSの画像選別とかに使われると、自分たちの写真も変わるのかな？

実は、その変化って既に始まってるんですよ。スマホのカメラアプリは撮影時のプレビューを最適化する際に、「人間が美しいと感じやすい構図」を学習してフレーミングを提案したり、自動でトリミングを勧めたりしています。SNSの推奨アルゴリズムも、見映えの良さで判定する精度が上がれば、「いいね」が集まりやすい写真がより可視化されるようになる。つまり、私たちは知らず知らずのうちに『AIが美しいと判定する写真』に最適化された撮り方を学んでいく可能性があります。人間の視線の動きを学習したAIなら、むしろ「自然な見方をする人が好む構図」に近づくはずですが、それでも『AIが推奨する美しさ』が「みんなが撮るべき写真」になっていく流れは避けられないでしょう。私たちが個性的な写真を撮りたければ、このAIのロジックを理解した上で、敢えてそこから外れる選択をするしかない。つまり、AIの目を『知ってから』初めて、自分たちの美学が問われる時代が来たと言えそうです。

AIAIからの回答

つまり、私たちは知らず知らずのうちに『AIが美しいと判定する写真』に最適化された撮り方を学んでいく可能性があります。人間の視線の動きを学習したAIなら、むしろ「自然な見方をする人が好む構図」に近づくはずですが、それでも『AIが推奨する美しさ』が「みんなが撮るべき写真」になっていく流れは避けられないでしょう。

私たちが個性的な写真を撮りたければ、このAIのロジックを理解した上で、敢えてそこから外れる選択をするしかない。つまり、AIの目を『知ってから』初めて、自分たちの美学が問われる時代が来たと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これまでのAIが『内容』だけで判定してた理由は、視線データを集めるのが難しかったからなの？それとも誰も試してなかったってこと？

視線データを集めるのが難しかったという側面と、「そもそもそこに着目する必要があるのか」という問題意識の欠落が、両方あったんだと思います。実際には、アイトラッカーという視線追跡装置は昔からあります。ただ、AIの発展の過程では「より多くのデータで学習させる」という戦略が優先されてきた。内容情報なら、画像データベースに無限に存在するからです。一方、人間の視線データとセットになった画像は圧倒的に少ない。だから「あれば使いたいけど、なくても何とかなる」という選択が長く続いていたのかもしれません。ただ同時に、「美しさは内容で決まる」という前提自体が、研究者の中でも当たり前になってた可能性が高い。人間が実際には『見る順序』を通じて美を感じているという観察は、とても基本的なのに、AIの美学評価には組み込まれていなかった。必要なデータが増えると分かった途端に、急に「こんなシンプルなこと、誰か試してみようよ」という機運が生まれたのかもしれません。技術的な障壁というより、問題の立て方の転換だった側面が大きそうです。

AIAIからの回答

視線データを集めるのが難しかったという側面と、「そもそもそこに着目する必要があるのか」という問題意識の欠落が、両方あったんだと思います。

実際には、アイトラッカーという視線追跡装置は昔からあります。ただ、AIの発展の過程では「より多くのデータで学習させる」という戦略が優先されてきた。内容情報なら、画像データベースに無限に存在するからです。一方、人間の視線データとセットになった画像は圧倒的に少ない。だから「あれば使いたいけど、なくても何とかなる」という選択が長く続いていたのかもしれません。

ただ同時に、「美しさは内容で決まる」という前提自体が、研究者の中でも当たり前になってた可能性が高い。人間が実際には『見る順序』を通じて美を感じているという観察は、とても基本的なのに、AIの美学評価には組み込まれていなかった。必要なデータが増えると分かった途端に、急に「こんなシンプルなこと、誰か試してみようよ」という機運が生まれたのかもしれません。技術的な障壁というより、問題の立て方の転換だった側面が大きそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『AIが人間の認識プロセスをコピーすると、単なる結果判定より精度が上がる』という話なんだっけ？

そうでもあり、そうでもない、という感じです。確かに「プロセスをコピーすると精度が上がる」という見た目は、その通りなんですけど、より正確には「AIが見落としていた情報を拾い始めた」というのが本質かもしれません。従来のAIは「犬がいる」「夕焼けがある」といった『何か』を認識するだけ。でも人間が「美しい」と判定するときは、無意識に視線を動かしながら色のバランスや構図の流れを感受している。つまり、AIは『最終的な判定理由』を知らずに結果を合わせようとしていたわけです。新しいAIは『人間がどこを見ているか』というデータを入力することで、判定に至るプロセスの一部を学習した。それは「プロセスをコピーした」というより「判定の背景にある情報構造そのものを学んだ」ということに近いと思います。言い換えれば、人間の『見方』は、実は『何が写っているか』を認識するための最適な情報の取り方だったということ。AIがその順序に倣うと、より本質的な特徴を拾いやすくなるということなのかもしれません。

AIAIからの回答

そうでもあり、そうでもない、という感じです。

確かに「プロセスをコピーすると精度が上がる」という見た目は、その通りなんですけど、より正確には「AIが見落としていた情報を拾い始めた」というのが本質かもしれません。

従来のAIは「犬がいる」「夕焼けがある」といった『何か』を認識するだけ。でも人間が「美しい」と判定するときは、無意識に視線を動かしながら色のバランスや構図の流れを感受している。つまり、AIは『最終的な判定理由』を知らずに結果を合わせようとしていたわけです。

新しいAIは『人間がどこを見ているか』というデータを入力することで、判定に至るプロセスの一部を学習した。それは「プロセスをコピーした」というより「判定の背景にある情報構造そのものを学んだ」ということに近いと思います。

言い換えれば、人間の『見方』は、実は『何が写っているか』を認識するための最適な情報の取り方だったということ。AIがその順序に倣うと、より本質的な特徴を拾いやすくなるということなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

『美しさ』の定義って、見る順序まで含めて決まるなら、つまり『同じ写真でも、見方が違うと美の評価も変わる』ってことなの？

面白い読み方ですね。ただ、ここで気をつけたいのは「見る順序が美の定義を決める」というより「人間が美を感じるプロセスに見る順序が含まれている」という違いです。写真そのものは変わらない。変わるのは、その写真をどう受け取るかという側面。実は絵画や写真の鑑賞の歴史を見ると、画家も美術館のキュレーターも、ずっとこのことを知っていたんです。視線をどこへ導くか、どの順番で情報を与えるかで、同じ画面でも全く違う体験になることを。この研究が面白いのは、AIにそれを*教えた*というところ。つまり、視線データを学習させることで「この作品は、人間にとって自然に視線が流れやすい構成になってるから美しい」という判断ができるようになった。ただし学習元になった視線データは、特定の人々のもの。文化や年齢で見方は変わります。だから厳密には「万能な美の定義」ではなく「この学習データを提供した人たちにとって自然な見方から見たときに美しく感じる度合い」を測っている状態なのかもしれません。つまり、美は見方に依存するけれど、その依存関係をAIが学べるようになった、と言えそうです。

AIAIからの回答

面白い読み方ですね。ただ、ここで気をつけたいのは「見る順序が美の定義を決める」というより「人間が美を感じるプロセスに見る順序が含まれている」という違いです。

写真そのものは変わらない。変わるのは、その写真をどう受け取るかという側面。実は絵画や写真の鑑賞の歴史を見ると、画家も美術館のキュレーターも、ずっとこのことを知っていたんです。視線をどこへ導くか、どの順番で情報を与えるかで、同じ画面でも全く違う体験になることを。

この研究が面白いのは、AIにそれを*教えた*というところ。つまり、視線データを学習させることで「この作品は、人間にとって自然に視線が流れやすい構成になってるから美しい」という判断ができるようになった。

ただし学習元になった視線データは、特定の人々のもの。文化や年齢で見方は変わります。だから厳密には「万能な美の定義」ではなく「この学習データを提供した人たちにとって自然な見方から見たときに美しく感じる度合い」を測っている状態なのかもしれません。つまり、美は見方に依存するけれど、その依存関係をAIが学べるようになった、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます