コンピュータ理工学部 インテリジェントシステム学科 田中 宏喜 准教授

モノを見るための脳の仕組みを解明し、コンピュータで再現する

人は目でモノを見て、それが何かを理解する。ごく当たり前のことです。しかし、その背景では脳が膨大な情報処理を行っています。目から入った光の信号が、脳のどこで、どのように処理されているのか。人がモノを見るメカニズムを、細胞レベルで解明し、これをコンピュータ上で再現する研究に取り組んでいます。

脳は画像情報を効率よく伝達している

 現在、デジカメの顔認識機能やコンピュータを使った物体認識技術が、急速に進歩しています。しかしながら、千差万別の物体を認識する能力は、脳の視覚系にはまだまだ及びません。例えば、机の上に本やノート、新聞などが重ねられた状態など、個々の物体の形が十分見えない状況では、コンピュータはうまく認識できなくなる場合があります。人の場合は、モノの一部が見えていれば、一瞬でそこに何があるのかを判断することができます。
 このような素晴らしい機能が、脳のどのようなメカニズムで実現されているのか、まだ十分には理解できていません。このことは逆に考えると、この仕組みが解明できれば、これをコンピュータビジョンに応用し、その性能を向上させることができるかもしれないということを示唆しています。
 モノを見る脳のメカニズムを追求していくと、細胞の働きに行き着きます。神経細胞は、一つひとつの細胞が枝を伸ばして、お互いが複雑に絡み合って神経ネットワークを作って、情報を伝達しています。
 目の網膜にはカメラの画素に相当する細胞があり、一つひとつの細胞が、視野の異なる場所から光の信号を受け取っています。これらの細胞が受け取った画像情報は、電気信号に変換されて、後頭葉にある一次視覚野(V1野)に伝わります。V1野では、画像情報は、ガボール関数とよばれる局所的な縞パターンに分解されて伝えられることが知られています(図1)。V1野の個々の細胞が、分解された縞の情報を運んでいます。
 ガボール関数に分解することで、画像情報が非常に効率よく伝達できることが理論的な研究により明らかとなっています。現在、コンピュータでは、画像情報をより少ない容量で表現し、効率よく伝送するのに、画像を圧縮することが行われますが、その圧縮方式の一つに、画像をガボール関数に似た縞パターンで分解表現する方法があります。脳はこの最新のコンピュータ技術を進化の過程で獲得し、はるか以前から利用していたのです。冒頭で述べたとおり、脳視覚系の仕組みをコンピュータビジョンに応用すれば、その性能の向上につながることが期待できるわけですが、V1野における画像情報の伝達方式は、このことをよく示しているといえるでしょう。

  • 図1 ガボール関数

2ステップの視覚情報処理

図2 視覚情報処理経路

 脳の視覚情報処理は大きく分けて2つの段階に分けることができます(図2)。第1の初期段階では、先ほど述べたとおり、画像がV1野で局所縞パターンに分解されて伝達されるようになります。この後、この縞パターンの情報は、V1野の周囲にある部位に送られて、そこでさらなる情報処理を受けます。これが第2の高次の処理段階で、そこでは、分解された縞成分が適切に統合されることで、普段目にする物体表面の特徴が徐々に再構成され、顔や手といった物体全体の形状が抽出されます。この情報をもとに、最終的に物体の認識が生じるものと考えられています。
 私が、これまでもっとも力を入れて研究してきたのは、この高次の処理段階を調べることです。モノの形を認識するためには、モノとそのまわりの空間の領域を分けることが必要ですが、このとき強い手がかりとなっているのは、模様(テクスチャー)の違いです。例えば、われわれは、模様の違いから、草原にいるシマウマの形を簡単に捉えることができます(図3)。また、図3のような縦線の中に横線で描かれた菱型を、人は瞬時に理解することができます。菱型自体を示す線は一本もないにも関わらずです。このことは、模様を手がかりに領域を分離することで、その領域の形をとらえる強力な仕組みが、脳に備わっていることを意味しています。
 私たちは、V1野やそれに隣接する領域に、縦線や横線といった模様の境界を効率よく検出する仕組みがあるのを、生理学実験で見出しました。そして、実験データに基づいて、この境界検出は、その他の生理学的知見と合わせて、次のような数理モデルで行えることを提唱しました(図4)。
 まず、V1野において、単純型細胞とよばれる細胞が、網膜から送られてきた画像を、ガボール関数の縞パターンに分解して情報伝達します。続いてV1野の別の細胞である複雑型細胞が、視野の場所ごとに縞の向きの情報を統合します。さらに次の処理段階で、異なる視野を見ている複雑型細胞の出力が適切に統合されることで、テクスチャーの境界が検出できます。この最終段階に位置する細胞をテクスチャー細胞と呼んでいます。この数理モデルをコンピュータ上で実装すれば、実際の細胞の行っている境界検出をうまく再現できることを確かめています。

  • 図3 表面境界検出のメカニズム

  • 図4 縞成分の違いに基づく境界を
    検出する細胞の数理モデル

3次元の世界の知覚

 画像情報は2次元データです。けれども、人は3次元の世界を知覚します。これには、両目でモノを見るときの、左右の像のズレが手がかりとなっています。このずれを両眼視差といいます。
 私はこの両眼視差を処理し、3次元の世界を知覚する仕組みについても研究してきました。両眼視差と一口にいっても様々な種類のものがあります。単純な線分の左右のずれから、複雑な模様のずれなどもあります。われわれは、こうした異なる種類の両眼視差を利用できるので、様々な視覚条件で頑強に3次元の世界を知覚できます。これまで単純な両眼視差を検出する仕組みはわかっていましたが、私は、世界で初めて、様々な種類の両眼視差を利用して奥行きの情報を伝える細胞を発見しました。そして、この細胞の振る舞いを、コンピュータ上で厳密に再現することに成功しています。
 両眼視差の情報はV1野やそれに隣接する部位で検出されたあと、高次の段階でさらに処理伝達されていきます。この過程で、3次元空間の知覚、認識が生じると考えられています。

視覚情報処理のさらなる追求へ

 以上、脳の視覚情報処理の仕組みについて、私のこれまでの研究を中心に説明してきました。そこで述べたとおり、私は、実際の脳で見出した仕組みについて、それを数理モデルで表し、コンピュータ上で再現することに力を注いできました。こうすることで、この仕組みがコンピュータビジョンとして利用されることにつながっていくと考えるからです。今後は、この数理モデルをより精緻にして、脳の視覚情報処理の振る舞いをコンピュータ上で徹底的に再現することに取り組んでいきたいと考えています。そして、これを通じて、脳の仕組みを利用したコンピュータビジョンシステムの開発へとつなげていきたいと考えています。

コンピュータ理工学部 インテリジェントシステム学科 田中 宏喜 准教授

2001年 大阪大学大学院基礎工学研究科 助手
2007年 大阪大学大学院生命機能研究科 助教
2011年 大阪大学臨床医工学融合研究教育センター 特任准教授
2013年 京都産業大学コンピュータ理工学部 准教授
PAGE TOP