ネット情報との上手なお付き合いを目指して—情報の客観的根拠の検索—

コンピュータ理工学部ネットワークメディア学科宮森　恒教授

情報の客観的根拠の検索

　FacebookやブログにTwitter。ネットの世界では、日々膨大な情報が発信されています。一見便利になっているようにも見えますが、実際は、それらの情報は内容の検証や精査をされないままネット上に放置されているようなもの。「情報を発信する手段」が普及する一方で、「信頼度の高い情報を見分ける手段」は十分に整っていないのが現状です。そんな状況を改善しようと「次世代検索技術」をテーマに研究されている宮森恒先生に、最新の研究内容についてお聞きしました。

増え続ける情報の中で信頼できる情報を見分けるには？

　現在、ネット上では、膨大な情報が発信・蓄積され続けています。利用できる情報が増え続けているので、一見すると便利になっているようにも思えますが、実際は、それらの情報の中身は、何の検証も整理もされないまま、ネット上で放置され続けているようなものです。情報が増えれば増えるほど、どれが正しい情報なのかを選別することはどんどん難しくなっていきます。FacebookやTwitter、ブログなど、情報発信手段は急速に発達する一方で、信頼度の高い情報を見分けるための手段は十分に整っていないのが現状です。

　では、どうすれば信頼度の高い情報を見分けることができるのでしょうか？　例えば、迷惑メールにあるような明らかに怪しい表現があれば、比較的簡単に「有害だ」「無用だ」と判断できるでしょう。でも、例えば、次のような記述であればどうでしょうか？

　A:「近視を治すなら、若者に人気で手術数増加中のレーシック手術がおすすめです」※1

　明らかに怪しい表現は見当たらないため、パッと見ただけでは何とも判断できないのではないでしょうか？　書いてあることも特におかしなことはないし、「同年代の人が多く受けているなら安心だし、手術を受けてみようかな」と納得してしまうかもしれません。

　このように信頼度を一目で見分けるのが難しい情報に対して、上手に信頼度を判断するには、

チェックボックス発信者に着目する＝その情報を「誰が書いて」「誰が発信しているのか」を確認する

チェックボックス社会的意見に着目する＝その情報について「他の人はどんな意見を述べているか」を確認する

チェックボックス情報外観に着する＝その情報に「参考文献や連絡先が明記」されているか確認する

といった多角的な観点で眺めるという方法が一つ挙げられます。

　例えば、上記Aを「眼科医」が書いて「大学病院」が発信しており、世間の多くのネットユーザが「肯定的意見」を述べていたとしたら、「信頼度は高そうだな」となり、「匿名のネットユーザ」が書いて、「匿名掲示板」で発信し、世間の多くのネットユーザが「否定的意見」を述べていたら、「信頼度はあまり高くなさそうだな」という具合です※2。

　私の研究室では、現在、上記で挙げた観点とは別の観点からのアプローチ、すなわち、

チェックボックス客観的根拠の有無に着目する＝ある情報の「客観的根拠の有無」を確認し、信頼度判断を助けるという方法

に着目した研究を進めています。ここでは、テレビ番組で使用された図表を利用した研究についてご紹介します

※1　あくまで例文です。レーシック手術の是非について述べたものではありません。

※2　ただし、ここで注意する必要があるのは、その信頼度は、あくまで他の類似した情報に比べて「相対的に」信頼度が高いか低いかであり、100% 正しいとか誤りということではありません。膨大な情報の中から、無用で有害な怪しい情報を上手に除くことができれば、有用で正しい情報に到達しやすくなるという考えに基づく方法です。

テレビ番組の図表を利用した情報の客観的根拠の検索

　再度、記述Aについて考えてみましょう。A:「近視を治すなら、若者に人気で手術数増加中のレーシック手術がおすすめです」※1

　この記述の客観的根拠とは、どのようなものでしょうか？　例えば、官庁や業界団体が発表する、レーシック手術の施術数に関する統計データが挙げられます。今仮に、この統計データを調べたところ、2008年をピークにそれ以降は減少し続けていたとしましょう※3。すると、記述Aの「増加中」という部分とは矛盾しており、それをもとに手術をおすすめしている記述Aの主張自体にはそもそも根拠がない＝怪しい、と言い切ることができます。

　私の研究室で開発したのは、この統計データを調べるという作業を、テレビ番組で用いられる図表の検索に置き換え、根拠を探す手間を軽減したシステムです。

　なぜ統計データではなく、テレビ番組の図表を利用したのか？　これには理由があります（図1）。

　まず、統計局で公開されている統計データは、多くのデータが一つの表にぎっしりと詰め込まれた形になっており、今調べたいことに最も合致したデータを自動的に選び出すのは非常に難しいためです。

　一方、テレビ番組の図表は、予め番組スタッフがそのような複雑な統計データ表から、最適なデータを選び出し、視聴者の誰が見ても理解しやすいように噛み砕いた形に視覚化されているため、一目で確認するという作業にはうってつけです。

　さらに、テレビ番組は、プロの番組制作者によって作られており、公共性を保つ必要があるため、一定の信頼度が担保された情報源と考えることができます。

　以上の理由から、テレビ番組の図表を利用して、情報の客観的根拠を検索できるシステムを構築しました。以下では、そのシステム概要について説明します（図1）。

※3　2013年10月22日現在、統計局(http://www.stat.go.jp/)で公開されているデータには、レーシックに関する統計データは含まれておりません。本稿では、週刊ダイヤモンドの記事(http://diamond.jp/articles/-/33088)を参考としました。

テレビ番組からの図表画像の検出

　テレビ番組の図表を客観的根拠として検索するには、まず準備として、番組から図表画像を検出しておく必要があります。

　テレビ番組を録画し、一定間隔おきに画像を取り出し、各画像に図表が含まれるかどうかを図表画像の識別器を使って判断します。この識別器は、最近のデジカメに搭載されている人物顔の識別器と基本的に同じ原理で動作します。ただし、識別対象が「図表」ですから、どのようなものが「図表」なのかを機械に教え込む処理（機械学習）が必要になります。

　例えば、図表を円グラフとする場合、円グラフの画像と、円グラフでない画像をなるべく多く集めます。そして、円グラフ画像と非円グラフ画像を区別するのに役立ちそうな「特徴」を抽出します。今回は、一枚の画像をいくつかのブロックに分け、各ブロックでHoG特徴と呼ばれる、ものの境界線の方向（縦か斜めか横か）に着目した特徴を利用しました。このようにすることで、円グラフ画像の場合に形作られる全ブロックの特徴と、非円グラフの場合に得られる特徴とで、傾向の差が浮かび上がってくるわけです。

　今回は、円グラフ以外にも棒グラフや折線グラフについても機械学習を行い、図表を認識する識別器を構築しました。

与えられた情報を入力とした客観的根拠の検索

　図表が検出できたら、次はそれを検索できるようにデータベース化します。検索キーワードとして与えられるのは、記述Aにあたる文（文字データ）となるため、それをもとに関連する図表（画像データ）を検索する必要があるのですが、文字と画像を直接結びつけることはできません。そこで、ここでは、テレビ番組で用いられる字幕データ（クローズドキャプション）を利用して、画像にキーワードを付与するようにしました。例えば、図表画像を検出した時刻の前後N秒間に出てくる字幕データ（文字データ）を取得し、そこから単名詞と複合名詞を抽出することで、図表を表すキーワードとしてデータベースに登録します。

　以上の準備ができたら、記述Aをもとに、図表を検索します。検索する際は、記述Aからも単名詞と複合名詞をキーワードとして取り出し、キーワード同士の近さを計算することで、関連する図表を客観的根拠として検索できるようになります。

今後の展望

　今回は、テレビ番組の図表を使って、情報の客観的根拠を検索するシステムを開発しました。今後は、膨大な情報の中から、無用で有害な怪しい情報を上手に除き、有用で正しい情報に効率よくたどり着くための支援システムを発展させ、誰もがネット上の情報とうまくお付き合いしていける社会に貢献していきたいと考えています。

アドバイス

　大学では、目標を持って勉強する人としない人とで、卒業時に大きな差が生まれます。自由な時間が増える分、遊びも勉強も本気で取り組むことが大切です。失敗しても粘り強く、常に進化し続けられるような人になってほしいと思います。

　私の研究室では、統計解析やパターン認識を用いてデータを分析し、いかに新しい価値を生み出す応用につなげられるかを常に議論しています。地味な作業も多いですし、忍耐も必要ですが、新しい知識やスキルを身につけた時の喜びを積み重ねることを大切にしています。卒業生は、統計解析やデータマイニング、Webアプリケーションなどの知識とスキルを身につけて、システム開発やプログラミングなど、IT分野で活躍する人が多いですね。

コンピュータ理工学部ネットワークメディア学科宮森　恒教授

プロフィール: 博士（工学）。専門は、マルチメディアデータ工学、パターン認識、情報検索。もともと電気系のことに興味があったが、大学では、放送や通信といったフォーカスがはっきりしていると感じた「電子通信」を専攻。4年次では、映像を扱う研究室に入り、現在、iPodなどで用いられているMPEG規格に関連した研究に携わった。大学卒業後は、研究所にて、映像シーン検索、テレビ番組とインターネットの融合的利用、情報の信頼性評価支援の研究に従事。2008年より、京都産業大学にて次世代検索技術の研究を進めている。大阪府立北野高等学校OB。