キーワード
データビジュアライズ【でーたびじゅあらいず】
データビジュアライズとは、データが示す事象の状態、あるいは時系列変化を、プログラミングを用いて、図形や色へのマッピング、およびそれらのアニメーションによって可視化することである。
データを可視化する試みの歴史は深い。たとえば古くから「樹」は、様々なデータを体系だって整理するためのメタファーとして、「家系」や「知識」のビジュアライズに用いられてきた。(注1) また、ナイチンゲールがクリミア戦争での兵士の死因をビジュアライズしたリポート(注2)は、データ可視化の先例として頻繁に引用されている。
だが、特に「データビジュアライズ」という言葉が出現し、明確に研究され始めたのは1990年代からと言われる。(同・注1) この「ビジュアライズ」とは、手動によるイラストレーションの表現ではなく、コンピューターによる演算によってデータを自動的に図形や色にマッピングすることを意味する。
データビジュアライズは、近年非常に盛んになっている。その背景には、分析環境であるPCの発達に加え、Tableau(注3)などの分析ツール、Processing(注4)やd3.js(注5)などの特化したプログラミング言語が開発されたことがある。結果、報道機関によるデータビジュアライズを用いた図解(「データジャーナリズム」と呼ばれる手法)をはじめ、多彩な事例が報告されるようになった。
では、どのような目的で行われるのだろうか。まずは以下のような、一般的なデータマーケティング業務の過程を俯瞰(ふかん)してみよう。
「(1)データ抽出」→「(2)データ探索」→「(3)前処理」→「(4)解析・モデリング」→「(5)サマライズ」→「(6)アクション・実装・デモンストレーション」
この過程の中で、主に「(2)データ探索」、「(5)サマライズ」、「(6)アクション・実装・デモンストレーション」の三つの段階で用いられ、それぞれで目的は異なる。「(2)データ探索」では、収集したデータを元に、様々な切り口からデータの全体像を把握し、仮説の元となる疑問を見つけていくことが重要となる。また「(5)サマライズ」では、主に分析結果の共有という観点から、「何を伝えたいか」ということを目的に、シンプルかつ必要最低限の要素と、最適な表現を選択していくことが重要である。一方、「(6)アクション・実装・デモンストレーション」の段階においては、データそのものにいかに興味を持ってもらえるかが重要となり、パフォーマンスやアート領域で用いられることもある。
データを「ビジュアライズする」こと、「見る」ことは非常に重要である。米国のデータサイエンティストのネイト・シルバーは著書(注6)の中で、「気象予測は、コンピューターによる解析だけではなく、解析結果をビジュアライズし、人間が『見る』ことによる解釈を加えており、その方が、降水予測も気温予測も精度をあげることができる」とし、データを「ビジュアライズする」こと、「見る」ことの重要性を説いている。今後、データが増加し、データ分析が重要になるにしたがって、ますます多くのデータビジュアライズが必要になると思われる。
神戸市観光客のデータビジュアライズ事例
神戸市観光客を普段の検索・ウェブ閲覧データからクラスタ分けし、それぞれのクラスタごとに神戸のどのスポットに興味が有り、そのスポットに何を求めているかを分析。さらにGPSデータから、クラスタごとの移動履歴を分析。上記データを用いて、各クラスタごとの旅行客が、どのような目的で、どのように神戸を巡回しているかを示している。
[参考文献]
(注1) Manuel Lima(2011)『Visual Complexity Mapping Patterns of Information』奥いずみ(訳) 久保田晃弘(監修)
(注2) https://en.wikipedia.org/wiki/Florence_Nightingale
(注3) http://www.tableau.com/ja-jp
(注4) https://processing.org/
(注5) http://d3js.org/
(注6) Nate Silver(2013)『The Signal and the Noise: The Art and Science of Prediction』西内啓(その他) 川添節子(訳)
※「ウェブ広告朝日」より転載
(A15-1396/朝日新聞社に無断で転載することを禁じます)