今年度も変わらず[PR]データ分析をやっていて、データ分析に関するセミナーを組織として2つ、「データ分析仕事はじめ」と「データ分析基礎 Tableauハンズオン」を開催することができました。
この準備などに追われてしまい、今年に入ってエンジニアブログを全く書いていない…ということに気づきました。ということで頑張って12月のアドベントカレンダーで何本か書きたいと思います!
さて、今日のテーマは最近公開されたExploratory “Public“について使ってみたレポートをします。
そもそものExploratory製品自身のオフィシャルな説明はこちらのExploratoryの公式ページを見ていただくとして、僭越ながら私が簡単な説明をすると、分析言語であるRをエンジンとしたGUIで操作できる分析ソフトウェアです。
最初の公開バージョン1.2.0が2016年4月11日に発表され、当初はβ版として公開されていました。
現在この記事執筆時点でのバージョンは5.4.0.12であり、この3年で順調に機能が追加されているようです。
ExploratoryのシンプルなUIは、 誰もがデータサイエンスを使ってデータを探索し、深いインサイトを発見し、他のメンバーに効果的に伝えることを可能にします。
とのことなので、Exploratoryの「探索的」という製品名が表すように探索的なデータ分析業務を行うには最適なツールと言えそうです。
そして、その製品の無料版であるExploratory Publicが2019年10月下旬に公開されました。
今回この記事を書こうと思ったきっかけは、こちらのイベント「Exploratory データサイエンス勉強会 & ミートアップ」に参加したから、というのもあります。β版からExploratoryの存在自体は知っていましたが、これまで業務で使う事がありませんでした。Public版が公開されたこともあり、今回を機に使ってみることにしました。
イベントの中でExploratory社のミッションとして「データサイエンスの民主化」というのがあり、そうだよなーと思ったりしながら聞いていました。データサイエンスの民主化のテーマについては取り上げると長くなりそうなので今回は割愛しますが、端的に思うところはデータリテラシーが底上げされると良いなと思っていて、その支援がブログ等でもできると良いなと思っています。
パブリック版と通常の版との機能比較についてはこちらのExploratoryの価格表で確認して頂くとして、要は分析対象となるデータや作成したグラフなどが一般に公開されるかどうかということを抑えておけば良いでしょう。
Tableauを使い慣れている方はピンとくるかもしれませんがTableauでも似たような製品がTableau Publicとして出ていますね。
一部は似ているかもしれませんが、一部はそうではありません。TableauのようなBIツールとは何が違うのでしょうか?
データありきということはTableauでもExploratoryでも変わらないかもしれませんが、データを加工し、可視化し、分析して他人に伝えるという一連のプロセスを一つの製品で行うということについてはExploratoryの方が優れているかもしれません。
※念のため補足しておきますがTableau社もTableau Prepというデータ加工の製品を出しているので、Tableau社の提供する製品群でデータの加工し、可視化するということはもちろんできます。
Exploratoryの私が感じる特長を書いてみました。
- データセットに対して加工ができる
- GUIで操作ができる
- 統計的な処理(分析)ができる
- Rでスクリプトを書くより可視化しやすい
- Rでできることは大抵できる
- 他人に伝えるための手段がいくつかある
可視化だけではなく、データ加工ができてさらに統計的な分析もできるところがTableauやPowerBIといったBIツールとは異なるところですね(PowerBIはクエリ編集機能でステップごとにデータの加工ができます)。
本格的な分析はTableauやPowerBIはRやPythonをサーバーとして呼び出して使いますが、ExploratoryはエンジンがRなのでそのまま透過的に呼び出して使うことができます。
また、(バックエンドとしてエンジンに使ってはいますが)RやPythonをそのまま扱う訳ではないのでBIツールのようにノンプログラミングで可視化をすることもできます。
他人に伝えるための手段、というのはレポート機能の中にダッシュボードだけではなく、Markdown形式でテキストが表示できるノートというものがあるため、リストにあげています。
色々と書いて来ましたが、自分で使ってみないことにはわかりません。
過去にTableauでも作ったものを作ることで比較しながら製品を理解していきたいと思います。
データセットは都内の公園データをリンクデータから取得しました。
何故公園なのか?は、娘をどこに連れていくかが最近の課題になっていて、そのうち公園をいろいろと回ってみたいなと思っているからです。
初めてのExploratoryで作ったダッシュボードはこちらにあげています。合わせてTableau Publicで作ったものもこちらのTableau Publicにあげています(結局今回用に新しく作ることになりました…)。
話は少し変わりますが、前述のイベントに参加してEDA Salonという勉強会があることを知りました。
世界中にある実際のデータを使って、自分の手を動かしながらEDAをやり、様々な手法を試して間違えたりしながら、みんなで一緒に継続的に学んでいく場として、EDA Salonという取り組みを始めることとなりました。
ということらしいので私も継続的に学んでいきたいと思います。
EDAとはExploratory Data Analysisの略語で探索的データ分析のことです。
今回の記事のタイトルに探索的データ分析と書きましたが、それはEDAのことです。
Wikipedia日本語版だと半導体とかしか出てこないのですが、英語版で見ていただくと詳しく書いていますので詳しく知りたい方はそちらをご確認いただけるとより理解が深まると思います。
データ分析をするときのプロセスとしてはCRISP-DMが有名です。
- ビジネスの理解
- データの理解
- データの準備
- モデリング
- 評価
- モデルの適用(デプロイメント)
と分析プロセスを定義していて、まずはビジネスの(課題の)理解からという進め方になるのですが、よくあるのは先にデータがあるから何か分析したいというニーズも少なからずあり、そういった時にデータに対して何か得られるインサイトはないか?という分析を行うアプローチであると言えます。
一方で仮説に対して仮説を検証するアプローチとして確証的データ分析CDA:Confirmatory Data Analysisというものがありますが、こちらは検定を行ったりするアプローチになります。
というわけでExploratory Publicを使ってEDA Salonとして投稿しましたのでこちらをご覧ください。
さて、これまでExploratory Publicを使っていくつかのデータセットを使用して簡単なデータ加工/可視化をしてみました。
Exploratoryの使い方について、ほぼ調べずにやってみただったのでUIや作法などでつまずくところがありました。例えばピンの機能をよく理解しておらず、最初はステップとチャートは独立したものだと勘違いしていました。チャートを複製してチャート単位でステップを分けようと操作してしまい、気づいたら両方おかしなことになっていたりなど気づくまでに時間がかかってしまいました。
また、慣れないためRのスクリプトを書いた方が早いのでは?と思うところもあったりしたのでしばらく使ってみたいと思います。
「分析をしてみたいけれども、どのようなツールを使って良いかわからない」という方はExploratory(やTableau)のPublic版を使用してまずは感触を掴んでみるのは良いアイディアだと思います。
みなさんも身近にあるデータで探索的なデータ分析をしてみてはいかがでしょうか?