こんにちは。データアナリティクスチームの【もりし】です。
最近DX(デジタルトランスフォーメーション)という言葉が様々なメディアを通して広がっていることもあり、お客様から「もっと自社データを活用したい」という相談を受けることが増えています。
今回は「自社データ活用をはじめたいけれど何から手をつけて良いのかわからない」人に向けて、エクセル(Microsoft Excel)を長年使ってきた会社が便利なツール「Alteryx(アルテリックス / アルタリクス)」を導入してデータ活用を進める例を紹介したいと思います。
当記事の前半は「社内データ活用時のシステム構成解説」、後半は「AlteryxのExcel出力機能紹介」となっています。
※興味のある片方だけでも読んでもらえたら嬉しいです
お客様の中には
「データ活用をするためにはクラウド化が必須ですか?」
「脱エクセルからはじめないといけないですよね?」
のような質問をされる方がいます。(質問に対する答えはどちらも「NO」です)
「Microsoft Excel」は現在多くの会社で利用している製品だと思います。
「脱エクセル」という言葉を聞いて勘違いされている方もいるのですが、完全にエクセルを捨てるのはもったいないです。
エクセルが得意な社員がもっと能力を活かせるようにしていく方が良いと思います。
では何を見直し、何を残せば良いのでしょうか?
まずは社内データ活用における一般的なデータの流れを紹介します。
社内業務で発生するデータや、社外サービスから取得できるデータそのものです。
利用する可能性のある各種データを一か所に貯めたものを「データレイク」といいます。
完全に無加工だと活用しにくいので、貯める際に「中間テーブル」の形に加工しておくケースも多いです。
データを活用するために抽出して集約したものです。
データを読み手が見やすい形に加工したものです。
多くの会社ではエクセルを導入する前、データは紙で管理されていました。
それが電子化に伴い、多くの会社で紙がエクセルに置き換わります。
データ活用を進める第一歩として「紙の廃止」は必須です。
紙をエクセルに置き換えて電子化すること自体は素晴らしいのですが、なぜ今度は「エクセル管理を見直し」と言われているのでしょうか?
エクセルでデータ管理する場合によく挙げられる問題点は3つです。
エクセルは「データ加工」「データ集計」「レポート作成」をすべてできる高機能ツールです。
ただ、自由に何でもできてしまうため「加工前の元データ」が失われてしまうことがあります。
社内システムからダウンロードしたエクセルファイルを直接編集し、集計レポートにして配布するという業務の仕方をしている人や部門は多いのではないでしょうか。
各システム内にデータが残り続けていれば問題はないのですが、システム内のデータが更新されてしまうと「2010年1月1日の断面データが欲しい」と思ってもデータが手に入らなくなってしまいます。
エクセルそのものの問題ではなく「適切なタイミングの抽出データを保存しておく運用ができていない」というのが真の問題です。
エクセルは各ファイルが独立しているため、データを見失いやすいです。
これもエクセルそのものの問題ではないのですが「エクセル管理」している多くの会社で起こっているのではないでしょうか。
PCのスペック次第ですがエクセルでストレスなく加工できるデータ量は数万レコードが限度です。
※Excel2019のカタログ上の上限は1,048,576レコードです
以上、3点の中で本当にエクセルが原因である問題は「3.扱えるデータ量が少ない」点だけです。
そこでExcelの弱点部分をフォローする形でAlteryx導入を検討してみます。
Alteryx Designerであれば数百万~数千万レコードの結合や複雑な加工もスムーズできます。
1000万レコードくらいの規模のデータであれば
・ローカルPC
・Alteryx Designer
・Microsoft Excel
で管理可能です。
(データレイクの蓄積やバックアップのためにクラウドストレージを利用しても良いでしょう)
自社のデータ量、予算、事業計画などを元に適切な運用設計をした上で
「あるべきデータフローは何か」「どの機能を一番最初にエクセルから置き換えるか」
を考え、適切なツールに置き換えていく必要があります。
世の中には様々なデータ活用ツールがありますが、時代の変化により必要な機能も変化してきました。
「紙の電子化によりデータ集計やレポート作成がしやすくなる」
段階から、さらに一歩先に進み
「すべてのデータが適切に蓄積され、レポートを元にしたさらなるデータ探索や再加工がしやすい」
機能の実現が求められています。
エクセルでデータマートとレポートをセットで配布する最大のメリットは、他の人がレポートを見るだけでなくデータマートを再利用できることです。
データフローのすべてをカバーする高機能なツールはライセンス費が高額なことが多いです。
ライセンスや権限の問題で各社員が自分たちでデータ加工できていない状況の会社もあるのではないでしょうか。
「データレイク作成」「データマート作成」「レポート作成&再加工」
それぞれに必要な機能と費用を検討した上で自社にあったツール選びができると社内のデータ活用が進んでいくと思います。
後半部分ではAlteryx Designerでのデータ入力~加工~Excel出力機能を紹介します。
Alteryxはドラッグアンドドロップでデータを加工するワークフローを作成するツールなのですが、今回は下のようなシンプルなワークフローで説明します。
画面上部のツールから「データ入力」アイコンをドラッグアンドドロップしてワークフローに配置し、接続先を設定します。
Excelファイルパスを指定します。
読み込むシートを選択します。
※事前にセルを範囲指定して名前をつけておくと、シート内の特定範囲データのみを取り込むこともできます
エクセル以外でも、各種データベース接続、一般的な形式のファイルの取り込みがサポートされています。
また「特定ディレクトリ配下のファイルを一括読み込み」ができるので、データレイク上の同じ構造のデータを一括加工することもできます。
画面上部のツールから「結合」のアイコンをドラッグアンドドロップして2つのデータをつなぎます。
ここでは注文データと営業担当者データを「地域」をキーにして結合し、両データがつながった”J”から出力されるデータを後続につないでいます。
画面上部のツールから「データ出力」のアイコンをドラッグアンドドロップして保存先ファイルを選択します。
このようにファイル形式、シート名をしていしてデータマートファイルを出力することができます。
出力のオプションとして4種類の更新方法を選択できます。
このような形でエクセル出力できました。
これをデータマートとして、エクセルの機能を使ってレポート作成できます。
今回はピボットテーブルを使って地域マネージャー別の2018年売上比較レポートを作りました。
Alteryxで同じExcelファイルの別シートとしてデータ出力する場合、ファイルがロックされてエラーになってしまうことがあります。
その際は「完了までブロック」のツールを使います。
下記のようにワークフローを作ることで、上から順の実行が保証されてエラーを回避できます。
社内でExcel + Alteryxでデータ活用する際のポイントは下記の4つです。
・データレイクは社内で一か所に管理する
・特定レポートのために元データを直接加工しない
・再実行可能なようにワークフローを残しておく(手でデータ加工しない)
・「データマート」と「レポート」のシートを別にする
データを適切に管理し配布する仕組みができると、社内でのデータ活用が活発になります。
このような下地作りこそDX(デジタルトランスフォーメーション)のきっかけになるのではないでしょうか。
Excel + Alteryxで一連のデータ活用フローが整備した後、そのままAlteryxの活用範囲を広げることでさらに高度なデータ利用ができるようになります。
Alteryxには基礎的な機械学習モデルもドラッグアンドドロップで作成できます。
データ活用の下地ができた後、ぜひチャレンジしてみてください。
最後まで読んでいただき、ありがとうございました。
データ活用やAI/機械学習に関するご相談などありましたら是非クレスコまでお問合せください。