この記事は『CRESCO Advent Calendar 2022』 20日目の記事です。

 

こんにちは。データアナリティクスチームの【もりし】です。

突然「データ分析基盤」って言われてもピンとこないですよね。
データが沢山集まっていたら便利なんだろうな…ということはわかっても、何が重要なのか実はわかっていないまま使ってしまっていたりします。
今回は簡単なデータ収集~分析作業を通して、なぜデータ分析基盤が必要なのかを考えてみました。

この記事のゴール:データ分析基盤を設計する大切さを理解する

分析用データは、この図のように機能ごとに場所を分けると便利だと言われています。
1.データを取得し、一度そのままのデータを蓄積
2.共通ルールでデータ加工・保管
3.目的別に加工
4.グラフ、表、レポート単位で人間が見やすいように加工
というように機能を分割した設計をすることが多いです。
では、場所(機能)を分けるとなぜ便利なのでしょうか?この点をあらためて理解したいというのがこの記事のテーマです。

まずは何も考えずにデータ加工作業をやってみる

まずは場所(機能)の分割や設計などを意識せずに作業を行ってみます。

データ収集、転記、加工

今回は2021年の会社別自動車売上台数ランキングを作ってみます。
元データは
・一般社団法人 日本自動車販売協会連合会(http://www.jada.or.jp/data/)
からダウンロードします。

ダウンロードした形式のままでは扱いにくいので、必要な数字をエクセルに転記します。

SUM関数で合計売上台数を出し、エクセルの並べ替え機能を使用して…
出来上がった表はこちら

トヨタがトップで、ホンダと日産が追いかけています。輸入車も人気があることがわかりました。

正しく集計できているか確認する

自前でデータ集計をした際は、何か間違った処理をしていないか不安ですよね。
今回はGoogle検索で他の誰かが集計した2021年の自動車売上総台数と比べてみると…

合わない!!

色々なサイトで確認した集計値よりも今回作成した売上台数は明らかに少ないです。

調べてみると、
・日本自動車販売協会連合会で発表している登録車(普通車) ※今回集計したのはこちらのみ
・全国軽自動車協会連合会で発表している軽自動車
の2つを合わせた数字を自動車売上として集計するのが一般的なようです。
確認して良かった!

データを増やして再チャレンジ

下記から軽自動車の売上データを取得します。
・全国軽自動車協会連合会(https://www.zenkeijikyo.or.jp/statistics)

前のエクセルに転記して…
2つのデータを足し算する式を作って…
下記のようなエクセルになってしまうことが多いと思います。

1か所から取得したデータだけを扱うのに比べて、2か所以上から取得したデータを組み合わせるのは加工の手間がかかります。
さらにデータの種類が増えていくと、どんどん複雑になっていきそうです。
ここで作業の手を止め、きちんと「設計」を考えてみます。

場所(機能)の分割を意識して再再チャレンジ

この図を意識して場所(機能)を分割し、データが増えたりデータの更新があったりした際の作業をやりやすくしていきます。

データ収集:そのまま蓄積する場所を決める

今までと同様の場所から売上データを取得します。
・一般社団法人 日本自動車販売協会連合会(http://www.jada.or.jp/data/)
・全国軽自動車協会連合会(https://www.zenkeijikyo.or.jp/statistics)
加工前のデータを下記のように保管しておきます。

今後”kaku4-2201.xls”のような新データを入手した際も同じ場所に配置します。
データごとにフォルダを分けておくと、今後処理を自動化する際も楽そうです。

データを一次加工:共通ルールで加工して蓄積する

今までと同様に必要な数字を転記したのがこちらなのですが、ここで問題が見えてきます。

問題1:メーカー名のずれ

別々の場所から取得した2種類のデータのメーカー名が微妙に異なっています。
下記のような表を作ると対応関係が整理できます。

文字の間のスペースを削除したり、「SUBARU」と「スバル」を同じ会社として扱うなどの加工が必要なことがわかります。

問題2:同じメーカー名の売上台数なら足して良いのか?

今回一番知りたいことは登録車と軽自動車の合計売上台数なのですが、今の時点で足し算を行ってしまって良いのでしょうか?
合計売上台数のランキングがわかったあとに「やっぱり登録車だけのランキングが知りたい」「軽自動車だけのランキングが知りたい」という気持ちが出てきそうですよね。

そこで下記のような形の一次加工テーブルとしてデータを蓄積することにしました。

一次加工テーブルはデータを最小粒度かつ、追加しやすいように加工します。
今回の例だと、
・メーカー(データソースによる社名表記ゆれを修正済)
・登録者or軽自動車のどちらかを示す分類表記
・年月
・売上台数
という形にしました。

今後2022年のデータを追加する際も、この表の最後に挿入していけば良さそうです。
このように一次加工テーブルを作っておいて、同じメーカー名で売上台数を集計するような作業は後処理にまかせましょう。

データを二次加工:目的ごとに加工/見やすく加工

一次加工テーブルを綺麗に整えたことで、エクセルのピボットテーブル機能が利用しやすくなりました。
ピボットテーブル機能を使うと、目的ごとにデータを加工したり、見やすく加工(表形式、グラフ形式など)することが簡単にできます。

完成した2021年のメーカー別自動車売上台数ランキングがこちら

登録車ランキング、軽自動車ランキングも適切なデータ設計を行っていたおかげですぐ作れました。
軽自動車の売上台数はダイハツとスズキが多く、登録車と軽自動車の売上台数を足すとランキングが変化したことがわかります。

メーカー×年月のデータを持っているため、このような時系列推移のグラフを描くこともできます。

変化に強い設計をしましょう

今回は簡単な集計例でしたが、業務で使うデータはもっと複雑です。
適切な場所(機能)で適切な処理を行うと、何のデータがどこにあってどう加工されているのかが明確になり、作業の見通しが立てやすくなります。
また、他の人から見ても処理がわかりやすいため作業の引継ぎや自動化がしやすくなります。
データ集計や分析の際は、ぜひ下記の図を意識して「設計」してみてください。

最後まで読んでいただき、ありがとうございました。
データ活用やAI/機械学習に関するご相談などありましたら是非クレスコまでお問合せください。