この記事は 『CRESCO Advent Calendar 2017』25日目(最終日)の記事です。

第1金融ソリューション事業部、兼 3D円グラフ撲滅委員 所属りーだーです。

◆はじめに

データ分析者の最も時間のかかる作業は、その名の通りデータの「分析」と思われがちですが、その前の作業、データ前処理に最も作業時間がかかります。
その作業時間は、全体の8割とも、それ以上とも言われています。

データ前処理とはデータを集めたり、データに問題がないか確認したり、分析しやすいように加工したりする作業のことです。

もし提供されたデータが使いづらい、扱いづらいものであると、データ前処理の作業時間は膨大な時間になります。

今回は、どんなデータを渡すと、データ分析者は困ることになるのか、というお話です。

続きを読む