Excel

シンプソンパラドックスの可視化を3手法で【Excel/BI/R】

この記事は 『CRESCO Advent Calendar 2018』24日目の記事です。

こんにちは。データアナリティクスチームの飯村北海です。

昨年に引き続き[PR]データ分析やっていますと言いながらも、Tableauを使用したダッシュボード開発のプロジェクトに参画しています。
が、Rを使った分析プロジェクトも少しずつ増えてきています。なので今回はR+αの話でブログを書きたいと思います。

本当はTableau+Rによる記事を描きたかったのですが、どうやらRにデータを渡すためには一度SUMなどの集約関数を使用しないといけないようなので、ちょっと当初の目論見から外れてしまったため、今回の記事はちょっと趣向を変えていくつか出ているBIツール等との比較記事を書いてみました。

シンプソンのパラドックス

本題の前に、突然ですが、「シンプソンのパラドックス」についてご存知でしょうか?

私自身、このキーワードを最近知った(参考文献.1)のですが、Wikipedia:シンプソンのパラドックス(2018年12月中旬の本記事執筆時)によると、

母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

とのことです。

続きを読む

DataTable 操作のパフォーマンスが上がった話

こんにちは、AI&ロボティクスセンターの大川です。

今回はRPA業務で、ちょっとした工夫でロボット動作のパフォーマンスが大きく上がったということをお話しします。

RPAで多用される定型業務の一つに、Excelデータの処理があります。
複数のExcelファイルにある大量のデータから特定の列を抽出して一つのExcelファイルに出力したり、その出力処理の前処理として複数条件でデータを集計してから出力したりと、人が手で作業するには非常に時間がかかりミスも発生しやすい定型業務を、ロボットで正確に処理してくれます。
現在は、UiPathというアプリケーションを使用したRPAの開発を行っており、Excelファイルの処理はDataTableという型のデータを扱うことになります。

※UiPathでコードを記述するときは、VB.NETという言語を使用します。

どんな問題が発生したのか

DataTableから条件に合う行を抽出するときに、ものすごく時間がかかるという問題が発生しました。

続きを読む