この記事は 『CRESCO Advent Calendar 2018』24日目の記事です。

こんにちは。データアナリティクスチームの飯村北海です。

昨年に引き続き[PR]データ分析やっていますと言いながらも、Tableauを使用したダッシュボード開発のプロジェクトに参画しています。
が、Rを使った分析プロジェクトも少しずつ増えてきています。なので今回はR+αの話でブログを書きたいと思います。

本当はTableau+Rによる記事を描きたかったのですが、どうやらRにデータを渡すためには一度SUMなどの集約関数を使用しないといけないようなので、ちょっと当初の目論見から外れてしまったため、今回の記事はちょっと趣向を変えていくつか出ているBIツール等との比較記事を書いてみました。

シンプソンのパラドックス

本題の前に、突然ですが、「シンプソンのパラドックス」についてご存知でしょうか?

私自身、このキーワードを最近知った(参考文献.1)のですが、Wikipedia:シンプソンのパラドックス(2018年12月中旬の本記事執筆時)によると、

母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

とのことです。

続きを読む