R

シンプソンパラドックスの可視化を3手法で【Excel/BI/R】

この記事は 『CRESCO Advent Calendar 2018』24日目の記事です。

こんにちは。データアナリティクスチームの飯村北海です。

昨年に引き続き[PR]データ分析やっていますと言いながらも、Tableauを使用したダッシュボード開発のプロジェクトに参画しています。
が、Rを使った分析プロジェクトも少しずつ増えてきています。なので今回はR+αの話でブログを書きたいと思います。

本当はTableau+Rによる記事を描きたかったのですが、どうやらRにデータを渡すためには一度SUMなどの集約関数を使用しないといけないようなので、ちょっと当初の目論見から外れてしまったため、今回の記事はちょっと趣向を変えていくつか出ているBIツール等との比較記事を書いてみました。

シンプソンのパラドックス

本題の前に、突然ですが、「シンプソンのパラドックス」についてご存知でしょうか?

私自身、このキーワードを最近知った(参考文献.1)のですが、Wikipedia:シンプソンのパラドックス(2018年12月中旬の本記事執筆時)によると、

母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

とのことです。

続きを読む


R言語の分析レポートを4枚のPowerPointに出力する

この記事は 『CRESCO Advent Calendar 2017』22日目の記事です。

こんにちは。データアナリティクスチームの飯村北海です。

最近は[PR]データ分析と言いながらも、どちらかというとBI寄りのTableauを使用したダッシュボード開発のプロジェクトに参画し、要件定義フェーズでレポートの設計をしているので、分析自体ををすることが少なくなってしまいました。RStudioを起動することも少なくなりましたが、今回はRの話でブログを書きたいと思います。

以前、社内のプロジェクトでデータ分析をした際に報告形式はRMarkdown + knitrによるHTML出力を採用したのですが、社内イントラのWebで公開するようなものでもなかったので本当はPowerPointでの報告をしたいなと思っていました。

しかし、データ分析における報告にはグラフが出てきます。何十枚と次元を変えて出力されたグラフをPower PointのスライドやWordに貼り付けていくのはかなり苦行です。Webシステム開発の画面テストも自動化が可能な時代です。「神エクセルに貼り付ける」なんてもってのほかです。「手作業でやるのはできる限り避けたい!」ということもあり以前はHTMLで自動生成をせざるをえませんでした。

ということでRでPowerPointが出力できたらとても嬉しいので頑張る、というところが今回のブログの内容です。

続きを読む