元組込みエンジニア 技研の2代目マルヤマです。

データの分布を俯瞰するときに便利な箱ひげ図の解説です。

ヒストグラムと箱ひげ図

データの分布を見るときにヒストグラムをよく使います。
とても強力なダイアグラムですが、複数の分布を並べて比べたいときには箱ひげ図の方が目的にあっているケースがあります。

まずはヒストグラムを見てみましょう。
総務省統計局e-Statからダウンロード出来る 平成22年,令和2年の
「令和2年 医師・歯科医師・薬剤師統計」のデータを使ってみます。

平成22年(’10)人口10万対医療施設従事医師数

令和2年(’20)人口10万対医療施設従事医師数

同じデータを箱ひげ図で可視化して並べてみます。

いかがですか、2つの分布の比較であればどちらのダイアグラムでも良いかもしれません。
でも、分布を比較する集合がもっと増えたときには、傾向を俯瞰するには箱ひげ図に分があることを判っていただけると思います。

そんな箱ひげ図、みなさんがお使いのExcelでも簡単に作れます。
総務省統計局のサイトなるほど統計学園でも丁寧な箱ひげ図の書き方を解説しています。
「簡単に」と言いましたが、実は箱ひげ図の機能がExcelに追加されたのはExcel2016からです。
それ以前のExcelで箱ひげ図を作るには、手作りが必要で大変な苦労がありました。
「Excel 箱ひげ図」で検索すると、大勢の方のノウハウが公開されています。
わたしも助けられました。先輩に感謝です。

箱ひげ図の見方

現在、箱ひげ図の描画はExcelの標準機能で出来ます。
作るのは簡単になりましたが、データを読み解くには、箱ひげ図が何を伝えているのか見方を知っておいた方は良いと思い、いくつか解説します。

25%タイル,75%タイル

分布が正規分布に従う例で説明します。
累積分布関数(CDF)で、
累積値が0.25になる標本の値を25%タイルと言います。(下側ヒンジ,第1四分位とも呼びます)
累積値が0.75になる標本の値を75%タイルと言います。(上側ヒンジ,第3四分位とも呼びます)
75%タイルと25%タイルの差分が、ヒンジの高さになります。
箱ひげ図の箱の部分は、75%タイルと25%タイルで決定されます。

箱ひげ図における、最大値,最小値,外れ値

箱ひげ図における最大値,最小値は。外れ値を除いた値です。
図には表示されませんが、25%タイル,75%タイルから、ヒンジの高さの1.5倍の距離に内境界点があります。
その境界点の内側で、最大,最小の値が最大値,最小値となります。
内境界点の外側の値が外れ値となります。

Excel標準機能でなく、手作りで箱ひげ図を描きたいとき

Excelの箱ひげ図の標準機能は便利です。
しかし、複数の集合の箱ひげ図を並べたいとき、表示したい集合のデータ全てにExcelのブックからアクセスできないといけない。箱ひげ図を描画に最低限必要な値だけ抽出し、その値だけExcelブックに記載して箱ひげ図を描画して並べたい。そんな時があります。
箱ひげ図の描画に必要な値を抽出するためのExcelの数式は以下になります。

かく言うわたしも、
Excelが標準で箱ひげ図に対応しても、いまだに手作りで箱ひげ図を作る場合があります。