posted

【2019版】データ分析に最適!ヒストグラム・箱ひげ図|Excelグラフ活用術⑦

【2019版】データ分析に最適!ヒストグラム・箱ひげ図|Excelグラフ活用術⑦

 

Excel標準グラフの種類と作り方をご説明する連載「説得力UP!Excelグラフ活用術」 、今回は、Excel2019(365)以降でぐっと使いやすくなった「ヒストグラム」と、Excel2016以降で登場した「箱ひげ図」をご紹介します。

棒グラフや折れ線グラフでは、最大数量はこれ、最小数量はこれというように、「この項目はこの数量」という結果をグラフにしてきました。

一方「ヒストグラム」と「箱ひげ図」は、「この数量はこのグループの中で何件あるのか」、「この数量は全体のどの位置に属しているのか」を表してくれるグラフです。

これらのグラフを活用できるようになると、単純に数が多い少ないではなく、全体の中である数値がどういう位置づけなのかを把握できます。
作成方法や特徴を理解して、今までにない資料を作っていきましょう!

広告

データの分布を区間にグループ化して表示する「ヒストグラム」

ヒストグラムとは、参照するデータをいくつかの区間(階級)に分け、それぞれの区間内に含まれるデータの個数(人数や回数)をグラフにしたものです。

ヒストグラムの特徴

数値で表された分布表を、視覚的にわかりやすく表現できます。
全体の中でどの辺りに数字が偏っているのか、どの様にばらついているのかを把握できるグラフです。

ヒストグラムの種類

ヒストグラムを作成すると、いくつか決まった形になります。まずは、その種類と傾向をお伝えします。

ヒストグラムの種類

一般的に現われる形です。
分布の中心付近が最も高くなり、そこから両端に離れるにつれ徐々に少なくなっていき、左右対称の形になるのが特徴。
収集データが適正であることを示す形でもあります。

ヒストグラムの種類2

階層ごとに多くなったり少なくなったりし、歯抜けのような形になっているのが特徴。
収集データの総量が少ないときや、各区間の幅が少ない場合に現れやすい形状です。
このようなくし歯型になった場合は、もう少しデータを追加してみるとよいでしょう。

ヒストグラムの種類2

すそ引き型は、ヒストグラムの平均値が分布の中心付近よりも左右どちらかに寄っているのが特徴です。
上図のような右すそ引き型になっている場合は、左側の度数が急になり、右側はゆるやかに少なくなります。
この型は、集計データの数値に下限を設けている場合に現れます。

ヒストグラムの種類3

ヒストグラムの平均値が、分布の中心付近よりも左右どちらかに極端に寄っているのが特徴です。
左絶壁型の場合、人数(回数)は左側が急になり、右側はゆるやかに少なくなっています。
データが意図的に選別されている可能性があるので、測定や参照データに間違いがないか確認する必要があるでしょう。

ヒストグラムの種類4

各階級に含まれる人数(回数)があまり変わらず、停滞状態になっているのが特徴です。 データに誤りがある可能性や異なる要因がある場合が考えられるので、集計データを改めて確認してみましょう。

ヒストグラムの種類5

分布の中心付近の人数(回数)が少なく、左右に山があるのが特徴です。
高原型と同じくデータに誤りがある可能性や、異なる要因がある場合が考えられるので、集計データをあらためて確認してみましょう。

ヒストグラムの種類6

ヒストグラムの右の端、もしくは左の端に離れ小島があるのが特徴です。
グラフの作成方法に誤りがあると考えられますので、作成方法を見直してみましょう。

ヒストグラムの使用例

個人の営業成績100万円台、200万円台の売上を達成した人は何人いるか。(X軸:売上金額・Y軸:人数)
収穫した桃の重さ500個の重量比較、何グラムが何個あるか。(X軸:重さ・Y軸:桃の個数)
テストの結果合計点の分布、何点の人が何人いるか。(X軸:点数・Y軸:人数)

ヒストグラムの作成例

ここでは、中間テスト成績結果の分布を例にとってその作成方法をご紹介します。
(以下、Excel2019で作成。フォントは游ゴシックを使用)

↓元の表データ

ヒストグラムの元データ

① A3セルからB22セルまでを選択する
② リボンの「挿入」タブ→「グラフ」で「統計グラフの挿入」→「ヒストグラム」→「ヒストグラム」をクリックする

あとは、グラフを選択するとタブに表示される「グラフツール」の「デザイン」および「書式」タブで、見映えを整えれば完成です。

作成直後は下図のグラフができます。

ヒストグラムの作成直後

今回は、以下の調整を行います。
・「(グラフの)デザイン」タブで「グラフのレイアウト」グループ→「グラフ要素を追加」→「データラベル」→「外側」を指定
・グラフ上のグラフタイトルを「中間テスト点数分布」と入力

ヒストグラムの作成例

・「書式」タブで「横軸」→「選択対象の書式設定」→右側に作業ウィンドウが表示されます

ヒストグラムの作成例

「ピンのアンダーフロー」にチェックを入れ、数値を「200」とします。(200点以下の人数をひとまとめに表示するため)
「ピンの幅」を100と設定したことで、ヒストグラム上のX軸の範囲が、100単位に揃います。
左端の「<=200」は200以下の範囲、左から2番目の範囲が「200~300」左から3番目が「300~400」一番右側が「400~500」となります。
「ピンのオーバーフロー」にチェックを入れ、数値を「500」とします。(テストの合計点が最高で500点のため)

以上でヒストグラムの完成です。

ヒストグラムの作成例

どの点数の人数が一番多いか、ひと目でわかりますね。

※ちなみに、同じデータを棒グラフで作ると下図のようになります。

ヒストグラムの作成例

縦棒グラフでは「鈴木」が最高点、「斎藤」が最低点など、個人の成績はわかりますが、どの点数帯にどのくらいの人数がいるのかの把握は難しいですね。

その点、ヒストグラムでは、どの点数の人数が多いか一目瞭然です。

ヒストグラムの作成例

数値の分布を可視化したいときに便利ですので、ぜひトライしてみてくださいね。

データのばらつきをわかりやすく表現する「箱ひげ図」

箱ひげ図とは、最大値、最小値、中央値を表示することで、平均値だけでは計りづらい、多くのデータ分布を把握できるグラフです。

先ほど紹介した「ヒストグラム」では1つの項目しか表示することはできませんが、「箱ひげ図」では複数の項目を1つのグラフで表示できるので、複数のデータを比較する場合にとても便利です。

箱ひげ図の特徴と見方

箱ひげ図は、下図のような箱とひげでできている、ユニークな形をしたグラフです。

箱ひげ図の特徴と見方

今回は、ある会社の社員21人の貯蓄額を調査した結果を例とし、「箱ひげ図」の見方を具体的に解説していきます。

箱ひげ図の特徴と見方

上図のような貯蓄額調査表をグラフで作成するとき、棒グラフでは、誰が一番貯蓄額が多いかを確認することはできますが、どのくらいの貯蓄額の人が一番多いかの把握は難しくなります。
「箱ひげ図」は、そんな時にとても有効です。

箱ひげ図では「最小値・25%値・中央値・平均値・75%値・最大値」が自動で作成されます。
箱ひげ図の見方をわかりやすくするために、上記左の表の“貯蓄額を降順に並べ替えたグラフ”と、比較してみましょう。

箱ひげ図の特徴と見方

社内の21人の平均値は336万円です(箱ひげ図では×印で表示されます)。
しかしこのデータでは、1人だけ飛びぬけて貯蓄額の多い人(清水2,000万円)が平均値を上げているため、平均より貯蓄額が少ない人が約75%もいることになります。
これだと、自分の貯蓄額が社内で多いのか少ないのかを、適正に判断できません。

そこで平均値ではなく、21人の真ん中の人(渡辺200万円)の金額を中央値(表を降順に並べ替えたときちょうど真ん中に位置する値)とし、これを基準に判断してみましょうというのが、「箱ひげ図」の考え方です。

一番下のラインで表されるのが最小値(佐藤50万円)、一番上のラインで表されるのが最大値(林500万円)となり、全人数(21人)を4分の1に分けて考えます。
すると、最小値から25%値の間に5人、25%値~中央値の間に5人、中央値~75%値の間に5人、75%値~最大値の間に5人、外れ値に1人と、最小値から最大値の間を4分の1ずつの人数に振りわけられます。

箱の大きさが大きいほど、ひげの長さが長いほど貯蓄額のばらつきが大きく、箱の大きさが小さいほど、ひげの長さが短いほど貯蓄額のばらつきが小さくなります(箱もひげも、人数の多い少ないを表しているわけではありません)。

結果、“平均値よりも少なかった300万円の人は、社内での貯蓄額は多い方かな”と判断できるのです。

箱ひげ図の使用例

中間試験の成績5教科の平均と分布状況の把握
社員の年代別体脂肪の分布

箱ひげ図の作成例

以下の表から、マップグラフを作成する手順を簡単にご紹介します。
(以下、Excel2019で作成。フォントは游ゴシックを使用)

↓元の表データ

箱ひげ図の元データ

① B2セルからF22セルまでを選択する
② リボンの「挿入」タブ→ 「グラフ」で「統計グラフの挿入」→「箱ひげ図」で「箱ひげ図」をクリック

作成直後は下図のようなグラフです。

箱ひげ図の作成例

あとは、グラフを選択するとタブに表示される「グラフツール」の「デザイン」及び「書式」タブで見映えを整えれば完成です。

今回は以下の調整を行います。
・「(グラフの)デザイン」タブで「グラフのレイアウト」→「グラフ要素を追加」→「軸」→「第1横軸」をクリックしオフにする
・グラフ上のグラフタイトルに「中間テスト結果」と入力
・「(グラフの)デザイン」タブで「グラフのレイアウト」→「グラフ要素を追加」→「凡例」→「下」をクリック
・「(グラフの)デザイン」タブで「グラフのレイアウト」→「グラフ要素を追加」→「データラベル」→「右」をクリック

箱ひげ図の作成例

・「書式」タブ「現在の選択範囲」で「縦 (数値)軸」を選択→「選択対象の書式設定」をクリック

箱ひげ図の作成例

・右側に表示される作業ウィンドウの「軸のオプション」で「最大値」に「100」と入力

箱ひげ図の作成例

・「書式」タブ「現在の選択範囲」グループで「系列“英語”」(英語ではなく国語でも数学、理科、社会でもよい)を選択→「選択対象の書式設定」をクリック
・右側に表示される作業ウィンドウの「系列のオプション」で「要素の間隔」→「0%」と入力

箱ひげ図の作成例

作成後の箱ひげ図がこちら↓

箱ひげ図の作成例

この箱ひげ図により、全教科の最高点、最低点、平均点の比較や点数に対しての人数の分布がわかります。

具体的には…
国語と社会で平均値よりも中央値が高いので、極端に平均点を下げている人がいると思われます。
理科と社会においては最高点、最低点がほぼ同じですが、社会は25%~50%の間の人数の方が多く、理科は50%~75%までの人数が多いので、平均点に差が出ています。
また、英語はほかの教科と比べ極端に点数が低いことから、出題に問題があったのかも…などという想定ができますね。

では次に、国語を詳しく分析してみましょう。
国語の平均点は75点。42点が最小値、58点が25%値、80点が中央値、88点が75%値、98点が最大値です。
最小値~中央値の間で点数のばらつきが多く、中央値から最大値ではばらつきが少ないので、国語の成績優秀者(1位~10位)は僅差であることがわかりますね。
もし自分がこの中央値にいた場合、もう少しがんばれば1位になる可能性も十分ある!…と考えられそうです。

このように「箱ひげ図」は、中央値と平均値の違いなど、見方さえ理解できれば作成はとても簡単なので、まずはグラフの見方を覚えることが重要です。
ぜひ一度、じっくりと見て分析してみてください。

今回は、Excel2019(365)以降でぐっと使いやすくなった「ヒストグラム」と、Excel2016バージョン以降で登場した「箱ひげ図」をご紹介しました。

一般的な棒グラフや折れ線グラフとは違う角度からデータの検証を行える、とても便利なグラフです。本当に知りたかったことを知るきっかけになるかもしれませんので、ぜひお役立てください。

次回は最終回!Excel2016以降で登場した「ウォ-ターフォール図」と、Excel2019/Office365で登場した「じょうごグラフ」をご紹介します。
どちらも増加や減少を表すのに使われる、わかりやすいグラフです。これまでとはまた違った楽しみがあるかもしれませんので、ぜひ楽しみにしていてくださいね。

これだけマスター!Excel講座

無料登録でオンラインの資格講座を体験しよう!

資格受け放題の学習サービス『オンスク.JP』では様々な資格講座のオンライン学習が可能です。
最短20秒の無料会員登録で、各講座の講義動画・問題演習の一部が無料体験できます。

※無料会員は、決済情報入力なしでご利用可能。
※自動で有料プランになることはありません。

無料体験でできること

無料会員登録

オンスク.JP 講座一覧

関連する記事が他にもあります

広告

お友達紹介特典URL発行

ログインが必要です

ページトップへ