書籍紹介

平均値・最頻値・中央値を説明できる？データサイエンティストから学ぶ、データの傾向をざっくり掴む方法

2022/07/25 07:00

　データを目の前にしたとき、最初に何をすべきか。いきなり細かく分析するのではなく、まずは全体の傾向を掴むことが大切です。今回は、こうしたデータの読み方をデータサイエンティストの方法から学べる書籍『データサイエンティストの仮説思考』（翔泳社）から、データの傾向を知るために最も重要な値である「平均値・最頻値・中央値」について解説されたパートを紹介します。

Page 1

本記事は『紙と鉛筆で身につけるデータサイエンティストの仮説思考』の「第2章　データを読む力を身につける」から「2-2　全体の傾向をつかもう！」を抜粋したものです。掲載にあたって一部を編集しています。

全体の傾向をつかもう！

　データサイエンティストはデータを入手すると、ざっくりとデータ全体を眺め、データの傾向をつかもうとします。データには複数の項目が含まれているため、それぞれのデータを細かく見始めると、うまく全体の傾向をつかむことができません。ここでは、データサイエンティストがどのような方法で全体の傾向を把握しているのか確認しておきましょう。

データの代表値：平均値・最頻値・中央値

　データの全体的な傾向を把握するために、平均値や最頻値、中央値といった指標がよく使われます。皆さんも平均値はよく目にするのではないでしょうか。平均値・最頻値・中央値の定義は次のようになります。

平均値：データの値を足し合わせて、データの個数で割った値
最頻値：データの中で最も出現頻度が多い値
中央値：データを大きい順に並べたとき、ちょうど真ん中の値

　平均値・最頻値・中央値について実際に計算してみましょう。たとえば、次の図のような身長の5人がいるとします。

　このとき、平均値は(153+153+155+163+168)/5=158.4cmとなります。また、153cmが2人いるため、最頻値は153cmです。今回はデータの数が奇数なので、中央値は155cmとなります。

　もしデータの数が偶数の場合、中央値は最も中央に近い2つの値の平均値となります。たとえば、先ほどの5人に157cmの人が追加されると、中央値は156cmになります。

　平均値・最頻値・中央値についての理解を確認するために、次のクイズ4を考えてみてください。

クイズ：平均値・最頻値・中央値の算出方法について学ぶ

　次の表は10人の数学テストの結果です。このデータの平均値・最頻値・中央値はどれでしょうか？

解説

　まず平均値を求めてみましょう。平均値は「データの値を足し合わせて、データの個数で割った値」なので、次のように計算できます。

(40＋50＋60＋70＋70＋80＋80＋80＋80＋90)/10人＝70点

　次に最頻値を求めてみましょう。最頻値は「データの中で最も出現頻度が多い値」なので、4人が獲得した80点が最頻値となります。最後に中央値を求めてみましょう。中央値は「データを大きい順に並べたとき、ちょうど真ん中の値」です。今回はデータの数が偶数なので、5番目（70点）と6番目（80点）の値を足して2で割った75点が中央値となります。

【答え：平均値①、最頻値③、中央値②】

　平均値、最頻値、中央値を計算できたでしょうか。このように、データサイエンティストは平均値や最頻値などの指標を用いてデータ全体の傾向を確認します。ただし、これらの指標はそのデータを集約した代表値であって、データ自体を表すものではありません。代表値は非常に便利な指標ですが、読み方を間違えると誤った解釈を引き起こしてしまいます。代表値をうまく使いこなすためには、代表値の性質を正しく理解する必要があります。

　それでは、代表値の性質を理解するために、次のクイズを確認してみましょう。最もよく使われる「平均値」を取り上げます。

クイズ：代表値とデータ分布の関係について学ぶ

　3種類のコンビニを対象として、各店舗のおにぎりの売上を調査することになりました。1週間のおにぎりの売上個数は、表の通りです。それぞれの店舗における、おにぎりの売上個数の平均値はいくつでしょうか？

解説

　平均値を計算してみると、各店舗のおにぎりの平均売上個数は次のようになります。

　したがって、おにぎりの売上個数の平均値は、A店舗、B店舗、C店舗のいずれも100個となります。

【答え：A店舗②、B店舗②、C店舗②】

　前述の通り、平均値はデータの傾向を示す際に最もよく使われる代表値です。クイズではどの店舗も1週間の平均売上個数は同じでした。では、各店舗の平均売上個数が同じであったという事実から、「3店舗における1週間のおにぎりの売上傾向は同じである」と結論づけることはできるでしょうか。この問いに答えるために、もう少し詳しくデータを見てみましょう。

　各店舗のおにぎりの売上データを曜日ごとに棒グラフで表現すると、次の図のようになります。

　3店舗の平均値は同じですが、棒グラフで見ると傾向が異なることがわかります。A店舗は平日の売上が少なく、土日の売上が多くなっています。これは近くにドーム球場があるため、土日に開催されるイベントの影響で売上が多くなったのではないかと考えられます。A店舗では土日の売上が非常に大きいため、1週間の平均売上個数もそれにつられて大きくなっています。

　それに対してB店舗では、土日と比較して平日の売上が多くなっています。これはB店舗がオフィス街にあるため、近隣オフィスに勤務している人の購入が多いのではないかと推察できます。平日の売上個数は1週間平均値（100個）より多いにもかかわらず、土日の売上個数が少ないため、他の店舗と同じ平均売上個数になっています。

　C店舗は、平日と土日の差がほとんどありません。駅前で利便性の高い店舗であるため、曜日による差が少ないと考えることができます。

　このように代表値だけで判断すると、そのデータの特徴を見落とす可能性があります。データサイエンティストは、データを代表値だけで判断せずに、実際のデータの分布を観察し、そのデータの特徴を読み取っています。

データの分布を確認する

　データサイエンティストはデータの分布を確認する際、ヒストグラムを用います。ヒストグラムとは、縦軸に度数、横軸に階級をとったグラフです。階級とは、データをある一定の範囲で区切ったときの区間を指します。度数とは、各区間に含まれるデータの数を指します。ヒストグラムにより、データの分布を視覚的に確認できます。

　たとえば、年齢調査結果データを5歳ずつの範囲で区切ってヒストグラムを作成すると、次の図のようになります。

　もうひとつヒストグラムを用いて、データの分布を確認してみましょう。17歳の身長の分布を示したヒストグラムです。

　この分布を見ると、中央のあたりにくぼみがあることがわかります。データサイエンティストはこのような分布を見た際、「なぜデータにくぼみがあるのか？」といったデータにくぼみがある背景について考えます。今回の場合は、「17歳の身長であれば、男女で差があるのではないか？」という仮説が考えられます。男女別に色分けしてみると、次の図のようになります。男性は女性よりも身長が高い傾向があるようです。

　そこで、男女ごとにデータを分けて分布を確認してみると、女性は158cmあたりにピークがあり、男性は170cmあたりにピークがあることがわかります。

　ここでは男女別の分布を調べることによって、くぼみの要因が「男女の差」であることが確認できました。このように複数の分布があわさって1つの分布になっているケースもあるため、データサイエンティストは「データが発生した背景」や「観測された背景」を常に意識しながらデータと向き合います。

実社会では平均値＝最頻値ではないことが多い

　データの全体的な傾向を把握するための代表値（平均値・最頻値・中央値）ですが、実社会では平均値＝最頻値とならないことがよくあります。「平均値」と聞くと、最も出現頻度が多い「最頻値」をイメージしがちですが、実社会では平均値と最頻値が一致しないことがほとんどです。ここでは、平均値と最頻値が一致しないケースを2つ見ておきましょう。

日本国民の大部分は552万3千円の所得がある？

　厚生労働省の国民生活基礎調査によると、2019年の国民の平均所得金額は552万3千円となっています。しかし、ヒストグラムを確認してみると、最も世帯数が多いのは200万～300万円の世帯であることがわかります。また中央値は437万円なので、半分以上の世帯は552万3千円も所得がないことがわかります。平均値が552万3千円と聞くと、多くの世帯で500万～600万円の所得があるように感じてしまいますが、そうではありません。このように実社会では平均値＝最頻値とはならないことが多いのです。

多くの世帯では1,791万円の貯蓄がある？

　もうひとつ例を確認しておきましょう。総務省統計局の家計調査報告によると、2人以上の世帯における2020年の平均貯蓄現在高は1,791万円となっています。皆さんの周りで1,800万円貯蓄している人はどの程度いるでしょうか。こちらもヒストグラムを確認してみると、最も世帯数が多いのは貯蓄100万円未満の世帯であることがわかります。

　このように平均値と最頻値が大きくずれてしまう原因として、4,000万円以上貯蓄している高額貯蓄世帯の存在があります。平均値は集計する対象の中に、極端に大きな値があるとそれに引っ張られてしまい値が大きくなります。この例のように、極端に大きな値が含まれたデータを考察する際は、平均値に惑わされず、しっかりとデータの分布を確認することが重要です。