SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

SalesZine Day(セールスジン・デイ)とは、テクノロジーで営業組織を支援するウェブマガジン「SalesZine」が主催するイベントです。 丸1日を通してSales Techのトレンドや最新事例を効率的に短時間で網羅する機会としていただければ幸いです。

  • 前回のSalesZine Dayのセッションの様子をレポート記事でお読みいただけます。

  • 過去開催時のイベントテーマをまとめてご覧いただけます。

直近開催のイベントはこちら!

SalesZine Day 2022 Summer

2022年7月26日(火)13:00-18:05

常に高い売上目標を達成し続けなければいけない営業組織。先行きの見通しが立たない時代においても成果を挙げるためには、過去の経験にとらわれず、柔軟に顧客や時代に合わせて変化し続けなければなりません。変化に必要なのは、継続的な学びであり、新たなテクノロジーや新たな営業の仕組みは営業組織の変化を助け、支えてくれるものであるはずです。SalesZine編集部が企画する講座を集めた「SalesZine Academy(セールスジン アカデミー)」は、新しい営業組織をつくり、けん引する人材を育てるお手伝いをします。

お申し込み受付中!

書籍紹介

平均値・最頻値・中央値を説明できる? データサイエンティストから学ぶ、データの傾向をざっくり掴む方法

  • Facebook
  • Twitter
  • Pocket
  • note
  • hatena
  • eight

 データを目の前にしたとき、最初に何をすべきか。いきなり細かく分析するのではなく、まずは全体の傾向を掴むことが大切です。今回は、こうしたデータの読み方をデータサイエンティストの方法から学べる書籍『データサイエンティストの仮説思考』(翔泳社)から、データの傾向を知るために最も重要な値である「平均値・最頻値・中央値」について解説されたパートを紹介します。

  • Facebook
  • Twitter
  • Pocket
  • note
  • hatena
  • eight

本記事は『紙と鉛筆で身につける データサイエンティストの仮説思考』の「第2章 データを読む力を身につける」から「2-2 全体の傾向をつかもう!」を抜粋したものです。掲載にあたって一部を編集しています。

全体の傾向をつかもう!

 データサイエンティストはデータを入手すると、ざっくりとデータ全体を眺め、データの傾向をつかもうとします。データには複数の項目が含まれているため、それぞれのデータを細かく見始めると、うまく全体の傾向をつかむことができません。ここでは、データサイエンティストがどのような方法で全体の傾向を把握しているのか確認しておきましょう。

データの代表値:平均値・最頻値・中央値

 データの全体的な傾向を把握するために、平均値最頻値中央値といった指標がよく使われます。皆さんも平均値はよく目にするのではないでしょうか。平均値・最頻値・中央値の定義は次のようになります。

平均値:データの値を足し合わせて、データの個数で割った値
最頻値:データの中で最も出現頻度が多い値
中央値:データを大きい順に並べたとき、ちょうど真ん中の値

 平均値・最頻値・中央値について実際に計算してみましょう。たとえば、次の図のような身長の5人がいるとします。

5人の身長
5人の身長

 このとき、平均値は(153+153+155+163+168)/5=158.4cmとなります。また、153cmが2人いるため、最頻値は153cmです。今回はデータの数が奇数なので、中央値は155cmとなります。

5人の身長の平均値・最頻値・中央値
5人の身長の平均値・最頻値・中央値

 もしデータの数が偶数の場合、中央値は最も中央に近い2つの値の平均値となります。たとえば、先ほどの5人に157cmの人が追加されると、中央値は156cmになります。

データの数が偶数だった場合の中央値
データの数が偶数だった場合の中央値

 平均値・最頻値・中央値についての理解を確認するために、次のクイズ4を考えてみてください。

クイズ:平均値・最頻値・中央値の算出方法について学ぶ

 次の表は10人の数学テストの結果です。このデータの平均値・最頻値・中央値はどれでしょうか?

平均値・最頻値・中央値の算出方法

解説

 まず平均値を求めてみましょう。平均値は「データの値を足し合わせて、データの個数で割った値」なので、次のように計算できます。

(40+50+60+70+70+80+80+80+80+90)/10人=70点

 次に最頻値を求めてみましょう。最頻値は「データの中で最も出現頻度が多い値」なので、4人が獲得した80点が最頻値となります。最後に中央値を求めてみましょう。中央値は「データを大きい順に並べたとき、ちょうど真ん中の値」です。今回はデータの数が偶数なので、5番目(70点)と6番目(80点)の値を足して2で割った75点が中央値となります。

【答え:平均値①、最頻値③、中央値②】

 平均値、最頻値、中央値を計算できたでしょうか。このように、データサイエンティストは平均値や最頻値などの指標を用いてデータ全体の傾向を確認します。ただし、これらの指標はそのデータを集約した代表値であって、データ自体を表すものではありません。代表値は非常に便利な指標ですが、読み方を間違えると誤った解釈を引き起こしてしまいます。代表値をうまく使いこなすためには、代表値の性質を正しく理解する必要があります。

 それでは、代表値の性質を理解するために、次のクイズを確認してみましょう。最もよく使われる「平均値」を取り上げます。

クイズ:代表値とデータ分布の関係について学ぶ

 3種類のコンビニを対象として、各店舗のおにぎりの売上を調査することになりました。1週間のおにぎりの売上個数は、表の通りです。それぞれの店舗における、おにぎりの売上個数の平均値はいくつでしょうか?

代表値とデータ分布の関係

解説

 平均値を計算してみると、各店舗のおにぎりの平均売上個数は次のようになります。

代表値とデータ分布の関係

 したがって、おにぎりの売上個数の平均値は、A店舗、B店舗、C店舗のいずれも100個となります。

【答え:A店舗②、B店舗②、C店舗②】

 前述の通り、平均値はデータの傾向を示す際に最もよく使われる代表値です。クイズではどの店舗も1週間の平均売上個数は同じでした。では、各店舗の平均売上個数が同じであったという事実から、「3店舗における1週間のおにぎりの売上傾向は同じである」と結論づけることはできるでしょうか。この問いに答えるために、もう少し詳しくデータを見てみましょう。

 各店舗のおにぎりの売上データを曜日ごとに棒グラフで表現すると、次の図のようになります。

おにぎりの曜日別売上個数
おにぎりの曜日別売上個数

 3店舗の平均値は同じですが、棒グラフで見ると傾向が異なることがわかります。A店舗は平日の売上が少なく、土日の売上が多くなっています。これは近くにドーム球場があるため、土日に開催されるイベントの影響で売上が多くなったのではないかと考えられます。A店舗では土日の売上が非常に大きいため、1週間の平均売上個数もそれにつられて大きくなっています。

 それに対してB店舗では、土日と比較して平日の売上が多くなっています。これはB店舗がオフィス街にあるため、近隣オフィスに勤務している人の購入が多いのではないかと推察できます。平日の売上個数は1週間平均値(100個)より多いにもかかわらず、土日の売上個数が少ないため、他の店舗と同じ平均売上個数になっています。

 C店舗は、平日と土日の差がほとんどありません。駅前で利便性の高い店舗であるため、曜日による差が少ないと考えることができます。

 このように代表値だけで判断すると、そのデータの特徴を見落とす可能性があります。データサイエンティストは、データを代表値だけで判断せずに、実際のデータの分布を観察し、そのデータの特徴を読み取っています

データの分布を確認する

 データサイエンティストはデータの分布を確認する際、ヒストグラムを用います。ヒストグラムとは、縦軸に度数、横軸に階級をとったグラフです。階級とは、データをある一定の範囲で区切ったときの区間を指します。度数とは、各区間に含まれるデータの数を指します。ヒストグラムにより、データの分布を視覚的に確認できます。

 たとえば、年齢調査結果データを5歳ずつの範囲で区切ってヒストグラムを作成すると、次の図のようになります。

ヒストグラムを作成する流れ
ヒストグラムを作成する流れ

 もうひとつヒストグラムを用いて、データの分布を確認してみましょう。17歳の身長の分布を示したヒストグラムです。

17歳の身長の分布(ヒストグラム)
17歳の身長の分布(ヒストグラム)

 この分布を見ると、中央のあたりにくぼみがあることがわかります。データサイエンティストはこのような分布を見た際、「なぜデータにくぼみがあるのか?」といったデータにくぼみがある背景について考えます。今回の場合は、「17歳の身長であれば、男女で差があるのではないか?」という仮説が考えられます。男女別に色分けしてみると、次の図のようになります。男性は女性よりも身長が高い傾向があるようです。

男女のデータを色分けした17歳の身長の分布
男女のデータを色分けした17歳の身長の分布

 そこで、男女ごとにデータを分けて分布を確認してみると、女性は158cmあたりにピークがあり、男性は170cmあたりにピークがあることがわかります。

男女別に分けた場合の身長の分布
男女別に分けた場合の身長の分布

 ここでは男女別の分布を調べることによって、くぼみの要因が「男女の差」であることが確認できました。このように複数の分布があわさって1つの分布になっているケースもあるため、データサイエンティストは「データが発生した背景」や「観測された背景」を常に意識しながらデータと向き合います

実社会では平均値=最頻値ではないことが多い

 データの全体的な傾向を把握するための代表値(平均値・最頻値・中央値)ですが、実社会では平均値=最頻値とならないことがよくあります。「平均値」と聞くと、最も出現頻度が多い「最頻値」をイメージしがちですが、実社会では平均値と最頻値が一致しないことがほとんどです。ここでは、平均値と最頻値が一致しないケースを2つ見ておきましょう。

日本国民の大部分は552万3千円の所得がある?

 厚生労働省の国民生活基礎調査によると、2019年の国民の平均所得金額は552万3千円となっています。しかし、ヒストグラムを確認してみると、最も世帯数が多いのは200万~300万円の世帯であることがわかります。また中央値は437万円なので、半分以上の世帯は552万3千円も所得がないことがわかります。平均値が552万3千円と聞くと、多くの世帯で500万~600万円の所得があるように感じてしまいますが、そうではありません。このように実社会では平均値=最頻値とはならないことが多いのです。

所得金額階級別世帯数の相対度数分布
所得金額階級別世帯数の相対度数分布

多くの世帯では1,791万円の貯蓄がある?

 もうひとつ例を確認しておきましょう。総務省統計局の家計調査報告によると、2人以上の世帯における2020年の平均貯蓄現在高は1,791万円となっています。皆さんの周りで1,800万円貯蓄している人はどの程度いるでしょうか。こちらもヒストグラムを確認してみると、最も世帯数が多いのは貯蓄100万円未満の世帯であることがわかります。

 このように平均値と最頻値が大きくずれてしまう原因として、4,000万円以上貯蓄している高額貯蓄世帯の存在があります。平均値は集計する対象の中に、極端に大きな値があるとそれに引っ張られてしまい値が大きくなります。この例のように、極端に大きな値が含まれたデータを考察する際は、平均値に惑わされず、しっかりとデータの分布を確認することが重要です。

貯蓄現在高階級別世帯分布(2人以上の世帯)
貯蓄現在高階級別世帯分布(2人以上の世帯)
データサイエンティストの仮説思考

Amazon SEshop その他

紙と鉛筆で身につける
データサイエンティストの仮説思考

著者:孝忠大輔、川地章夫、河野俊輔、鈴木海理、長城沙樹、中野淳一
編集:孝忠大輔
発売日:2022年7月15日(金)
定価:1,760円(本体1,600円+税10%)

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
  • hatena
  • eight
書籍紹介連載記事一覧

もっと読む

この記事は参考になりましたか?

この記事をシェア

  • Facebook
  • Twitter
  • Pocket
  • note
  • hatena
  • eight
SalesZine(セールスジン)
https://saleszine.jp/article/detail/3693 2022/07/25 07:00

Special Contents

PR

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

SalesZine Day(セールスジン・デイ)とは、テクノロジーで営業組織を支援するウェブマガジン「SalesZine」が主催するイベントです。 丸1日を通してSales Techのトレンドや最新事例を効率的に短時間で網羅する機会としていただければ幸いです。

2022年7月26日(火)13:00-18:05

イベントカレンダーを見る

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング