概要
「分散」は、データが平均のまわりにどれくらい散らばっているか(バラつきの大きさ)を表す指標です。
Excel では、母集団全体の分散を求めるときに VAR.P 関数を使います。
平均(AVERAGE)だけだと「真ん中」がわかるだけですが、分散を見ると「そろっているのか、バラバラなのか」まで見えるようになります。
VAR.P 関数の基本
構文と意味
VAR.P の基本構文はとてもシンプルです。
=VAR.P(数値1, [数値2], …)
または
=VAR.P(範囲)
指定した数値や範囲について、母集団分散を返します。
イメージとしては、「各データが平均からどれくらい離れているか」を二乗して平均したものです。
数式で書くと、母集団分散は次のようなイメージです。
ここで
(x_i):各データ
(\bar{x}):平均
(N):データの個数
です。
VAR.P と VAR.S の違い(ざっくり)
Excel には VAR.P と VAR.S があります。
VAR.P:母集団全体の分散(分母が (N))VAR.S:標本から母集団を推定する分散(分母が (N-1))
厳密な統計の話は一旦置いておいて、
「全部のデータがそろっている前提なら VAR.P」
「一部のサンプルから推定したいなら VAR.S」
くらいのイメージで使い分けるとよいです。
基本的なコード例
単一範囲の分散を求める
テストの点数が B2:B11 に入っているとします。
このとき、分散を求めるには次のように書きます。
=VAR.P($B$2:$B$11)
これで、「B2:B11 の点数がどれくらいバラついているか」が 1 つの数値として返ってきます。
値が大きいほど「バラつきが大きい」、小さいほど「そろっている」というイメージです。
複数範囲・複数引数も指定できる
範囲を複数指定することもできます。
=VAR.P(B2:B11, D2:D11)
あるいは、個別の値と範囲を混ぜても構いません。
=VAR.P(B2:B11, 0, 100)
ただし、実務では「1 つの範囲」を渡す形がいちばん読みやすいので、まずはそれに慣れるのがおすすめです。
分散の直感的なイメージ
同じ平均でも分散は変わる
次の 2 つのクラスを考えてみます。
クラスA:60, 60, 60, 60, 60
クラスB:40, 50, 60, 70, 80
どちらも平均は 60 です。
しかし、クラスAは全員 60 点で「まったくバラつきがない」、クラスBは「低い人も高い人もいる」状態です。
VAR.P を計算すると、
- クラスA:分散は 0(全員同じなのでバラつきゼロ)
- クラスB:分散は ある程度の値(バラつきあり)
となり、「同じ平均でも、分散を見るとクラスの雰囲気が違う」ことがわかります。
分散の単位について
分散は「(元の単位)²」の単位を持ちます。
たとえば、点数なら「点²」、身長なら「cm²」のようなイメージです。
そのため、「バラつきの大きさ」を元の単位で見たいときは、分散の平方根である「標準偏差(STDEV.P)」を使うことも多いです。
ただし、分散そのものも「比較」には十分使えます。
実務でのテンプレート
テストの分散を求めるテンプレート
B2:B101 にテストの点数が入っているとき、分散はこうです。
=VAR.P($B$2:$B$101)
平均と並べて表示するなら、たとえば:
C2: =AVERAGE($B$2:$B$101) ' 平均
C3: =VAR.P($B$2:$B$101) ' 分散
として、「真ん中」と「バラつき」をセットで見ると、クラスの特徴がよく見えてきます。
部署ごとの分散を比較する
部署ごとに別列にデータがある場合、列ごとに VAR.P を書くだけで、バラつきの比較ができます。
- B 列:営業部の売上 →
=VAR.P(B2:B101) - C 列:開発部の売上 →
=VAR.P(C2:C101)
分散が大きい部署は「数字の上下が激しい」、小さい部署は「安定している」といった見方ができます。
例題
問題1
B2:B6 に次の 5 つの点数が入っています。
60, 60, 60, 60, 60
この範囲の分散を VAR.P で求める式を書き、その結果がいくつになるか答えてください。
また、その結果から「このクラスのバラつき」がどういう状態かを言葉で説明してください。
問題2
B2:B6 に次の 5 つの点数が入っています。
40, 50, 60, 70, 80
- この範囲の平均を
AVERAGEで求める式を書き、結果がいくつになるか答えてください。 - 同じ範囲の分散を
VAR.Pで求める式を書き、問題1のクラスと比べて「どちらがバラつきが大きいか」を説明してください。
問題3
B2:B11 と D2:D11 に、それぞれ別グループの測定値が入っています。
この 2 つのグループをまとめて 1 つの集合とみなし、その分散を求めたいとします。
VAR.P を使って、その分散を求める式を書いてください。
また、その式が「2 つの範囲をどう扱っているか」を説明してください。
問題4
B2:B101 のデータについて、C2 に平均、C3 に分散を表示しました。
C2:=AVERAGE($B$2:$B$101)
C3:=VAR.P($B$2:$B$101)
この 2 つの値を見比べたとき、「分散がとても大きい」場合、データの分布にどのような特徴がありそうか、自分の言葉で考察してみてください。
問題5
VAR.P と STDEV.P は、どちらも「バラつき」を表す関数です。
分散と標準偏差の関係(標準偏差は分散の平方根)を踏まえて、
「分散で見る場合」と「標準偏差で見る場合」で、解釈のしやすさにどんな違いがあるかを、自分の言葉で整理してみてください。
