概要
「外れ値検出」は、他のデータと比べて極端に大きい・小さい値を見つける作業です。
Excel では、ABS(絶対値)と STDEV.P / STDEV.S(標準偏差)、そして AVERAGE を組み合わせることで、シンプルかつ実務的な「外れ値っぽい値」をあぶり出すことができます。
ここでは、初心者でもそのまま真似できるテンプレートと、考え方の筋道を丁寧に解説します。
外れ値検出の基本アイデア
平均からどれだけ離れているかを見る
外れ値を考えるときの出発点は、「平均からどれだけ離れているか」です。
ある値が平均から大きくズレていればいるほど、「他と違う」「外れっぽい」と感じますよね。
この「ズレ」を数式で表すと、こうなります。
=対象の値 - 平均
ただし、このままだと「プラスのズレ」と「マイナスのズレ」が混ざってしまうので、ズレの大きさだけを見たいときは ABS(絶対値)を使います。
=ABS(対象の値 - 平均)
これで、「平均からどれだけ離れているか」を“距離”として扱えるようになります。
標準偏差を「ズレのものさし」にする
次に、「どこから先を“外れ”とみなすか」という基準が必要です。
ここで登場するのが標準偏差(STDEV.P / STDEV.S)です。
標準偏差は、「データが平均のまわりにどれくらい散らばっているか」を表す指標で、
ざっくり言えば「よくあるズレの大きさ」です。
この標準偏差をものさしにして、
- 平均からのズレが「標準偏差の 2 倍を超えたら外れ候補」
- あるいは「3 倍を超えたらかなり怪しい」
といったルールを決めておくと、外れ値検出を機械的に行えるようになります。
Excel での基本テンプレート
データの前提
B2:B101 に、売上・点数・測定値など、外れ値をチェックしたい数値データが入っているとします。
このとき、C 列に「平均からのズレ」、D 列に「外れかどうかの判定」を出す形を考えます。
平均と標準偏差を先に出しておく
まず、どこかに平均と標準偏差を計算しておくと、式がスッキリします。
たとえば、
- F2:平均
- F3:標準偏差
と決めて、次のように入力します。
F2(平均):
=AVERAGE($B$2:$B$101)
F3(標準偏差。母集団全体なら STDEV.P、標本なら STDEV.S):
=STDEV.P($B$2:$B$101)
これで、「全体の真ん中」と「よくあるズレの大きさ」が準備できました。
平均からのズレの大きさを ABS で出す
次に、C2 に「B2 が平均からどれだけ離れているか」を出します。
=ABS(B2-$F$2)
これを C101 までコピーすると、各データの「平均からの距離」が C 列に並びます。
標準偏差を基準に「外れ候補」を判定する
たとえば、「平均からのズレが標準偏差の 2 倍を超えたら外れ候補」と決めるとします。
このとき、D2 に次のように書けます。
=IF(C2>2*$F$3,"外れ候補","通常")
これを D101 までコピーすると、「外れ候補」と「通常」が自動で振り分けられます。
2 を 3 に変えれば「3σ(シグマ)ルール」のような、より厳しい外れ判定にもできます。
1 本の式にまとめるパターン
平均・標準偏差を埋め込んだ判定式
平均や標準偏差を別セルに出さず、1 本の式で「外れ候補かどうか」を判定することもできます。
たとえば、「B2 が外れ候補かどうか」を判定する式は、次のように書けます。
=IF(ABS(B2-AVERAGE($B$2:$B$101))>2*STDEV.P($B$2:$B$101),"外れ候補","通常")
この式の中で、
AVERAGE($B$2:$B$101)が平均STDEV.P($B$2:$B$101)が標準偏差ABS(B2-平均)が「平均からのズレの大きさ」
を表しています。
この式を C2 に入れて下にコピーすれば、C 列に「外れ候補/通常」が並びます。
実務での注意とコツ
「外れ=間違い」とは限らない
外れ値検出の目的は、「他と違う値を見つけること」であって、「間違いを決めつけること」ではありません。
たとえば、売上が急に跳ねた月が「外れ候補」として検出されたとしても、それが「キャンペーン大成功」の結果なら、むしろ重要な事実です。
だからこそ、ABS+STDEV であぶり出した外れ候補は、
「まず目で確認する」「現場の事情を聞く」ための“気づきのきっかけ”として使うのが健全です。
標準偏差の種類とデータの前提
STDEV.P は「母集団全体」、STDEV.S は「標本から母集団を推定」という前提で使い分けます。
クラス全員のテスト結果のように「全部そろっている」なら STDEV.P、
全体の一部だけを抜き出したデータなら STDEV.S を使う、というイメージで覚えておくとよいです。
例題
問題1
B2:B101 に 100 個の測定値が入っています。
F2 に平均、F3 に標準偏差(母集団全体とみなしてよいものとする)を計算し、C 列に「平均からのズレの大きさ」、D 列に「外れ候補/通常」を表示したいとします。
- F2 に入力すべき式(平均)を書いてください。
- F3 に入力すべき式(標準偏差)を書いてください。
- C2 に「平均からのズレの大きさ」を出す式を書いてください。
- D2 に「標準偏差の 2 倍を超えたら外れ候補」と判定する式を書いてください。
問題2
B2:B101 のデータについて、「B2 が外れ候補かどうか」を 1 本の式で判定したいとします。
平均と標準偏差は別セルに出さず、AVERAGE と STDEV.P を式の中に直接書き込む前提で、
C2 に入力すべき式を書いてください(判定は「外れ候補」または「通常」と表示するものとします)。
問題3
外れ値判定の基準として、「標準偏差の 2 倍」と「標準偏差の 3 倍」のどちらを使うかで、検出される外れ候補の数はどう変わりそうかを考えてみてください。
そのうえで、「あなたが扱っているデータ(テスト、売上、アクセスなど)」をイメージしながら、どちらの基準がしっくり来るか、自分の言葉で説明してください。
問題4
ABS+STDEV による外れ値検出で「外れ候補」と判定された値が、本当に「誤入力」や「異常値」とは限りません。
むしろ「重要なイベント(大きな成功・大きな失敗)」である可能性もあります。
この点を踏まえて、外れ候補を見つけたあとにどのような確認や対話が必要だと思うか、自分の経験やイメージを交えて書いてみてください。
問題5
外れ値検出には、今回扱った「平均+標準偏差」の方法のほかに、「四分位数(QUARTILE)を使う方法」もあります。
両者の違いを、「平均に敏感かどうか」「極端な値の影響をどう受けるか」という観点から考え、
「どんなデータにはどちらの方法が向いていそうか」を自分の言葉で整理してみてください。
