標本平均・標本分散

「分析実験の基礎」　数値データの取り扱い
2006.5.26

４．標本平均・標本分散

ある量を知ろうとして何回も実験し、N 個のデータ x_i (i = 1, 2, ..., N)を得たものとしましょう。そうして得た N 個のデータの標本平均 m を考えます。１章と同様にただの「平均」と呼び記号 μ を使うと、「平均の平均」などの議論がやっかいになるので、以降でははっきり区別して用いることにします。同様に標準偏差についても標本偏差と呼び σ ではなく s を用いることにします。偏差２乗和 S は１章と同様に定義します。

S = Σ(x_i - m)²

s² = S/(N - 1)

まず標本平均 m の平均と分散を考えることにします。標本平均については「１００回測れば精度が１０倍になる」という性質があります。

多数回の測定を行うのは、同じ確率分布に従う多数の独立な値を得るということです。３章で見たように、それを足し合わせた値は、測定回数 N に比例して大きくなり、標準偏差は測定回数の平方根に比例して大きくなります。標本平均 m について言うと、その平均 μ_m は個々のデータの平均 μ に等しく、分散 σ_m² は σ²/N になります。

σ_m² = (N σ²) / N² = σ² / N

誤差を標準偏差で評価すれば、相対誤差 σ_m/μ_m は測定回数の平方根に反比例して小さくなっていくわけです。つまり「１００回測れば精度が１０倍になる」わけです。

次に標本分散 s² の平均を見てみましょう。偏差２乗和 S の平均は、元のデータの分散の N - 1 倍になります。

ここで x'_i = x_i - μ、m' = m - μ = (1/N) Σx'_iとおきました。また <(Σx'_i)²> = <Σx'_i²> + <Σx'_ix'_j≠i> = <Σx'_i²> = N σ² に注意します。

標本分散 s² の平均は、元のデータの分散と一致します（というか、そうなるように定義した）。

レポートなどでデータの標準偏差を使うときは、この標本分散、標本標準偏差を使ってください

なお標本分散の平均は、元の分布の分散になりますが、標本標準偏差の平均は元の分布の標準偏差にはなりません（平均を取ってから平方根を取ったものと、平方根を取ってから平均を取ったもののちがい）。たとえば元のデータが正規分布に従っておれば、標本標準偏差は標準偏差より小さめで、 N が大きいときには s ≒ (1 - 1/4N) σ で評価できます*。けれども標準偏差に高い精度を要求しないことが多いので、あまり気にする必要はありません。

* 精密には、同じ正規分布に従う N 個のデータの標本標準偏差の平均は [2/(N - 1)]^1/2Γ(N/2)/Γ((N - 1)/2) σ で表されます。ここで Γ はガンマ関数。

５章へ

３章へ
表紙へ