「分析実験の基礎」 数値データの取り扱い
2006.5.26

4.標本平均・標本分散

ある量を知ろうとして何回も実験し、N 個のデータ xi (i = 1, 2, ..., N)を得たものとしましょう。 そうして得た N 個のデータの標本平均 m を考えます。 1章と同様にただの「平均」と呼び記号 μ を使うと、「平均の平均」などの議論がやっかいになるので、以降でははっきり区別して用いることにします。 同様に標準偏差についても標本偏差と呼び σ ではなく s を用いることにします。 偏差2乗和 S は1章と同様に定義します。

まず標本平均 m の平均と分散を考えることにします。 標本平均については「100回測れば精度が10倍になる」という性質があります。

多数回の測定を行うのは、同じ確率分布に従う多数の独立な値を得るということです。 3章で見たように、それを足し合わせた値は、測定回数 N に比例して大きくなり、標準偏差は測定回数の平方根に比例して大きくなります。 標本平均 m について言うと、その平均 μm は個々のデータの平均 μ に等しく、 分散 σm2 は σ2/N になります。

誤差を標準偏差で評価すれば、相対誤差 σmm は測定回数の平方根に反比例して小さくなっていくわけです。 つまり「100回測れば精度が10倍になる」わけです。

次に標本分散 s2 の平均を見てみましょう。 偏差2乗和 S の平均は、元のデータの分散の N - 1 倍になります。

ここで x'i = xi - μ、m' = m - μ = (1/N) Σx'iとおきました。 また <(Σx'i)2> = <Σx'i2> + <Σx'ix'j≠i> = <Σx'i2> = N σ2 に注意します。

標本分散 s2 の平均は、元のデータの分散と一致します(というか、そうなるように定義した)。

レポートなどでデータの標準偏差を使うときは、この標本分散、標本標準偏差を使ってください

なお標本分散の平均は、元の分布の分散になりますが、標本標準偏差の平均は元の分布の標準偏差にはなりません(平均を取ってから平方根を取ったものと、平方根を取ってから平均を取ったもののちがい)。 たとえば元のデータが正規分布に従っておれば、標本標準偏差は標準偏差より小さめで、 N が大きいときには s ≒ (1 - 1/4N) σ で評価できます*。 けれども標準偏差に高い精度を要求しないことが多いので、あまり気にする必要はありません。

* 精密には、同じ正規分布に従う N 個のデータの標本標準偏差の平均は [2/(N - 1)]1/2Γ(N/2)/Γ((N - 1)/2) σ で表されます。 ここで Γ はガンマ関数。


5章へ
3章へ
表紙へ