ある量を知ろうとして何回も実験し、N 個のデータ xi (i = 1, 2, ..., N)を得たものとしましょう。 そうして得た N 個のデータの標本平均 m を考えます。 1章と同様にただの「平均」と呼び記号 μ を使うと、「平均の平均」などの議論がやっかいになるので、以降でははっきり区別して用いることにします。 同様に標準偏差についても標本偏差と呼び σ ではなく s を用いることにします。 偏差2乗和 S は1章と同様に定義します。
S = Σ(xi - m)2
s2 = S/(N - 1)
まず標本平均 m の平均と分散を考えることにします。 標本平均については「100回測れば精度が10倍になる」という性質があります。
多数回の測定を行うのは、同じ確率分布に従う多数の独立な値を得るということです。 3章で見たように、それを足し合わせた値は、測定回数 N に比例して大きくなり、標準偏差は測定回数の平方根に比例して大きくなります。 標本平均 m について言うと、その平均 μm は個々のデータの平均 μ に等しく、 分散 σm2 は σ2/N になります。
σm2 = (N σ2) / N2 = σ2 / N
誤差を標準偏差で評価すれば、相対誤差 σm/μm は測定回数の平方根に反比例して小さくなっていくわけです。 つまり「100回測れば精度が10倍になる」わけです。
次に標本分散 s2 の平均を見てみましょう。 偏差2乗和 S の平均は、元のデータの分散の N - 1 倍になります。
ここで x'i = xi - μ、m' = m - μ = (1/N) Σx'iとおきました。 また <(Σx'i)2> = <Σx'i2> + <Σx'ix'j≠i> = <Σx'i2> = N σ2 に注意します。
標本分散 s2 の平均は、元のデータの分散と一致します(というか、そうなるように定義した)。
レポートなどでデータの標準偏差を使うときは、この標本分散、標本標準偏差を使ってください
なお標本分散の平均は、元の分布の分散になりますが、標本標準偏差の平均は元の分布の標準偏差にはなりません(平均を取ってから平方根を取ったものと、平方根を取ってから平均を取ったもののちがい)。 たとえば元のデータが正規分布に従っておれば、標本標準偏差は標準偏差より小さめで、 N が大きいときには s ≒ (1 - 1/4N) σ で評価できます*。 けれども標準偏差に高い精度を要求しないことが多いので、あまり気にする必要はありません。
* 精密には、同じ正規分布に従う N 個のデータの標本標準偏差の平均は [2/(N - 1)]1/2Γ(N/2)/Γ((N - 1)/2) σ で表されます。 ここで Γ はガンマ関数。