「分析実験の基礎」 数値データの取り扱い
2006.5.26

5.標本分散・標本標準偏差の分散・標準偏差

標本平均から得られる平均値 m の確からしさは、標準偏差 σ/N1/2 で評価され、 標準偏差 σ は標本標準偏差 s で評価できます。 では標本標準偏差 s は、どの程度の確からしさを持っているのでしょうか?

たとえば、同じ技量持つと考えられる10人の人が合金の分析をして、 亜鉛の含量として次のような値を得たものとしましょう(2000 年度の学生実験の結果から一部引用)。

計算してみると標本平均は 26.32 wt%、標本標準偏差は 1.08 wt% という数字が出てきます。 ここから平均値は 26.32wt % 、その標準偏差は 1.08/101/2 = 0.34 wt% となります。 亜鉛含量としては 26.3 wt% というところで、標準偏差で評価して ±0.34 wt% ぐらいの誤差が見込まれると考えられます。 たいていはここまでで十分なのですが、この標準偏差 0.34 wt% の精度はどれぐらいかを考えたいというわけです。 この場合、計算された標準偏差の精度は、せいぜい1ケタしかないのです。

一般的に議論するのは難しいので、もとのデータが平均μ、標準偏差σ の正規分布に従っているものと考えます。 この時 N 個のデータの偏差2乗和 S をσ2 で割ったものは、自由度 N - 1 のカイ2乗(χ2)分布に従うことが示せます (少し詳しい事情は付録参照)。 自由度 φ のカイ2乗分布は、平均が φ、分散が 2φ になることが知られています。 ですから標本分散の分散は次の式で与えられます。

標本分散の相対誤差を、標本分散の標準偏差で見積もると、[2/(N - 1)]1/2。 N = 10 とすると [2/(10 - 1)]1/2 = 047... ですから、せいぜいオーダーを議論できる程度だということになります。

標本標準偏差の分散の評価は単純ではありませんが、N が大きければ σ2/2N 程度になります。

標本標準偏差の相対誤差を、標本標準偏差の標準偏差で見積もると、標本分散の場合の半分。 N = 10 の場合で 0.23.... となり、やはりせいぜいオーダーを議論できる程度です。

このことはちょっと混乱の元となっているようです。 元のデータの有効数字が 0.1 ポイント まで出ているんですから、 先にも触れたように「100回測れば10倍精度が上がる」ので、 標本平均や標本標準偏差の有効数字自体は上にも書いたように、 それぞれ 26.32 wt%、1.08 wt% と、0.01 ポイントのケタまであるはずです。 なのになぜ、0.01 ポイントの精度が保障されないのでしょう?

ここで考えないといけないのは、今、問題にしているのは個々のデータではなく、そのデータを生み出す背景にある統計分布であるということです。 標準偏差の確かさを保障してくれるのは、個々のデータの精度ではなく、むしろ「何回やったか」ということであることに留意ください。 このことは実際にたかだか 10 回程度の測定データから、度数分布のヒストグラムを作ってみても、あわれな歯抜けのヒストグラムになってしまうことからもわかります。


6章へ
4章へ
表紙へ