最小２乗法のはなし：最小２乗法の考え方

飲料水中のカルシウム濃度をＡさんとＢくんが測定し、Ａさんは 0.67 mmol/L という結果を、Ｂくんは 0.72 mmol/L という結果を出したとしよう。ＡさんとＢくんの技量が同じなら、カルシウム濃度として平均値 0.70 mmol/L を採用することになるだろう。でもＡさんの技量の方がＢくんより高く、Ａさんの分析値の標準偏差が 0.02 mmol/L、Ｂくんの標準偏差が 0.04 mmol/L であることが分かっているとしたら、カルシウム濃度はいくらと推定するのがよいだろうか？

こうした問題を扱うのに、カルシウム濃度としてもっともありそうな値を採用するという考え方がある。正規分布を仮定すると、カルシウム濃度を \(t\) とした時、Ａさんが \(x_\mrm{A}\)、Ｂくんが \(x_\mrm{B}\) を与える確率 \(P(x_\mrm{A}, x_\mrm{B})\) は次式で与えられる：

\begin{equation} P(x_\mrm{A}, x_\mrm{B}) = \frac{1}{2 \pi \sigma_\mrm{A} \sigma_\mrm{B}} \exp \left[ -\frac{(x_\mrm{A} - t)^2}{2 \sigma_\mrm{A}^2} -\frac{(x_\mrm{B} - t)^2}{2 \sigma_\mrm{B}^2} \right] \label{eq:conc1} \end{equation}

ここでＡさんＢくんの測定値の標準偏差を、それぞれ \(\sigma_\mrm{A}\)、\(\sigma_\mrm{B}\) とした。カルシウム濃度 \(t\) が分からないのだが、この \(P(x_\mrm{A}, x_\mrm{B})\) がもっとも大きくなるように \(t\) を推定するというのがこの立場である。確率 \(P(x_\mrm{A}, x_\mrm{B})\) がもっとも大きくなるのは

\begin{equation} S = \frac{(x_\mrm{A} - t)^2}{2 \sigma_\mrm{A}^2} + \frac{(x_\mrm{B} - t)^2}{2 \sigma_\mrm{B}^2} \label{eq:conc2} \end{equation}

がもっとも小さくなる時（”最小２乗”）である。この時 \(t\) の推定値 \(t_\mrm{e}\) は、\(x_\mrm{A}\)、\(x_\mrm{B}\) にそれぞれ分散の逆数だけの重みを付けた平均

\begin{equation} t_\mrm{e} = \frac{1}{\sigma_\mrm{A}^{-2} + \sigma_\mrm{B}^{-2}} (\sigma_\mrm{A}^{-2} x_\mrm{A} + \sigma_\mrm{B}^{-2} x_\mrm{B}) \label{eq:conc3} \end{equation}

\begin{equation} \var{t_\mrm{e}^2} = \frac{\sigma_\mrm{A}^2 \sigma_\mrm{B}^2}{\sigma_\mrm{A}^2 + \sigma_\mrm{B}^2} \label{eq:conc4} \end{equation}

で与えられる。先の例ではＡさんの標準偏差 0.02 mmol/L はＢくんの標準偏差 0.04 mmol/L の半分だったから、Ａさんの測定値はＢくんの測定値の 4 倍の重みがあり、推定値としては 0.68 mmol/L、その標準偏差は 0.018 mmol/L 程度ということになる。測定値を特徴づけるパラメータ \(t\) を推定するこの手法を、多変数のパラメータに拡張したのが最小2乗法とみることができる。

このおはなしでは、最ももっともらしい推定値（最尤値。maximum likelihood estimator。MLE）を得るものとして、最小２乗法を考えます。これ以外にも、偏りのない最も分散の小さい推定値（不偏最小分散推定値。最小分散不偏推定値。minimum variance unbiased estimator。MVUE）を考える立場があり、こちらの方が一般に普及しているでしょう。

偏りのない最も分散の小さい推定値を目指す立場からは、推定値 \(t_\mrm{e}\) について、平均が母集団の平均（”真の値”）\(t\) で、分散が最小になることを要請します。そして先の場合でいうと、次のように論を進めます。

A さん B くんの結果には偏りがありません：

\[ \avg{x_\mrm{A}} = \avg{x_\mrm{B}} = t \]

A さんが \(x_\mrm{A}\)、B くんが \(x_\mrm{B}\) という結果を得た場合の推定値 \(t_\mrm{e}\) を、両者にある重み \(a\)、\(b\) をつけて足しこんだ（線形結合）ものだとします：

\[ t_\mrm{e} = a x_\mrm{A} + b x_\mrm{B} \]

偏りのない推定値なので、次式が成り立ちます：

\[ \avg{t_\mrm{e}} = a \avg{x_\mrm{A}} + b \avg{x_\mrm{B}} = at + bt = t \] \[ a + b = 1 \]

推定値 \(t_\mrm{e}\) の分散については、次式が成り立ちます：

\[ \var{t_\mrm{e}^2} = a^2 \var{x_\mrm{A}^2} + b^2 \var{x_\mrm{B}^2} = a^2 \sigma_\mrm{A}^2 + (1 - a^2) \sigma_\mrm{B}^2 \]

分散が最小になるのは

\[ \partial \var{t_\mrm{e}^2}/\partial a = 2a \sigma_\mrm{A}^2 - 2(1-a) \sigma_\mrm{B}^2 = 0 \] \[ a = \frac{\sigma_\mrm{B}^2}{\sigma_\mrm{A}^2 + \sigma_\mrm{B}^2} \]

ですから、推定値 \(t_\mrm{e}\) は次式で与えられます：

\[ t_\mrm{e} = \frac{1}{\sigma_\mrm{A}^2 + \sigma_\mrm{B}^2}(\sigma_\mrm{B}^2 x_\mrm{A} + \sigma_\mrm{A}^2 x_\mrm{B}) = \frac{1}{\sigma_\mrm{A}^{-2} + \sigma_\mrm{B}^{-2}}(\sigma_\mrm{A}^{-2} x_\mrm{A} + \sigma_\mrm{B}^{-2} x_\mrm{B}) \]

偏りのない最も分散の小さい推定値は、最ももっともらしい推定値、式 \eqref{eq:conc3} と一致し、同じ結果を与えます（ガウス-マルコフの定理）。偏りのない最も分散の小さい推定は、正規分布を仮定せずに導かれ、より優れた手法のように見えますが、加算的な手法（線形結合）で推定を行うことになっていて、非線形の問題にそのまま適用するには無理があります。そこで（そこまで考えていないことも多いが）化学の”現場”では、とにかく残差２乗和の極小を追及するという、最ももっともらしい推定を追求することが多いです。

１．最小２乗法の考え方