（おまけ）イラストでわかる自由度と不偏分散　

標準偏差を計算するときに、なぜデータ個数ではなく自由度ｎ－１を使うの？
そもそも自由度って何？
というご質問を受ける。

標準偏差の計算と自由度の関係がわかりにくいということで、本文にバラバラに書いてあるものを、そこだけまとめなおしてみました。

　　　　　　　　平方和Ｓ
不偏分散Ｖ＝━━━━━━━━
　　　　　　　自由度ｎ－１
不偏分散は標準偏差 ²（σ²）の最もよい推定値になっています。偏っていないという意味で不偏と名づけられています。
いっぽう、平方和をデータ個数で割ると、真の標準偏差値より小さめの数値となります。

標準偏差とは何かを知るため同じことを視覚的（四角的？）に説明しよう。

いま、右図のように、5個の測定値の大きさを太い線分で示しています。この長さのことを効果と呼んでおきましょう。

偏差の大きさ（＝個々のデータのばらつきの効果部分）を一辺とする正方形を考えます。すべてのデータは、いろいろな大きさの正方形を持っています。

効果の２乗を情報量と呼びます。
正方形の面積は２乗した値だからばらつきの情報量の値になります。

いろいろな大きさの正方形の平均的な面積をもつ正方形が考えられますね。この平均的な正方形の面積が分散で、そのときの正方形の一辺の長さ（＝ばらつきの効果）が標準偏差です。

実際にフィールドで観測される測定値は、真の平均（真値）と平均値の持つばらつきと、さらにその他のばらつきとが組み合わさった値として観測されます。

次のイラストはその関係を、効果（線分の長さ）と情報量（正方形の面積）との関係として描いたものです。

イラストの説明に入る前に一般的な説明をします。
ばらつき計算や効果の計算は、情報量に変換して計算する必要があります。自然界で情報が２乗で加減算される性質を分散の加法性といいます。

もっともかんたんな事例は、ａとｂという二つの効果が合わさってｃという効果になるときに、

となる事例ですが、数学ではピタゴラスの定理とか三平方の定理と呼んでいますね。

ではイラストの説明にはいろう。
平均値は、真の値（白）と平均値のばらつき（青）とがあわさった値ですから、右図では、ＡＢの大きさになります。

観測データにはさらにその他のばらつき（緑）が加わりますからＡＣのおおきさになります。すなわち赤い線分の長さが三つの情報を合わせたときの観測値（赤の線分）になるというわけです。

三つの効果部分を足し算した大きさが観測値にはならないということを学んでください。

また、通常は、観測データが先にありますから、それから平均値やバラツキを分離する情報量の配分の作業をすることがふつうに行われることです。統計とはこういう作業をすることになります。

《　知っとくと便利な知識　》

平均値
真の平均値と試料平均値の効果分はばらつきません。いっぽう、ばらつき部分は数多くの因子がランダムに混入してくるため、その影響を受けて、試料平均値を中心にして変化します。これが正規分布する理由です。
母集団
固定した試料平均値となるように選択されたり、管理して試験されたりする条件で観測される測定値の集団をいいます。管理された条件で２以上の観測値があれば平均値とばらつきが分離できます。
層別
層別しても管理された条件となるため、ばらつき部分の情報量から層別部分の情報量を分離することができます。層別だけでなく、多くの因子の情報量を分離するように設計されているいろいろの多変量解析手法があります。
軸の回転と射影
因子に対応して情報量を分離する方法は平均値以外にやり方があります。多次元空間のベクトルとして表現すると、軸を回転することでベクトルの射影ができますから、情報量の配分をすることができます。主成分分析はこのやり方です。ピタゴラスの定理を利用しているのは平均値のときと同じですね。
S/N比
観測値をシグナルＳ、ばらつきをノイズＮとすると、Ｓ／Ｎ比はどのように計算すればよいでしょうか？情報量の比　ｘ² /σ ² ですね。
寄与率
逆比にすればデータ中に占めるバラツキの割合を示す指標となります。回帰分析で回帰による寄与率とか、主成分分析で固有値の累積寄与率などを理解するときに役立つはずです。

実際に実験するとき、サンプリングの仕方で、観測される平均値はばらつきます。実験して観測される平均値を試料平均値と呼びます。
すなわち試料平均値はばらつきます。しかし、真の平均値 μ はばらつきません。

このため、観測データ x は、真の平均値の情報量と試料平均の情報量とその他ばらつき情報量とに配分されます。

上の図と対応させて見てほしいのですが、ここでは測定値4つの情報量分解の事例が表現されています。

真値μ、試料平均値のばらつき分、および残りのばらつき部分の情報量を正方形で色分けしています。

μで平方和を計算すれば問題は無いのですが、試料平均値で計算しているので、平均値のばらつき部分（青）が、算出される平方和から抜け落ちていることを示しています。

平均値のばらつき部分は σ²/n だから、抜け落ちた情報量は全部合計するとσ ²　になります。

このことから偏りの無い分散σ ²　は自由度 ｎ－１ で平方和を割ることで計算されることがわかります。

観測データの２乗値を合計した Σ ｘ_i² は全情報量です。全情報量を配分すると次のようになります。

平方和Ｓはすべての観測データ総情報量から、試料平均の情報量を差し引いたものです。すべての測定値には真の平均が含まれていますから次式で計算できます。

　　　　　　  _  
x ＝ 偏差d ＋ x

ひとつの観測データについて考えると、分散の加法性から偏差ｄの分散は次のとおり。→（注）分散の加法性の説明は本文へ

                      _
 V [x] ＝ V [d] ＋ V [x ]

 σ 2 ＝ V [d] ＋  σ 2/n

Ｖ[ｄ] ＝ σ ² － σ ²/n

多くの観測データから算出する平方和Ｓは、ｎ個の偏差の和の次式から算出される分散だから、分散の加法性よりそれぞれの偏差に上式の分散値が適用されるので

ｙ＝ｄ₁ ＋ ｄ₂ ＋ ･･･ ＋ ｄ_n　　→　ｙの分散の期待値　Ｖ[ｙ]＝平方和　Ｓ 

Ｓ ＝ V [d]  ＋ V [d]  ＋ ･･･ ＋V [d]  ＝ ｎ V [d] 

Ｓ ＝ nσ ² － n（ σ ²/n ）＝ （ n － １ ）σ ²

　この式の意味は、試料平均値を使って平方和を計算すると、分散 σ ² のひとつ分が足りなくなると言う意味です。

求めたいのは真の分散 σ ² だから、平方和Ｓを測定値の個数ｎで割ると σ ² にはならない。求めるには（ n －１）で割らないといけない。
（ n －１）はこの場合の自由度ですね。
すなわち、試料平均値を用いて偏差を計算して平方和を算出すると、試料平均値がばらつきの情報量を持つために、平方和は真の平方和より σ ² の1個分だけ、小さい値になってしまっているのです。

最初に示した不偏分散の公式は、このことを示しています。

逆に、真の平均値を用いて偏差を計算して平方和を求めた場合には、平方和は真の平方和となり nσ ² となります。測定値の個数ｎで割らなければいけません。

統計の分野では、独立に採取された観測データ数がｎ個あるばあい、このデータ群は　ｎ　自由度であると表現します。
「独立に」という意味は、どの観測値も他の観測値から正確に値を決められない状態という意味です。

たとえば、観測データの中にズルをしてデータを取らず、他のいくつかのデータから計算式で算出したものがあったばあい、その観測データは他のデータから正確に値が決められます。この算出式の存在によって、自由度がひとつ減少してしまいました。ですから１自由度が減って、このデータ群の自由度は（ｎ－１）であるということになります。

標準偏差を計算するときに、平方和Ｓを計算します。ここでこの意味を考えてみましょう。

この計算式には試料平均値が入っています。試料平均値はすべての観測値を合計するという算出式を使って計算されています。観測データが、
　x₁ ～ x_n まであって合計値Ｔを算出すると、　x_i = Ｔ－ｘ₁ －ｘ₂ －・・・　という式に変換できますね。この合計の算出式がひとつ計算の中に入ることで、（ｎ－１）個の観測データがあれば他のひとつの観測データは正確に値が決められる状態になります。

ですから、合計計算式の導入で、このデータ群には１自由度が減ったことになります。
すなわち、平方和の計算を行うと、そこで得られる統計量は（ｎ－１）自由度ということになります。

これは多元連立方程式の変数がｎ個あれば、ｎ個の別々の方程式がないと解が出ないということと同じですね。

たとえば、次のようなｘ、ｙ、ｚの変数を持つ方程式の値の解をだすには３つの異なる方程式が必要です。３元連立方程式でないと解は出ませんね。

統計の分野との対比で自由度を理解するとき、ｘとかｙとかであらわされる変数が統計の観測値ひとつひとつに当たります。観測値が使われた式が統計量計算に使われると自由度が減ります。

たとえば x , y , z の３観測値があるとき、自由度は３。
合計計算値を方程式のひとつとして利用すると、この式も自由度１を持っている。変数が二つになって自由度は　２。

ただしひとつの方程式に対して、任意の定数を持ってきて両辺から差し引いても自由度は３で変わらない。これは方程式の計算で、両辺から同じ数を引いても方程式は同じという性質にあたります。差し引く数が、観測値と関係のないところから適用されるため、ひとつひとつの観測値が決定されるわけではありません。

昔は平方和を手計算するときに、平均値に近い適当な数値を使って差し引いて、数字の桁数を落として計算したものです。では、適当にもってきた定数の入った計算式なら自由度はどうなるか？

観測値とは関係のない定数を差し引いても、他のどの変数も確定することはできません。だから、自由度はｎのままです。

測定の対象ではあっても、真の平均値は自然の原理から得られた任意の定数で、個別の測定値を厳密に決定するものではありません。適当に持ってきた定数と同等です。
すなわち、平方和の計算のために真の平均 μ を差し引いたとしても、全く別の所から定数を持ってきたために、ひとつひとつの観測データを他の観測データから方程式で表現することはできません。自由度はｎ個のままなのです。

分散（σ ²）の不偏推定値は、平方和の期待値が（ｎ－１）σ ²　である性質から自由度　（ｎ－１）で除することで得られます。観測値の合計値を平方和の計算に使ったので、自由度が一つ減ったのです。

平均値にも標準偏差があるぞ。いつもでてくるから、注釈として入れておこうね。

平均値の標準偏差は　1/√ｎ　になりますから、はじめの標準偏差 σ よりばらつきが小さくなります。平均値の標準偏差が　σ/√ｎ　になることを利用して平均値の差の検定などが行われることはご存知かもしれません。

100回の繰り返し測定をしたときの平均値のばらつきは　1/√100　ですから　1/10　になります。ばらつきが一桁小さくなるため、有効数字が一桁だけ向上します。もとのデータの正規分布と比較して、平均値の正規分布は　1/√ｎ　だけ狭くなっています。

この式の証明は本文にあります。また、式の誘導方法である、分散の加法性は実務的に重要な知識ですからぜひ学んでください。その事例説明も本文にあります。

本文の「ばらつきの四則演算の応用計算」をあわせて読んでもらうと分散の性質全体が見えやすいと思います。

直接ここにきた人はフレーム目次つきタコ国が全体をみわたせて便利です。ここは８章の下にあるおまけです。

（おまけ）イラストでわかる自由度と不偏分散

＜不偏分散の公式＞

標準偏差とは何か　（真の平均 μ で算出したとき）

観測データの構造

平方和と自由度の関係

自由度とは

平均値の標準偏差

（おまけ） イラストでわかる自由度と不偏分散

＜不偏分散の公式＞

標準偏差とは何か （真の平均 μ で算出したとき）

観測データの構造

平方和と自由度の関係

自由度とは

平均値の標準偏差

（おまけ）イラストでわかる自由度と不偏分散　

標準偏差とは何か　（真の平均 μ で算出したとき）