from 06.03.21
s.gif徹底的に因子負荷量行列を極めよう! 最終更新日 2006.3. 18

第9章 中級
相関方向分析法


相関の方向を
多次元に拡張して
あてはめてみよう
《 ご案内 》

サーチエンジンから直接入ってきた人は、フレームで目次を示していますからこれで目次表示にするとタコ国全体が見やすいです。ここは 9 章から入ります。

ここは 多次元の相関 と 因子負荷量解析 の説明です。

  • 2次元の相関係数の性質や証明8章へ。
  • 主成分分析の次元縮小(or 縮約)の説明は主成分スコアの計算方法だから4章へ。
  • 相関分析の限界なら4章Q&Aへ。
  • エクセルで3次元の層別散布図等高線図(コンター)を描く手順は(おまけ)へ。

 

 多次元空間では相関の正負はどう表せばよいか?

 座標の象限を多次元で表す

正の相関、負の相関という概念を、3次元以上の空間に適用すればどうなるでしょうか?

2次元の平面では4象限ですが、3次元では8象限になります。直線のある位置を正、負だけでは扱えなくなるのは容易にわかりますね。

ちょっとおさらいをしようね。相関係数では共分散を計算して正負を決めるのだから、座標の原点は当然重心ですね。そしてここで描いている座標軸は、偏差座標系(定義は下に)での話となります。
これまで勉強した知識から、主成分軸は偏差座標系においては、原点を通る直線でしたね。また、その直線の通っている象限には多くのプロットが集中していました。

象限

正の相関、負の相関という表現は、2次元平面空間の中で4象限のなかのどの象限に、プロットされたデータが一番多くあるかを示した表現です。(第1象限と第3象限)、または(第2象限と第4象限)という、原点の点対称空間のセットにデータが多くプロットされているときに、それぞれ、正とか負とか言うわけです。

当然、近似する回帰直線はこの象限セットの範囲内にひかれます。

多次元座標に正の相関、負の相関の考え方を概念拡張する場合、点対称のどの象限にプロットされた点かという意味にすぐに拡張できます。

観測されたデータが、原点(=平均値)より大きいときに「+」、小さい値のときに「−」というルールにしておけば、2変数 X1 と X2 の「++」に対する点対称の象限は「−−」であることは定義から容易に導けます。「−+」なら「+−」が点対称の象限ですね。

これまで、正の相関の表現は+ですが、++と−−の象限に有ります。同じく、負の相関の表現は−ですが、+−と−+の象限にあります。象限の二つの符号を掛け算した後の符号はこれまでの表現に一致しますね。

多次元空間の象限を第1象限などのように数字で表すのではなく、+ と − の符号で表せば、全ての空間の象限を表せることになります。+−−+であれば4変数であることを示しており、それぞれの変数が原点より大きい側、小さい側、小さい側、大きい側の象限です。そして、点対称の象限は、符号を反対にした並びの−++−であることになります。

偏差座標系で主成分軸(直線)がどの象限にあるかというのはこの表現ですぐに表せます。

ある一組のデータ(=ベクトル)の情報量を回転させた主成分軸の成分に再配分(=主成分スコアの計算)するときに、固有ベクトルの±の符号がちょうどこの偏差座標系の象限表記と一致します。すなわち、固有ベクトル列の示す符号列は、主成分軸の直線がある象限であるということです。

 

 用語の定義

直線の存在する点対称の象限をふくめて「相関方向 multiple relational direction」と名づけます。英語の表現は他の関数の意味を持ってしまっているので、ロシヤ語のアルファベットでЯ(ヤー)を関数名称にしましょうね。Rに似ているし、小文字のdも想像できるし、点対称のような感じがするし個人的にこれを選びました。

一般的にn次元空間の相関方向を次のような表記で

я( X1,X2,・・・・・,Xn ) = я( ++−+・・・・ +− )
などと表現するようにします。右辺のカッコ内はそれぞれの変数に対応するn個の符号のならびになります。記載された正負の符号の並びを、ポジと呼びます。対応する反対符号の並びはネガと呼びます。

突然ですが、主成分分析の解釈に関係するので次の用語の定義もしておきましょう。

高校で y = ( x − a )2 のグラフは、 y = x2 のグラフを a だけ右にずらしたグラフだよと教わりましたね。はじめの観測データ空間を元の座標、座標軸を重心(全ての変数の平均値点)に移動した空間を偏差座標と名づけておきましょう。偏差座標と、元の座標で、回帰直線の傾きと方向は平行移動しただけだから全く同じです。偏差座標では回帰直線は原点を通りますね。

また主成分分析では、主成分軸は偏差座標の原点を通ります。偏差座標では主成分分析の因子負荷量に対して次の公式が適用出来るようになります。

 

主成分分析は多次元の空間に直線を引くわけだから、偏差座標系では、点対称の象限を 1 セットであつかうことになります。この 1 セットが相関方向です。この9章では相関方向だけを論じています。
相関方向は、主成分分析計算で算出される因子負荷量から、メカニズムを考察をするときに有用です。

もちろん、世の中の事象の多くには、最適値や極少値・極大値をもつような曲線の関数であつかうことも多い。たとえば2次関数であつかうようなことは、直線で考えるには少し無理が生じます。 x, y 間の二次元グラフでは、 の係数が + の場合、第1象限と第2象限に多くの測定値がプロットされることになります。こうした場合でも、この多次元の+−で象限とベクトル散布状態の表現はできます。
ただ、下で示される公式のいくつかは直線である相関方向であつかうことを前提にしていますので、曲線をあつかう一般化したばあいには点対称の象限ではないことに注意して下さいね。

 

 

 相関方向と相関係数の正負の関係

相関方向の公式

(公式1)
正負の定義から、ポジの相関方向は、ネガの相関方向に等しい。
я( ++−・・・・ +− ) = я( −−+ ・・・・ −+ )

 

(公式2)
一般に多変量空間の原点をとおる直線周辺に分布するデータのなかで、任意に Z , X1 , X2 の3変数を取り出して、ZX1 と ZX2 の相関係数の符号がわかっているとき、X1X2の相関係数の符号はZX1 と ZX2 の相関係数を掛け算したときの符号となる。

 証明を開く --- 再クリックで閉じます

 

(公式3)
相関方向は、主成分分析を行った後、因子負荷量の正負の符号どおりに変数順に並べた表記と一致する。

 証明を開く --- 再クリックで閉じます

 

 主成分軸の相関方向

y = ( x − a )2 のグラフは、 y = x2 のグラフを a だけ右にずらしたグラフだという言い方を、こう言い換えることも出来ます。 「座標軸を a に移動してそこを 0 の原点にした。」

相関係数による主成分分析では、標準化したデータを扱っていますから、平均値を差し引いた偏差値での話をしています。すなわち座標で考える場合、 a にあたる数値は平均値ですから、主成分座標の原点は元の座標のデータ重心(平均値点)に軸を移動させています。そこは偏差座標ですね。さらに主成分軸は偏差座標の原点を中心に、もっとも広く広がっている方向に軸を回転させた座標になっています。

主成分座標軸の直線は、偏差座標空間では、固有ベクトルの符号で示される相関方向にあります。主成分スコアと固有ベクトルの性質そのものですから、証明の必要はありませんね。
固有ベクトルのしめす相関方向と、因子負荷量の正負の符号列は一致します。

主成分軸は、偏差座標の原点をとおる直線ですね。そしてある主成分軸の方向は、その主成分の因子負荷量列の正負で示される符号列と同じ相関方向に存在します。

 

 

 相関方向の利用

 

1 因子負荷量の符号から元のデータの相関係数の正負を予測

主成分分析において、2つの因子負荷量の符号を掛け算した時の正負の符号は、2変数間の相関係数の符号となる。因子負荷量の符号列から2変数間の散布図が正の相関か負の相関かは符号の掛け算だけで判断できる。

(例) 
2主成分の因子負荷量の符号は、 X3 は + 、 X5 は − である。
相関係数を計算しなくても X3 と X5 の相関係数の符号は − であることがわかる。

X3 と X5 の相関係数 : (+)×(−)→(−)

 

2 メカニズムの定性的符号表記

相関方向は変数間のメカニズムの数学的表記方法の一つである。

(例)
文章 「変数X増えると、変数X減少する。」
これを数学的な符号記述に切り替えることができる。→ я ( X1,X2 ) = я ( +− )

日常会話で話す程度の定性的なメカニズムの記述は、相関方向で表現できる。日常用語の動詞の変化方向を、変数値の符号の方向に対応させて置き換えると、メカニズムの会話表現は相関方向で圧縮記載できる。

この例程度の曖昧さで直線的に考えてよい部分的事象は、固有ベクトルの符号で扱ってよいことを意味しています。

相関方向は、メカニズムの定性的表記法です。

また、因子負荷量列は、主成分軸という直線への集中度の定量情報をもつ定量的メカニズム表記であるということを意味する。

 

3 ポジとネガの同等性

メカニズムを言語で表すときに、人間が常識と対照的な表現になって考えにくい時に因子負荷量列の全部の符号をネガに切り替えてわかりやすい表現に切り替えてよいことを示している。(公式1)

(例)
変数(時間)の因子負荷量の符号が − なら、「時間が戻ると・・・」という表現になる。
分かりにくいから、この主成分の相関方向を全部ネガに切り替えて、変数(時間)の因子負荷量の符号を + として「時間が経つと・・・」という表現に切り替えた方がわかりやすい。

 

4 主成分特徴データの抽出

相関方向の符号表記は、偏差座標上では、重点からの大小で考えた時の象限の記号と一致する。だから多次元空間のなかで、相関方向の正負に合致するように、平均値からの大小で篩い分けするアルゴリズムだけで主成分軸のある象限に存在するデータだけを抽出できる。

 この相関方向によるデータ抽出の技術は、実際でも役立つ性質です。 --- 再クリックで閉じます

 

データ抽出は、ポジ表現の象限と、ネガ表現の象限の2つについておこなう。二つの抽出データをあわせたデータ群が、相関方向データ群となります。

相関方向抽出では、主成分軸の存在する相関方向の象限に分布するデータを抽出します。原点に近いほど排除されやすいので、全ての変数について標準偏差以下の原点に近い所に分布するデータを相関方向抽出データに加えて、散布図にします。

相関方向抽出法の特徴は、凸凹の散布状態でも象限内にあれば描き出してくれます。
たとえば第1主成分と第2主成分の両方の特徴を備えていても、第1主成分あるいは第2主成分と分離することは出来ません。そのかわり相関方向に関してはありのままの散布状態を示してくれます。

第2章のタコ国の墜落した飛行機の事例で言うと、水平尾翼は、「胴体方向の第1主成分」と「主翼方向の第2主成分」の二つの主成分特徴を兼ね備えています。

主成分層別法は、主翼と水平尾翼は別々に分離して表示しますが、相関方向抽出法では同時に抽出されて表示されます。

主成分特徴を抽出する別の方法の、主成分層別法によるデータ抽出法は、主成分スコアが標準偏差以上の大きさのものを抽出しました。主成分層別法は主成分軸に沿って原点から遠くはなれた点だけを選択する方法です。主成分のみの散布図、複数の主成分性質を持つデータ群の散布図を分離して得ることが出来ます。

 

5 変数選択後の扱い

主成分分析の因子負荷量で、主成分に関係する変数を選択できる。

排除された変数はその変数が導入されても軸の回転にほとんど影響を与えない変数であることを意味しているので、因子負荷量列からその変数を排除した縮小因子負荷量列の符号を、変数選択された相関方向としてそのまま使っても結果に大差ないことを意味している。

微妙な因子負荷量値が、取り上げた変数以外の技術の常識から判断しても、メカニズムにおいて重要な役割を有するのであれば、変数排除されたデータ群でもう一度主成分分析をやり直せば正しい値での判断ができる。
外部発表するような場合は躊躇なく変数選択後のデータから主成分分析を試みるべきです。

特にカテゴリーデータを導入した主成分分析では、もしカテゴリーデータが重要な因子として選択されてきたら、そのカテゴリーで層別したデータ群を個別に主成分分析するとよい。
新しい情報が入手できるでしょう。

よく言っている意味がわからんというタコ人は、とりあえず元の観測データからカテゴリーごとの通常の層別散布図を作成すれば研究報告で大きな間違いを起こすことはないはずだから安心してね。

 

 象限解析

 

相関分析や主成分分析の限界

象限分析とは、共分散分析の目的を達成できる多次元共分散分析の一種です。

相関係数や主成分分析のように、点対称の象限内に座標軸があると考えるやりかたには、現実の問題適用にはどうしても無理があります。なぜなら二次元で考えても、二次方程式のように空間内に散布しているデータは、どちらかの方向に凸の曲線ですので、本質的に相関係数や主成分分析には向きません。

散布点が直線であると仮定するやり方に、無理があるからです。

主成分軸が、偏差座標軸空間のどこにあるかを示したのが相関方向です。相関方向の象限内に分布する散布点だけを取り出して、原初データの散布空間内で散布状況を調べるのが相関方向分析です。

相関方向分析は主成分分析結果をより詳しく現実あわせできる方法として開発されました。

 

象限分析とは

 

しかし上記の「相関方向と相関係数の正負の関係」(公式1)で示した相関方向分析の象限表記方法は、何も点対称象限だけでなく一つ一つの象限に対して取り扱うことができます。すなわち、究極の共分散分析が可能であるということを示しています。

そのもっともシンプルな方法は、すべての象限ごとに散布する点の数を集計して、相関方向象限組み合わせの2元表を作成すれば空間における散布の偏りを直接的に知ることができます。

直線や楕円形状であるなら、相関方向に散布点が集中しています。

散布点が多い象限の象限表記(+−)を見て、特別の規則性があれば、たとえば多次元空間内にただよう2次元の紙上に散布点があるかどうかを知ることができます。

こうした散布点の象限へのより分けは、データと平均値との大小判断だけでデータを各象限に割り振るだけの簡単な計算で集計できます。

いっぽう、多次元データを無理に2次元の共分散値にして集計してしまったあとで実際の散布状態を理解しようとすると、とても高度な数学の知識と多くのケースを現実あわせして理解できるようになるまでの経験が必要となります。

単純に多次元の象限内の散布数を見たほうが、分布の状態がより直感的に把握しやすくなります。

主成分分析結果から、新しい総合指標として主成分の意味を考えるという行動は、相関方向にデータが散布していると言う前提のもとに、この象限解析をしていることと同じです。

s.gif
よく頑張ったね。s.gif
 相関方向分析はオリジナルだからここでしか勉強できません。  石田秀人
  フレーム目次を表示

  第8章へ s.gifs.gif第10章へ
上へ