from 05.10.03
s.gif主成分分析(PCA)は少ない因子に統合する方法?
    いやいやそれは古い考え方!
最終更新日 2005.11.01

第2章 どんなことが出来るか見てみよう


必要な因子だけより分けて
複数のメカニズムを
一気に整理してしまおう
コンテンツに進む
stako.gifそうはイカタコ。イカ変化stako.gif右に活路ありーっ。逃げちゃおstako.gifお! キレイなおねいさん♪stako.gif獲物は取れないタイプね
s.gif

 主成分分析とは

 

第2章は主成分分析の使用事例が中心です。
計算や計算結果の意味の概要説明は簡易版へ

主成分分析は:

  1. 平均値を外した多くの因子間(または変数間)の関係をみています

    だから、平均値の比較考察は別に行う必要があります。  

  2. 直線でものごとを見ますので、主成分分析だけでは凸型曲線の関数関係の解析は苦手です

    • 主成分スコア間の散布図は人が観察することのできない多次元空間内の特別の角度から見えるデータ散布の形状を見せてくれます (事例 1 )。
    • より真実にせまるには元の変数間の散布図を作成して解析することが必要です (事例 2 )。苦手ではあっても、主成分分析で計算される因子負荷量がどの変数間で散布図をつくるか教えてくれます。 (第3章手順3〜手順4)
    • とくに、主成分スコアで曲線近似の当てはめを回帰計算することを主成分回帰法といいます。(第4章 空に飛んだ二次関数のグラフ参照)
    • 定量的な関係まで解析するためにも、重回帰分析などの方法をあわせて学ぶことがおすすめです (第5章 重回帰分析で関数当てはめ)。

  3. 多くの変数の中から、一緒に行動している変数を選択して抜き出してくれます

    • だから経時的に変化する事象に、時間変数を入れた主成分分析を行うことは因子間のメカニズムを定量的に教えてくれるよい方法です。 (事例 4 )
    • 自分の頭の中には、因子間の順序がわかっていますから、時間的なデータを入れなくても主成分分析結果からメカニズムを導き出すことができます。

  4. どのような種類の変数にも適用できる、制約のない多変量解析手法です

    • だから、 YES/NO 、2件法データ、分類データ(カテゴリー変数)、格付けデータ、一般の定量値の測定データ、時間、ならびに写真や図的データなどにも適用できます。(事例 3 )
      変数は等間隔でないといけないとか、正規分布していなければならないとか、変数間は独立じゃないといけないなどといった制約はありません。
    • だから、カテゴリー変数を入れたデータマイニングが出来る手法です。
    • だから、分野によらずに利用できる特徴があります。

  5. 多変量空間での関数直線の存在分布域を知る相関方向分析と相性がよいです

    だから、主成分計算をすることなく平均値からの大小で主成分分析と類似の結果が得られます。スピードが必要なコンピューターの画像処理などに利用範囲が広がります。(第9章 相関方向分析法)

  6. 主成分スコアというあたらしい総合的指標をつくれますが、それだけと考える利用法は古い考え方です

    • 主成分スコアを計算することが、変数の総合化・合成変数の生成・縮約・新指標の創出とか表現されていることです。(事例 5 ) ただし、再現性が得られる試験計画や調査計画が必要です。
    • 変数間のメカニズムが整理され明らかにできます。
    • 主成分スコアの値を利用して、その主成分メカニズムに関係のない他の主成分データ群を排除することができますので、ある主成分だけに関係する散布図を作ることができます。 (第3章手順3〜手順4)  だから、混在するメカニズムの中でノイズを減らした情報を抜き出せます。

  7. 単純にいえば多次元空間内の散布図です

    • だからその手法は、目には見えない分子などの具体的な物質の空間配置を表現するのにも利用が可能です。
    • だから対応さえつけば、空間配置とその他の測定結果といっしょに計算することなどもできますから、分子形状などと多くの変数間の関係とを整理する手法として、将来もすたれることのない解析手法です。
    • だから、2次元の散布図や棒グラフ、折れ線グラフのように、「今回の結果はこうでした」と再現性は考慮しない結果だけの報告に使えます。もちろん再現性がわかるように実験計画がしっかりしていれば、再現性を決定する方法としても使えます。
    • だから散布図空間内で分離できる入力方法さえ工夫できれば、なんにでも使える方法です。

 

つぎから、生活の中のシーン展開で利用したいくつかの例を示し、それぞれに詳しい説明をしてみたいと思います。

TOPへ ↑

s.gif

 事例1 タコ国未知物体の正体は何か

        

研究員1号 「博士大変です。未知物体がわが海域に浮遊していました。これがその写真であります。」

タコ博士 「なんじゃ、こりゃ!モヤモヤしとるぞ。」

研究員1号 「はぁ、タコ国の写真技術はこんなもので・・・」

タコ博士 「言い訳はよい。ほれ、あの最近開発された主成分分析とやらをやってみなさい。」

unknown01.gif
s.gif

研究員1号 「かしこまりました。はいできました。」

タコ博士 「なんじゃ、もうできたのか。早く切り上げたいという、作者の意図がみえみえじゃの。まあよい。見せなさい。」

研究員1号 「これが第1主成分の図面です。」

タコ博士 「う〜む。トンカチのようなものかな。」

unknown02.gif
s.gif

研究員1号 「ほい。第2主成分です。」

タコ博士 「ほいはいかん。ほいは。全くしつけがなっとらん。
で、これは親子がならんでサーフィンしとるようじゃの 。」

unknown03.gif
s.gif

研究員1号 「すみません。じゃあ、第3主成分の分です。」

タコ博士 「じゃあもいけんの!まったく!
で、こりゃあ何じゃろうの。舟の舵のようにも見えるし。」

unknown04.gif
s.gif

研究員1号 「たよりないなあ。 あ、そうだ。タコ国万物図鑑で似たものを探したらどうでしょうか。」

タコ博士 「いいところに眼をつけたな。私の指導の成果があらわれてきておるわい。」

研究員1号 「あ〜ありましたっ。飛行機というものがそっくりです。」

タコ博士 「なになに。これは人間が作った空を飛ぶ機械ですと書いてある。おまえは何をいっとるのだ。海の中は飛行機は飛ばんぞ。」

研究員1号 「でも博士。第1主成分はこの胴体という部分にそっくりですよ。」

タコ博士 「うむうむ。水平尾翼というところももそっくりじゃな。」

研究員1号 「それに、第2主成分は主翼と水平尾翼に位置といいかたちといいそっくりですね。」

タコ博士 「わしは親子のサーフィンにこだわりたいがの。」

研究員1号 「博士、第3主成分などはこの垂直尾翼そのものですよ。」

タコ博士 「・・・(こいつは侮れん奴じゃ)。オホン。三つの主成分を重ね合わせてみなさい。」

s.gif

研究員1号 「うわ〜博士っ。飛行機とぴったり一致しました。飛行機そのものですよ。さすが博士。」

タコ博士 「ホッ。」

unknown05.gif
s.gif

研究員1号 「博士。タコテレビニュースで、人間界では飛行機がタコ国海面上で墜落したと騒いでいます。」

タコ博士 「おぉ。まちがいないじゃろう。おまえの出来の悪い写真と、主成分分析結果をタコ国防省に持っていって、発見しましたと報告しなさい。」

研究員1号 「ったく。何で素直にほめられないのかね。ハイハイ。」

タコ博士 「ハイハイはいかん。ハイは一回だけ。」

 解説するね

この事例は、各主成分スコアの散布図を利用して全体像を明らかにしたものです。

主成分分析のことを、正規分布するデータを取り扱う統計分析のひとつとかんちがいしている人々がいますが、そうではありません。

主成分分析は、ある物の形状を別の角度から見たときの形状に換算しなおす計算方法です。たとえば、君が山の上から建物をスケッチしているとします。君の友達はその家の真正面に移動してスケッチしました。君の友達は主成分分析したときの長さ(主成分スコア)で描いたといえます。

君のところから見える建物の長さ(縦・横・高さ)に、固有ベクトルという換算係数をかけて算出した主成分スコアで描けば君の友達の絵になります。

飛行機は我々の目線では、俯瞰図か、見上げるかたちでしか見ることが出来ません。主成分分析を実施すると、あなたがあたかもピーターパンのように空間を飛びながら、飛行機の真上から、真横から、真正面からみるように見ることが出来ます。

俯瞰図で見ても、真正面から見ても飛行機自体の絶対空間の中の位置は変わらないよね。あなたの視点がピーターパンになっていろいろな高さや位置に変わっているだけ。

実は、主成分分析はこれと同じで、最初の観測データを散布図にしたらそれが絶対空間になります。あとは主成分分析すると、それらの動かない点々に対してあなたの視点が色々変わるだけなのです。

数学的に行っていることは、座標軸の原点が重心(平均値)に移動して、さらに軸を回転させただけです。そして新しい座標軸から見た点々の位置情報に換算しなおしたものが主成分分析の実態です。ピーターパンとなったあなたの見ている位置から見える長さに換算しているのです。
ただ、軸の位置は適当に選ばれるのではなく、たとえば空を上昇している飛行機の位置でも、墜落しているときの位置でも、長く伸びた部分、すなわち胴体・主翼・垂直尾翼方向に軸が取られる基準になっています。

主成分スコアの分布が真正面から見れるということは何を意味するとおもう? それは散布図が関数にしたがって並んでいる場合、形状からどのような回帰曲線をを当てはめると良いかを判断できるということなんだ。

3次元なら人間はその形状を想像できますが、4次元を超えるともう人間では想像できません。でも主成分分析を使うと色々な真正面からの見え方を示してくれます。4次元以上ですとたくさんの斜め真正面というのもあるのです。

我々が日常観測しているデータの種類は、4種類以上というのはざらですよね。タコ人がデータを読めないというのは、ある意味で一般的なことなのです。データの世界は4次元以上の世界なのですから。

我々の先輩達は、直感によってこの四次元以上の現実世界を理解してきました。言葉で論理的に考えるより、現実世界の理解方法としては優れていたのです。
そう、「なんかへんだな〜?」が正しい理解方法です。

主成分分析は、手探りだった情報整理に、別の視点を提供してくれるツールです。

主成分分析は、散布図の中で遠く離れた点があるとそれを主成分としてキャッチします。だから、欠損データを、数値ゼロとして計算してしまうと欠損データ主成分軸が大きく評価されてしまうことになります。欠損値があるデータは排除しましょう。

主成分分析は、多くの因子を集約して少ない次元で表現する方法であると説明されています。何のこっちゃと思われるでしょう。
この事例でで説明すると、俯瞰図で見る3次元空間の観測情報(研究員の写真)から、主成分スコアに変換した「胴体+水平尾翼」と「主翼+水平尾翼」の2次元でほとんどの情報が入っているので、垂直尾翼分(第3主成分)はなくても飛行機はかなり正確に再現できるね、と考える方法です。

小さい情報を捨てることで3次元から2次元に減ったわけです。

市場調査でアンケートを実施して、第1主成分は「好感軸」であるなどと適当な名前を付ける方法がはやっていますが、それは、この例ででいえば、第1主成分は「胴体軸」という名前を付けようという行動にあたります。

この方法は因子負荷量という数字を横にらみしながら主観で決められてきました。わがタコでもわかる主成分分析では、横にらみではなく、手順に従ったメカニズム解析を行って判断できるようにしていますので、正確な技術的判断が出来ます。

よく主成分分析をして、見出された第1主成分はデータ全体の真髄をあらわすという報告を書く人がいます。胴体の特徴を抽出できても、それぞれの主成分が飛行機そのものを説明しているわけではありません。

「なあんだ、使えないじゃん」と思ってはいけません。現実社会では、飛行機のように長さの情報ばかりではありません。化学分析値、好み度など色々な情報がゴチャマゼであるわけです。

 3次元バブル散布図

右図は日本食品標準成分表から実際のデータで3次元バブル散布図を描いてみたものです。

いろいろな突起や凸凹がありますね。こうした突起部分のデータだけを抜き出して散布図を描くことができます。

主成分層別法という手法を用います。

主成分層別法を使うと、この例のように飛行機の主翼の特徴を示す観測値だけを抜き出すことができます。

3次元バブル散布図は立体形状を見るのにとても有用です。フリーソフトにあるよ。

それぞれの主成分のなかで、ひとかたまりで動いている因子群がわかるのですから、これを利用すればメカニズムが抽出されるのです。

すごいだろ?
機械的にメカニズムがわかるなんて、タコ人にはピッタシのやりかただろ?

「重回帰分析で変数選択すればいいじゃん」とちょっとかじったあなた。重回帰分析の変数選択は、関係の深い重要な因子のどっちかは捨てるということをしってた?主成分分析は捨てないのよ。

(注)主成分スコアのレベルによって、各主成分の特徴部分のデータを抜き出す方法は、石田のオリジナルです。商用利用を禁じています。

s.gif

TOPへ ↑
 

 事例2 合成培地のアミノ酸濃度で酵母のなかの脂肪酸の変化

s.gif

測定データと解析報告・・・・エクセルのグラフ作成機能を使えば、こんなこともやれるゾ

酒作りは、香り作りの面をもつ技術である。合成培地(酵母の食糧ですな)のなかに添加するアミノ酸の添加量を増減させて、増殖した酵母の脂肪酸組成(μg/1億個の酵母)を経時的に測定した。

次の表が測定データである。

s.gif
表1 異なるアミノ態窒素組成培地で増殖した酵母菌体中の脂肪酸組成
amino-Nf_daysfaC16C18C16=1C18=1
sfa:飽和脂肪酸。ラウリン酸+ミリスチン酸合計量。 C16:パルミチン酸  C18:ステアリン酸  C16=1:パルミトオレイン酸  C18=1:オレイン酸  amino-N:アミノ態窒素(mg/l) f-day:発酵日数  合成培地:Wickerham培地(グルコース17%)  酵母:協会7号
出典:秋田修、醸造協会誌 Vol.84、#11(1989)"酵母による香気生成"
1363.53.018.95.323.615.0
1366.51.920.77.024.015.8
13618.53.028.913.127.814.9
2103.53.723.85.825.014.4
2106.52.726.87.822.614.7
21011.54.426.09.222.912.9
3003.54.823.36.022.613.5
3006.53.128.98.120.413.3
3009.56.629.18.721.011.9
3523.53.326.78.517.611.5
3526.53.626.87.720.513.1
3529.56.529.78.521.311.7
5513.55.326.17.020.812.3
5516.55.331.58.218.011.2
5518.58.632.28.918.211.7
s.gif
s.gif上表のデータを主成分分析することで、重要だと思われる3種類のメカニズムが抽出された。アミノ態窒素(以下 amino-N)に強く影響されて増減する脂肪酸群と、単に発酵期間が進行するにつれて増減する脂肪酸群とに分かれた。一部の脂肪酸は、発酵期間とamino-Nとの組み合わせで異なる動きをしていた。
s.gif
第1主成分:赤枠で囲まれた領域
「アミノ態窒素増減で変化する脂肪酸グループ」

第2主成分:青枠で囲まれた領域
発酵日数で変化する脂肪酸グループ

「C16とC16=1とがアミノ酸存在量によって発酵期間と共に連動して変化しているグループ」

jirei_kekka.gif
他の主成分特徴をもつ観測データを排除して、それぞれの主成分について散布図と回帰曲線を示した。

これは第1主成分であるアミノ態窒素と飽和脂肪酸類(sfa)との関係である。

飽和脂肪酸については、ばらつきが大きいようで、まだ他の制御因子を考慮した方がいいことを示唆している。

s_sfa_amino.gif
s.gif
アミノ態窒素とC18=1の関係も同様に、第1主成分特徴抽出後のデータから散布図と回帰曲線を求めた。アミノ態窒素が増加するとC18=1は逓減した。

このデータ範囲では二次式としての当てはめがもっともよく適合した。C18=1の濃度はこの後一定すると考えた方がよい。

s_C181_amino.gif
s.gif
第2主成分の特徴抽出したデータでは、発酵期間経過とC18の組成変化との間に関係が検出されたので、散布図と回帰曲線を示した。

主成分空間では発酵期間で増加するC18であるが、観測データの回帰はしばらく一定の濃度の期間後に増加を示すように見える。測定データをもう少し増やしたい所である。

s_C18_Fday.gif
s.gif
アミノ態窒素と発酵日数でC16とC16=1は連動して動いているようである。相互に反比例の関係が見られるために、C16とC16=1との交互作用項を考慮して重回帰分析を行った。

この式は自由度調整済み重相関係数:0.994という非常によい一致を示した。予測−実測比較表

予測−実測比較表
shiki.gif
s.gif

 解説するね

s.gif
変哲もないように見える表の中には、こんなにいっぱい情報が詰まっていたんだよ。

この事例2は、時間的に化学成分が変化してゆくようなデータを扱った事例です。秋田修氏が発表された表をベースに、私の方で主成分分析してみました。このサイトでの記述は私に責任がありますので秋田氏に質問されないようにお願いするね。

HTMLで表を作ったのは、これを見たみんながエクセルの上にコピー&ペスト出来れば入力の手間が省けていいかなとおもったからなんだよ。実際に主成分分析の計算が出来るからね。

本当は、gifファイルで済まそうかと思ったんだけどね。とても大変でした。はっきり言って。

数学の本から主成分分析に入った人たちのなかには、「変数間は独立でないといけないから、前の日の結果を足台にして次の日の結果が出るようなデータには、主成分分析を使ってはいけない」と信じている人がいるよね。

使っていいです。

分散分析の表示表1のf_dayの入力の仕方に注目してね。主成分分析も重回帰分析も通常は一番上の行にだけ項目がある一元表で書きます。人間には一番左の列頭にも項目を書く二元表が理解しやすいのだけど機械のほうは一元表がシンプルで理解しやすいんだよ。

たとえば右の表の例で説明しよう。この例は一般に繰り返しのある二元配値分散分析法の表示方法だね。データの数値が高ければ高いほど良いのならこのように2元表に表示すると、見ただけでX2Y1の水準の組み合わせが一番良いということがわかります。

主成分分析向け一元表

ところが、主成分分析などの多変量解析するときには、パソコンのほうがこの表示は苦手なので、次の表のようにカテゴリーデータを使って書き換えてあげることが必要です。X1の条件に該当すれば1、そうでないときにはを入れるというルールになっています。一番上の行に因子と水準をまとめてしまうから一元表になっています。

この表現方式だと、分類型のデータも、連続数で表示される測定値も一緒に計算できてしまう自由さが手に入ってきます。
例をあげると二つの写真を見せていろいろな質問をしたデータを主成分分析で解析できてしまいます。

報告の流れを説明するね、まだ、皆さんに主成分分析用語の説明をしてないから、決まった手続きのとおりやれば、センスのあるなしに関係なく出来そうだというところを理解してほしいな。次の用語にあたる数値は計算結果として自動的に計算されてくるから安心してね。

どちらか言うと、主成分計算よりエクセルの散布図作成の方法のほうが手順は複雑だ。主成分計算のアウトプットが出た後に、主成分分析の解析活動が始まります。

おおまかにいえば次のとおりだよ。

  1. 主成分分析計算をした。
  2. 固有値から2つの主成分を選択した。
  3. 因子負荷量の数値からそれぞれの主成分に影響している因子が選択され、不要な因子が捨てられた。 (あとで選ばれた因子間で散布図を作成する。)

    メカニズム記入テンプレート

  4. 因子群をルールどおりに因果関係や前後関係で並べて、流れ図によるメカニズムで表した。こんな枠を用意しておいて、数値にしたがって因子名を入れてゆくだけの作業だよ。

  5. この作成過程でふたつの主成分間で動いている因子群が因子負荷量の数値の手順のなかから浮かびあがってきた。

  6. 主成分内で変化している因子同志は、散布図に表して、エクセルのグラフ作成機能で近似式を計算した。
    ここでは秘策 「主成分層別法(因子特徴データのみの選択法)」が使われている。飛行機の胴体部分だけのデータを抜き出す方法だよ。事例1参照。上にスクロールしてみてね。
  7. 主成分間で動いている因子群のなかで、結果の因子群どうしで因果関係がありそうだから、その因子間の散布図を作成した。

  8. ついでに、4因子以上が関連していたので、関数関係を重回帰分析で作成してみた(5章におまけで付けてあるから興味があれば見てちょうだい)。

 

ほとんどその後の報告作成は、主成分分析結果が示した結果にしたがってガイドどおりに無駄作業もなく粛々と(もくもくと機械的に)やるだけです。

主成分分析の報告って何で散布図だけなの?という疑問を持った人は偉い。井上和香チャンの口調で狩人さんに聞いてくれるかな。

♪〜♪それはね〜。それはね〜。多変量の〜散布図だからさ〜。♪

へ〜、そうなんだぁ。といってくれるとうれしいかな。

・・・・って、最近なくなっちゃったな。あのCM。

主成分分析は、ある因子グループの変化の方向を見るとか、対照的なふたつのグループを分けるなんてのが得意なんだ。え?金持ちの行動パターンと貧乏人の行動パターンなんてのを分けるのは得意だよ。

始めのころの数学の先生が、最初に「主成分分析法は多くの因子をひとつの指標にする方法である」とか「総合特性値を求める方法」とかいうもんだから、主成分分析法のほんとの魅力が消えちゃった。この頃の先生には、主成分分析法って、主成分スコアを計算する方法でしかなかったんだよね。

変数選択が出来て、自然にメカニズムを示してくれるスゴイ方法なのに。

もっとすごいことができるんだよ。自動のデータマイニング。↓

s.gif

TOPへ ↑
 

 事例3 金持ち、貧乏人、中流の行動の特徴

 分類データから対比的特長を持つグループを見つける

研究員2 「博士、家電製品の購買動向の調査結果がでました。」

タコ博士 「おうそうか。どれ、見せてみなさい。」

研究員2 「1と0と書かれている因子は分類型の因子です。1のときがその因子の該当または所有する場合で、0はその他の場合という表現でかかれています。

表の一番上の行のデータは、金持ちの人の回答データということになります。高額家電商品を全部持ってますね。」

s.gif
表2 所得層毎の所有家電製品と購入金額調査結果
金持ち中流貧乏DVDプレーヤーDVDレコーダー大画面TVピアノ総購入費
なおこの数値は適当につくったもので、解析内容は現実と合うかどうかわかりません。解析方法は信用していいよ。
10011113820000
10011110
10011110
10011110
10011113500000
10011110
100111188000
10011110
10011110
10011110
0101110475000
0101110580000
010110078000
0101110387000
0101010200000
0101101195000
0101101168000
0100001165000
0101001193000
0101001199000
0101001120000
00100000
001110040000
00110000
001100017000
001110037000
00100000
00100000
00100000
001100022000
00100000
s.gif

タコ博士 「おや、全部1と0で、最後の列だけ金額じゃの。」

研究員2 「主成分分析はすでにやってありまして、固有値から第1主成分と第2主成分が選択されてきました。累積寄与率からは全体の68%ほどの情報が回収されております。」

タコ博士 「は、はい。」

研究員2 「第1主成分のの特徴は、因子負荷量から見ますと高額所得者と低所得者とのDVDプレーヤーとレコーダー、大画面テレビ、ピアノなどの所有の有無を示しているようです。ただ購入費用について因子負荷量が低めのために、念のため第1主成分と第2主成分について主成分特徴抽出法でデータを抽出して、主成分分析をさらに行いました。」

タコ博士 「えと、あの・・・もっとゆっくり話してくれんかの。」

研究員2 「その結果、第1主成分抽出データは、このグループに属する高額所得層は自分の金で所有したのではないグループであり、一方で低所得層はDVDプレーヤー程度は購入している者もいるが自前で払った人々であるという資本主義社会の実態をまざまざと見せる結果が浮かび上がりました。」

タコ博士 「判断は素晴らしいが、表現は何とかならんか。」

研究員2 「かしこまりました。もう少しやわらかいわかりやすい表現になるよう努力いたします。」

タコ博士 「どうなるか、楽しいような気もするが。」

研究員2 「第1主成分では、金持ちは他人のサイフで高額商品を買っていて何でももっていてすっごくずるいのでありますが、貧乏人は手に入らないなかで、ようやく手にはいるDVDプレーヤーの安もんにはちゃんとゼニを払っているようであります。」

タコ博士 「バランスが・・・、やめとこ。もっとこわれそう。」

研究員2 「第2主成分では、次のようなことが判明いたしました。中流といわれる並の給料の連中は、「他人のサイフを使って何でも持っている金持ち」vs「何も買えないけど買うときは自腹を切る貧乏人」のスタイルから外れた行動をとっています。並のやつらはちゃんと自腹でゼニを払いますが、生活スタイルがピアノ派とヴィジュアル派に分かれるようであります。」

タコ博士 「わしゃあ、大画面テレビが欲しいのう。ヴィジュアル派か。」

研究員2 「第1主成分と第2主成分がどちらも大きいグループの人々は、高額商品を自腹で買っている正義の金持ちと、なにも持てない買えないスカンピンの貧乏人が対比グループとして浮かび上がっています。」

タコ博士 「なんか差別感が感じられるのう。」

研究員2 「博士!」

タコ博士 「えっ。何じゃ急に。」

研究員2 「収入のある助手に推薦してください。DVD買うどころか、今日はご飯も食べていません。」

タコ博士 「しかたがない。わしの足を食べろ。タコ族の緊急時の食糧じゃ。」

s.gif

翌日・・・

研究員2 「博士、おはようございます。おかげさまで元気になりました。」

タコ博士 「おはよう。ん?額のしわもこころなしつるつるになったぞ。わしの足もほれ、生えてきたぞ。」

研究員2 「博士、昨日の調査で中流の人たちは、購入品がばらばらでしたので、彼らの購入単価が推定できました。」

タコ博士 「ほう、どうやってやったんじゃ?」

研究員2 「重回帰分析を行いました。分類型の因子が1と0でデータがとっておりましたので、その結果の偏回帰係数が単価になります。」

タコ博士 「並の連中、いやいかん。おまえのがうつってしもうた。その中程度の所得層はどれくらいの値段のものを買っておったんじゃ?」

研究員2 「DVDプレーヤーは36,600円、DVDレコーダーは114,000円、大画面テレビは361,000円、ピアノは170,000円です。」

タコ博士 「・・・。みんな高価なの買ってるなあ。」

s.gif

 解説するね

s.gif

主成分分析に分類型の因子を使うのは望ましくないと最初の頃の権威ある教科書には書いてある。だからあんまりこうした使われ方はされてこなかったんだよ。

この事例のように、分類型のデータ(カテゴリカルデータなどとも言う)と格付けや順位データなどと組み合わせると主成分分析で、色々なアンケートの解析ができます。

たれパンダを見てキャー可愛いといっている女子高生の頭の中には、たれパンダのどの点が可愛いと感じているかなど本人も明解に意識してはいません。でも、販売側としては女子高生がピピッときているのはその形なのか、眼なのか、ホニャーとしているしぐさなのか、微妙なカーブなのか知りたいわけです。
アンガールズがキモ可愛いという女心は男にとってよくわかんないけれど、おっさんになっても、商売では「そんなのわかるか」というわけにはいきません。

そういうときに若者達にブレーンストーミングさせて、出てくるキーワードを分けへだてなく取り上げてアンケートすればよろしい。

(注)ブレーンストーミング
人が集まって、身勝手な意見をワーワー言うだけのゲーム的会議。他人の意見に批評を加えてはいけない、他人の意見からの思い付きは大歓迎、会議目的などいいから自由奔放の思い付きを短時間に大量にアイデアを出すというルールを周知させて行う。女子学生が「・・・だったりして。キャーッ」といってる雰囲気ですな。既存の価値観から離れたクリエイティブ領域に迫れる。お祭り的雰囲気が望ましく、厳格で義務感の強い暗い雰囲気では失敗する。職場の上下を意識するような進行は不可。

彼女達が可愛いといっている中にも何種類かあることが発見できるし、その中で聞いているキーワードが好きか嫌いかの情報を含めて主成分分析が回答してくれる。

たとえばまだ他にも、多元配置分散分析で因子を選択できるけれど、ダミー変数として主成分分析に入力できるように表を書き換えれば、因子の選択だけでなく、メカニズムの分離もできるようになります。

 

ではでは、この事例の説明に入るね。一転して散布図がなにもない報告になってるだろ?これには意味があるんだ。

分類型の因子は、散布図を作成してみても、人間には何もわかりません。(0,0)、(0,1)、(1,0)、(1,1)に点が集中して重なってしまって散布しないから、目で見て判断できないんだよ。事例3では、散布図がないのはそういう意味なんだ。
人間には重なっている点が見えてなくても、コンピューターは見えているから、そのお力を借りる方がずっとスマート。

人間は、ものごとを二分して対比的に説明されると「うん、そうだね」と理解しやすい。だから主成分分析のように対比的なグループ分けが出来る手法はとても重要なんだ。物事を対立する二つに分けて説明するやり方は、聴衆を納得させやすい方法としてプレゼンテーションではよく使われています。

矛盾しているようにきこえるけど、人間は未知の世界においては、対比的な関係を言葉で論理的に矛盾なく解明するのは苦手です。言葉で対比的に考えるのは、一見、論理的に思えるから簡単に誤解して理解できたと思いやすいだけ。まあ、だまされやすいということなのよ。
三段論法や対比法は論証の方法としては、正しい方法ではないと明らかにされてるんだ。言葉は使う場面により微妙に意味がずれています。詐欺を働く人々、政治家、宗教家などはこの微妙なずれを利用して悪事を働くことがあります。

言葉をあやつると、一見、論理的に見せることのできる例です。最近、とある政治権力を有する神学者が実際に使った模擬三段論法ロジックです。

  1. 自由だけの、規制がない国はないよね
  2. たとえば文明国でアヘンを自由に販売してよいという国はないよね
  3. だから女性が車を運転してはならないという規制は我国の規制だからとやかく言うな
1と2とを毎回使用するだけで、3を変えればどんなことでも規制できるね。

人をたぶらかそうとするプレゼンターが使うから、対比法が悪者にされるだけであって、善意のわれわれが数学的に論証された事実に基づいて、解明したことを対比法で人々に説明することは、わかりやすく人々に伝える良い方法です。

人間が対比法で論理的に考えるのは苦手というのを実感してもらうため、ためしに、この関係を考えてみてください。説明できるかな?

(設問)
この事例3の、第2主成分に関する問題です。
金持ちと貧乏人は対比的な関係にあります。その関係は正の相関関係です。
中流層は、金持ちにも貧乏人に対しても、対比的な存在です。
「中流層と金持ちの関係」および「中流層と貧乏人の関係」は、それぞれ負の相関関係です。
これら3者の関係を、どのような対比関係にあるか、頭の中だけで整理して説明せよ。

頭の中で言葉の「対比」という範囲で考えると何がなにやらわからなくなるだろ? これを見れば、分布の関係がわかるよ。

でも分類型のデータは残念ながら、このグラフのような分布をせずに、4点に重なるから散布図では表現できません。それなら、主成分分析の数値の力を借りればいいだろ?

 

そこで、君が判断を間違わないようにする方法

君の手元に第1主成分の因子負荷量表があるとしよう。かしこい一般の人たちは、この表から直接解釈してしまう。
しかし、普通の脳みそではあるが、納得しなければウソの報告はできない真面目なタコ人ならこうするんだ。
全部の観測データの表から、他の主成分の特徴をもつデータを削除してしまう。観測データの表には第1主成分のデータしかない状態にするんだ。選抜された表から昔ながらのグラフや表の整理をして判断したら、それは第1主成分だけの性質を示しているはずだね。

一般の判断方法のように因子負荷量だけで判断すると、データの散布状態を座標全体にわたって散布していると考えてしまう。しかし実際はある部分にかたよってグループとして散布している場合もある。この場合、タコ人のやりかたが優れているのさ。コンピューターがどの観測データのことをこの主成分だって判断しているかタコ人は確認するわけだ。

実際の手順は、主成分スコアの値から、特徴の強い観測値関係の少ない観測値をわけてしまいます。この分ける作業を、主成分層別といいます。
主成分スコアの数値を頼りに、対応する同じデータナンバーの観測データをグループ分け(主成分ごとに層別)してしまいます。その層別された生のデータを見ながら、メカニズム流れ図を説明してゆくとまず判断ミスをしません。コンピューターがどのデータを第1主成分と考えたかがわかれば人間も考えやすくなります。

結果が保証されている層別された観測データをにらんで意味を考えるのだから、多変量解析の数学的意味がわからなくても、間違いのすくない結果がえられるんだよ。

 

この事例3では、まず因子負荷量の数値から因子を選抜しメカニズムを抽出しました。
次に主成分スコアから主成分の性格の強い元の観測データが選抜されました。
ここからは選抜された観測データから意味を考えるんだけど、因子負荷量のプラスマイナスの符号を横でにらみながら、因子をならべるんだ。

ここではエクセルはほとんど使ってなくて、主成分分析の手法ばかり使っていることに気づいてね。

普通の層別でやればいいじゃんと考えた人は、少し頭がいいけど、少し悪いね。普通の層別の方法では。金持ちと貧乏人とを層別できても、金を払わない金持ちと金を払う貧乏人という層別はなかなか出来ないだろ?

実は層別だけでも、こうした結果を求めることが出来ます。それには根性、執念、飽くことなき仮説作成と層別集計によってセンスのある人々だけが到達できる境地だったのです。こうしたやり方は、データマイニングなど格好いい言葉でもてはやされておりますが。

主成分分析を使うと、まずデータマイニング結果が先に提示されます。センス無しのタコ人でもその提示にしたがって、手順どおりデータを層別すればいいのです。タコ人が自らデータマイニングすることはありません。

この点において、主成分分析は層別の指針を出してくれる特別の多変量解析手法なんだ。

主成分分析に0/1型の分類データ(ダミー変数)が入ると、定量データの解釈も非常にやりやすくなります。また、解釈の間違いも少なくなります。その事例もいずれ紹介しようね。ダミー変数を入れた主成分分析の解釈に慣れてくると、定量データだけの主成分分析の解釈のしかたにもミスが少なく自信が持てるようになります。その理由は、採取した因子以外のその他の因子について意識しながら解釈出来るようになるからです。
このことが理解できるようになると、主成分分析にはできるだけ多くの因子を入れ込んで解析するほうが間違いも減り解釈しやすくなるという意味がわかってきます。

もし、2変数が定量値であり、それらが主成分分析で有意となって選択されてくれば、有意となったカテゴリー変数でちゅうちょなく一般の層別散布図を作成すべきです。定量値の3変数が有意となったら等高線図がエクセルで描けます。

エクセルでの層別散布図と等高線図の作成手順はおまけとして準備してあるのでそちらを参考にしてください。

 

この項のまとめをしましょう。先生方がおっしゃるように、主成分分析は総合的指標を求める方法です。それ以外に次のような大事な能力があるんだよ。

  • 主成分分析は、多次元の散布図であります。
  • 主成分スコアは多次元散布の中の真正面の姿を見せてくれます。
  • 因子間のメカニズムを教えてくれます。
  • そして、主成分分析はデータマイニング作業そのものでもあります。
  • 主成分分析は対比的なグループを探し出してくれます。
s.gif

カテゴリーデータを使えば、こんなこともできるぞ。いろいろの人の表情を写真に取り、それを多数の人に見せてアンケートをとる。そうすれば、写真はカテゴリーに当たるから、そのデータとアンケートの格付け評価との関係を数値的に関連付けることができるよ。
刺激に対して反応があれば主成分分析の利用が考えられます。

個人的には色々なアイデアがあるんだけど、その世界の人でないとやれないことってあるからなあ。こんなことが主成分分析では出来ると思っています。

(脳の活動解析マシン)

大脳の中では刺激に対して色々な場所が同時に反応するよね。
ピコ秒で順番が測定できれば、主成分分析でメカニズムフローが描きだせるよ。

順序情報と組み合わせれば主成分分析の因子負荷量列はニューラルネットワークの主成分的表現であるとおもう。

ワンセットの変数群が経時的に測定されたばあいには、時間を主成分分析の変数にとり入れると、多次元の空間にグラフの方向がでてきます。主成分分析の変数の中に、対応する時間が入っていれば因子負荷量列は、正真正銘の数学的メカニズム表現そのものとなります。二つの刺激が同時に入ったとして、その刺激をカテゴリー変数として取り込めば分離可能かもしれません。理論的には分離できますから。
脳の活動部位の測定装置に主成分分析を組み込んで自動化すれば、ディスプレイ上の脳の活動部位の点々に、順番を示す矢印がかけるかもしれないよ。色々な刺激に対して関係して反応している部位を選んでくれるんだからね。

そういう意味で、分類型のデータを主成分分析に取り込むことは非常に重要なテクノロジーだとおもう。

(遺伝子活動の解析マシン)

一度に多数の物質を化学分析できる測定装置が開発されているけれど、その中の頭脳として、TCAサイクルのようなメカニズムフローを図示してくれる装置があれば解析作業は非常に早くなる。それには主成分分析が最適なんだ。

遺伝子の活動と、物質の濃度変化なども主成分分析の因子負荷量列がメカニズムフロー(ケミカルサイクルなど)の数学的表現だから、自動化すれば最先端技術の判断速度は数桁速くなるに違いないと思っているんだ。
活性化した遺伝子情報と同時にデータ取得できれば、遺伝子のケミカルフロー翻訳が飛躍的に高速化できるはずだ。

s.gif

TOPへ ↑
 

 事例4 DNAチップで、遺伝子発現メカニズム探求

 遺伝子マップと遺伝特質との間の、関係する遺伝子を発見

タコ博士 「おーい。例のタコ国最先端技術、DNAチップはどうなった?」

研究員3 「は〜い♪博士」

タコ博士 「男なんだから、そのなよっとした返事勘弁して。」

研究員3 「3×3の9種類のクローニングしたものができました」

タコ博士 「そか。えらい。じゃ、五つ手のヒトデと丸型ヒトデの発生過程もわかるな」

研究員3 「はあい、博士♪ もうDNAチップで測定結果が出てましてよ。これですA から I までのアルファベットはクローニングした遺伝子ですわ。」

タコ博士 「えーっ?素早いじゃないか。で結果ももしかして解析済み?」

研究員3 「ええ、博士のお好きな主成分分析でっ♪」

タコ博士 「確か、DNAチップ上の反応は蛍光強度で測っていたね」

研究員3 「ええ、今回はヒトデの腕が発生するまで4時間ごとに測定しています」

 

研究員3 「ね♪博士。第3主成分と第4主成分はヒトデの腕の表現形態と関係がない結果になっていますね」DNA_Fload.gif

タコ博士 「そうだな。まずは第1主成分と第2主成分から選ばれた遺伝子がヒトデの腕の形を決めている役者ということになるようだね」

タコ博士 「どれどれ、時間経過と一緒に変化したのは第2主成分か。遺伝子 I が増えてるね。ヒトデは五つ手が普通だから、遺伝子 F,B が丸くなるのを抑えていたのかも知れんな」

研究員3 「博士〜ぇ。第4主成分も時間的に広がっていてよ。」

タコ博士 「うむ。共通しているのが遺伝子Fだから、これでつながっているほかのメカニズムだな」

研究員3 「ひょっとしたら、大発見かも」

タコ博士 「第1主成分の遺伝子 C,H が高いのが丸型である特徴のようだの」DNA_Mech.gif

研究員3 「第3主成分は時間経過にも、ヒトデの形状にも関与していませんね」

タコ博士 「遺伝子B,D,Eは別のひろがりで分布しているのだろうから、ヒトデの腕の形とはあまり関係ないほかの現象なんだろうね」

研究員3 「そうですか。大発見かなあと思ってたのに」

タコ博士 「まあ、たとえば肌の色なんかの情報を入れれば検出されたかもしれないよ」

研究員3 「そうなんだぁ」

タコ博士 「とりあえず、関連する遺伝子群は選別できたから、これからいろいろわかるな。ご苦労様」

研究員3 「いいえ♪」

s.gif

解説じゃないけど、夢をはなそう

s.gif
主成分分析を、たんぱく質の活動解析に利用しようという試みもあります(北尾、京大 2000)。

たんぱく質はいろいろなアミノ酸分子が鎖状に結合している分子です。たんぱく質分子全体が規則正しく折りたたまれていて、しかも自分が分解できる相手(基質)に出合うと体中をふるわせて相手にとびかかり、相手をちょんぎってしまいます。すなわちたんぱく質は身体をふるわせて動くのです。

この動き方は、分子力学法で論じられる解析関数で分子並びや結合状態から確率的にかなり正確に近似できています。3次元のたんぱく質原子位置のぶるぶる震える状態が計算でみえるのです。

分子力学法では、2個の原子が近づいたり離れたりする振動、「く」の字に曲がった3個の原子がバネのようにつぶされたり開いたりする振動、4個の原子が作る2平面のねじれ振動、電化での引き合いなどによる振動を全部考慮して、最もエネルギーが安定な場所を原子の平均的な居場所として算出します。

いっぽうで温度と基準振動数のデータをとれば、主成分分析の固有値問題を解くことで、この安定な領域を決めることができます。

この技術から派生する領域の今後の展望としては、測定した基準振動数の変化から、たんぱく質の動きの推定ができるようになり、いずれはDNAからたんぱく質構造決定と、そのたんぱく質がどんな基質を相手にするかの推定や、その機能までシミュレーションしてゆける時代が見えてきています。

DNAの設計図を見れば、どんなことをするたんぱく質かが推定できる時代になるのです。主成分分析が多次元空間の中のプロットされた点を主成分スコアとして見えるようにしてくれる機能はその重要な部分を占めています。

いろいろな生物のDNA配列はどんどん決定されているから、今後は生物の生きている仕組みが、コンピューターの中でわかってゆく時代になるだろう。生物の生存のための戦略がわかってくれば、薬、ロボット、食糧、エネルギー物質、原料、生態系調節などなど、多くの分野が広がってくるよね。 そのときになっても主成分分析を使って、様々なメカニズムの関係を確認する作業はもっと増えるでしょう。

たんぱく質の活動解析のように、いろいろな測定値から位置情報を算出できる関数があれば、主成分分析は大きな力を発揮しますよ。皆さんの活躍するフィールドです。
いっぽうでは、位置情報でなくても、これまでグラフ化(可視化)できなかった領域の測定目的を主成分スコアとして可視化できますから、まだ発掘されていないダイヤモンドのような、いろいろな使い方があふれています。

s.gif

TOPへ ↑
 

 事例5 ポートフォリオ の作成

 アンケートからポートフォリオを作る

研究員4 「タコ博士、イカヨウ企画からポートフォリオ作成依頼がきました。街を歩く人の服装写真に対するアンケート結果を有名企業にプレゼンテーションするんですって。」

タコ博士 「そうか。イカヨウってどんな字を書くの?」

研究員4 「はい。”イカ様”です。カタカナのイカに王様の様です。」

タコ博士 「う〜ん。読みようによってはイカサマだなあ。ま、我々の主成分分析はイカサマではないから、いいか。」

研究員4 「いかがしますか?」

タコ博士 「おっ、うまい! じゃ、いかんともしがたい。受けることにしよう。そうしたら君、こうしてくれないか。」
「まず、アンケートを一元表に集計してください。カテゴリー分けしてあっても全ての項目を関係なく横に並べて表を作ればよい。で、主成分分析したら、第1主成分と第2主成分スコアで散布図を作成してください。」

タコ博士 「あ、それからプロットされた点はカテゴリータイプだね。だから重なったりグループで分かれることがおおいから、グループを手でいいから丸く線で囲って、そのグループの特徴を見ておいてね。」

主成分スコアでポートフォリオ

研究員4 「はい、博士。ではさっそくやってみます。カテゴリーは変数名に入れて区別しておきます。」

タコ博士 「さすが、津田塾卒業の才媛だね。やることが見えてるね。」
「ああそうだ。Graph-R の3次元散布図をうまく使うと、色分けできるよ」

しばらくして・・・

研究員4 「博士、出来上がりました。」

タコ博士 「第1主成分はなんだ?」

研究員4 「はい。年齢による影響が強く、素材感や、カジュアル度も効いています。名づけて、月並みですがわかりやすい「世代軸」ではどうでしょうか?」

タコ博士 「うんいいね。ただ有名企業への提案向けに、ぐっとくるキーワードを2〜3個別に提案しておいてね。で、第2主成分は?」」

研究員4 「服装に冒険をする層と、保守的な層に分かれるようです。大人可愛いとか、ちょいワル親父かどうかといった感じの軸です。「自由軸」とか「冒険軸」といった感じです。主成分スコア散布図ですと、肉眼で5つほどのグループに分けられるようです。」

タコ博士 「言うことないね。じゃ、イカサマ企画じゃない、イカヨウ企画への説明は君がするように。プレゼンテーションの練習になるから、君が次に羽ばたく練習をしよう。5つのグループ名はお客様が魅力的に響く前向き用語でキーワードを探してみてね。どうもありがとう。」

タコ博士 「あ それから、第3主成分は好感度のようだから、散布図のグループのそばに好感度ナンバー1などと書き込んでおくといいかも。」

 

 

TOPへ ↑
 

s.gif
主成分分析ってどんなことに使われるのか分かったかな?
次章は実際の解析手順を学習しよう。s.gif≫ もっと見る
s.gif
フレーム構成なら目次つきで見やすいです。 ≫ フレームへ

  第1章へ yatop.gif 次章へ  yaright.gif
上へ