主成分分析に分類型の因子を使うのは望ましくないと最初の頃の権威ある教科書には書いてある。だからあんまりこうした使われ方はされてこなかったんだよ。
この事例のように、分類型のデータ(カテゴリカルデータなどとも言う)と格付けや順位データなどと組み合わせると主成分分析で、色々なアンケートの解析ができます。
たれパンダを見てキャー可愛いといっている女子高生の頭の中には、たれパンダのどの点が可愛いと感じているかなど本人も明解に意識してはいません。でも、販売側としては女子高生がピピッときているのはその形なのか、眼なのか、ホニャーとしているしぐさなのか、微妙なカーブなのか知りたいわけです。 アンガールズがキモ可愛いという女心は男にとってよくわかんないけれど、おっさんになっても、商売では「そんなのわかるか」というわけにはいきません。 そういうときに若者達にブレーンストーミングさせて、出てくるキーワードを分けへだてなく取り上げてアンケートすればよろしい。
(注)ブレーンストーミング
人が集まって、身勝手な意見をワーワー言うだけのゲーム的会議。他人の意見に批評を加えてはいけない、他人の意見からの思い付きは大歓迎、会議目的などいいから自由奔放の思い付きを短時間に大量にアイデアを出すというルールを周知させて行う。女子学生が「・・・だったりして。キャーッ」といってる雰囲気ですな。既存の価値観から離れたクリエイティブ領域に迫れる。お祭り的雰囲気が望ましく、厳格で義務感の強い暗い雰囲気では失敗する。職場の上下を意識するような進行は不可。
彼女達が可愛いといっている中にも何種類かあることが発見できるし、その中で聞いているキーワードが好きか嫌いかの情報を含めて主成分分析が回答してくれる。
たとえばまだ他にも、多元配置分散分析で因子を選択できるけれど、ダミー変数として主成分分析に入力できるように表を書き換えれば、因子の選択だけでなく、メカニズムの分離もできるようになります。
ではでは、この事例の説明に入るね。一転して散布図がなにもない報告になってるだろ?これには意味があるんだ。
分類型の因子は、散布図を作成してみても、人間には何もわかりません。(0,0)、(0,1)、(1,0)、(1,1)に点が集中して重なってしまって散布しないから、目で見て判断できないんだよ。事例3では、散布図がないのはそういう意味なんだ。 人間には重なっている点が見えてなくても、コンピューターは見えているから、そのお力を借りる方がずっとスマート。
人間は、ものごとを二分して対比的に説明されると「うん、そうだね」と理解しやすい。だから主成分分析のように対比的なグループ分けが出来る手法はとても重要なんだ。物事を対立する二つに分けて説明するやり方は、聴衆を納得させやすい方法としてプレゼンテーションではよく使われています。
矛盾しているようにきこえるけど、人間は未知の世界においては、対比的な関係を言葉で論理的に矛盾なく解明するのは苦手です。言葉で対比的に考えるのは、一見、論理的に思えるから簡単に誤解して理解できたと思いやすいだけ。まあ、だまされやすいということなのよ。 三段論法や対比法は論証の方法としては、正しい方法ではないと明らかにされてるんだ。言葉は使う場面により微妙に意味がずれています。詐欺を働く人々、政治家、宗教家などはこの微妙なずれを利用して悪事を働くことがあります。
言葉をあやつると、一見、論理的に見せることのできる例です。最近、とある政治権力を有する神学者が実際に使った模擬三段論法ロジックです。
- 自由だけの、規制がない国はないよね
- たとえば文明国でアヘンを自由に販売してよいという国はないよね
- だから女性が車を運転してはならないという規制は我国の規制だからとやかく言うな
1と2とを毎回使用するだけで、3を変えればどんなことでも規制できるね。
人をたぶらかそうとするプレゼンターが使うから、対比法が悪者にされるだけであって、善意のわれわれが数学的に論証された事実に基づいて、解明したことを対比法で人々に説明することは、わかりやすく人々に伝える良い方法です。
人間が対比法で論理的に考えるのは苦手というのを実感してもらうため、ためしに、この関係を考えてみてください。説明できるかな?
(設問) この事例3の、第2主成分に関する問題です。 金持ちと貧乏人は対比的な関係にあります。その関係は正の相関関係です。 中流層は、金持ちにも貧乏人に対しても、対比的な存在です。 「中流層と金持ちの関係」および「中流層と貧乏人の関係」は、それぞれ負の相関関係です。 これら3者の関係を、どのような対比関係にあるか、頭の中だけで整理して説明せよ。
頭の中で言葉の「対比」という範囲で考えると何がなにやらわからなくなるだろ?
これを見れば、分布の関係がわかるよ。 でも分類型のデータは残念ながら、このグラフのような分布をせずに、4点に重なるから散布図では表現できません。それなら、主成分分析の数値の力を借りればいいだろ?
そこで、君が判断を間違わないようにする方法
君の手元に第1主成分の因子負荷量表があるとしよう。かしこい一般の人たちは、この表から直接解釈してしまう。
しかし、普通の脳みそではあるが、納得しなければウソの報告はできない真面目なタコ人ならこうするんだ。
全部の観測データの表から、他の主成分の特徴をもつデータを削除してしまう。観測データの表には第1主成分のデータしかない状態にするんだ。選抜された表から昔ながらのグラフや表の整理をして判断したら、それは第1主成分だけの性質を示しているはずだね。
一般の判断方法のように因子負荷量だけで判断すると、データの散布状態を座標全体にわたって散布していると考えてしまう。しかし実際はある部分にかたよってグループとして散布している場合もある。この場合、タコ人のやりかたが優れているのさ。コンピューターがどの観測データのことをこの主成分だって判断しているかタコ人は確認するわけだ。
実際の手順は、主成分スコアの値から、特徴の強い観測値と関係の少ない観測値をわけてしまいます。この分ける作業を、主成分層別といいます。 主成分スコアの数値を頼りに、対応する同じデータナンバーの観測データをグループ分け(主成分ごとに層別)してしまいます。その層別された生のデータを見ながら、メカニズム流れ図を説明してゆくとまず判断ミスをしません。コンピューターがどのデータを第1主成分と考えたかがわかれば人間も考えやすくなります。
結果が保証されている層別された観測データをにらんで意味を考えるのだから、多変量解析の数学的意味がわからなくても、間違いのすくない結果がえられるんだよ。
この事例3では、まず因子負荷量の数値から因子を選抜しメカニズムを抽出しました。 次に主成分スコアから主成分の性格の強い元の観測データが選抜されました。 ここからは選抜された観測データから意味を考えるんだけど、因子負荷量のプラスマイナスの符号を横でにらみながら、因子をならべるんだ。 ここではエクセルはほとんど使ってなくて、主成分分析の手法ばかり使っていることに気づいてね。
普通の層別でやればいいじゃんと考えた人は、少し頭がいいけど、少し悪いね。普通の層別の方法では。金持ちと貧乏人とを層別できても、金を払わない金持ちと金を払う貧乏人という層別はなかなか出来ないだろ?
実は層別だけでも、こうした結果を求めることが出来ます。それには根性、執念、飽くことなき仮説作成と層別集計によってセンスのある人々だけが到達できる境地だったのです。こうしたやり方は、データマイニングなど格好いい言葉でもてはやされておりますが。
主成分分析を使うと、まずデータマイニング結果が先に提示されます。センス無しのタコ人でもその提示にしたがって、手順どおりデータを層別すればいいのです。タコ人が自らデータマイニングすることはありません。 この点において、主成分分析は層別の指針を出してくれる特別の多変量解析手法なんだ。 主成分分析に0/1型の分類データ(ダミー変数)が入ると、定量データの解釈も非常にやりやすくなります。また、解釈の間違いも少なくなります。その事例もいずれ紹介しようね。ダミー変数を入れた主成分分析の解釈に慣れてくると、定量データだけの主成分分析の解釈のしかたにもミスが少なく自信が持てるようになります。その理由は、採取した因子以外のその他の因子について意識しながら解釈出来るようになるからです。
このことが理解できるようになると、主成分分析にはできるだけ多くの因子を入れ込んで解析するほうが間違いも減り解釈しやすくなるという意味がわかってきます。
もし、2変数が定量値であり、それらが主成分分析で有意となって選択されてくれば、有意となったカテゴリー変数でちゅうちょなく一般の層別散布図を作成すべきです。定量値の3変数が有意となったら等高線図がエクセルで描けます。
エクセルでの層別散布図と等高線図の作成手順はおまけとして準備してあるのでそちらを参考にしてください。
この項のまとめをしましょう。先生方がおっしゃるように、主成分分析は総合的指標を求める方法です。それ以外に次のような大事な能力があるんだよ。
- 主成分分析は、多次元の散布図であります。
- 主成分スコアは多次元散布の中の真正面の姿を見せてくれます。
- 因子間のメカニズムを教えてくれます。
- そして、主成分分析はデータマイニング作業そのものでもあります。
- 主成分分析は対比的なグループを探し出してくれます。
|