国際文化学部のための統計学(2001.11.22        担当 安岡(アメリカ文化論)

社会分析のための統計学

社会科学にとって統計学は極めて有効なツールであるが、統計学を応用するために社会データを分析するのではなく、あくまでも社会科学上の仮説を検証するために統計学を使うという姿勢が大切である。

データセットがあって、分析手法があって、結果として何か結果が出たから論文を書くということではなく、社会科学的に意味がある問題を設定し、それを明らかにするために作業仮説 を設定し、仮説の検証のために統計学や様々な分析テクニックを使うというのが正しい姿勢であろう。

<理論、概念、仮説、操作化>

理論とは、「現象を説明し、理解することに役立つ、相互に連関した一連の説明」である。

理論に関連した物や行動、認識結果、現象などを総称したものを概念と呼ぶが、概念というのは抽象的なので直接調べたり確認することが難しい。概念を直接、観察可能なものに置き換えることを操作化と呼ぶ。作業仮説、または操作仮説とは、例えば「民主主義国家間は戦争しない」(カント『永久平和論』)を「マクドナルドの店舗がある国家間の戦争は1980年代以降生じていない」といった具合に具体的に読み替えて、データで検証していくことである。操作仮説において概念を観察可能な形で表しているものを指数indexと呼ぶ。例えば上の例だと経済的、政治的自由度の指数としてマクドナルドの店舗数を利用している。

<ミクロ、マクロ>

ミクロとマクロとは、微視的、巨視的などと訳されて、しばしばミクロが小さくてマクロが大きいものと誤解されている。しかしミクロとマクロは分析対象の相違による名称で大きさは関係ない。ミクロ分析とは、個人や家計、企業、国際関係分析における一国家など、個々の主体を単位としてその行動を分析するものであるのに対して、マクロ分析とは個々の単位ではなく、集団とか社会とか国際関係とか一国の経済システム全体とかそうした単位間の相互関係、属性を分析するものである。デュルケムの『自殺論』で言えば、個々人の自殺の動機を調べるのは、ミクロ分析であるのに対して、「共同体の統合度の低下が自殺率の上昇をもたらす(アノミー型自殺)」ことを検証するのはマクロ分析ということになる。ここで厄介なのは、国家や共同体、集団のデータといっても純粋なマクロデータというものは少なく、国家や集団を構成する個人のデータの集積である場合が多い。こうした集積データをアグリゲートデータと呼ぶが、例えばある高校の生徒一人一人の身長、体重などはミクロデータであり、その平均、分散はアグリゲートデータであるが、高校自体の属性(年間予算、生徒・教職員数、校則の性質)などは個々のデータからアグリゲートされないマクロデータということになる。マクロデータとミクロデータを扱う場合に注意しなければならないのは、例えばある州における黒人人口比率と州の識字率の間に高い相関関係があったとしても、黒人であるかないかと識字率の間に高い相関があるとは限らない。この場合に、マクロ分析から得られた結論をミクロ分析に類推する(州内の黒人比率が高いと州の識字率が低い→A州のBさんは黒人だから文盲である可能性が高い)ことによって犯す誤りを生態学的誤謬 ecological fallacy といい、注意しなければならない。

<数理分析と計量分析>

数理分析と計量分析は、しばしば両方とも得意な研究者が多いことから、両方とも苦手な研究者からは同じものとして誤解されているが、数理分析とは、ゲーム理論のように数学的、抽象的な公理から演繹的にある主体の行動を説明する分析方法であるのに対して、計量分析とは実際にデータを属性や行動を実際に測定しながら仮説を検証していく分析方法であり、かなり異なるものである。社会科学で統計手法を多用するのは、計量分析の方である。

<変数>

仮説に含まれる指標で人や物、事象によって変化するものを変数と呼ぶ。「教育水準が高いほど、投票率が高い」という仮説で、教育水準(大学卒業率、高校卒業率、大学院修了率)と投票率が変数である。この仮説では教育水準↑⇒投票率↑という因果関係が想定されている。そこで教育水準がどのくらい上がると、投票率がどのくらいアップするか調べたいとする。その場合、Y(投票率)= αX(教育水準) + その他の要因という式で表すことができるが、この場合、説明対象となるY(投票率)のことを、被説明変数、または従属変数と呼ぶ。それに対してX(教育水準)のことを説明変数または独立変数と呼ぶ。後ほど解説するが、一つの式の中でYは必ず一つ、つまり従属変数は単数であるのに対して、従属変数を複数の変数で説明することは可能である。例えば

Y(投票率)=αX(教育水準)+βX(年齢)+γX3(所得水準)+……

という具合に複数の変数である変数を説明しようとする分析を多変量解析と呼ぶ。

しかしこの場合に、教育水準↑⇒所得水準↑ということも十分に考えられる。その場合、

     所得水準

    /   \

教育水準  →  投票率

という形で因果関係が働いている場合が考えられる。この場合、教育水準が高い人ほど、

所得が高い⇒所得が高い人ほど、投票に行く余裕があるから投票率が高いという形で、

教育水準が投票率に効果を及ぼしている。このような場合、所得水準は、教育水準と投票率の間の媒介変数であるということになる。教育水準、例えば高卒後の教育機関在籍年数が一年延びると、投票率が何%アップするのかを測って、純粋に教育水準が投票率に及ぼす効果を測定しようと思えば、この媒介変数の効果を取り除かなければならない。その場合に、例えば同じ所得水準で、教育水準と投票率の関係を比較したりして、所得水準の投票率に対する効果を抑えて測定しようとすることを変数の統制(コントロール)と呼ぶ。

以降、相関係数、偏相関係数、回帰分析、重回帰分析などを取り上げて解説するが、それらはここで取り上げた、変数間の関係の強さを説明したり、因果関係を考えるための手がかりである。