理解を超えた知識について

経験を超えた知識についての続き……なのだが、続いているのは見出しだけ。前回の話から少し逸れるが、統計調査についてだらだらと書いてみようと思う。
統計調査には悉皆調査と標本調査の2種類がある。
悉皆調査は全数調査とも呼ばれる。たぶん「悉」の字が常用漢字にないからだろう。「しっ皆調査」などと書かれるよりはましだが、「悉皆」と「全数」では意味がずれているような気もする。ここでは「悉皆調査」で統一することにする。
悉皆調査とは、要するに知りたい領域に属する対象をことごとくみな調べるという方法だ。たとえば、「いま日本にはどれだけの人が住んでいるのだろう?」という疑問を解決するために、全国津々浦々をくまなく探索して人の住んでいるところをすべて訪れ、住人の人数を調べ上げるなら、これは悉皆調査ということになる。この方法には、特に難しい数学的テクニックなしに、ただひたすら足し算を行うだけで結果が出るという利点がある。もっとも、現在では計算はコンピュータがやってくれるから、計算方法が単純だということは実際に統計を作る立場の人にとってはさほど利点とは思えないかもしれない。だが、統計調査に全く関わりのない人にもどうやって結果が得られたのかが簡単に理解できるということは、今でも大きな利点だろう。
「どうやって、日本全国の人口を計算したのですか?」
「まず全国を都道府県に分けます。次に都道府県を市区町村に分けます。さらに市区町村を調査の便宜上設定した単位に区分けします。それぞれの調査単位ごとの人口を足し算すると市区町村ごとの人口がわかります。次に、それぞれの市区町村の人口を足し合わせていくと都道府県ごとの人口がわかります。最後にすべての都道府県の人口をすべて足し合わせると日本の総人口になります」
単純明快だ。加法についての基本的な知識を持っている人なら、誰だってこの説明で集計方法が理解できるだろう。
ただ、悉皆調査は原理的単純さという利点と引き替えに実務上の煩雑さという難点を抱え込むことになる。知りたい領域の事柄を隅から隅まで調べないと答えが出ないというのは大変だ。
そこで、標本調査の出番だ。
標本調査は抽出調査とも呼ばれる。もしかしたら標本調査と抽出調査は完全に同じものではないのかもしれない。少なくとも「標本」と「抽出」は別の意味の言葉だ。だが、ここでは標本調査と抽出調査は同じものだとみなす。要するに、知りたい領域の事柄から、適当な数の標本を抽出して行う調査のことだ。
たとえば「日本に住んでいる人を全員縦に積み上げたら何メートルになるだろうか?」という疑問を解決するにはどうしたらいいだろうか。もちろん、実際に日本に住む人全員を積み上げるわけにはいかないが、日本全国津々浦々メジャーを持って廻って悉皆調査を行い、得られた身長データを足し算すれば答えは出るはずだ。とはいえ、そんな調査には莫大な経費がかかってしまう。そこまでしなくても、日本に住む大勢の人の中から何人か抜き出して身長を調べ、そのデータを数学的テクニック*1を用いて加工すれば、それらしい結果が得られるのではないか。これが標本調査の発想だ。
標本調査には、簡単に調査できるという利点がある。もちろん、簡単といってもそれなりの手間はかかるので、悉皆調査に比べれば簡単だという程度の意味だが。そのかわりに、標本調査では、どんなに注意して数え間違いがないようにしても、実態と完全に一致するという保証はない。たぶん、いくらかはずれがあるだろう。もしかしたら、奇蹟的な偶然により、ぴったり一致するということがあるかもしれないが、その場合でも、ぴったり一致しているということを知るすべはない。標本調査の結果は、原理的に不確実なものとなる。
標本調査にはもう一つ大きな弱点がある。それは、数学的テクニックを駆使するため、そのテクニックに通じていない人には、どうやって結果が得られたのかが理解できないということだ。この弱点は案外見落とされがちだが、そこから容易に想像できる帰結を考えると、ここには非常に深刻な問題があるように思う。
と、ここまで書いたところで時間切れ。この続きは、たぶん書けなさそうなので、そのかわりにちょうど今日見かけた関連していそうな話題にリンクしておく。

*1:ここで「数学的テクニック」とぼかして書いたのは、具体的な抽出方法や集計方法を知らないからだ。統計学は数学的素養のない人間にはなかなか難しい学問で、なんとか基礎くらいはマスターしたいとは思っているものの、なかなか果たせずにいる。