でたらめなデータはデータの欠如より始末に負えない

訳あって全国の自然公園の利用者数のデータを調べていたところ、環境省インターネット自然研究所に平成17年都道府県立自然公園利用者数(公園、都道府県別)(【Excel】/【PDF】)という表が掲載されていた。以下、著しく利用者の少ない公園を抜粋して掲げる。下表の利用者数の単位は「千人」であり、必ずしも「著しく利用者の少ない公園」ではないと考えられます。原資料の単位表示の見落としにより誤解していました。コメント欄でのK-_-Y氏の指摘により気づきました。

都道府県名 公園名 年間利用者数
北海道 天塩岳 5
千葉 大利 4
愛知 段戸高原 2
島根 千丈渓 3
広島 神之瀬峡 4

1日あたり平均利用者数ではない。年間トータルの人数だ。これはいったいどうしたことだろう?
インターネット自然研究所の自然保護各種データ一覧には凡例がないため、何をもって自然公園利用者とみなすのかという基準はわからなかったが、いろいろ調べているうちに自然公園利用状況調査についてという文章を発見した。昭和59年4月26日に環境庁自然保護局施設整備課長が都道府県自然公園主管部(局)長に宛てて発信した文書で、ちと古いのだが、これより新しいものが見あたらなかった。
この文書から公園利用者数の算出方法に関する箇所を抜き書きしてみる。ベタコピペなので文字化けとかインデントの乱れとかがあるが、見栄えの調整は面倒なので省略。

  ア 本調査は、公園別の年間における入込利用者数を把握するものであり、出来得る限り実態調査に基づき集計算出することが望ましい。
    この場合において、実態調査日に把握した利用者数から、年間(月間)利用者数を推計するときは、実態調査日の入園利用者数及び公園内の各種有料施設(宿泊施設、交通機関等)の利用者数を基礎として、次のいずれかの方式によることが望ましく、他の方式で推計算出したときは、その調査方法、算出の根拠を明記すること。
    ? 年間(月間)利用者数=入園口年間(月間)流入総数(降車客総数)×(実態調査日の公園利用者数/実態調査日の入園口流入総数(降車客総数))
    ? 年間(月間)利用者数=実態調査日の公園利用者総数×{(A施設の年間(月間)利用者数+B施設〃+C施設〃+……)/(A施設の実態調査日の利用者数+B施設〃+C施設〃+……)}
  イ 利用者数を実態調査により集計算出出来ない場合は、過去に実施した実態調査を基礎として、各種指定統計又は他の目的のため実施された調査等から推計算出するものとする。
    この場合には、推計算出の根拠を明記すること。
  ウ 年間利用者数が、前年と比較して著しい増減(一〇%を目途とする。)を生じた場合は、その具体的理由又は考えられる理由を記入すること。

アで掲げられている2つの算式も素晴らしいが、イはさらに感動的だ
気まぐれに進んだり遅れたりする時計完全に止まった時計とでは、後者のほうが役に立つ。止まった時計は確実に一日二回正しい時刻を指し示すのだし、しかも、何時何分に正しい時刻を指すのかが明らかだから」という有名なジョークがある。このジョークには一面の真理が含まれていると思う。
訳あって全国の自然公園の利用者数のデータを調べていたが、結局、その試みを断念せざるを得なかった。

参考
鉄博+らき☆すた VS ひぐらし―観光統計が超絶デタラメだった件 - Thsc

追記

その後の追加調査結果を簡単に。
上で引用した文章では調査の名称が「自然公園利用状況調査」となっているが、現在では「自然公園等利用者数調」という名称であるらしい。日本統計年鑑にも調査結果が掲載されているようだ。
財団法人国立公園協会の機関誌「国立公園」2006年5月号に掲載されている自然公園等利用者数調について*1によると、

利用者数調は厚生省時代に作成された要領に基づき調査・作成される。それは、

  1. 特定日における実態調査によって得られたデータを基礎にして年間利用者を推計する方法を原則とするが、
  2. 実態調査を行わなかった場合は、観光統計から推計することとなっている。

実際には公園別統計は都道府県別観光統計からの引用・推計で報告されている。これらのベースになる積み上げ数字は、その観光地なり関係市町村からの数値の修正だから、統一性に欠ける。
【略】公園利用者数調はそれに準拠しているから、観光統計の主管庁ですら疑問視せざるを得ないデータの収集手法は、時系列的な傾向を見ることに役立つものの、公園別に、或いは行政単位別には単純比較ができない。

ということらしい*2
「自然公園利用状況調査について」の「各種指定統計又は他の目的のため実施された調査等から推計算出する」という箇所を読んだ段階で、利用者数の推計に使える指定統計*3なんかないから、きっと観光統計をベースにしているのだろうと思い、観光統計のでたらめぶりを指摘した文章にリンクしておいたのだが、やっぱりそうだった。
物理的なゴミはリサイクルすれば資源にもなり得るが、ゴミ情報はどう処理してもゴミでしかないので、無視するのがいちばんだ。
なお、観光立国を目指している日本の観光統計が「観光統計の主管庁ですら疑問視せざるを得ない」のは具合が悪いので、数年前から政府は観光統計の整備に乗り出している*4が、まだまだ日本の観光統計の夜明けは遠いようだ。

*1:同誌pp.4-5,「国立公園編集部」名義。

*2:上の引用文に続いて、具体的に利用者調の数値のおかしさを指摘しているが、いちいち手入力するのが面倒なので省略する

*3:統計法(昭和22年法律第18号)第2条に基づく統計で、不正確な統計が多い中では比較的信用できるものとされている。なお、統計法(平成19年法律第53号)では「基幹統計」という名称になる。

*4:国土交通省総合政策局観光部門:観光統計の整備およびアーカイブ | 情報・資料 | 観光庁などを参照。