Nicotto Town


ふぉーすがともにあらんことを、あなたにも。


エントロピーの落とし穴―物見遊山は無意味

一般的に物見遊山とはいわゆるちょっと高飛車な野次馬のことをいうのですが、今日はその物見遊山について、はたまた統計学やメタデータについて書いていきます。ビッグデータというとメタな感じがしていいですが、実はそれらは大きければいいかといえばそうではなく、ある一定以上のサンプルを集めてしまうと、その資料自体で乱雑となってしまい「観測者の望んだ結果を得られなくなる、また予想とは全くかけ離れた結果になってしまう」という現象が起こるのです。観測者の望んだ結果にならない、というのは画一的なものさしで物事は測ることができない、という定理からすれば一見ごく自然でふつうのことのように思えますが、それが調査費用をかけてメタデータを集めようとした際にそんなことが起こってしまうと、実は大問題なのです。そもそも、ビッグデータなどのメタ情報はある一定の定理に基づいて、観測者の望んだ結果、ある程度予測した定理が導き出せるように採取するものなのです。そもそもなんの予想もなしに統計的データを採ることはあり得ませんから、一般的に統計学的に信用の得られる数字といわれる2000~2200ほどのサンプルを超える数のデータを採った場合には、当然予想よりも「メタな」データになりますからそもそもサンプルが1万にも10万にもなるデータは採ったサンプルのデータそのものが乱雑になってしまい(エントロピーの影響)そもそもある程度予測した、予想した結果を計測することが「本来の」目的である統計的調査では最低限統計の採れる数字を超えた調査ではむしろ計測結果が乱雑になってしまいある程度予測した結果が得られないばかりか世の中がどのくらい乱雑か、というようなことしか計れないことになるのです。これは単純に「欲しい数のサンプルよりも対象が膨大になってしまえばそもそもその採取したデータそのものが乱雑になってしまい正確な計測結果は得られないから」、でありこれをひっくり返していえばそもそも「科学には予測以外の結果は必要ない」ということもいえると思います。まぁ、これには賛否あるでしょうがそもそも科学というものの目的は「予測した結果を得ること」であって予想外の未知の結果は「予測しないことを意図的に起こす」か「未知の結果が得られる状況を意図的に設定してそれを計測する」というような方法しか基本的にはないのです。そもそも、予測しない結果が普通に起こる状況をそのままにしてしまえば、正確な観測どころかそれらを観測・計測するのも無理になる、ので(というかそういったことはあまりにもエントロピーが跳ね返っているので実験としても非常に危険な状態)一言でまとめてしまえば「そこにいる人間に観測できないものは危険だし無理」ということにもなるのです。まぁ、これは考えてみればよくよくは当たり前のことで人間がそもそもこの地球上の生態系を牛耳っている以上(人間より高等知的生物はいませんから)人間の制御の及ばないことは起こしてしまえば非常に危険なのです。なぜかといえば分からないところで何か乱雑なことが起ころうとしているから、でありまた、実験的に起こそうと意図したことでもないのに予測外の結果を招こうとしていることにもなり、ということで計測や実験においては予測外の結果というのは無知な人間からしてしまえばとても危険なことでもあるし、予測の利いている人間からしてみても予測外の結果というのは「その予測外が予測できていない限り」非常に危険というよりはむしろ不要の産物でもあるのです。そもそも科学の実験や統計学的な実証というのは「予測した現象が起こるか観測すること」を指しているので予測しない現象は要らないしあまりにも予測外の結果が普通に観測されるというのはどちらかといえば非常に危険なことなのです。こういうと科学においては事前に予測すること、精度の高い予想をすることが非常に重要になってくると思うのですが、これは先に出た物見遊山においても一緒です。物見遊山とはそもそも暇つぶしがてら高見の見物、ではなく世間を野次馬しにいくことを指しているのですが、自分の予測外の結果が要らないのならそもそも野次馬しにいく意味がありません。予測外の結果がほしいということであってもそもそもそれを観測する準備が要るというわけですからそれは物見遊山というよりは研修か下見といったほうがいいでしょう。物見遊山というものはそもそも野次馬なわけですから、それそこで得られたものをそのままデータ化するのならまだしもそもそも物見遊山自体その目的外のものは乱雑になってしまうわけですから、野次馬目的以外のものはほとんど意味がないのです。ついでに、あえていえばそうまでして人間がたまに物見遊山のようなものに出かけたくなるのはそもそも「その物見遊山自体が結果に関わらず気分転換になるから」であり、観測結果などの自分以外の要因は全く関係なくなるのです。というわけで物見遊山が無意味なことを分かってもらえたと思いますし、併せてサンプルを超えた統計学やメタデータ計測も必要ない、ということがお分かりいただけたか、と思います。ついでいえば国勢調査などの一見ビッグデータと呼ばれるものでもそれらはそもそも「計測者の予測した、ある意味望ましい結果を導き出すもの」であり「それらに〝計測した数字”というまやかしの根拠を与えるためのもの」でもあるので意味がないどころかそもそも信用してはいけない、のです。逆に信用のおけるデータを採取しようと思えば統計学的に必要な「最低限の」サンプルからデータを集めればいいだけということになり、こういった面からも国勢調査などのメタデータの大規模な統計が意味がないことが窺えると思います。というかそもそもメタデータというのはそれらエントロピーで出る「乱雑な要素」をコンピュータのシミュレートである程度排除しながら計測するものであり、そういう意味でも観測者の「思いのまま」の予測結果を出すことがデータ採取の目的だ、ということはお分かりいただけたか、と思います。野次馬というものは意味がなく、反対に世間を眺めるため、なら物見遊山も意味があるとはいえるのではないか、とも思います。





Copyright © 2024 SMILE-LAB Co., Ltd. All Rights Reserved.