望遠鏡は「現在」を見ていない
天文学の根本的な不思議は、望遠鏡が「現在」を見る道具ではないという事実から始まる。
光速は有限だ。1秒に約30万km。これは圧倒的に速い。しかし宇宙のスケールでは、光の旅は長い時間を要する。月の光は約1.3秒前のもの。太陽の光は8分前のもの。最も近い恒星(プロキシマ・ケンタウリ)の光は4.2年前のもの。
そして観測可能な宇宙の果て——138億光年先からの光は、138億年前のものだ。
つまり、天文学者が宇宙を観測するとき、宇宙の「現在」は見えない。見えているのは常に「過去」だ。過去の光のスナップショットから、現在の宇宙の状態を推論するのが天文学の本質的な営みだ。
データサイエンスもまた、「現在」を直接見ない。データは常に「過去の記録」だ。昨日のユーザー行動ログ、先月の売上データ、去年のアンケート結果——これらから現在と未来を推論する。
「視差法」——異なる視点が距離を生む
天文学で近距離の恒星の距離を測る基本技術が「視差法(Parallax Method)」だ。
地球が太陽の周りを公転するとき、6ヶ月ごとに地球の位置は約3億km(地球軌道の直径)ずれる。この二つの位置から同じ恒星を観測すると、恒星が背景の遠方の星に対して「ずれて」見える。このずれの角度(視差角)から、三角測量で距離を計算する。
一つの視点だけでは深さ(距離)はわからない。異なる視点が深さを生む。
データサイエンスにおける「クロスバリデーション」は、この視差法と同じ構造だ。データをランダムに分割し、複数の異なる視点(サブセット)から同じモデルを評価することで、モデルの「距離感(汎化性能)」を測定する。一つの訓練データだけで評価したモデルは、実際のデータへの距離感(過学習・未学習)が見えない。
「スペクトル分析」——光の色の中に全てがある
天文学の革命的な発見の一つは、スペクトル分析(分光学)だ。
天体から届く光をプリズムや回折格子で分解すると、特定の波長に「吸収線(暗線)」が現れる。この吸収線のパターンは、光が通過した物質の元素固有の「指紋」だ。ナトリウムは特定の二本の暗線を残し、水素は異なるパターンを残す。
これによって、人類は一度も太陽に触れることなく、太陽の大気がどのような元素で構成されているかを知った。遠方の銀河の化学組成も、スペクトルから読み取れる。直接サンプリングしなくても、シグナルの中に成分情報が含まれている。
データサイエンスの特徴量エンジニアリング(Feature Engineering)は、このスペクトル分析に対応する。生データ(光)をそのまま使うのではなく、データの中に潜む「元素(特徴)」を分解して抽出する。クリックストリームデータ(生データ)から「セッション長・ページ滞在時間・離脱前のページ」という特徴量(スペクトル)を抽出することで、ユーザーのインテントという「元素」を読み取る。
「暗黒物質」——見えないがモデルに必要なもの
1933年、天文学者フリッツ・ツビッキーは銀河団の運動を観測し、矛盾を発見した。見えている星の質量だけでは、銀河団の重力が説明できない。
銀河は観測される速度で回転するには、はるかに多くの質量が必要だ。しかし電磁波(光)では観測できない。そこで提唱されたのが「暗黒物質(Dark Matter)」——直接見えないが、その重力的影響から「存在するはずだ」と推論される物質だ。
現在、宇宙の質量の約85%が暗黒物質だとされる。しかし我々はいまだにその正体を知らない。見えないものが、見えているものを動かしている。
データサイエンスにおける「潜在変数(Latent Variable)」は、この暗黒物質の概念と対応する。
顧客の購買行動データを分析するとき、「なぜこの顧客はこの商品を買ったか」を直接データから読み取ることはできない。しかし「価格感度」「ブランドロイヤリティ」「購買頻度パターン」という潜在変数を仮定することで、見えている行動データが説明可能になる。直接観測できない構造を推論することが、モデルを現実に近づける。
「ハッブルの法則」——パターンから法則を発見する
1929年、エドウィン・ハッブルは数十個の銀河のスペクトルを観測し、驚くべきパターンを発見した。遠い銀河ほど、より速く遠ざかっている。
この「距離と後退速度の比例関係(ハッブルの法則)」は、宇宙が膨張しているという直接的な証拠だ。データのパターンから、宇宙の根本的な性質——膨張——が発見された。
データサイエンスの「A/Bテストの結果分析」や「回帰分析」も、データのパターンから法則を発見するプロセスだ。しかし重要な違いがある。相関は因果ではない。
ハッブルは「遠い銀河ほど速く遠ざかる」という相関を観測したが、その背後にある「宇宙膨張」という因果メカニズムは、理論的な洞察によって初めて理解された。データのパターンが「何が起きているか」を示し、思考が「なぜ起きているか」を補完する。
データサイエンティストの最大の罠は、相関を因果と読み違えることだ。 天文学者が「銀河の後退」を「宇宙の端があって銀河が端に向かっている」と解釈しなかったように、データのパターンには複数の解釈が常に存在する。
数十億年前の光が今も届いている——天文学のその事実を初めて知ったとき、データにも「光の遅延」があることを思った。データサイエンスが扱う数字は過去の断面であり、現在を照らす光だ。その比喩が、分析の姿勢を変えた経験がある。
問いかけ
- あなたが見ているデータは「現在」を表しているか? データの収集タイムラグと、それが推論に与える影響を意識しているか。
- 「視差」を確保しているか? 単一のデータソース・単一の評価指標だけでなく、複数の視点からモデルを評価しているか。
- 「暗黒物質」を探しているか? 見えているデータでは説明しきれない部分に、どんな潜在変数が隠れているか考えているか。
- 相関と因果を区別しているか? パターンの発見を「why」の探求と混同せず、因果メカニズムの推論を別ステップで行っているか。
参考文献
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley. — データ探索の基礎を確立した統計学の古典
- Sagan, C. (1980). Cosmos. Random House. — 天文学的スケールの思考がデータの解釈にもたらす視点
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press. — データの「ノイズの中のシグナル」を見つける方法論