天文学とデータサイエンス——「見えないものを見る」技術の深淵

望遠鏡は「現在」を見ていない

天文学の根本的な不思議は、望遠鏡が「現在」を見る道具ではないという事実から始まる。

光速は有限だ。1秒に約30万km。これは圧倒的に速い。しかし宇宙のスケールでは、光の旅は長い時間を要する。月の光は約1.3秒前のもの。太陽の光は8分前のもの。最も近い恒星（プロキシマ・ケンタウリ）の光は4.2年前のもの。

そして観測可能な宇宙の果て——138億光年先からの光は、138億年前のものだ。

つまり、天文学者が宇宙を観測するとき、宇宙の「現在」は見えない。見えているのは常に「過去」だ。過去の光のスナップショットから、現在の宇宙の状態を推論するのが天文学の本質的な営みだ。

データサイエンスもまた、「現在」を直接見ない。データは常に「過去の記録」だ。昨日のユーザー行動ログ、先月の売上データ、去年のアンケート結果——これらから現在と未来を推論する。

「視差法」——異なる視点が距離を生む

天文学で近距離の恒星の距離を測る基本技術が「視差法（Parallax Method）」だ。

地球が太陽の周りを公転するとき、6ヶ月ごとに地球の位置は約3億km（地球軌道の直径）ずれる。この二つの位置から同じ恒星を観測すると、恒星が背景の遠方の星に対して「ずれて」見える。このずれの角度（視差角）から、三角測量で距離を計算する。

一つの視点だけでは深さ（距離）はわからない。異なる視点が深さを生む。

データサイエンスにおける「クロスバリデーション」は、この視差法と同じ構造だ。データをランダムに分割し、複数の異なる視点（サブセット）から同じモデルを評価することで、モデルの「距離感（汎化性能）」を測定する。一つの訓練データだけで評価したモデルは、実際のデータへの距離感（過学習・未学習）が見えない。

「スペクトル分析」——光の色の中に全てがある

天文学の革命的な発見の一つは、スペクトル分析（分光学）だ。

天体から届く光をプリズムや回折格子で分解すると、特定の波長に「吸収線（暗線）」が現れる。この吸収線のパターンは、光が通過した物質の元素固有の「指紋」だ。ナトリウムは特定の二本の暗線を残し、水素は異なるパターンを残す。

これによって、人類は一度も太陽に触れることなく、太陽の大気がどのような元素で構成されているかを知った。遠方の銀河の化学組成も、スペクトルから読み取れる。直接サンプリングしなくても、シグナルの中に成分情報が含まれている。

データサイエンスの特徴量エンジニアリング（Feature Engineering）は、このスペクトル分析に対応する。生データ（光）をそのまま使うのではなく、データの中に潜む「元素（特徴）」を分解して抽出する。クリックストリームデータ（生データ）から「セッション長・ページ滞在時間・離脱前のページ」という特徴量（スペクトル）を抽出することで、ユーザーのインテントという「元素」を読み取る。

「暗黒物質」——見えないがモデルに必要なもの

1933年、天文学者フリッツ・ツビッキーは銀河団の運動を観測し、矛盾を発見した。見えている星の質量だけでは、銀河団の重力が説明できない。

銀河は観測される速度で回転するには、はるかに多くの質量が必要だ。しかし電磁波（光）では観測できない。そこで提唱されたのが「暗黒物質（Dark Matter）」——直接見えないが、その重力的影響から「存在するはずだ」と推論される物質だ。

現在、宇宙の質量の約85%が暗黒物質だとされる。しかし我々はいまだにその正体を知らない。見えないものが、見えているものを動かしている。

データサイエンスにおける「潜在変数（Latent Variable）」は、この暗黒物質の概念と対応する。

顧客の購買行動データを分析するとき、「なぜこの顧客はこの商品を買ったか」を直接データから読み取ることはできない。しかし「価格感度」「ブランドロイヤリティ」「購買頻度パターン」という潜在変数を仮定することで、見えている行動データが説明可能になる。直接観測できない構造を推論することが、モデルを現実に近づける。

「ハッブルの法則」——パターンから法則を発見する

1929年、エドウィン・ハッブルは数十個の銀河のスペクトルを観測し、驚くべきパターンを発見した。遠い銀河ほど、より速く遠ざかっている。

この「距離と後退速度の比例関係（ハッブルの法則）」は、宇宙が膨張しているという直接的な証拠だ。データのパターンから、宇宙の根本的な性質——膨張——が発見された。

データサイエンスの「A/Bテストの結果分析」や「回帰分析」も、データのパターンから法則を発見するプロセスだ。しかし重要な違いがある。相関は因果ではない。

ハッブルは「遠い銀河ほど速く遠ざかる」という相関を観測したが、その背後にある「宇宙膨張」という因果メカニズムは、理論的な洞察によって初めて理解された。データのパターンが「何が起きているか」を示し、思考が「なぜ起きているか」を補完する。

データサイエンティストの最大の罠は、相関を因果と読み違えることだ。 天文学者が「銀河の後退」を「宇宙の端があって銀河が端に向かっている」と解釈しなかったように、データのパターンには複数の解釈が常に存在する。

数十億年前の光が今も届いている——天文学のその事実を初めて知ったとき、データにも「光の遅延」があることを思った。データサイエンスが扱う数字は過去の断面であり、現在を照らす光だ。その比喩が、分析の姿勢を変えた経験がある。

問いかけ

あなたが見ているデータは「現在」を表しているか？ データの収集タイムラグと、それが推論に与える影響を意識しているか。
「視差」を確保しているか？ 単一のデータソース・単一の評価指標だけでなく、複数の視点からモデルを評価しているか。
「暗黒物質」を探しているか？ 見えているデータでは説明しきれない部分に、どんな潜在変数が隠れているか考えているか。
相関と因果を区別しているか？ パターンの発見を「why」の探求と混同せず、因果メカニズムの推論を別ステップで行っているか。

参考文献

Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley. — データ探索の基礎を確立した統計学の古典
Sagan, C. (1980). Cosmos. Random House. — 天文学的スケールの思考がデータの解釈にもたらす視点
Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press. — データの「ノイズの中のシグナル」を見つける方法論

天文学とデータサイエンス——「見えないものを見る」技術の深淵

望遠鏡は「現在」を見ていない

「視差法」——異なる視点が距離を生む

「スペクトル分析」——光の色の中に全てがある

「暗黒物質」——見えないがモデルに必要なもの

「ハッブルの法則」——パターンから法則を発見する

問いかけ

参考文献

関連記事

🔀 同じカテゴリの記事

菌類の知性と組織設計——菌糸ネットワークが教える分散型意思決定の哲学

星の光は過去から来る——天体観測と戦略的遅延の哲学

図書館学とプロダクトマネジメント｜分類・廃棄・目録が教えること

🔀 他のカテゴリの記事

レジリエンスを鍛える「30の問い」——折れない力を育てるために

ヒルベルトの無限ホテルとは｜満室でも宿泊できる「無限」の逆説を解説

書店が「読書処方箋」発行へ——文化的健康促進法が変える、本と人の関係