CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

統計学を再考する: 気づいたことを共有します

統計学の本を久しぶりに読みました

CCCMKHDテックラボの佐藤です。 最近、統計学の本を読んだので、気づいた点を簡単にご紹介します。

統計学

統計学は、データを分析し、理解するための学問で、いくつかの分類方法があります。 その中でも主要なものとして、以下の3つの分け方があります。

  1. 推測統計学
  2. 記述統計学
  3. ベイズ統計学

推測統計学

推測統計学は、母集団の特性を理解するために一部のデータ(標本)を基に推測を行う方法です。 標本から得られた情報を使い、母集団の平均値や分布などの特徴を推定します。

記述統計学

記述統計学は、データを表やグラフで整理し、平均値や傾向を調べることでデータの特徴を把握する方法です。

ベイズ統計学

ベイズ統計学は、事前の知識や仮定(事前確率)に基づき、 新しいデータを得た際に確率を更新しながら推測を行う方法で、データと仮定を組み合わせて推測を行います。

私個人の意見ですが、線形代数や微分積分を基礎とし、集合論や位相、 さらには代数学へと進んでいく数学のカリキュラムの中で、 統計学はこれらと並行して学ぶべき重要な分野だと感じています。 数学の多くの事象は、集合や写像を用いて定式化されます。 統計学は他の分野とは異なる側面を持ち、 不確実性や確率を扱う学問として独自の発展を遂げてきたと考えていました。

推測統計学の理解

推測統計学については、標本空間は母集団の一部として扱われるため、 「標本空間から得られる観測値」と「母集団についての推定値」を、静的な「集合」の要素として捉えていました。 例えば、全国の全住民からランダムに選ばれた1,000人の標本が、母集団を代表する数値である、というように考えていました。

先日、『丸茂幸平, 統計学(数研出版), 2023年』を読んだことで、私自身の推測統計学に対する見方に新たな視点が加わったと思います。 主に(均質モデルや単回帰モデルを含む)線形回帰モデルの話になるのですが、標本空間と母集団の間に動的な対応関係、 つまり「写像」として捉えることができることを理解しました。 これにより、標本空間から母集団への推定量に至る過程を、静的な対応関係ではなく、 より動的で「ダイナミック」な関係として把握できるようになったと思います。 例えば、全国の全住民からランダムに選ばれた1,000人の標本が、母集団を代表する数値である、と考える場合、 その標本と母集団の間に存在する対応関係を写像として捉えることができます。

用語

  • 標本データ: 母集団全体からランダムに選ばれたサンプルの観測値を指します。 これらの観測値は、統計分析を行うための出発点となるもので、標本空間に存在する実際のデータです。 標本データは、母集団の特性を推定するために用いられますが、あくまで母集団全体を代表する部分的なデータです。

  • 推定値: 標本データから計算される、母集団の特定のパラメータ(例えば平均値や分散)を推定した結果です。 これは、母集団における未知の真の値に対する推定結果であり、標本データを基に算出されます。 推定値は、標本データから母集団の特性を推測した結果です。

  • 推定量: [丸茂]においては、推測統計学において写像として理解されます。 これは、標本空間から母集団への対応関係を表す数学的な関数(写像)です。 推定量は、具体的な数値ではなく、標本データから母集団の特性を推定するためのルールや計算式のことです。 推定量によって、標本データが母集団の未知のパラメータへと変換されるのです。

写像の重要性

写像や作用素は、要素同士の関係や変換を表現でき、データ間の複雑な関係を扱うのに役立ちます。 これにより、単なる集まりではなく、データ間の相互作用や変換を捉えることができるため、より柔軟な解析が可能です。 例えば、標本空間から母集団へと至る確率変数や推定量は、 標本データが母集団の未知のパラメータに「対応」していると考えることができ、これが写像です。 この写像を用いることで、単なるデータの集まりを超え、データ間の変換や動的な関係を取り扱うことが可能です。

私見として、写像や作用素を通じて、事象をよりダイナミックに取り扱えるようになると考えています。 特に、標本空間から母集団への動的な対応を柔軟に解析できる点が大きな特徴です。 たとえば、顧客データにおいて、特定の期間における購入履歴を標本データとし、 これを時間や購入頻度といった動的なパラメータを考慮することで、顧客の行動をより正確にモデル化でき、 データ間の相互作用や変換を効果的に捉えることが可能になるかと思います。

推定量の例

線形モデルでは、具体例として、以下の値を考えてみます([丸茂] 第4章 練習38参照)。  \Omega を標本空間の集合、 \omega  \Omega の要素([丸茂]では「帰結」と呼ぶ)とします。

(1)  y_i :観測値*1
(2)  Y_i :観測値に対応する「確率変数」(ただし y_i = Y_i(\omega))*2
(3)  μ_i :確率変数 Y_i の期待値 *3
(4)  \hat{\mu}_i(\omega) :期待値 μ_i の「推定値」*4
(5)  \hat{\mu}_i :期待値の「推定量 」*5
(6)  \varepsilon_i :誤差*6
(7)  e_i :実現誤差*7
(8)  \hat{e}_i :残差の実現値*8
(9)  \hat{\varepsilon}_i :確率変数としての残差*9

推定値(4)と推定量(5)については、それぞれ 以下の関係式が成り立ちます。

推定値(4)について、  \hat{\mu}_i(\omega) = y_i  - \hat{e}_i = μ_i  + e_i - \hat{e}_i
推定量(5)について、  \hat{\mu}_i = Y_i  - \hat{\varepsilon}_i = μ_i  + \varepsilon_i - \hat{\varepsilon}_i

一見すると、同じような式が並んでいますが、上の方が静的で、下の方が動的な取り扱いができます。

まとめ

推測統計学では、これまでデータを単なる集まりとして捉えがちでしたが、写像を意識することで、 データ間の関係や変換をより深く理解できるようになったと感じています。 このアプローチにより、従来の静的な理解を超えて、 動的な関係性や複雑で多様な相互作用を捉えることが可能になるのではないかと考えています。

また、集合と写像の枠組みで事象を捉えることで、統計学と他の数学分野との親和性がより高くなると考えています。 今後は、推測統計学の新しい視点を活かし、特に動的なデータ解析の分野で、 より意味のある洞察を引き出す方法を模索していきたいと考えています。

参考文献

[丸茂] 丸茂幸平, 統計学(数研出版), 2023年

*1:観測値: 標本に含まれるある事例を観察して得られた情報。

*2:確率変数: 定義域が標本空間で、値域が実数であるような関数。

*3:連続な確率変数Yの期待値の場合、 確率密度関数  f_Y に対し、積分  \int_{-\infty}^{\infty} u f_Y(u) du で計算される値。

*4:推定値: 推定によって得られたパラメータの値のこと ([丸茂] 14ページ)。

*5:推定量: 推定値を計算する計算式の中のデータを、それが実現する前の確率変数に戻したもの ([丸茂] 244ページ)。

*6:誤差  \varepsilon_i : 確率変数  Y_i とその期待値  \mu_i の差のこと:  \varepsilon_i = Y_i - \mu_i

*7:実現誤差: 確率変数  \varepsilon_i を観測値  y_i の誤差としたとき、 帰結  \omega が実現したときの誤差  \varepsilon_i の実現値のこと。

*8:残差の実現値: 観測値  y_i と期待値の推定値  \hat{\mu}_i(\omega) の差のこと:  \hat{e}_i = y_i - \hat{\mu}_i(\omega)

*9:残差  \hat{\varepsilon}_i : 確率変数  Y_i とその期待値の推定量  \hat{\mu}_i の差のこと:  \hat{\varepsilon}_i = Y_i - \hat{\mu}_i