「トピックモデルによる統計的潜在的意味解析」の本を読んでみた（その１）

こんにちは！研究所の佐藤(智)です。

トピックモデルによる統計的潜在的意味解析、
奥村学(監修)、佐藤一誠(著)、コロナ社 (2015年)

を読んでみました。この本は、LDA (Latent Dirichlet Allocation、潜在ディリクレ配分法)を学ぶための読書会/輪講用の文献として使われていることも多く、まとめの資料もウェブ上に多く存在しています。このブログでは、本書について個人的に印象に残ったところを中心に書いてみたいと思います。

まず、本書には対数周辺尤度、カルバックライブラー方程式、イエンセンの不等式、固定点反復法、ニュートン・ラフソン法などなど、たくさんの式が出てきますが、そもそもいったい何を目標にしているのか？、を考えてみました。

ベイズ推定における目的は、予測分布

${ \displaystyle \begin{eqnarray} P(x \mid x_1, \ldots, x_n, \eta, \alpha) \tag{1.1} \end{eqnarray} }$

を区間推定することです。ここで、(1.1)の条件にある $x_1, \ldots, x_n$ は $n$ 個の観測データであり、 $\eta, \alpha$ はハイパーパラメータと呼ばれるユーザが任意に設定してよい値です。そして、これらの条件が与えられたとき、値 $x$ が出現する確率はいくらか！？を求めていこうとしています。

特に LDA では潜在変数と呼ばれる値 $z = \left\{ z_1, \ldots, z_n \right\}$ が存在すると仮定し、 $\phi = (\phi_1, \phi_2, \ldots, \phi_K)$ を単語の出現分布、 $\pi$ をトピック分布として、上式を

${ \displaystyle \begin{eqnarray} (1.1) &=& \sum_{z} p(x,z \mid x_1, \ldots, x_n, \eta, \alpha) \\ &=& \int \sum_{z} p(x \mid \phi_z) p(z \mid \pi) p(\phi, \pi \mid x_1, \ldots, x_n, \eta, \alpha) d\phi d\pi \tag{1.2} \end{eqnarray} }$

とモデル化します。本書で行っていることのメインは、LDAのベイズ推定であり、特に(1.2)式中の単語出現分布 $\phi$ やトピック分布 $\pi$ を推定することにより得られます。そして、本質的には(1.1)を推定することがベースにあると、理解しました。

ここで、(1.2)の右辺は一般的に解析的に計算することが困難なため、近似計算により推定していくいくつかの方法が知られています。それらの例が、本書では ①サンプリング近似法、 ②変分近似法、 ③逐次ベイズ学習(変分法の場合)、 ④逐次ベイズ学習(サンプリング近似法の場合) になります。

余談になりますが、あるマーケティングサイエンスの学会で、ある高名な先生が LDA の評価指標として「最尤推定」を用いていました。当時私が知っていた評価指標としては、本書に記載の「Perplexity」と「Coherence」のみだったこともあり、「LDAで最尤推定？点推定？」と疑問に感じた記憶がありますが、今にして思えば (1.1)を経由すれば、 LDA の評価指標に最尤推定を適用するのは結構自然なのですね。