こんにちは!研究所の佐藤(智)です。 トピックモデル、岩田具治、講談社 (2015年) を読んでみました。 トピックモデルとは、 「潜在意味解析 LSA (Latent Semantic Analysis) を確率モデルに拡張した手法」とありますが、 どういう意味なのか。。。考えてみました。 ちなみにトピックモデルの例としては、 確率的潜在意味解析法 PLSA (Probabilistic Latent Semantic Analysis) や 潜在的ディリクレ配分法 LDA (Latent Dirichlet Allocation) が(代表的なものとして)知られています。
LSA では、特異値分解と呼ばれる行列分解を用いて定式化されます。 行列の例としては、各文書において用語の出現を表した (文書)✕(単語)-行列が使われことが多いようです。 特異値分解はある -行列 に対し、
を満たすような -行列 、 -行列 、-行列 へと分解します。 は、対角成分が特異値と呼ばれる値をとり、 対角成分以外の要素が となる(正方)行列です。 LSA ではその後、低ランク近似と呼ばれるテクニックを使います。 ざっくりと説明すると、 における特異値のなかで、 大きいもの 個だけを使って -行列 を作成します。 それに伴い、 から から抽出した 個の特異値に対応した 個の列を抽出し、それを とします。 同様に、 から 個の行を抽出し、それを とします。 そして、それら行列 、、 の積をとり、 -行列 を
と定義します。 この が の低ランク近似になります。
さて、一方 トピックモデルはどうなっているかというと、 本書75ページ以降を読むと、以下のことが分かります。 トピックモデルは、そのモデル化により、 (文書)✕(トピック)-行列 および (トピック)✕(単語)-行列 が定まり、 さらに (文書)✕(単語)-行列 が以下のように計算できます。
そして、LSA における (1.2) の と トピックモデルにおける (1.3) の が、 低ランクの (文書)✕(単語)-行列 として対応関係にあります。 この対応関係については、後になって考えてみると当然にも思えてくるのですが。。。 LSA を線形代数の応用、LDA (トピックモデル) をベイズの定理の応用と捉えていた 私にとって、この事実を知ったことはそれなりにオドロキでした。
トピックモデルの拡張/亜種 (例えば、結合トピックモデル、対応トピックモデル、ノイズあり対応トピックモデル、 著者トピックモデル、トピック追跡モデル、など)については、 このあたりの思想がどのように継承されているのか? 今後、確認していきたいと考えています。