こんにちは!研究所の佐藤(智)です。
トピックモデルによる統計的潜在的意味解析、 奥村学(監修)、佐藤一誠(著)、コロナ社 (2015年) を読んでみた感想(その2)です。
(その1)の記事;
今回は、本書の中で個人的に最も気になったについて書いてみます。 前回の記事式(1.2)の右辺:
(※あとの説明のため、 を と置き換えました。)
は「一般的に解析的に計算することが困難」という話をしました。 変分近似法によるアプローチの場合、 上式を変形しながら計算を進めていくと、 の値を計算することに話が落ち着いてきます。 ここで、 は、 文書 の単語 における潜在変数 が となる場合の近似事後分布を表しています。 しかしながら、この についても、 直接の計算をすることはまだできず、 対数関数のテイラー展開というテクニックを使います。
ここで、対数関数のテイラー展開を簡単に説明します。 テイラー展開をおこなうモチベーションは、 解析的に計算が難しいと考えられる関数があった場合に、 多項式を使ってより簡単な形で表し計算したいことにあります。 対数関数 について、 点 の周りでのテイラー級数を考えると
と書き表すことができ、 0次のテイラー展開は
となり、2次までのテイラー展開は
となります。 は定数であり、 明らかに のほうが の近似になっているのですが。。。
本書では のとき、 の期待値 の周りでのテイラー展開を考えると、 のほうが よりも汎化能力が高いことが経験的に知られているとのこと! その理由の1つの解釈として、本書では以下の論文を紹介しています:
Issei Sato, Hiroshi Nakagawa, Rethinking Collapsed Variational Bayes Inference for LDA, Proceedings of the 29th International Conference on Machine Learning (ICML 2012) この論文を少し見てみました。 この論文によると、理由は カルバックライブラーダイバージェンス(KLD)が関係しているようです。 LDA の推定(計算)では KLD を で定義しています。 そして、 の 0 次テイラー展開 で LDA を推定する場合は、 計算にこの を使います。 一方、 の 2次までのテイラー展開 で LDA を推定する場合は、 計算に と をスワップさせた を使います。 この2種類の KLD の違いが、汎化能力の違いのキーになっているとのことです。
今回のブログはここまで。 これらの意味についてもう少しきちんと理解できたら、 本ブログでまた書きたいと思います。