こんにちは。データサイエンスグループの木下です。
RecSys2024の論文解説シリーズの続きで、2本目の今回は FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Predictionという論文を紹介いたします。
概要
CTR(クリックスルー率)予測において、PLM(事前学習済み言語モデル)を用いて文字の意味を取得することで、既存のID-basedな表形式モーダル※1だけではなく、テキストモーダル※2を追加することで予測精度を上げた。
※1:表形式モーダルとは、データベースのテーブルのように、各カラムが特徴量(ex.性別カラム、年齢カラム、、)となるような表形式のデータのこと
※2:テキストモーダルとは、文形式のデータのこと(ex.「20代の大学生の男性」)
【キーワード】
PLM / Cross-Modal / CTR Prediction
事前知識
従来のID-basedなCTR PredictionではNNを用いることが多く、下記の3つのステップを踏んでいた。
特徴量をOne-Hot化したsparseベクトルを作成
sparseベクトルをfield間の相互作用を加味したdenseベクトルに変換
バイナリークロスエントロピーを計算して重み更新
ID-based vs PLM
手法
Step1:modality transformation
下図のように、tabularモーダルをtextモーダルに変換
Step2: modality alignment pre-training
ICL: 対応するテキストとテーブルのデータのペアの表現を近づけ、一致しないペアを遠ざける
MLM: テキストの一部をマスクし、テーブルから復元するように学習
MTM: テーブルの一部をマスクし、テキストから復元するように学習
Step3: adaptive finetuning
ID-based modelとPLMのそれぞれに、線形層を追加して、CTRを予測するモデルを作成(FLIPID,FLIPPLM) 損失関数はバイナリークロスエントロピー
また、ID-based modelとPLMを結合させてCTRを予測するモデルを作成(FLIP)
実験
FLIPのID-based model部分はDCNv2、PLM部分はTinyBERTを用いた。 比較対象データセットは、MovieLens-1M/BookCrossing/GoodReads を用いた。
結果として、全てのデータセットでFLIPID,FLIPPLM,FLIPすべてのモデルで他の手法よりレコメンド精度が改善された。
結論
ID-basedモデルとPLMの利点を組み合わせたフレームワークを開発した
MLM/MTMという2つのマスキングタスクで、クロスモーダルな相互作用を強化した
ICLを行い、全体的なモダリティの統合を改善した
ID-baseモデルとPLMを統合することで従来の性能を超える精度を出した