CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

RecSys2024 論文紹介②

こんにちは。データサイエンスグループの木下です。

RecSys2024の論文解説シリーズの続きで、2本目の今回は FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Predictionという論文を紹介いたします。

概要

CTR(クリックスルー率)予測において、PLM(事前学習済み言語モデル)を用いて文字の意味を取得することで、既存のID-basedな表形式モーダル※1だけではなく、テキストモーダル※2を追加することで予測精度を上げた。

※1:表形式モーダルとは、データベースのテーブルのように、各カラムが特徴量(ex.性別カラム、年齢カラム、、)となるような表形式のデータのこと

※2:テキストモーダルとは、文形式のデータのこと(ex.「20代の大学生の男性」)

【キーワード】

PLM / Cross-Modal / CTR Prediction

事前知識

従来のID-basedなCTR PredictionではNNを用いることが多く、下記の3つのステップを踏んでいた。

  1. 特徴量をOne-Hot化したsparseベクトルを作成

  2. sparseベクトルをfield間の相互作用を加味したdenseベクトルに変換

  3. バイナリークロスエントロピーを計算して重み更新

ID-basedなCTR-Predictionのモデル構造の例

ID-based vs PLM

手法

Step1:modality transformation

下図のように、tabularモーダルをtextモーダルに変換

Step2: modality alignment pre-training

  • ICL: 対応するテキストとテーブルのデータのペアの表現を近づけ、一致しないペアを遠ざける

  • MLM: テキストの一部をマスクし、テーブルから復元するように学習

  • MTM: テーブルの一部をマスクし、テキストから復元するように学習

Step3: adaptive finetuning

ID-based modelとPLMのそれぞれに、線形層を追加して、CTRを予測するモデルを作成(FLIPID,FLIPPLM) 損失関数はバイナリークロスエントロピー

また、ID-based modelとPLMを結合させてCTRを予測するモデルを作成(FLIP)

実験

FLIPのID-based model部分はDCNv2、PLM部分はTinyBERTを用いた。 比較対象データセットは、MovieLens-1M/BookCrossing/GoodReads を用いた。

結果として、全てのデータセットでFLIPID,FLIPPLM,FLIPすべてのモデルで他の手法よりレコメンド精度が改善された。

結論

  • ID-basedモデルとPLMの利点を組み合わせたフレームワークを開発した

  • MLM/MTMという2つのマスキングタスクで、クロスモーダルな相互作用を強化した

  • ICLを行い、全体的なモダリティの統合を改善した

  • ID-baseモデルとPLMを統合することで従来の性能を超える精度を出した