CCCMKホールディングス TECH Labの Tech Blog

TECH Labスタッフによる格闘記録やマーケティング界隈についての記事など

ブログタイトル

ドメイン適応の論文を読んでみた

こんにちは。技術開発チームの矢澤です。

最近個人的に気になっている画像処理技術の1つとして、ドメイン適応というものがあります。 これは、ドメインが異なる2つのデータセットを同じように扱うための技術で、様々な応用の可能性があると感じています。 そこで今回は、ドメイン適応の中でも特に有名なADDA(Adversarral Discriminative Domain Adaptatio)という手法の論文を読んで、内容をまとめてみたいと思います。

はじめに

まずは、今回の論文のメインテーマであるドメイン適応について簡単に説明したいと思います。 ここで「ドメイン」とは、データの種類、形式のようなものです。 例えば以下のように、同じペットボトルのお茶でも、商品紹介ページに載っているような写真と個人が撮影した写真では、物体の大きさや向き、画像の明るさ、背景の有無などが異なり、見た目が大きく違うものとなっています。

f:id:K_Yazawa:20200317183327j:plain
お茶 商品画像
f:id:K_Yazawa:20200317183222j:plain
お茶 個人撮影

あるいは、同じ「シンプル」というイメージでも、ファッションの場合、インテリアの場合、車の場合、・・・のように画像の種類が変わると、想像する色や形などが大きく変わってくるかと思います。

このようにドメインが異なるデータにおいて、画像分類や物体検出、画像生成などのタスクを行う場合、一方のドメインで学習したモデルをそのまま他方のドメインの画像に適用しようとすると、うまくいかないことがあります。 先ほどの例でいえば、商品画像を使ってお茶を検出するモデルを学習しても、SNSの写真からはお茶をうまく検出できない可能性があるということです。 またシンプルなファッションの画像を基に、シンプルなインテリアを分類・生成するモデルを作ろうとしても、白いTシャツに似ているインテリアが分類・生成されるなど、想定していたような結果が得られないこととなります。

このようなドメインの差を無くし、異なるドメインのデータに対してもモデルを適用できるようにする技術が「ドメイン適応」です。 もう少し詳しく言うと、モデルの学習に使用するドメイン(ソースドメイン)と、そのモデルを適用したい別のドメイン(ターゲットドメイン)の分布を近づけることで、同じドメインのデータとして画像を扱えるようにします。 例えば画像分類であれば、ドメイン適応を行うことで、ソースドメインのデータと同じような基準でターゲットドメインの画像を分類できるようになります。 このとき、ソースドメインには学習用のラベルが存在しているが、ターゲットドメインには分類のための正解ラベルが存在せず、ソースドメインのラベルのみでクラス分類のネットワークを学習しなければならない、といった状況が考えられます。 このような条件は特に教師なしドメイン適応(Unsupervised Domain Adaptation)と呼ばれ、学習が難しいことで知られています。

f:id:K_Yazawa:20200319130009p:plain
ドメイン適応 イメージ

また、ディープラーニングのモデルを安定的に学習するための手法として、敵対的学習というものがあります。 これは、データの生成を行うネットワーク(Generator)と判別を行うネットワーク(Discriminator)を交互に学習することによって、モデルが自立的に賢くなり、最終的に高性能な生成、識別モデルができるという技術です。 特に画像生成の分野で活用されており、ネットワークに畳み込み層(Convolution)を使ったDCGANなどの手法が有名です。

以下で紹介する論文では、この敵対的学習法を使ってドメイン適応を行っています。 ここまでは、背景技術に関する一般的な内容について説明しましたが、ここからは実際に論文の内容について詳しく見ていきたいと思います。

ADDA論文

アブストラクト

  • 敵対的ドメイン適応は、データ間に多少のドメイン変化やバイアスがあるような場合でも高性能な画像認識、生成を実現できるが、従来法では生成的手法(ドメインが大きく異なるとうまくいかない)と判別的手法(モデルの重みが共有されていて、GANの損失を使用していない)のそれぞれにおいて課題がある。
  • 本稿では、敵対的ドメイン適応の一般化された枠組みを用意し、従来法の関係性を整理した上で、新たな手法として「判別モデル」、「重みの非共有化」、「GANの損失」を組み合わせた敵対的判別ドメイン適応(ADDA)を提案する。
  • 提案法は、従来法より単純であるにも関わらず、基本的なドメイン適応のタスクや難易度の高いモダリティ間物体分類のタスクにおいて、最新の手法を上回る性能を持つことが実証された。

1. イントロ

CNNでは、データセット間にバイアスやドメインの違いがある場合、ある1つのデータセットで学習したモデルを別の新しいデータやタスクにうまく適用できないという問題があります。 この問題の主な解決策としてFine-Tuningがありますが、深層学習のパラメーターは膨大であるため、学習に必要なラベル付きデータを十分に収集できないことがあります。

このようなドメインの違いによる悪影響を減らすのがドメイン適応であり、最近では両ドメインのデータを同じ特徴空間にマッピングするような変換ネットワークを学習する手法が主流です。 具体的には、以下のようなものがあります。

  • ドメインの距離の基準量を定義し、それを最小化する方法
    • 最大平均距離(MMD)
    • 距離相関
  • ソースドメインの特徴表現を基に、ターゲットドメインを再構成する方法

敵対的ドメイン適応は、GANと同様に判別器(Discriminator)に関する目的関数を定義して、ドメイン距離を最小化しようとする手法です。 GANでのGeneratorは、生成した画像がDiscriminatorによって本物の画像と見分けられないように学習しますが、ドメイン適応では学習ドメインとテストドメインの分布を見分けられないようにします。 これまでにいくつかの手法が提案されてきましたが、以下のような点で設計上の違いがあります。

  • Generatorの有無
  • 損失関数の種類
  • ドメイン間での重みの共有の有無

本論文では、敵対的ドメイン適応の共通化された枠組みを用意することで、上記のような従来法の差異を明確にするとともに、それらを上回る新たな手法を提案します。 これはADDAと呼ばれる手法で、特に以下のような知見を基にしています。

  • 最終的な目的は判別のための特徴表現を学習することであり、生成モデルは重要でない
  • 対称的なマッピングよりも非対称的なマッピングの方が、低レイヤーな特徴量の差をより良くモデル化できる

ADDAの流れは、以下の通りです。

  1. ソースドメインのラベルを使って、判別のための特徴表現を学習する
  2. ドメイン敵対損失を基に非対称的なマッピングモデルを学習し、ターゲットデータをソースデータと同じ領域に変換する

検証では、提案手法が単純であるにも関わらず非常に強力であることを、以下のような結果から示します。

  • 数字データ(MNIST, USPS, SVHN)のドメイン適応において、最新の手法と同程度の性能を実現
  • RGBカラー画像から深度画像への物体認識モデルの変換によって、より難易度の高い「モダリティ適応」にも応用できることを確認
  • 標準的なオフィスデータセットを使って、最も高難易度なドメイン適応タスクにおいて、従来手法を大きく上回る性能を実現

2. 関連研究

本論文に関連する研究として、以下のようなものがあります。

ドメイン変換学習

  • ソースドメインとターゲットドメインの分布の差を最小化するように特徴表現を学習

    • MMD:損失に最大平均距離を使用
    • DDC:MMDにクラス分類損失を追加することで、判別性とドメイン不変性を両立した特徴表現を学習 
    • DAN:再生カーネルヒルベルト空間上のレイヤーにMMDを適用することで、両分布の高次元特徴量をマッチング
    • CORAL:両分布の平均と共分散をマッチング
  • 敵対的損失によって、ソースラベルを判別可能、かつドメインを判別不可能となるような特徴表現を学習

    • ドメイン・タスク同時変換:ドメイン分類器を追加し、その推定結果がドメイン間で共通の分布となるように損失を定義
    • ReverseGrad:勾配を逆転することで、ドメイン分類器の損失を直接最大化
    • DRCN:ターゲットドメイン画像を再構成するように学習
    • ドメイン分離ネットワーク:各ドメイン固有の特徴空間を定義し、共通空間と固有空間の差異の損失および再構成損失を追加

生成タスク用の敵対的学習

  • GAN:データの分布を捉える生成モデルGと、Gによって生成された画像と学習データの画像を見分ける判別モデルDを、互いに競わせる
    • BiGAN:画像から潜在空間への逆変換を学習し、画像分類タスクに有用な特徴量を抽出
    • CGAN:GとDに、学習画像のクラスに関する追加情報のベクトルを入力することで、画像の特徴で制限付けられた分布を生成可能
    • ドメイン変換ネットワーク:GANをドメイン変換タスクに応用し、ソース画像をターゲット画像に直接マッピング
    • CoGAN:ソース画像用とターゲット画像用の2つのGANを別々に学習

上記のCoGANでは、2つのGANの高レイヤーな特徴量を共有してドメイン不変な特徴空間を実現し、Discriminatorの出力を基に分類器を学習することで、数字データ間のドメイン適応を行っています。 しかしこの方法では、共有された高レイヤーな特徴空間から両ドメインの完成画像へのマッピングをGeneratorが見つけなければならないという問題があり、数字のような簡単なデータではうまくいくが、複雑なドメインではうまくいかないという問題があります。 本論文では、潜在特徴空間がドメイン不変である限り、画像の分布のモデリングはドメイン適応を実現するのにそれほど重要でないことを説明し、判別的な手法を提案します。

まとめ

今回はADDAの背景技術の説明と、論文のアブストラクトおよび1, 2章の内容をまとめました。 ADDAは、GANと同様の敵対的学習を使ったドメイン適応手法で、従来法における「ドメインが大きく異なるとうまく変換できない」という問題に対し、生成的手法ではなく判別的な手法を使って解決を図っています。 次回は、敵対的ドメイン適応手法の定式化を通して、従来法とADDAの具体的な違いを見ていきたいと思います。

(矢澤)