CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

いまさら聞けないKaggleチュートリアル第1回  Kaggleとは?参加する意味とは?

連載もの、はじめます

こんにちは、技術開発チームの森田です。

今回から(社内へのKaggle布教も兼ねて)データ分析や機械学習初学者向けに、今注目を集めているデータ分析の世界大会・Kaggleに関する連載を行います。

簡単に私の自己紹介をすると、前職は機械学習とは縁が無い職種だったのですが、独学で後述するKaggleExpertになり、技術開発チームにジョインしました。

そのような経緯もあり、記念すべき(?)第一回は導入パートとしてKaggleの紹介と、参加する意義について書きたいと思います。

Kaggleとは?

https://www.kaggle.com/

Kaggleは企業や団体がデータ分析や機械学習モデル作成に関するお題を出し、それに対して世界中の参加者が精度を競うプラットフォームです。

常時10前後のコンペが開催されており、数百人~数千人の参加者が競い合っています。(多くのコンペでは、5位以内に入ると賞金が貰えます。過去には賞金総額1億円超えのコンペも!!)

1コンペの開催期間は通常1~3か月で、社会人でも業後や休日を使って参加できます。

近年Google検索トレンドでも人工知能やビッグデータ等のバズワードと共に右肩上がりを続けており、日本語のKaggle本も出版されるなど日本での注目度が上がっています。

Kaggleに参加するメリット

1. 生のビッグデータに触れられる!

データ分析や機械学習を学ぶ上で大きな障害の1つとなるのが、「ビッグデータが身近にない」ことだと思います。 業務でビッグデータを扱っていないと、本やオンライン学習等で理論やライブラリの使い方を学んでも、実際にモデルの作成や予測をすることができません。

そんな人でも、気軽に実データを扱えるのがKaggleに参加する最大のメリットだと思います。 例えば以下は私が参加したコンペのお題です。

  • 50万件のクレジットカード等の決済履歴から、不正取引を検出する

  • 25万件の米アメフトの試合データを使用し、未来の試合結果を予測する

  • 6000万件の米小売大手の売上履歴を使い、未来の売上を予測する

参加者はこうした実データにアクセスすることができ、本や一般的な教育プログラムにはない実践的な学びを得ることができますし、データ分析に携わる人でもKaggleで得たデータハンドリング技術は実務にも活きると思います。

2.対外的なスキルの証明になる!

Kaggleでは予測結果を投稿すると、このように自分の順位がリアルタイムに表示されます。

やってみるとこれが面白くて、私も「1つでも順位を上げたい!」とのめり込んだ1人です。

Kaggleには称号というものがあり、過去のコンペの実績に応じて以下の4段階に分かれています。(人数は2020年7月現在)

機械学習エンジニアやデータサイエンティストの求人要件欄を見ると「Kaggleで上位○○%の実績」といった文言を少なからず目にします。

それくらいKaggleの実績が対外的にスキルをアピールできる指標として使われ始めている印象です!

また、企業側もKaggleハイランカーの存在を自社の技術力をアピールする手段として使用しています。

現在日本人のGrandMasterは10名程度と言われていますが、「Kaggle Grandmaster」で検索すると所属企業の名前入りでインタビュー記事や講演記事が沢山出てきて、各社の実務の中でも活躍されているようです。

Kaggleに参加するメリットはビジネスインパクト上でも大きく、DeNAさんがKaggle人材の採用や業務中のKaggle参加を推奨しているのは有名ですよね。

データベースマーケティング研究所でも、業務の一環としてKaggleにチャレンジしています。

おわりに

これをきっかけに社内のKagglerが増えてくれたら嬉しいですね。

次回はKaggleに実際に登録して、コンペに投稿する所までを解説したいと思います。お楽しみに!