
こんにちは。データサイエンスGr.の木下です。
昨今、生成AIが急速に業務に浸透しています。 その中で、Vibe Codingという、自然言語のみでプログラミングをする技術が話題になっています。 Vibe Codingによるアプリケーション作成の事例は多々見受けられる一方、 データサイエンスの文脈で使用されている事例は見かけません。
そこで、SIGNATEの分析コンペを対象に、 Vibe Codingのみで(すなわち、コードを一切書かずに)どこまで精度が出るのか検証してみました。
Github Copilot Agent Mode
正式名称「Copilot Coding Agent」として、2025年5月19日に公開プレビュー版が登場しました。
Github Copilot自体は前からありましたが、これにAI Agentの機能が追加されたということです。
VS Code上だと右ペインに出てきて、左下のモードを「agent」にすることで使用可能です。

どんなことができるのか、copilotにまとめてもらいました。

また、cursorなどの競合サービスとの違いもまとめてもらいました。
まとめからわかるように、他のサービスでもほぼ同じことは実験できることが分かります。

対象コンペティション
今回は、SIGNATEのお弁当の需要予測
にサブミットすることをゴールにしました。
データの内容は下記の通りで、y(販売数)を予測するコンペです。


使用例
それでは、実際私が使用したプロンプトとそれに対するAgentの応答、そして出力されたnotebookなどを見ていきましょう。
EDA
まずは、データを把握するためにEDAを行います。 私がAgentに投げたプロンプトは 「お弁当の販売数を予測してほしい。 学習データはtrain.csvで、 そのカラムの説明はdescriptionに書いてある。まずは、予測対象であるyの値についてEDAをしてほしい」 のみです。
では、実行結果を見ていきましょう。

いかがでしょうか。 量が多いので一部を切り取ってお見せすることになりましたが、 十分すぎるほどの分析を行ってくれました。 これが一瞬でできてしまうとは驚きですね。
また、各グラフに対して、「cell〇〇の××というタイトルのグラフはどういう風に見たらいいの?」などの質問でも、コンテキストにあった回答をしてくれます。
モデル作成
続いて、モデル作成のパートです。

いかがでしたでしょうか。 こちらも一部になりますが、 ただ「モデルを作って」というだけでも、どのようなモデルにしたらいいのか、から提案してくれて、 そのままモデル作成まで実行してくれます。 また、予測したデータの分布も分かりやすく可視化してくれます。
結果とまとめ
今回のコンペはRMSEが評価指標であり、11.32という結果でした。 最高が8.0程度であることと比較するとそれなりの精度を出すことができたのではないでしょうか。
モデル作成パートに関しては、上記のプロンプトだけではなく、何個か追加で指示をしてチューニングしました。 具体的には
過学習をしていたのでCVをお願いした
時系列モデルだとlag特徴量を追加してしまい、リークが発生していたので使用しないように指示した
お手本notebookのように、全体を線形モデルで学習し、差分を非線形モデルで学習させる方法を指示した
submitファイルのカラムの形式が想定と異なっていたので、「sample.csvのカラムをそのまましようして」と指示した
などを行いました。
今回Github Copilot Agent Modeを使用してみて、 まるで仕事が早すぎるとても優秀な部下と仕事をしているようでした。むしろ検定の方法など勉強させられることも多々ありました。 ただ、モデル作成の箇所においては、適切な指示をしなければリークしたり過学習したりすることがありました。 そのため、私たちデータサイエンティストは専門的な内容を身に着けておき、適切に指示する能力が求められると感じました。
今後もデータサイエンスの実務において、生成AIのユースケースを考えていこうと思います。