CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

生成AI

databricksでgpt-oss-20bのFine-Tuningをする。

こんにちは、CCCMKホールディングスAIエンジニアの三浦です。 OpenAIがリリースしたオープンウェイトの言語モデルgpt-ossをカスタマイズ、つまりFine-Tuningするにはどうするんだろう?と最近調べていました。色々情報が見つかり、トライしてみた中で一番わ…

databricks Model Servingで画像生成モデルを動かしてみました。

こんにちは、CCCMKホールディングス三浦です。 最近は色々な画像生成モデルが出てきています。その中にはHugging Faceで公開されているものもあります。そういったモデルを試すことが出来る環境が欲しいな、と考えていました。 このブログでも何度か紹介して…

MLflowのPrompt Registryを使ってみる!

こんにちは、CCCMKホールディングスAIエンジニアの三浦です。 生成AI周りの機能がアップデートされたMLflowに、ベータ版の機能で"Prompt Registry"が搭載されていました。この機能はプロンプトエンジニアリングの効率化を目的とした機能で、生成AIアプリに搭…

CCCグループのAI利活用〜AI倫理ポリシーと全社横断の推進体制〜

こんにちは。テックラボの中岸です。 テックラボではAIの研究開発を行っていますが、その周辺情報として、今回のエントリーでは会社全体でのAI利活用の取り組みや体制についてご紹介します。 CCCグループ AI倫理ポリシーの策定 2025年1月、CCCグループはAIの…

LLMに潜在空間で思考させる"Chain of Continuous Thought"についての論文を読みました。

こんにちは、CCCMKホールディングス AIエンジニアの三浦です。 先日海に行きました。景色もそうですが、海の近くでは普段の生活であまり感じない匂いなんかも感じられて新鮮な気持ちになりました。 はじめに LLMの推論精度を向上させる方法に"CoT(Chain of T…

Snowflake Cortex AnalystとLangGraphでテーブルデータ分析Agentを作る。

こんにちは、CCCMKホールディングス AIエンジニアの三浦です。 最近はだいぶ暖かくなって、新緑がまぶしい季節になりました。外に出るのが気持ちのいい時期は一年の中で意外と限られているので、しっかりと堪能したいです。 さて前回SnowflakeのCortex Analy…

SnowflakeのCortex Analystを使ってみました

はじめに Cortex Analyst Semantic Model Dimensions Time Dimensions Facts Filters Metrics Cortex Analystを構築してみる Snowflakeへのデータの格納 Semantic Modelの構築 つまずいたポイント まとめ はじめに こんにちは、CCCMKホールディングス AIエン…

NeurIPS 2024に参加しました(ワークショップ編 1)

こんにちは。AIエンジニアリンググループの矢澤です。 NeurIPS 2024の参加報告として、これまでチュートリアルや招待講演、オーラルプレゼンテーションの内容を共有しました。 今回は学会後半に行われたワークショップの中から、特に気になった発表の概要を…

Agentアプリ開発を加速する"MCP(Model Context Protocol)"を調べて触れてみる。

こんにちは、CCCMKホールディングスAIエンジニアの三浦です。気温が高くなってきたので冬服や厚手の布団をしまっていかないと・・・と感じる今日この頃です。 はじめに MCPについて 実装してみる Serverの実装 Clientの実装 Agentの機能を拡張する Serverの…

OpenAIの新モデル「GPT-4.5」について調査してみました

こんにちは。AIエンジニアリングGの矢澤です。 先日、昔遊んでいたゲームに関する動画を見ました。 昔のゲームは、ハードウェアに関する制約がある中でメモリを効率化したりCPUの強さを調整するために、様々な工夫を行っていたという話を聞いたことがありま…

LangGraphとDatabricksのGenieによるTable参照AgentアプリをModel Servingで動かしてみました。

はじめに Genie アプリケーションの処理の全体図 アプリケーション構築手順 Genieの作成 PATのシークレットへの登録 NotebookからGenieにアクセスする LangGraphのGraphをスクリプトに書き出す Graphの登録 Model Servingへのデプロイ Model Serving Endpoin…

ExpertGenQAによる自動QA生成を試してみました(実装編)

こんにちは。AIエンジニアリンググループの矢澤です。よろしくお願いします。 前回の記事で、ExpertGenQAによる自動QA生成の概要や実験結果について話しました。 本記事では、実験で使用したスクリプトを共有し、処理の流れや論文との差異について説明します…

LangGraphでAzure DatabricksのTableに自然言語で問い合わせが出来るアプリを作ってみました!

はじめに やりたいこと 使用したデータ 利用したLLM データの準備 データセットのダウンロード Tableへの書き込み COMMENTの付与 アプリの構築 LLMとアプリのState rooting normal_chat create_sql execute_sql answer ビルド 動作確認 まとめ はじめに こん…

ExpertGenQAによる自動QA生成を試してみました(概要・実験編)

こんにちは。AIエンジニアリンググループの矢澤です。 先日、マーケティング関連の展示会に参加しました。 特に専門家の方の講演が興味深く、ユーザー視点での商品・サービス開発を目指す上で参考になるお話でした。 マーケティングの知識やセンスは奥が深く…

色々な設定でHugging Face "Diffusers"でDiffusion Modelを学習させて画像生成してみました。

こんにちは、CCCMKホールディングスTECH LAB三浦です。 すっかりと暖かくなり、春らしくなりました。近所の学校や保育園で卒業式や卒園式が行われているのを見ると、新しい季節がやって来るんだなぁとしみじみ感じます。 さて、今回は前回に引き続き画像生成…

Hugging Face "Diffusers"でDiffusion Modelの構築に取り組んでみました。

Diffusersを使って基本系のDiffusion Modelの構築に取り組んでみた話をまとめました。

Virtual Try-Onを実現する"TryOnDiffusion"について調べてみました。

こんにちは、CCCMKホールディングス三浦です。 前回、二つの画像を融合する技術について調べたことをまとめたのですが、今回はまた違う方向の"画像の融合"技術について取り上げてみたいと思います。 バーチャル試着を実現する技術"Virtual Try-On" 人物画像…

2つの画像を融合する"Image Fusion via Vision-Language Model"という論文を読んだので内容をまとめてみました。

はじめに 該当するタスク FILMとは Text Feature Fusion Text-Guided Vision Feature Fusion Vision Feature Decoding Fine-Tuningはどうするのか? 生成される融合画像 赤外線-可視光画像融合 マルチ露光画像融合 まとめ はじめに こんにちは、CCCMKホール…

長いドキュメントをLLMに参照させる"Chain of Agents"というアプローチについて論文を読みました。

こんにちは、CCCMKホールディングスTECH LAB三浦です。 はじめに もうすぐ2月も終わりです。今期もあと残すところ1か月なので、来期に取り組みたい研究テーマを探すため、最近は色々な論文に目を通しています。今回も最近読んで面白いと感じた論文の内容を紹…

"DeepRAG: Thinking to Retrieval Step by Step for Large Language Models"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 最近日本の歴史の漫画を読んでいました。子どもの頃は近代~現代の内容は難しい、と感じていたのですが、大人になってから改めて見ると学ぶことがとても多く、考えさせられることがたくさんあるんだ…

"The Surprising Effectiveness of Test-Time Training for Abstract Reasoning"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 いつの間にか2月も中旬になりました。2月3月はあっという間に過ぎていく印象があります。きっと気が付いたら4月になっているんだろうな、と思います。 "Test-Time" 論文について Test-Time Training?…

RAGの手法"RAPTOR"のドキュメントの木構造化を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 歳を重ねていくと、なんとなく一年の中でのこの時期は特に体調を崩しやすいな、ということが分かってきます。私にとっては今の時期がちょうどその時期で、今年もやっぱり風邪を引いてしまいました。…

LLMの性能を測る指標をベンチマーク結果から取得する方法について、論文を読みました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 昨年参加したAI・機械学習カンファレンス"NeurIPS2024"のポスターセッションで発表されていた論文の中で、面白いアプローチだな、と印象に残っている論文がいくつかあります。 そのうちの1つがこち…

Contrastive Activation Addition(CAA)の振る舞いのベクトルを抽出して可視化してみる。

対象にした振る舞い 使用したデータセット 対象にするLLM モデルのどこに注目するのか 可視化方法 PyTorchで中間表現を取得する方法 実行コードの一部の紹介 いくつかの散布図を描画 なぜAとBで傾向が違うのか・・・ まとめ こんにちは、CCCMKホールディング…

DPO(Direct Preference Optimization)を使ってLLMの回答を調整する方法を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 あけましておめでとうございます。2025年がはじまりました。今年もまた、色々なことを試していきたいなと思います! 昨年末にNeurIPS 2024に参加してから、LLMの"Post Training"というアプローチに…

事前学習におけるトークンの選択の重要性についての論文"RHO-1:Not All Tokens Are What You Need"を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 今年もあと1か月ですね。振り返ってみると色々とあった1年ですが、個人的には夏の厳しい暑さが印象に残っています。残りわずかですが、2024年の最後まで頑張ろうと思います。 学習中のトークンごとの…

DatabricksでOllamaを使ったLLMアプリの実験と検証をやってみました!

こんにちは、CCCMKホールディングスTECH LABの三浦です。 だいぶ気温が下がって、空気が乾燥してきたように感じます。すぐに手がしもやけになってしまうので、外に出る時は手袋をするようにしないと・・・と思います。 はじめに 先日Databricksの年次のイベ…

GraphRAGを使ったKnowledge-Graphの構築にチャレンジ!

はじめに GraphRAG GraphRAGのKnowledge Graph構築フロー Phase1. Documentの分割 Phase2. Graph情報の生成 Phase3. Graph情報の強化 Community Graph Embedding Phase4. Community情報の要約 Phase5. Documentの処理 Phase6. Graphの可視化 Knowledge Graph…

LLMアプリケーション開発フレームワーク"Haystack"を試してみる。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 最近は手書きのメッセージを送ることが少なくなりましたが、1年に2回、今でも手書きのメッセージを書くのが年末年始の年賀状と敬老の日です。先日久しぶりに手紙を書いたのですが、「頭で書きたい」…

Agentに関する論文"A Survey on Large Language Model based Autonomous Agents"を読んでAgentシステムの構成についてまとめてみました。

こんにちは、CCCMKホールディングス TECH LAB三浦です。 8月ももうすぐ終わりですね。日中はまだまだ暑いですが、夜に洗濯物を取り込んでいたら虫の鳴き声が聞こえてきて、夏の終わりだなぁとしみじみとしてしまいました。 "Autonomous Agent(自律型エージェ…