CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

NVIDIA A100でのtorch.compileの効果を検証

こんにちは。テックラボの高橋です。 pytorchにtorch.compileという機能があることをご存知でしょうか? torch 2.0から導入されたこの機能を利用することで、推論処理や学習処理を高速化できるとのことです。 今回はNVIDIA A100を用いて、torch.compileがど…

2つの画像を融合する"Image Fusion via Vision-Language Model"という論文を読んだので内容をまとめてみました。

はじめに 該当するタスク FILMとは Text Feature Fusion Text-Guided Vision Feature Fusion Vision Feature Decoding Fine-Tuningはどうするのか? 生成される融合画像 赤外線-可視光画像融合 マルチ露光画像融合 まとめ はじめに こんにちは、CCCMKホール…

相関係数を正しく使用する

こんにちは。 テックラボの岸部です。 本日はデータ分析で身近である相関係数の実装について色々調べた内容を共有したいと思います。 はじめに ~これは架空の話です~ ある企業にデータサイエンティストがいました。 とあるアンケートデータを分析していま…

Azure App Service(Container Linux環境)のPythonアプリにDatadogを仕込む

テックラボの高橋です。今回は小ネタです。 Azure App ServiceのContainer Linux環境ではDockerコンテナを動かすことができます。 最近、オブザーバビリティツールであるDatadogをこの環境に組み込む機会がありました。 Datadogのドキュメントによると、以下…

長いドキュメントをLLMに参照させる"Chain of Agents"というアプローチについて論文を読みました。

こんにちは、CCCMKホールディングスTECH LAB三浦です。 はじめに もうすぐ2月も終わりです。今期もあと残すところ1か月なので、来期に取り組みたい研究テーマを探すため、最近は色々な論文に目を通しています。今回も最近読んで面白いと感じた論文の内容を紹…

SentenceTransformerを用いて文字の意味を加味した特徴量を作成し、有用性を検証しました。

こんにちは。データサイエンスグループの木下です。 今回は、SentenceTransformerを用いて作成した特徴量の有用性を検証したという内容になります。 背景 テーブルデータを用いて機械学習モデルを作成する際、カラム名自体や値の文字通りの意味を加味するこ…

"DeepRAG: Thinking to Retrieval Step by Step for Large Language Models"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 最近日本の歴史の漫画を読んでいました。子どもの頃は近代~現代の内容は難しい、と感じていたのですが、大人になってから改めて見ると学ぶことがとても多く、考えさせられることがたくさんあるんだ…

"The Surprising Effectiveness of Test-Time Training for Abstract Reasoning"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 いつの間にか2月も中旬になりました。2月3月はあっという間に過ぎていく印象があります。きっと気が付いたら4月になっているんだろうな、と思います。 "Test-Time" 論文について Test-Time Training?…

特徴量のスパース性と特徴量重要度の関係性について調査しました。

こんにちは。データサイエンスグループの木下です。 今回は、スパースなカラムを含むデータにおける、二値分類モデルを作る際のモデルの性能に関して実験してみました。 背景 マーケティングの世界では、施策の効果を評価するために、 性別や年代などのデモ…

RAGの手法"RAPTOR"のドキュメントの木構造化を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 歳を重ねていくと、なんとなく一年の中でのこの時期は特に体調を崩しやすいな、ということが分かってきます。私にとっては今の時期がちょうどその時期で、今年もやっぱり風邪を引いてしまいました。…

Cross-Domain Recommendationの調査論文を読んでみました。

こんにちは、データサイエンスグループの木下です。 今回は、RecSys2024でもセクションの一つとして取り上げられていた、 Cross-Domain Recommendation(CDR)について調査した Cross-Domain Recommendation: Challenges, Progress, and Prospectsという論文(…

LLMの性能を測る指標をベンチマーク結果から取得する方法について、論文を読みました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 昨年参加したAI・機械学習カンファレンス"NeurIPS2024"のポスターセッションで発表されていた論文の中で、面白いアプローチだな、と印象に残っている論文がいくつかあります。 そのうちの1つがこち…

Contrastive Activation Addition(CAA)の振る舞いのベクトルを抽出して可視化してみる。

対象にした振る舞い 使用したデータセット 対象にするLLM モデルのどこに注目するのか 可視化方法 PyTorchで中間表現を取得する方法 実行コードの一部の紹介 いくつかの散布図を描画 なぜAとBで傾向が違うのか・・・ まとめ こんにちは、CCCMKホールディング…

Scikit-LLMでテキスト分類しました

あけましておめでとうございます。 データサイエンスグループの木下です。 今回は、Scikit-LLMというライブラリを紹介いたします。 Scikit-LLMとは skllm.beastbyte.ai Scikit-LLMとは、LLMをScikit-Learnのように扱うことができるライブラリです。 Scikit-L…