CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

DPO

DPO(Direct Preference Optimization)を使ってLLMの回答を調整する方法を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 あけましておめでとうございます。2025年がはじまりました。今年もまた、色々なことを試していきたいなと思います! 昨年末にNeurIPS 2024に参加してから、LLMの"Post Training"というアプローチに…