モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

NSEGで「RAGの仕組みとよくある課題」という話をしました

半年ぶりにNSEG開催されました。

nseg.connpass.com

ここ1年くらいLLM+RAGのシステムを書いていたので、RAGについての簡単な説明と、どういった課題があるのかについて発表しました。

speakerdeck.com

自分の関わってたものでは、とにかく回答品質を上げるために、精度の高いテキスト化が一番重要でした。
渡されてくるPDFをライブラリ等でそのままテキスト化しても「人間が見た目での構造化がされている」ため、あまり精度が高くならず、高品質にするには人間が構造化したテキストへ変換するのがもっとも効果的でした。