■技術解説■ 生成AIのハルシネーションを減らす RAG。図表データまで特定できる"企業向けRAG"とは?(後編)

■技術解説■ 生成AIのハルシネーションを減らす RAG。図表データまで特定できる"企業向けRAG"とは?(後編)

生成型AIのハルシネーションを減らす手段としてRAG(Retrieval Augmented Generation : 検索拡張生成)が注目されていますが、複雑な表やチャートなどを解釈できるRAGは少数です。企業向けRAGの必要性と、Allganizeの企業向けRAGの手法および精度向上のための取り組みを紹介します。

企業向けのRAGを解説する1回目の記事では、RAGの概念や動作原理、高性能な検索機能の重要性、RAGの性能を上げるための技術的な課題について説明しました。

2回目の今回は、企業内に存在する複雑な文書に含まれる表やチャートなどを解釈し、適切な答えを見つけ出すRAGについて、具体的な例を紹介したいと思います。

"企業向けRAG"の必要性

最近、RAG方式を採用した回答生成ツールを提供する企業が増えています。しかし、RAGが実装されていれば何でも良いわけではありません。企業が業務で利用している資料は、図表が多く含まれていたり、ページ数も多く複雑です。

企業が利用するドキュメントは、一般的なRAGの対応可能な範囲を超えていることが多く、質問に関連する情報が記載されているにも関わらず、誤った回答を生成したり、該当がないと回答することは珍しくありません。

表形式に対応できるRAGとは

一般的な生成AIアプリと、企業向けのRAGが実装された生成AIアプリを比較してみます。

検証の基本情報

  • 対象のドキュメント
    • 2024年2月 観光庁発行「宿泊旅行統計調査(2023年・年間値(速報値))」
  • 比較アプリ
    • 一般的な生成AIアプリ
      • OpenAI 「ChatGPT」、LLMはGPT-4を選択
    • 企業向けRAGが実装された生成AIアプリ
  • 比較方法
    • 事前に上記の対象ドキュメントを含む複数のPDFを5つ連携した状態で、対象ドキュメントに関連する質問を行う。
    • 事前連携するドキュメントは、それぞれのツールで全く同じもの。
    • 質問への回答結果の差異を比較。

ChatGPTは、ドキュメントから回答できる有償バージョン(GPT-4)を利用しています。条件を揃えるために、Alli LLM App MarketのLLMモデルはOpenAIのGPT-4を選択しました。

それぞれの回答結果

資料の中には、宿泊施設種類別の稼働率が都道府県ごとに記載されていますので、以下のような質問をそれぞれ行いました。

質問:「2023年の大阪府のビジネスホテルの稼働率を教えてください。」
正解データ:66.6%

どちらも、事前に「宿泊旅行統計調査(2023年・年間値(速報値))」のPDFデータを連携し、対象のドキュメントを指定した上で同じ質問を行いました

結果として、ChatGPTは正しい情報を見つけることができませんでした。

ドキュメントを指定して質問したが、やはり誤った回答を生成した。

一方、Alli LLM App Market の「回答自動生成アプリ」に同様の質問をしたところ、「2023年の大阪府のビジネスホテルの稼働率は66.6%でした。」と正確な情報で回答を行いました。

AllganizeのLLMアプリ「Alli LLM App Market」は、企業向けRAGにより正しい回答を導き出した。

以上のように、Alli LLM App Marketは、正しい情報を特定して回答を生成しました。

Allganize の "Alli LLM App Market" が表データから正しく回答できた理由

表形式をそのまま認識する技術(特許申請中)

AllganizeのRAGには、表データに強い仕組みが実装されています。

例えば、ドキュメントに含まれるテーブル形式の情報を崩さず認識する技術がその一例です。

テーブル情報をマークダウン形式に変換する技術を実装しており、これは特許申請中のAllganize独自技術です。

先程の検証データを例に見てみます。

表が長いため一部割愛しますが、先程のPDFに記載されていた宿泊施設タイプ別客室稼働率の表は、以下のようにマークダウン形式に変換します。

マークダウンに変換したテーブル情報は、LLMに連携するプロンプトにも反映します。

さらに、ヘッダーが複数ある複雑な表の場合には、テーブルを自然言語に変換するプロセスも設けています。

自然言語に変換することにより、プロンプトの最大長を超えるような表や、テーブルのヘッダーが中間ごとに混ざっているような複雑な表データの情報を認識しやすくなり、回答品質の向上に繋がります。

個別の精度向上も可能なAllganizeのRAG

また、AllganizeのRAGでは、検索(Retriever)をお客様の環境ごとに最適化し精度向上を実現することができます。

回答生成結果にフィードバックを与えることで生成内容を調整する技術もAllganizeの独自技術として有しており、特許を申請しています。

このように、Allganizeは企業における生成AI活用における企業の様々な状況に対応できるよう、RAGをはじめ技術を発展させています。

堅実な企業向けRAGの活用をご検討されていらしゃる方、今お使いの生成AI・LLMソリューションでの業務適用に課題を感じていらっしゃる方は、お気軽にAllganizeまでお問い合わせください。

関連リンク

■技術解説■ 生成AIのハルシネーションを低減するRAG。図表データまで特定できる”企業向けRAG”とは?(前編)
生成AIのハルシネーションを低減する技術として注目されるRAG(Retrieval Augmented Generation:検索拡張生成)。RAGの概念、動作の仕組み、RAGにおける検索性能の重要さ、RAGの性能を向上させる戦略について説明します。 1回目の今回は、RAGの概念や仕組みや、RAGにおいて重要なポイントについて解説します。 RAGの概念 生成AI活用時におけるハルシネーションを減らし、より正確な回答を出力する方法としてRAGが注目されています。その動向に伴い、企業向けの生成AIツールを提供している企業において、「RAG(Retrieval Augmented Generation、検索拡張生成)」を前面に打ち出す企業が増えてきています。 RAGは、2020年5月に発表された論文「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(知識集約型NLPタスクのための検索拡張生成)」で初めて登場した概念です。この論文の第一著者であるパトリック・ルイス(Patrick Lewis)博士はMe
Allganize | Alli LLM App Market
Alli LLM App Marketは、企業向けの生成AI、LLMアプリを100個以上のテンプレートから選び、即座に業務に活用できるLLMアプリプラットフォームです。「契約書チェック」「クレーム対応メール作成」「特定文書の要約」「社内ドキュメントから自動応答」「新規事業アイディア提案」など、すぐに業務活用できる生成AI、LLMアプリのテンプレートを提供しています。