ユースケース · RAG
信頼できるRAGは、クリーンな取り込みから始まります
検索の失敗の多くは、ドキュメントが乱雑なテキストに変換された時点で生じます。LLMtoMDは、構造化されたMarkdownとインデックス化可能なチャンクをパイプラインに提供します。
RAGパイプラインが期待どおりに機能しない理由
RAGシステムの品質は、検索されるテキストの品質で決まります。PDFやOfficeドキュメントが構造のないテキストに平坦化されると、テーブルは崩れ、見出しは消え、読み順は乱れます。
エンベディングモデルは見出しと本文を区別できず、回答時にはLLMがその欠落を自信ありげな推測で埋めてしまいます。これが、モデルのせいにされがちなハルシネーションの正体です。
LLMtoMDによる解決方法
レイアウトを認識したMarkdown
テーブルの整列、見出し、読み順が保持されるため、各チャンクが本来の意味を保ちます。
RAG対応エクスポート
あらゆるドキュメントをエンベディング付きのチャンク化されたJSONLとしてエクスポートし、ベクトルDB、LangChain、LlamaIndexにそのまま投入できます。
図表向けのビジョン機能
チャートや図は破棄されるのではなく説明として記述されるため、ページ内で最も情報密度の高い部分もインデックスに取り込まれます。
自動取り込み
APIでファイルをプッシュするか、ストレージのプレフィックスを監視することで、新しいドキュメントが自動的に変換・インデックス化されます。
関連記事: RAGボットがハルシネーションを起こす理由
あらゆるものをAI対応のMarkdownに変換
PDF、Officeドキュメント、画像、音声、そしてウェブサイト全体を、数秒でクリーンなMarkdownとRAG対応のエクスポートに。あなたのLLMのために。