RAGの品質に対してPDF分析
PDFから他形式への変換が難しい理由:情報アーキテクチャの再構築
PDFを編集可能な形式に戻す作業は、よく「焼き上がったケーキを、卵、小麦粉、砂糖という元の材料に分解するようなもの」と例えられます。材料(データ)はそこにありますが、それらを結びつける「化学反応(コード)」が根本的に変わってしまっているのです。
1. 「デジタル・ペーパー」という設計思想
最大の障壁は、PDFがデータ交換用ではなく、**視覚的な再現性(どのデバイスで見ても同じに見えること)**を目的として設計されている点にあります。
固定座標による配置: Wordドキュメントでは、文章は連続した「流れ」として保持されます。しかしPDFでは、同じ文章もページ上の特定の $x$ 座標と $y$ 座標に配置された「文字の断片」の集まりに過ぎません。
意味情報の欠如: PDF自体は、どこが「見出し」でどこが「表」であるかを認識していません。「Arial 14pt 太字」というデータがその場所にある、ということしか記録されていないのです。
2. 情報アーキテクチャ(IA)再現における3つの壁
オリジナルの構造(IA)を維持しようとすると、以下の技術的限界にぶつかります。
A. 「単語の袋(Bag of Words)」問題
変換ソフトは、どの文字がひとつの塊なのかを「推測」しなければなりません。
改行と段落: PDFでは、見た目を整えるために行末ごとに改行コードが入っていることがよくあります。変換器は、それが「段落の終わり」なのか「単一行の折り返し」なのかを、文脈から判断する必要があります。
カーニングと合字: 見栄えを良くするために「fi」や「fl」を1文字として結合(合字)している場合、ソフトはそれを再び個別の文字に解体しなければなりません。
B. 表(テーブル)の再構築
表の変換は、変換エンジンにとって最大の難所です。PDFにおける表は、文字の上に引かれた単なる「線の集まり」です。
論理構造の欠如: 「セルA1」や「2行目」といった概念は存在しません。
計算による再現: ソフトは、線の交差を数学的に計算し、視覚的な出力に合うようにグリッド構造を「擬似的に作り出す」必要があるのです。
C. 読み上げ順序とレイヤー
人間の目はサイドバーや広告、装飾的なヘッダーを自然に飛ばして読みますが、機械にはそれが困難です。
段組みの混乱: 「タグ付きPDF(アクセシビリティ用の隠しメタデータがあるもの)」でない限り、ソフトは2段組みの文章を左右にまたがって一行として読んでしまうことがあります。
OCR(光学文字認識)の誤差: スキャンされたPDFの場合、コードの変換ではなく「画素(ピクセル)の解釈」になるため、文字誤認のリスクが常に伴います。
3. 主な変換手法の比較
| 手法 | IAの再現精度 | 手間 | 向いている用途 |
| 単純なテキスト抽出 | 非常に低い | 最小 | テキストのみを素早くコピーする場合 |
| ヒューリスティック(Word/Adobe等) | 中程度 | 低い | 一般的なビジネス文書やレター |
| タグ付きPDFからの書き出し | 高い | 高い(手動設定が必要) | アクセシビリティ重視の文書や高精度のアーカイブ |
| AI/LLMを活用した変換 | 高い | 中程度 | 文脈から構造を「推測」できるため、複雑なレイアウトに強い |
結論:PDF変換は「リバースエンジニアリング」である
PDFの変換が難しいのは、それが単なる翻訳ではなく、**リバースエンジニアリング(逆行工学)**だからです。クリエイターが残した「視覚的な足跡」から、失われた「設計図(意図)」を必死に復元しようとしている状態なのです。
作成時にアクセシビリティ用のタグが付加されていない場合、情報アーキテクチャは事実上「平坦化」され、失われてしまうという点がポイントです。