PDF

Top / PDF

テキスト変換ツール

オプションなしでの結果。
入力は \documentclass[letterpaper]{ieee} と推測されるファイル(TeXソースなし。

  • コマンド (debianパッケージ)
  • pstotext (pstotext)
    • diff向き
    • ハイフンがよくわからないバイナリに変更される
    • PDF上での改行および、改行を挟む単語のハイフン(変な記号化してるけど)は保持される
    • 改行は常に1つなので読みづらい
    • 改ページあり
    • 図中のテキストは全部改行区切り
  • pdftotext (xpdf-utils)
    • ダメっぽい
    • 改行は段落で
    • 改ページあり
    • 2段組がうまく扱えていない
      • 右側のが先に来たりしてる
      • 左右の図に含まれるテキストが混在
    • 参考文献は1行
  • ps2ascii (gs-common)
    • テキストファイルとしては読みやすい方
    • 改行は段落で
    • 参考文献は改行時に単語が切れていなければ段落だと認識されるのでぼろぼろ
    • 図中のテキストは改段落 or スペース区切りで並べる

画像で diff

http://hisashim.livejournal.com/158842.html

gsでpngに変換 → cmp → composite(ImageMagick)
テキスト量が増えるような変更には対応不可(当たり前。


トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2006-06-20 (火) 14:17:44 (6518d)