犬ターネット

ImageMagick と tesseract-ocr 使って吉田調書のPDFをテキスト化したい

2014-09-16 ocr imagemagick pdf

吉田調書のPDFをテキスト化したいっていう話の続き。

PDF を手動で画像にすんのめんどくさかったんだけど ImageMagick 使えば簡単だった。つうことで以下コマンドを実行。

convert -density 300 -geometry 2000 -contrast-stretch 5% 077_2_koukai.pdf out.jpg

# オプション説明
-density 300         … サンプリング解像度
-geometry 2000       … 画像の幅
-contrast-stretch 5% … コントラスト。5%で割とくっきり

出力された画像はこんな感じ。おお…素晴らしい…

この画像に tesseract out-1.jpg result-1 -l jpn を実行してテキスト出力してみた。

【取才及し丶厳重注意】
呂縄j糸氏

” 問 ・ 吉田所長婁ま、 普段銓ま〝基本白毎'蜃こ蓼蓮免震重要等の2階佑吊ニ夕ーヵ暑ある大'部屋咎こおり、〝福
島第一原子力発電所 〔以下 「ーF」 とレ丶う") 全体髪こ係る事項ゃ ーF 外怪こ影する事項}こ
っレ丶て璃j断して〝丶ると~丶う理洒峯でょ'し丶ヵゝ? ~ '
答 その通りでず。

うーん… フォントの問題もあるだろうけど全然ダメ…


Belden 1503A

ギターかき鳴らしおじさん