吉田調書のPDFをテキスト化したいっていう話の続き。
PDF を手動で画像にすんのめんどくさかったんだけど ImageMagick 使えば簡単だった。つうことで以下コマンドを実行。
convert -density 300 -geometry 2000 -contrast-stretch 5% 077_2_koukai.pdf out.jpg # オプション説明 -density 300 … サンプリング解像度 -geometry 2000 … 画像の幅 -contrast-stretch 5% … コントラスト。5%で割とくっきり
出力された画像はこんな感じ。おお…素晴らしい…
この画像に tesseract out-1.jpg result-1 -l jpn
を実行してテキスト出力してみた。
【取才及し丶厳重注意】 呂縄j糸氏 ” 問 ・ 吉田所長婁ま、 普段銓ま〝基本白毎'蜃こ蓼蓮免震重要等の2階佑吊ニ夕ーヵ暑ある大'部屋咎こおり、〝福 島第一原子力発電所 〔以下 「ーF」 とレ丶う") 全体髪こ係る事項ゃ ーF 外怪こ影する事項}こ っレ丶て璃j断して〝丶ると~丶う理洒峯でょ'し丶ヵゝ? ~ ' 答 その通りでず。
うーん… フォントの問題もあるだろうけど全然ダメ…