犬ターネット

tesseract-ocr を使って吉田調書をテキスト化したい

2014-09-12 ocr

吉田調書が公開されたんだけど紙をスキャナで取り込んだPDFでデータとして扱いづらいから、tesseract-ocr ていうオープンソースの OCR 使って吉田調書をテキスト化してみようと考えた。

まず https://code.google.com/p/tesseract-ocr/downloads/list から以下のファイルをダウンロード。

ダウンロードしたら tesseract-ocr-3.02-win32-portable.zip を展開。Tesseract-OCR ていうディレクトリができる。

tesseract-ocr-3.02.jpn.tar.gz も展開して tessdata/jpn.traineddata を Tesseract-OCR/tessdata にコピーして準備完了。

まずはテスト画像( test.png )で動作確認してみる。

test.png

test.png を Tesseract-OCR/tesseract.exe と同じディレクトリに放り込んでコマンドプロンプトから以下実行。

tesseract.exe test.png result -l jpn

result.txt が作成されるので開いてみる。うーん…

ABCDEFGー 234578g0 ! ?
日本語テス 卜です。
こん【こちーま!
チンポシステムズ

今度は吉田調書をテキスト化してみる。とりあえず一番サイズが小さい「2011/8/9 汚染水への対応について」ってやつをダウンロード、pdfリーダーで開いてキャプチャ取った。こんな感じ。

yoshida.png

そんでコマンド実行。

tesseract.exe yoshida.png result_yoshida -l jpn

result_yoshida.txt を開いてみる。ううぅぅ…

クワ7一フ、
【取才及し`厳重ラ主意】

.平成2 3年8月 ー 4日

第ー 被聴取者、 聴取日E寺、 聴取場所、 聴取者等
雫 ー

聴 取 結 果 書

束藏電力福島原子力発電所馨〔粘縄ナる豪故調査 ' 検証委員会亭務局
局 員 岡田 幸大

`平成2 3年8月 9 日丶 東京電力福島原子力発電所縄こお炒ナる事故調査・ 検言正のブとめ、 関
係者ヵゝらヰ恵取した結果瘢ま、 下記のとぉりでぁる〝

實己

被聴取者
東京電力福島第一原子力発電所所長 吉田昌慎B
2 聴取日時
平成2 3年8月 9 日午後ー 6時ヵゝら同曰午後ー 7"芽まで
3 聴取場所 「
Jヴィレッジ
4 〝聴取者
'事故調査委員会事務局 岡'田幸大
5 ー Cレコーダ…蜃こょる録音の有無等
図 ぁり
囗 ブよし

第2 聴取内容
才毒染フkヘの対応優こっし丶て
呂ー]紙のとぉり

第3 特記事項
特轟こブょし

文字と文字の間隔があいててそこそこフォントサイズが大きい「聴 取 結 果 書」はバッチリだけど、それ以外はなんかもうダメだ...


PHP で フォト蔵 API 使って画像をアップロードする

twitpic から tumblr に引っ越しするスクリプト作ったりしていた