仕事でクロール必要になったので、wgetさんにお願いした。
wget
--recursive
--page-requisites
--domains=www.example.com
--reject=*aaa.php
--tries=2
--wait=10
--user-agent="tekitou user agent"
http://www.example.com/
上から
- --recursive … 再帰取得してね
- --page-requisites … ページ構成上必要な画像類も取るよ
- --domains=www.example.com … 取得するファイルは www.example.com ドメインのものだけだよ
- --reject=*aaa.php … なんたらaaa.php ってファイルは除外ね
- --tries=2 … 取得失敗したら2回までリトライしよう
- --wait=10 … サーバ負荷考えてクロール頻度は10秒ね
- --user-agent="tekitou user agent" … ユーザエージェントも指定しよう
- http://www.example.com/ … ここからまず取得するよ