wget でクロール
2011-06-02 wget
仕事でクロール必要になったので、wgetさんにお願いした。
wget --recursive --page-requisites --domains=www.example.com --reject=*aaa.php --tries=2 --wait=10 --user-agent="tekitou user agent" http://www.example.com/
上から
- --recursive … 再帰取得してね
- --page-requisites … ページ構成上必要な画像類も取るよ
- --domains=www.example.com … 取得するファイルは www.example.com ドメインのものだけだよ
- --reject=*aaa.php … なんたらaaa.php ってファイルは除外ね
- --tries=2 … 取得失敗したら2回までリトライしよう
- --wait=10 … サーバ負荷考えてクロール頻度は10秒ね
- --user-agent="tekitou user agent" … ユーザエージェントも指定しよう
- http://www.example.com/ … ここからまず取得するよ
≪ 2011-06-02
範馬勇次郎に何か言わせるサービス
2011-06-02 ≫
同期が退職してた