魔除けのおふだ

昨日今日と立て続けにサーチエンジンのクローラがやってきて、 公開しているページや画像を根こそぎ持って行くので、重くてしょうがない。 特に目立つのが、MSNBot と Yahoo! Slurp だ。

クローラに対していろいろ注文を付ける方法が規約*1で決まっている。 サイトのトップに robots.txt というファイルを置いて、この中に いろいろ書けば、まともな相手なら従ってくれるというものだ。

これによると、

User-agent: Slurp
Crawl-delay: 60

と書いておけば、アクセスの間隔を1分とってくれるらしい。

MSNの場合も同様だ。 *2

とりあえず、

User-agent: *
Crawl-delay: 120

とでも書いて貼っておくか。人間の言葉に直すと、

このサイトを訪れるボットさん各位
アクセスの間隔を最低でも2分とってください。

効果あるかな?効きすぎて Google で検索できなくなったらとても困る。 そういえば Google bot と最近あまり遭遇しないのだが、最近の更新は しっかり捕捉されてたりするので、クローラの優秀さがわかる。

と、ここまで書いて負荷が高い原因が別にあることに 気が付いた。spamの踏み台にされて恐ろしい状態になっているではないか。 以後詳しい経緯は『Double Bounce攻撃』に 書くことにする。


*1 http://www.robotstxt.org/wc/robots.html などが詳しい
*2 MSNサーチのトップ画面を初めて見たが、笑えるほどGoogleと似てる。

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2005-02-23 (水) 20:27:10 (6994d)