ユーザーエージェントAmazonbotを名乗る大量のアクセスがあったときの調査メモ
5月初め、某サイトに7,8秒間隔という微妙な頻度で約2時間、WP REST API含むアクセスがやってきました。国外IPのREST拒否していたために大量の403が…。問題のUserAgentはこちら
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
ひとまず、なりすましかどうか、調べてみます。
hostコマンドで、アクセス元のIPアドレス 3.89.146.19 からドメインを調べます。
$ host 3.89.146.19
19.146.89.3.in-addr.arpa domain name pointer ec2-3-89-146-19.compute-1.amazonaws.com.
出力されたドメインからIPアドレスを調べます。
$ host ec2-3-89-146-19.compute-1.amazonaws.com
ec2-3-89-146-19.compute-1.amazonaws.com has address 3.89.146.19
3.89.146.19 = 同じIPアドレスということで、Amazonbot本人でした。
Amazon bot
Amazon Alexa のサービス改善のために使用されるウェブクローラーです。
https://developer.amazon.com/ja/support/amazonbot
robots.txtを尊重するとのことで、拒否したい場合は、クロールをコントロールできます。
(上記リンク先より)
User-agent: Amazonbot # Amazon's user agent
Disallow: /do-not-crawl/ # disallow this directory
Allow: /do-not-crawl/except-this/ # allow this subdirectory
User-agent: * # any robot
Disallow: /not-allowed/ # disallow this directory
WordPress で Amazon bot を全拒否するなら、こんな感じで。
User-agent: *
Allow: /common/wp-admin/admin-ajax.php
Disallow: /common/wp-admin/
User-agent: Amazonbot
Disallow: /
Sitemap: https://sakidesign.com/sitemap.xml
Sitemap: https://sakidesign.com/sitemap.rss
では。