スクレイピングの確認と対処方法
スクレイピングしていたサイトが、クローキングしていて、詐欺ECサイトという役満サイトへの対処方法です。
先日、Googleのジョン・ミューラー氏がパクリコンテンツを容認してしまったので、盗作サイト対策には手動で対応するしかありません。
コンテンツを盗作して文章のボリュームを増やしたり、自作自演のコメントで文章のバリエーションを増やすグレーゾーンのSEOは昔から行われています。
今回は、スクレイピングされたウェブサイトがあったので、その対処方法です。
作業としては下記になります。
- Search Consoleで異常なバックリンクを調査
- aguseでスクレイピングの詳細を調査
- htaccessで拒否する
Search Consoleを確認する
Search Consoleはの「サイトへのリンク」を確認すると、バックリックが異常に多いドメインがありました。
数字としては247あります。
どのようなページがリンクを貼っているのか確認します。
怪しいドメインをクリック
↓
リンクされているページをクリック
↓
発リンクが表示されます。
怪しいリンクがズラズラと表示されています。
画像では割愛していますが、かなりのページ数です。
拡張子が「shtml」なので、SSIを使ってスクレイピングされているようです。
Chromeのデベロッパーツールでページを確認する方法
スクレイピングしているページにアクセスしても何も表示されません。
「クローラーだけに表示させている」いわゆるクローキングです。
ページを確認するためにChromeのデベロッパーツールのユーザーエージェントにGooglebotを追加します。
1.右クリック→「検証」をクリックします
2.デベロッパーツールの「モバイル」検証ボタンをクリック
3.デバイス選択で「Edit」を選択します
4.「Add custom device」をクリック
5.GoogleBotを追加します。
これで「Google Bot」のユーザーエージェントが追加されました。
発リンクのページに再びアクセスすると表示されました。
ページ下にオリジナルサイトがスクレイピングされて表示されていました。
aguseでサーバーやドメイン登録者情報を調べる
aguseを使えば、サーバーやドメイン情報などを調べられます。
スクレイピングしているドメインを入力して調べます。
調査するとサーバーのIPアドレスが「208.110.○○.○○」と分かりました。
アメリカのカンザスにあるサーバーを利用している中国の詐欺ECサイトのようです。
htaccessでIPアドレスを拒否する
サーバーのログからスクレイピングしているIPを探るのも良いのですが、かなり面倒です。
今回はaguseで分かったIPアドレスからのアクセスを拒否してみます。
htaccessに下記を記入して、サーバーにアップします
htaccess
order allow,deny
allow from all
deny from 208.110.○○○.○○○
これで、スクレイピングしているサーバーからのアクセスが拒否されます。
スクレイピングがキャッシュされている場合
キャッシュされているため、htaccessでIPを拒否してもスクレイピングされた箇所が表示されています。
GoogleのDMCAに通報するか、カンザスのサーバーに連絡するしかありません。
今回は詐欺ECサイトでしたので「DMCA」と「スパムレポート」に通報しました。
DMCAの申告した結果はこちらから確認できます。
承認されていれば「承認されたURL」に件数が表示されます。
1回目で承認されなくても2回目で承認されることも多々あります。
旅行やグルメサイトはスクレイピングのターゲットになりやすいかもしれません。