検索ロボット避け

検索サイトに自分のサイトを表示させたくない!人はこちら。

metaタグ

Googleの場合
サイトのページをすべてのロボットのクロール対象から除外するには、次のメタ タグをページの <HEAD> セクションに挿入します。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
サイトのページを Google ロボットのクロールからのみ除外し、他のロボットにはクロールを許可する場合は、次のタグを使用します。
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
ロボットにサイトのページのクロールを許可し、外部リンクの追跡を許可しないようにするには、次のタグを使用します。
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Yahoo!の場合
検索結果からサイトへのリンクや説明文、キャッシュなどの、特定のページを検索結果から削除する場合は、下記のHTMLを記述します。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
検索結果からページへのリンクや説明文の表示は許可しても、ページの内容を、キャッシュに保存したくない場合は、下記のHTMLを記述します。
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
Live Seachの場合
インデックス登録の対象から除外するページに noindex META タグを追加する。

robots.txt

robots.txtはドメインのルートに置かなければなりません。

なので「http://example.com/userID/」のような形のURLを持つサイトでは使うことが出来ません。「http://example.com/」や「http://userID.example.com/」のような形のURLを持つサイトで有効です。

書き方の一例
すべての検索エンジンから除外する場合
User-agent: *
    Disallow: /
Yahoo!から除外する場合
User-agent: Slurp
Disallow: /

.htaccess

.htaccessで検索ロボットのIP・ホストのアクセスを制限する方法です。無料サーバの多くは.htaccessの使用を許可していないので注意が必要です。

書き方の一例
#MSN
SetEnvIfNoCase User-Agent "msnbot" shutout

# Google
SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Googlebot-Image" shutout
Deny from 66.249.64.0/19

# Yahoo
SetEnvIf User-Agent "Slurp" shutout
SetEnvIfNoCase User-Agent "Yahoo" shutout
Deny from 72.30.0.0/16
Deny from 74.6.0.0/16

#Inktomi
SetEnvIf User-Agent "inktomi" shutout

#goo
SetEnvIf User-Agent "moget" shutout
SetEnvIf User-Agent "ichiro" shutout

#InternetArchive
SetEnvIf User-Agent "ia_archiver" shutout

#MARSFLAG
SetEnvIfNoCase User-Agent "MarkAgent" shutout
SetEnvIfNoCase User-Agent "marsflag" shutout

最後の改行を忘れずに!

web上で.htaccessを作成できるサービスもあります。

すでに検索に引っかかってしまっている

すでに検索に引っかかってしまっている場合でも上記の処置をすると次回のクロールの時に検索ロボットが「このページは検索結果に表示されたくないんだな」と判断して削除してくれるようです。

次回クロールを待てない時や、上記の処置をしても検索結果に表示されてしまう時は自分で検索エンジンからサイトを削除しましょう。

  • Google ウェブマスター ツールのURL 削除リクエスト ツールを使用
  • Yahoo!カテゴリからサイトの削除※カテゴリではなくロボットが拾ったページの削除は受け付けていないようです。メールで個別対応?
  • Live Searchはサイトの削除に関しては、お問い合わせフォーム を使用してご連絡ください。とのこと

参考:検索避け支援wiki検索避け覚書

© 10press rights reserved.  |  Last Modified: 2008-08-24T01:22:08

PAGETOP