Search Console URLエラーを無くす robots.txt の作り方

Webサーバー サイトの管理
Search Console
URLエラーを無くす robots.txt の作り方
 
robots.txt は、GoogleやYahoo!といった検索エンジンが、サイトの情報を取得(クロール)するプログラム(クローラー)を制御するためのテキストファイルで、特定のファイルやディレクトリをクロール禁止に指定することで、これらの関連ページや画像などを、検索エンジンにインデックスさせないようにすることができる。
 
スポンサー リンク
 
 
robots.txtは、ただのテキストファイルなので、メモ帳で十分
 
robots.txt の作成・編集は、テキストエディターでよい。
 
最上位のディレクトリに、robots.txt という名前で設置
 
サイトのルートディレクトリーに、FTPでアップロードする。
 
crawlerr712
 
最近の検索エンジンは、ロボットでサイトを自動的に解析しており、リンクを辿って各ページを巡回しているように思われる。このロジックがどうなっているか知る由もないが、ページ内に設定した内部リンクが多々あると、ディレクトリーを遷移しながら該当のURLを探すことになり、『URL エラー』のほとんどが、あるはずもないディレクトリーをクロールした結果のように思われる。
http://arakan60.mydns.jp/05forum/03bike/01kaidou/・・・http://arakan60.mydns.jp/04kousaku/04kousaku/03bike/・・・http://arakan60.mydns.jp/04kousaku/01kaidou/03bike/・・・
そこで、上記のようなあるはずもないディレクトリーをブロックすることで、『URL エラー』を無くすることが出来た。
 
HTMLで作成した PCサイトの robots.txt 例。
 
ブロックするディレクトリーを記述している。

 
WordPress サイトの robots.txt 例。
 
ブロックするディレクトリーを記述している。

 
robots.txt の記述要領。
 
記述は簡単で、下記以外にもパターンマッチ指定なども出来る。
User-agent: * ← # 全てのクローラーを対象
User-agent: Googlebot ← # Google
User-agent: Googlebot-Image ← # Google画像検索クローラー
Disallow: /xxxxx ← クロールの禁止
Allow: /yyyyy ← クロールの許可
# パスはスラッシュ文字(/)から指定
Disallow: /xxxxx/aaaaa.html ← 特定のページ
Disallow: /xxxxx/ ← 特定のディレクトリ
Sitemap: https://arakan60.com/wpsitemap.xml ← サイトマップの指定
robots.txt ファイルに「サイトマップへのパス」を指定して置くと便利。
 
参考:
 

 

以上。
(2016.11.16)

 
             

スポンサー リンク
 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください