- ○取得したページの保存期間
- 保存期間は該当サイトへの検索ロボット巡回頻度によります。
前回巡回した際に存在していたページが、次回の巡回時に存在しない( 404 エラー)場合、そのページは巡回後に削除されます。逆に前回の巡回後、実際にはページが存在しなくなっている場合でも次回の巡回が行われていないと検索にヒットする場合があります。
- ○検索対象から外れる条件
- 検索サービスの検索結果
検索サービスの検索結果を検索対象としても意味を持たないため、これは取得しません。ただし当サイトのチェックから漏れて、検索対象に含まれる場合もあります。
- robot.txt 及び META 要素での指定
当サイトの検索ロボットは robot.txt 及び META 要素による巡回先指定に対応しています。
- HTML の A 要素以外でのリンク
JavaScript に代表されるクライアントサイドスクリプトが作成するリンクや、Flash オブジェクト内に設けられたリンクには対応していませんので、前述の手段によるリンク先ページは取得しません。クリッカブルマップに記述されたリンク先、FRAME 及び IFRAME 要素で指定される URL には対応しています。
- フォームの提出先
フォームの提出先にはなんらかの送信データを必要とすることが多く、この送信データが存在しない場合要をなさないページとなるため取得しません。
- URL の文字長が 255 バイト以上
同一のページへのリンクが様々なクエリ文字列を持つリンクで複数設けられている場合が存在するため、検索対象としてページを取得する URL の最大文字長を 255 バイトに制限しています。
- パス中に非アスキー文字を含む URL
サーバーのディレクトリ名やファイル名に全角文字が含まれていた場合、検索ロボットが誤動作を起すことが考えられるため、非アスキー文字を含む URL は検索対象として取得しません。
- "text/html"以外の MIME タイプ
取得するページの MIME タイプは "text/html" です。バイナリデータでも "text/plain" を MIME タイプとして返してくるサーバーが存在するため、取得するリソースは前述の MIME タイプに制限しています。
- その他のケース
その他、巡回先のコンテンツが当サイトの運用の障害となる可能性がある場合や、より望ましい検索結果が得られない原因と考えられる場合には巡回先から外す場合があります。
|