Googleのクローラーはどのようにしてサイトをクロールしているかを解説

2024/12/09

Googleは検索セントラルブログにおいて「Googlebotのクロール方法と理由」について解説した記事を追加しました。
（2024年12月9日時点では英語版のみの掲載）

目次-Contents-

■そもそもクロールとは!?
■クロールからレンダリングまでの手順
■クロール頻度と範囲
- ●サイト管理者側での注意事項
■サイト管理者側では状況把握と分析をしましょう
- ●サーバーアクセスログを確認
- ●サーチコンソールクロール統計レポートを確認

■そもそもクロールとは!?

そもそもクロールとはGoogleがGooglebotを使用し、世界中にある様々なウェブサイト・ウェブページを発見し、訪問し、そのウェブサイト（ページ）の情報をインデックス化することで検索結果として最適なものを表示できるようにするために行われます。
クロールのプロセスにはURLの取得・エラー/リダイレクトの管理・インデックスするためのデータ処理などが含まれます。
そのためhtmlはもちろんのことCSSやJavaScript・画像データ・動画など最新のウェブサイト（ページ）をレンダリングするために必要な要素すべてをクロールします。

■クロールからレンダリングまでの手順

Googlebotがクロールしてからレンダリングするまでは以下の手順で行われます。
１初期データの取得：URLからhtmlをダウンロードする
２レンダリングの準備：ダウンロードしたデータを「Webレンダリングサービス（WRS）」に転送する
３：レンダリングリソースのダウンロード：CSSやJavaScript・画像データ・動画など参照されているすべてのリソースをWRSが取得
４：ページの構築：ブラウザのレンダリングをシミュレーションし、ページをWRSが生成

「Webレンダリングサービス（WRS）」はウェブブラウザと同様の処理を実行しますが、ブラウザとは違い、サーバー負荷などの要因でレンダリング時時間がかかることがあります。

■クロール頻度と範囲

クロールの頻度とその範囲のことをクロールバジェットと言いそのクロールバジェットは
・レンダリングに必要なリソースの量
・ホスティングドメインの処理能力
に影響を受けます。
そのためWebサイト（ページ）の管理者としてはクロールバジェットを最適化するために以下を実行することが推奨されています。
・検索をするユーザー体験を損なうことなく、必須リソースを最小限に抑える
・負荷の高いリソースには、個別のホスト名（例：CDN やサブドメイン）を使用する
・不要な再クロールを強制する「キャッシュバスティングパラメータ」の過度な使用を避ける

※サブドメインは使い方によっては弊社では推奨していませんので要注意
※キャッシュバスティングパラメータとはパラメーターを追加することでURLを変更しキャッシュではなく最新リソースを取得するようにさせる手法のこと

なお、Googlebotは独自のキャッシュ機能を活用し、サイト側のキャッシュ設定に関係なくWRSに最大30日間リソースを保存します。
これによりクロールバジェットの節約に役立つことになります。

●サイト管理者側での注意事項

Robots.txtを使用してサイトリソースのクロールをブロックしてしまうと、レンダリングに必要なリソースをWRSが取得できなくなることで、
正しくサイトのレンダリングができない　→　適切に評価されず検索順位に悪影響を及ぼす
可能性があります。

■サイト管理者側では状況把握と分析をしましょう

サイトを運営・管理している皆様は「現状把握」と「分析」をしっかり行いましょう。
方法は以下の２つの方法があります。

●サーバーアクセスログを確認

Googlebotのアクティビティの現状把握は「サーバーアクセスログ」でクローラーによるURLリクエストのすべてを確認することができます。

●サーチコンソールクロール統計レポートを確認

サーチコンソールにはクロール統計レポートという機能があり、クロールに関する詳細な情報が記載されています。
サーチコンソール画面の設定からクロール統計情報を確認することができます。

検索順位の根幹ともいえるクロール→レンダリング→検索結果を解説しました。
Webサイト（ページ）の運営者の皆さんはぜひサイトがどのようにクロールされているかどうかをチェックすることでページや部分リニューアルなどの際にどのようにクロールのデータが変わっているか・改善したのか状況は悪くなったのかもわかるかと思います。
順位の変動が大きいときにもぜひ確認することをお勧めします。

この記事をSNSでシェア！