Google検索アルゴリズムの内部資料(過去最大規模の情報量)漏洩!?
2024/05/29
日本時間5月28日深夜からX(旧Twitter)を中心にGoogleの検索アルゴリズムシステムの内部資料が漏洩され、その情報が公開されています。
これらの内部情報と思われるものについて、Googleは否定しています。
今回漏洩されたドキュメントは2,596個のモジュールと計14,014個のランキング特徴量が公開されたとのことです。
目次-Contents-
■否定しているが信憑性が高い
Googleは正式に今回の内部資料と思われるものを否定していますが、ただ、本物である可能性があると考えられる理由がいくつかあります。
(もちろん最新版ではない可能性はあります。)
●元社員による確認
今回漏洩したと思われるドキュメントの情報の多くは過去、Googleとアメリカ合衆国司法省との訴訟で既に明らかになっている情報や過去に漏洩されたと言われるドキュメントなどと一致している
●元社員による確認
ランド・フィッシュキン氏が元Google社員に直接連絡を取り、ドキュメントを確認してもらったところ、Google社内のAPIドキュメントの基準と一致している可能性が非常に高いという証言を得たとコメント
●内部資料の書き方の一貫性
Googleが発表している様々なドキュメントと今回漏洩されたと言われているドキュメントで、Googleでのドキュメント慣行が一致している
上記のような理由から今回のドキュメントは本物ではないかと言われています。
■今回漏洩したドキュメントの主なアルゴリズム
今回漏洩したと言われるドキュメントの中から主な指標となりえるものをご紹介します。
●ドメイン権威
Googleの公式見解では「ドメイン権威のようなものは指標として持っていない」とのことだったが今回のドキュメントではその存在が確認された。
●クリック
こちらもGoogleの公式見解ではクリックはランキングに影響しないと言われていたものの、GlueやNavBoostと呼ばれるシステムが存在していて、NavBoostと呼ばれるシステムでは過去18ヶ月分のクリックデータを参照しているとのこと。
●ホスト年齢
今回のドキュメントでは、できたばかりの新しいサイトはサンドボックス内に格納されていると記載されている。
●Chromeのデータ
Chromeの利用データ検索には影響しないと公式見解があったものの、やはりChromeデータを活用しているようです。
●降格
リンク先のコンテンツとの相関性がない、検索結果ページでのユーザーの行動、UXの不備、その他さまざまな要素でランキングの降格指標も存在する。
●外部リンク
sourceTypeなどによりリンクの重みは変わるようだが、リンクはまだまだ重要なようである。
重要度高・更新頻度高・アクセス頻度高のコンテンツは、Googleのデータでもより高速なフラッシュメモリに保存され、低いインデックスデータはハードディスクに保存されているとのこと。
●リンクスパム
リンクスパムの検出には、短期間に大量投下されたもののスパイクを検出することを重視している。怪しいものを見つけたら現在のベースラインと比較して異常値を検出しているとのこと。
●日付を重要視
bylineDate / syntacticDate / semanticDateなどにより様々な角度からコンテンツの正確な更新日時情報を抽出しているとのこと。
●直近20件のページ更新履歴を保持
インデックスされたページの評価を高めてから違うコンテンツやサイト等に誘導するなどの、ある種小手先のSEO手法や犯罪への導線を防ぐために、直近20件のページ変更履歴を保持しているとのこと。
●Embeddingによるサイトコンテンツチェック
ページのコンテンツがサイト全体の趣旨に沿ったものであるかどうかをEmbeddingでチェックしているとのこと。
●YMYLは特別厳格に
Google公式見解にもあるように、人のお金や健康(医療)など人生に多大な影響を与える情報はより厳格に扱っている。
Google公式見解のEEAT推奨の通り、author属性はランキング要素として特徴量になっているとのこと。
■まとめ:方向性は変わらないが、より気にすることが増える
今回のGoogle内部ドキュメントと思われる情報ですが、ある一定の信憑性があるのではと弊社でも考えています。
ただ、サイト運営にかかわる部分で大きく方針転換することはないと思います。
日々着実にサイト成長・運営をしてきているのであれば同じ方向性で問題ないと思います。
ただ、
・chromeのデータを活用している
・UXの不備で順位の降格があり得る
など今までとは少し違った目線が必要になるかなと考えています。
もちろん今回のドキュメントが本当に内部資料かどうかはGoogle以外の誰にも分からないことですが、、、。
内部ドキュメントだと仮定してサイト運営に反映してみる方がいいと弊社は考えます。