GEO時代の”AI可視性”、構造化データで本当に変わるのか|500万件のAIボット解析が示す3つの実証データ
GEO(Generative Engine Optimization:生成エンジン最適化)という言葉が浸透し、ChatGPTやClaude、Perplexityといった生成AIに「引用されるサイト」を目指す動きが本格化しています。一方で「具体的に何が効くのか」という問いに対する定量的な根拠は、まだ十分に揃っているとは言えません。
そんな中、イスラエル発のLightSite AI社が2026年2月に公開した「構造化データがAI検索におけるブランド可視性に与える影響」という実証研究は、約500万件のAIボットリクエストを解析した稀少な定量データとして注目に値します。本記事は、同社から直接ご紹介いただいた本研究の内容を、日本国内のマーケターに向けて要点を整理し、実務への示唆をまとめたものです。
この記事を読めば、「構造化データに投資すべき定量的な根拠」と「過度な期待を避けるための解釈ポイント」を、両面から押さえられます。
目次
研究を実施したLightSite AI社について
LightSite AI社は、イスラエル・テルアビブを拠点とするAI検索インフラ企業です。創業者でCEOのStas Levitan氏のもと、構造化データ層の自動生成・運用と、AI可視性の分析機能を提供する特許出願中のプラットフォームを展開しています。
同社の最大の特徴は、ChatGPT・Claude・Gemini・Perplexityといった主要AIシステムのクローラー挙動を、実際の本番ドメイン上で観測した独自データを保有している点にあります。第三者スクレイピングや推測に依存しない一次情報であることが、本研究の信頼性を裏付ける根拠です。
また、同社は今回ご紹介する研究の前にも、定量データに基づくGEO関連の調査を継続的に公開しています。たとえば2025年10月に発表された調査では、500以上の企業サイトを分析した結果として「91%のサイトが構造化データ(JSON-LD等)を十分に備えていない」「47%のサイトが robots.txt の設定に問題を抱えている」といった業界の準備不足を明らかにしました。
こうした継続的な実証研究の蓄積が、AI検索領域における同社のスタンスを「意見ではなくデータで語る」ものとして特徴付けています。
そもそもGEOで「構造化データが重要」と言われる理由とは?
GEOにおいて構造化データが重要視されるのは、AIにとって「サイトの曖昧さを除去する材料」になるからです。AIに引用されるためには、その前提として「サイトを正しく理解されること」が必要であり、構造化データはこの理解の質を左右する基盤となります。
GEO(生成エンジン最適化)の定義をおさらい
GEOとは、ChatGPT・Claude・Perplexityなどの生成AIがユーザーの質問に回答する際、自社コンテンツが情報源として引用・推薦されるよう最適化する施策です。
従来のSEOが「Google検索結果の上位表示」を目指すのに対し、GEOは「AIの回答そのものに組み込まれること」を目指します。最適化の対象が検索エンジンのランキングアルゴリズムから、LLM(大規模言語モデル)の挙動へとシフトしている点が本質的な違いです。
なぜ構造化データがAIにとって重要なのか
AIはサイトの内容を解析する際に、機械可読性(machine readability)の高さに依存します。HTMLが整理されておらず、エンティティの定義(誰が、何を、どう提供しているか)が曖昧だと、AIは内容を正確に把握できません。
その結果として何が起きるか。AIは公式サイトを情報源として使う代わりに、第三者のレビュー、フォーラム、競合の記述、あるいは古い要約に頼るようになります。「あなたのブランドの説明」が、自社が書いた言葉ではなく、外部の言及だけで構成されてしまうわけです。
構造化データは、この曖昧さを除去するための最も基本的な手段です。
500万件のAIボット解析──実証研究の全体像
LightSite AI社の実証研究は、米英のSaaS・サービス・EC企業数十社を対象に、30日間で約500万件のAIボットリクエストを解析したものです。同一コンテンツの構造化版と非構造化版にAIボットを振り分け、クロール挙動の違いを観察するという設計が特徴です。
何を計測したか
対象としたのは、ChatGPT・Anthropic・Perplexityに関連するAIボットです。各サイトには2種類のページが用意されました。
-
- 構造化ページ:同じコンテンツを、機械が読みやすい形に整理し、エンティティ定義を一貫させ、クリーンなマークアップを施したもの
- 非構造化ページ:内容もリンクも同じだが、構造化のための追加情報がないプレーンなHTML
これら2種類のページにAIボットをバランスよく振り分け、振る舞いを比較しています。
「ランキング」ではなく「ボットの挙動」を測定した理由
ここがこの研究の独自性です。AI検索における「ランキング」や「引用される確率」は、内部ロジックがブラックボックスのため外部から検証しにくい領域です。
そこで本研究は、観察可能な「AIボットがどれだけ真剣にサイトを扱うか」というクロール挙動に絞って測定しています。「AIがすでにサイトを信頼しているか」ではなく、「AIがサイトをどれだけ真剣に処理しようとするか」を見るアプローチです。
結果──構造化データで「AIエンゲージメント」が約14%向上
構造化されたページは、非構造化ページに対して複合指標で約14%高いAIボットエンゲージメントを記録しました。具体的には、抽出成功率+12%、クロール深度+17%、クロール頻度+13%という3つの差分が確認されています。
抽出成功率 +12%──ボットが「完全に読めた」確率
抽出成功率とは、AIボットがページをフェッチし、内容を完全に処理できた割合です。構造化ページではこの指標が12%向上しました。
「アクセスはされているが、中身がうまく取り出されていない」という状態は意外と多く、構造化はこのロスを減らす効果があります。
クロール深度 +17%──ランディング後の巡回ページ数
ランディングページに到達した後、AIボットがそこからどれだけサイト内を巡回するかを示す指標です。構造化ページ経由ではボットの巡回が17%深くなりました。
これはサイト全体としての情報量が、AIにより多く取り込まれる可能性を意味します。
クロール頻度 +13%──時間経過後の再訪問頻度
AIボットがどれだけ頻繁にサイトに戻ってくるかを示す指標です。構造化ページは13%高い頻度で再訪問を受けていました。
AI検索の世界では「最後にいつクロールされたか」が回答の鮮度を決めます。再訪問されないサイトは、情報が古くなっても更新されません。
この研究が「証明していないこと」も押さえる
重要なのは過剰解釈を避けることです。本研究は「AIがブランドを推薦するようになる」「学習データに採用される」ことを証明したものではありません。あくまで「AIシステムがサイトを発見・処理する段階での真剣度」が変わることを示したものです。
LightSite AI社自身も、研究レポートのなかで以下の3点について明確に否定しています。
-
- 構造化データを整えても、AIモデルが自社コンテンツで「学習」したことの証明にはならない
- AIにブランドが「推薦されるようになる」ことの保証ではない
- 永続的な記憶やランキング変動を意味するわけでもない
ただし、これは構造化データへの投資が無意味だという話ではありません。「理解されないサイトは、信頼もされない」のは確かであり、構造化データは「AI可視性の出発点」として位置づけるべき投資です。
関心が向かなければ、理解は生まれない。理解がなければ、信頼も生まれない──この順序こそが本研究の核心です。
日本のマーケターが今、現場で取り組むべき3つのこと
国内サイトにおいても、構造化データの整備は「AIに理解されるための前提条件」として優先度を引き上げるべきです。具体的には、①schema.org の基本実装、②エンティティ情報の一貫性、③AIを読み手として想定した情報設計、の3点から着手することをおすすめします。
schema.org / JSON-LD の基本実装を点検する
まず、自社サイトに schema.org のマークアップが正しく実装されているかを点検します。代表的なものとして、Organization、Product、Service、Article、FAQPage、BreadcrumbList などがあります。
特に企業情報(Organization)と提供するサービス(Service / Product)は最優先で整備すべき領域です。Googleの「リッチリザルトテスト」や Schema.org の検証ツールを使えば、現状の実装状況を確認できます。
エンティティ情報(社名・サービス名・著者)の一貫性を保つ
社名、サービス名、著者プロフィール、所在地などのエンティティ情報は、サイト内および外部メディア(プレスリリース、Wikipedia、公式SNS等)で表記を一貫させます。
表記ゆれがあると、AIは「同一の存在を指している」と認識できません。たとえば「株式会社○○」と「○○株式会社」、「サービスA」と「サービス A(半角スペース有り)」といった微妙な差が、AIにとっては別エンティティに見えるリスクがあります。
「AIが読む前提」で情報構造を設計し直す
最後に、コンテンツそのものの構造を「AIに読まれる前提」で設計し直します。具体的には、以下のような点を意識します。
-
- 結論を先に書く(各セクションの冒頭に、要点を簡潔にまとめる)
- 見出し階層を論理的にする(H2 → H3 の親子関係を崩さない)
- 具体的な数値や事実を含める(曖昧な表現を避ける)
- FAQ形式を活用する(質問と回答が明確に対になる構造)
これらは「AIに引用されやすいコンテンツ」を設計するための基本動作と言えます。
まとめ
GEOという概念が広まる中、「構造化データが効く」という言説には、ようやく定量的な根拠が出始めました。LightSite AI社の実証研究は、約500万件のAIボットリクエスト解析を通じて、構造化データが「AIのサイトに対する真剣度」を約14%引き上げることを示しています。
ただし、構造化データは万能薬ではありません。あくまで「AI可視性の出発点」であり、これだけでブランドが推薦されるわけではない点は冷静に押さえる必要があります。
次の一歩として、自社サイトの構造化データ実装を点検し、AIから見て曖昧な部分がないかを洗い出すところから始めてみてください。
ギャプライズでは、海外の最先端のマーテック動向を国内のマーケターに届けることをミッションのひとつとしています。今回ご紹介したLightSite AI社の研究のように、定量データに基づくGEO関連の知見が出てきた際には、引き続き本メディアでお伝えしていきます。
※本記事はLightSite AI社の記事を同社の許可を得て翻訳・編集し公開しています。
また、下記の調査レポートも併せてご参考にいただければ幸いです。
▶︎ 【ギャプライズ独自調査】生成AIと購買行動の実態調査レポート
▶︎ 【Limy社調査】生成AIと消費者の購買行動の調査レポート
今本 たかひろ/MarTechLab編集長
料理人→旅人→店舗ビジネスオーナー→BPO企業にてBtoBマーケティング支援チームのPLを4年半経験し、2023年2月よりギャプライズへジョイン。フグを捌くのもBtoBマーケティングを整えるのも根本は同じだという思考回路のため、根っこは料理人のままです。家では猫2匹の下僕。虎党でビール党。