Spis treści

Strona może być na pozycji 1 w Google i jednocześnie być niewidoczna w ChatGPT. Nie dlatego, że AI ignoruje ranking, tylko dlatego, że AI stosuje inne kryteria i dodatkowe warstwy oceny.

Najpierw buduje pulę potencjalnych źródeł przez wiele równoległych zapytań, potem je rankuje, a na końcu wybiera konkretne fragmenty, które najlepiej wspierają odpowiedź. Ten mechanizm nazywa się RAG – Retrieval-Augmented Generation.

Dobre SEO pomaga wejść do tej puli, ale to struktura treści decyduje, czy AI będzie umiała tę treść wykorzystać. Oba warunki są konieczne.

W tym artykule pokazujemy, jak działa ten proces krok po kroku, czyli m.in. czym jest RAG, jak działa retrieval, czym różni się indeks wektorowy od indeksu Google, dlaczego modele AI wybierają konkretne fragmenty treści i jak sprawdzić, czy Twoja strona w ogóle trafia do potoku wyszukiwania AI.

Dlaczego wyszukiwanie AI działa inaczej niż Google?

Google układa listę wyników, oceniając dokumenty na podstawie wielu sygnałów: trafności, jakości, linków, intencji, świeżości i kontekstu użytkownika. Jeden dokument, jedna pozycja, jedna odpowiedź na zapytanie.

AI search działa inaczej, choć najczęściej nie w oderwaniu od rankingu. Zamiast jednego zapytania i jednej listy wyników, system rozkłada pytanie użytkownika na wiele równoległych podzapytań pokrywających różne aspekty tematu. Dla każdego podzapytania buduje osobną pulę potencjalnych źródeł, rankuje je i rerankuje, a dopiero potem wybiera konkretne fragmenty, które najlepiej wspierają odpowiedź. Ten mechanizm to query fan-out – opisujemy go szczegółowo w artykule [Google AI Overviews i AI Mode – czym są, czym się różnią i dokąd zmierzają].

Pełny proces wygląda następująco:

query fan-out → retrieval z indeksu → ranking i reranking źródeł → ekstrakcja fragmentów → synteza odpowiedzi

Google wprost pisze, że AI Overviews i AI Mode są zakorzenione w systemach jakości i rankingowych Google. Strona musi być zaindeksowana i kwalifikować się do pokazania w Google Search ze snippetem, zanim w ogóle zostanie wzięta pod uwagę jako potencjalne źródło dla AI.

Widoczność w AI nie jest więc prostym odpowiednikiem pozycji w Google, ale pozycja organiczna nadal ma znaczenie jako filtr wejściowy. Wysoka pozycja zwiększa szansę wejścia do puli potencjalnych źródeł. O cytowaniu decyduje następnie to, czy treść zawiera samodzielne, jasne i łatwe do wyciągnięcia fragmenty.

W naszej praktyce widzimy to regularnie. Klienci z silnym rankingiem organicznym są zaskoczeni, gdy sprawdzamy ich widoczność w ChatGPT i Perplexity, i często jest zerowa. Wysoka pozycja nie gwarantuje cytowania, ale jej brak prawie zawsze oznacza, że strona nie wchodzi nawet do puli potencjalnych źródeł. Najczęściej jednak wystarczy uzyskanie pozycji na mniej konkurencyjne frazy.

Co to jest RAG – Retrieval-Augmented Generation?

RAG to skrót od Retrieval-Augmented Generation, czyli generowanie wspomagane wyszukiwaniem. Termin pochodzi z artykułu naukowego Patricka Lewisa i współpracowników z 2020 roku i opisuje architekturę łączącą dwie rzeczy: wyszukiwanie informacji z zewnętrznego źródła i generowanie odpowiedzi przez model językowy.

Bez RAG model językowy odpowiada wyłącznie na podstawie danych treningowych – wie tylko to, czego nauczył się podczas treningu, do daty granicznej. Z RAG model najpierw sięga do zewnętrznego źródła, pobiera stamtąd fragmenty i dopiero na ich podstawie generuje odpowiedź.

Jak działa RAG?

Mechanizm działania RAG składa się z trzech kroków:

1. Retrieval – jak AI szuka treści?

Użytkownik zadaje pytanie. System nie przekazuje go od razu do modelu językowego – najpierw przekształca pytanie w matematyczną reprezentację znaczenia i przeszukuje indeks w poszukiwaniu źródeł o podobnym znaczeniu. Nie szuka jednego najlepszego dokumentu. Przez query fan-out generuje wiele podzapytań i dla każdego buduje osobną listę potencjalnych źródeł. Pytanie „jak poprawić widoczność marki w ChatGPT” i pytanie „co zrobić, żeby AI mnie cytowało” trafią na te same źródła, bo znaczenie jest podobne, mimo że słowa są inne.

2. Augmentation – jak AI ocenia trafność źródeł i fragmentów

Z indeksu wraca pula potencjalnych źródeł lub fragmentów – zależnie od implementacji systemu. W systemach opartych na indeksie Google, takich jak AI Overviews i AI Mode, strona jako całość przeszła już wcześniej przez ranking i musi kwalifikować się do pokazania w wynikach wyszukiwania.

W systemach z czystym RAG, takich jak Perplexity, dokumenty są dzielone na fragmenty przed indeksowaniem i retrieval operuje bezpośrednio na tych fragmentach. W obu przypadkach na tym etapie system ocenia, które fragmenty najlepiej odpowiadają na pytanie – te zawierające bezpośrednią odpowiedź, napisane jasno i zawierające weryfikowalne dane mają wyższy priorytet. Fragmenty ogólne, trudne do wyodrębnienia lub pozbawione konkretnych danych wypadają.

Badanie Surfer SEO na 30 000 stronach pokazało, że strony odpowiadające na pytanie w pierwszym akapicie lub pierwszej widocznej sekcji są wybierane przez AI Overviews znacznie częściej niż strony budujące kontekst przed odpowiedzią.

3. Generation – jak AI buduje odpowiedź z fragmentów

Model językowy otrzymuje wybrane fragmenty jako kontekst i generuje na ich podstawie spójną odpowiedź. Model cytuje źródła, z których korzystał, stąd linki w odpowiedziach Perplexity czy ChatGPT Search.

Jest tu jedna nieoczywista rzecz warta zapamiętania. Model może zsyntetyzować odpowiedź z fragmentów 3 różnych stron i żadnej nie zacytować wprost, bo żadna nie zawierała wystarczająco samodzielnego i łatwego do wyciągnięcia fragmentu. Cytowanie nie oznacza, że fragment był najlepszy merytorycznie. Oznacza, że był najłatwiejszy do wyciągnięcia jako gotowa odpowiedź. Przez lata pisaliśmy, żeby przekonać człowieka, który czyta od początku do końca. AI nie czyta w ten sposób – rankuje źródło, a potem skanuje i wyciąga fragmenty.

Jeśli fragment nie przeszedł etapu retrieval i rerankingu źródła, model nigdy go nie zobaczy. Nie ma znaczenia, jak dobry jest ten jeden akapit, jeśli całe źródło nie weszło do puli potencjalnych źródeł.

Czym jest indeks wektorowy i czym różni się od klasycznego indeksu wyszukiwarki?

Google używa indeksu odwróconego – struktury mapującej słowa kluczowe na dokumenty. Gdy wpisujesz zapytanie, Google szuka dokumentów zawierających te słowa, a następnie rankuje je według setek sygnałów. To mechanizm zoptymalizowany pod dopasowanie słów.

Systemy AI używają indeksu wektorowego. Zamiast szukać słów, system szuka znaczenia.

Wyobraź sobie, że każde słowo i zdanie ma swoje współrzędne w przestrzeni o tysiącach wymiarów. Słowa o podobnym znaczeniu mają zbliżone współrzędne – „agencja SEO”, „firma pozycjonująca” i „specjalista od wyszukiwarek” leżą blisko siebie w tej przestrzeni, mimo że nie mają ani jednego wspólnego słowa. „Kot” leży daleko od „pozycjonowania” – modele językowe rzadko widzą te słowa w podobnych kontekstach.

Bliskość między pytaniem a fragmentem treści jest obliczana matematycznie. Jedną z popularnych metod jest podobieństwo cosinusowe, które mierzy kąt między dwoma wektorami w tej przestrzeni. Im mniejszy kąt, tym bardziej zbliżone znaczenie. Wynik mieści się między 0 (brak podobieństwa) a 1 (identyczne znaczenie). Dla przykładu: „audyt widoczności AI” i „sprawdzenie obecności marki w ChatGPT” mogą mieć wynik 0,87, choć nie mają wspólnych słów. „Audyt widoczności AI” i „przepis na zupę” – wynik poniżej 0,1.

Pod spodem działa to tak: każdy fragment treści jest przekształcany w ciąg liczb reprezentujący jego semantyczne znaczenie, tzw. embedding. Gdy użytkownik zadaje pytanie, pytanie też jest przekształcane w taki ciąg i system szuka fragmentów, których embedding jest matematycznie najbliższy embeddingowi pytania.

Kąt między wektorami jako przykład embeddingu

To wyjaśnia, dlaczego ranking w Google i cytowanie w AI nie są tym samym kanałem widoczności. Badanie Ahrefs na 15 000 promptów pokazało, że tylko około 12% cytowań w asystentach AI pokrywało się z wynikami Google top 10 dla tego samego promptu, a około 80% cytowanych URL-i nie rankowało w Google dla oryginalnego zapytania (Ahrefs, 2025).

Większość nowoczesnych systemów AI używa indeksu hybrydowego – kombinacji wektorowego i odwróconego. Czysty indeks wektorowy ma słabości przy zapytaniach o nazwy własne i terminy branżowe, gdzie dopasowanie słów jest ważniejsze od podobieństwa semantycznego. Keyword matching nie jest więc martwy. Jest jednym z kilku sygnałów, a nie jedynym.

Jak AI ocenia, który fragment zacytować?

Ranking źródła to warunek wejścia do puli potencjalnych źródeł. Ocena fragmentu to warunek cytowania. To dwa osobne etapy i oba mają znaczenie.

Model ocenia fragmenty według kilku sygnałów, które możesz kontrolować.

Pozycja w dokumencie – 44,2% cytowań LLM pochodzi z pierwszych 30% treści strony (Seer Interactive). Fragmenty odpowiadające na pytanie wcześniej w dokumencie mają przewagę. Fragmenty z początku dokumentu częściej zawierają bezpośrednią odpowiedź, jeśli treść jest napisana answer-first.

Samodzielność fragmentu – AI dzieli treść na semantycznie zamknięte kawałki. Sekcja wymagająca kontekstu z poprzednich sekcji, żeby mieć sens, jest słabym materiałem do cytowania. Sekcja, zrozumiała jako samodzielna całość, wygrywa. Badanie Siftly pokazuje, że treści z niezależnymi semantycznie sekcjami są cytowane o 65% częściej niż treści ze ściśle powiązanymi akapitami.

Gęstość faktów – fragmenty zawierające liczby, daty, nazwane encje i przypisane źródła są oceniane jako bardziej wiarygodne. Akapit który mówi „badania pokazują że…” przegrywa z akapitem który mówi „analiza SE Ranking na 129 000 domen z listopada 2025 wykazała że…”.

Zrównoważona perspektywa – treść przyznająca ograniczenia i pokazująca różne strony zagadnienia jest oceniana jako bardziej godna zaufania niż treść jednostronnie pozytywna. Badanie Profound pokazuje, że treści z perspektywą pozytywną i negatywną są cytowane niemal równie często – odpowiednio 5% i 6,1%, podczas gdy treść jednostronna wypada niżej.

Sprawdziliśmy to empirycznie i ta sama strona cytowana przez AI na jedno pytanie jest całkowicie pomijana przy podobnym, bo model ocenił inną sekcję jako trafniejszą dla drugiego pytania. SEO i GEO są warstwami, a nie alternatywami. SEO pomaga wejść do puli potencjalnych źródeł. Struktura treści decyduje, czy AI będzie umiało tę treść wykorzystać po wejściu do puli.

Jeśli chcesz najpierw uporządkować różnicę między SEO a GEO, zobacz artykuł Co to jest pozycjonowanie w AI i czym różni się od SEO?

Strona nieznajdująca się na pierwszej pozycji w klasycznym SERP może zostać wykorzystana w odpowiedzi AI, jeśli trafi do puli potencjalnych źródeł przez query fan-out i zawiera fragment łatwy do wyciągnięcia. Ranking nadal działa jako filtr wejściowy. Jeśli źródło nie pojawia się dla żadnego wariantu zapytania w fan-out, model może go nigdy nie zobaczyć.

Jak pisać sekcje pod ekstrakcję omawia osobny artykuł: [BLUF i answer-first – jak pisać treści, które AI cytuje].

Jak sprawdzić czy Twoja treść trafia do potoku retrieval?

Zrozumienie mechanizmu RAG jest użyteczne tylko wtedy, gdy możesz sprawdzić, czy działa dla Twojej strony. Stosujemy 3 testy, które można wykonać bez żadnych płatnych narzędzi.

Test 1 – czy bot w ogóle widział stronę

Otwórz robots.txt swojej domeny i sprawdź, czy GPTBot, ClaudeBot i PerplexityBot nie są zablokowane. Następnie otwórz stronę przez Ctrl+U (View Source) i sprawdź, czy treść jest widoczna w surowym HTML. Jeśli robots.txt blokuje bota lub treść ładuje się przez JavaScript – potok retrieval kończy się zanim się zaczął. Żadna optymalizacja treści tego nie naprawi.

Test 2 – czy fragment jest w indeksie Perplexity

Weź 3 zdania z sekcji artykułu – najlepiej z pierwszego akapitu pod nagłówkiem H2 – i wklej je dosłownie do Perplexity jako pytanie. Konkurencja dla tak specyficznego zapytania jest praktycznie zerowa, więc jeśli Perplexity cytuje tę stronę – fragment jest w indeksie i model go rozpoznaje. Jeśli strona się nie pojawia mimo takiego zapytania, to problem leży w dostępie bota lub renderingu.

Perplexity sprawdza się tu lepiej niż ChatGPT, bo zawsze używa retrieval w czasie rzeczywistym. ChatGPT bez trybu web search odpowiada z danych treningowych – wynik nic nie powie o tym, czy treść jest w indeksie.

Test 3 – czy sekcja jest samodzielną odpowiedzią

Dla każdego nagłówka H2 sprawdź, czy pierwszy akapit pod nim zawiera bezpośrednią odpowiedź na pytanie postawione w nagłówku bez odwoływania się do poprzednich sekcji. Jeśli akapit zaczyna się od „jak wspomnieliśmy wcześniej” lub „w kontekście powyższego”, to sygnał, że fragment nie jest samodzielny i model może go pominąć w retrieval.

W naszej praktyce ten trzeci test najczęściej ujawnia problem: strony z poprawnym dostępem botów i poprawnym renderingiem, ale bez cytowań zazwyczaj mają sekcje zrozumiałe tylko w kontekście całości artykułu. Przesunięcie odpowiedzi na początek każdej sekcji – bez żadnych innych zmian – wystarcza, żeby strona zaczęła pojawiać się w Perplexity w ciągu 2-3 tygodni od ponownego zaindeksowania.

Podobieństwo semantyczne między pytaniem a fragmentem jest obliczane matematycznie przez metody takie jak podobieństwo cosinusowe opisane wyżej. To uproszczony obraz rzeczywistego mechanizmu łączącego kilka metod oceny jednocześnie, ale wniosek praktyczny pozostaje ten sam: treść jest oceniana przez znaczenie, nie przez samo dopasowanie słów kluczowych.

Które systemy AI używają RAG, a które odpowiadają z danych treningowych?

To pytanie ma bezpośrednie konsekwencje dla tego, co optymalizujesz i jest często pomijane w dyskusjach o GEO.

system	mechanizm	indeks	konsekwencja dla optymalizatora
Perplexity	RAG na każdym zapytaniu	własny + Bing	zawsze przeszukuje internet, PerplexityBot musi mieć dostęp do strony
ChatGPT (bez web search)	dane treningowe	brak retrieval	odpowiada z tego czego się nauczył, nie widzi nowej treści
ChatGPT Search	hybrydowy, dane treningowe + RAG	Bing	retrieval aktywowany selektywnie, gdy model potrzebuje aktualnych źródeł
Google AI Overviews	RAG + ranking Google	indeks Google	silna korelacja z SEO, GoogleBot musi mieć dostęp
Google AI Mode	RAG + ranking Google	indeks Google	sięga szerzej niż AI Overviews, tylko 14% cytowań z top 10
Gemini (standalone)	RAG	indeks Google	zbliżony mechanizm do AI Overviews
Claude (web search)	RAG	Brave Search	web search jako opcjonalne narzędzie, nie domyślny tryb

ChatGPT bez trybu web search odpowiada z danych treningowych. Nowa treść opublikowana po dacie granicznej modelu nie pojawi się w odpowiedziach standardowego ChatGPT, niezależnie od tego, jak dobrze jest zoptymalizowana. Dopiero ChatGPT Search, czyli tryb z ikoną globusa, używa retrieval przez indeks Bing.

Perplexity jest pod tym względem najbardziej przewidywalny dla optymalizatora: zawsze używa RAG, zawsze przeszukuje internet, zawsze cytuje źródła z linkami. Zablokowanie PerplexityBot w robots.txt oznacza wypadnięcie z tego systemu całkowicie.

Dane w tabeli odzwierciedlają stan na maj 2026 – mechanizmy poszczególnych platform zmieniają się wraz z aktualizacjami modeli.

Mechanizmy pozyskiwania wiedzy przez duże modele językowe

Co mechanizm RAG oznacza dla Twojej strony – 5 konsekwencji praktycznych

Kiedy analizujemy, dlaczego konkretna strona nie pojawia się w cytowaniach AI, zawsze przechodzimy przez ten sam proces w tej samej kolejności: najpierw dostęp bota, potem rendering, potem struktura treści. W większości przypadków problem jest rozwiązany, zanim dotrzemy do trzeciego kroku, bo albo bot nie miał dostępu, albo treść była niewidoczna w HTML. Optymalizacja treści bez sprawdzenia tych dwóch warstw to strata czasu.

Jeżeli chcesz sprawdzić techniczne blokady widoczności w AI, punktem wyjścia jest audyt widoczności marki w AI.

1. bot AI musi mieć dostęp do strony zanim cokolwiek innego ma znaczenie

Potok retrieval działa tylko na treści, które boty AI mogły zaindeksować. Zablokowany GPTBot lub PerplexityBot to koniec procesu, zanim się zaczął. → [Jak sprawdzić czy boty AI mają dostęp do Twojej strony]

2. treść musi być widoczna w surowym HTML

Indeks wektorowy jest budowany z treści, którą bot widzi podczas crawlu. Jeśli treść ładuje się przez JavaScript po stronie przeglądarki, bot widzi pustą stronę i nie ma czego zaindeksować. → [JavaScript a widoczność w AI]

3. każda sekcja musi być samodzielną odpowiedzią na jedno pytanie

RAG ocenia fragmenty, nie tylko strony. Sekcja wymagająca kontekstu z poprzednich sekcji, żeby mieć sens, odpada w retrieval, nawet jeśli całe źródło przeszło ranking. → [BLUF i answer-first – jak pisać treści które AI cytuje]

4. wiarygodność źródła wpływa na priorytet w rankingu potencjalnych źródeł

Model podczas oceny źródeł uwzględnia sygnały wiarygodności domeny i autora: credentials, schema markup, oryginalne dane. Nie jest to DA w rozumieniu SEO, ale działa jako sygnał jakości na etapie rankingu źródeł. → [E-E-A-T w erze AI Search]

5. różne platformy budują indeksy z różnych źródeł

Optymalizacja pod Google AI Overviews nie przekłada się automatycznie na widoczność w Perplexity ani w ChatGPT Search. Każda platforma ma własny indeks, własny mechanizm retrieval i własne kryteria rankingu źródeł. → [Jak mierzyć widoczność marki w AI]

FAQ

Co to jest RAG w prostych słowach?

RAG to mechanizm, który pozwala systemowi AI sięgnąć do zewnętrznego źródła treści zamiast odpowiadać wyłącznie z tego, czego nauczył się podczas treningu. System najpierw rankuje potencjalne źródła, potem wyciąga z nich fragmenty, a model językowy generuje na ich podstawie odpowiedź. ChatGPT Search | hybrydowy, dane treningowe + RAG | Bing | retrieval aktywowany selektywnie, gdy model potrzebuje aktualnych źródeł

Czy RAG używa Google do wyszukiwania?

Zależy od systemu. Google AI Overviews i Gemini używają indeksu Google. ChatGPT Search i Claude w trybie web search używają odpowiednio Binga i Brave Search. Perplexity używa własnego crawlera uzupełnianego Bingiem. Żaden z głównych systemów nie odpytuje Google tak jak użytkownik wpisujący zapytanie w wyszukiwarkę – systemy Google korzystają jednak z własnego indeksu i własnych sygnałów rankingowych.

Dlaczego moja strona rankuje w Google, ale nie pojawia się w ChatGPT?

Powody mogą być trzy. GPTBot jest zablokowany w robots.txt lub przez ustawienia CDN – strona nie weszła do indeksu ChatGPT. Treść ładuje się przez JavaScript – bot widzi pustą stronę. ChatGPT bez trybu web search odpowiada z danych treningowych – jeśli strona jest nowa lub nie była zaindeksowana przed datą graniczną modelu, nie pojawi się w standardowych odpowiedziach.

Czy długość artykułu ma znaczenie dla RAG?

Długość całego artykułu ma mniejsze znaczenie niż struktura poszczególnych sekcji. Model szuka fragmentu, który odpowiada na pytanie – fragment za krótki nie daje kontekstu, fragment za długi utrudnia wyciągnięcie odpowiedzi. Jak pisać sekcje pod ekstrakcję omawia artykuł [BLUF i answer-first – jak pisać treści, które AI cytuje].

Jak sprawdzić, czy moja treść trafia do potoku retrieval?

Trzy testy opisane wyżej: sprawdzenie robots.txt i renderingu, test fragmentu w Perplexity i audyt samodzielności sekcji. Perplexity sprawdza się tu najlepiej, bo zawsze używa retrieval w czasie rzeczywistym i zawsze cytuje źródła z linkami.

Czy artykuł był pomocny?

Oceń nasz artykuł, to wiele dla nas znaczy!

(4.82/5), 17 głosów

Porozmawiajmy!

Piotr Starzyński

Witam serdecznie! Mam na imię Piotr Starzyński i miło mi Cię spotkać w branży pozycjonowania. W SEO pracuję oficjalnie od 2006 roku, zaś analityką zajmuję się od kilku lat. Mam na koncie około 400 wdrożeń analityki dla stron klientów, setki projektów SEO oraz kilkadziesiąt projektów analityki dla aplikacji mobilnych. W Up&More odpowiadam za pracę zespołu Search Engine Optimization oraz Analityki internetowej. Jeśli masz ochotę współpracować ze mną, zapraszam Cię do kontaktu!

Jak działa wyszukiwanie AI? RAG, retrieval i indeksy wektorowe