Wyciek Yandex.ru: Anatomia wyszukiwarki i lekcje dla Google SEO w 2026

W styczniu 2023 roku świat SEO wstrzymał oddech. Wyciek 44 GB kodu źródłowego rosyjskiej wyszukiwarki Yandex (często nazywanej „rosyjskim Google”) dał badaczom bezprecedensowy wgląd w to, jak faktycznie działa nowoczesny silnik wyszukiwania. Choć od tego wydarzenia minęły 3 lata, a algorytmy ewoluowały w stronę AI, analiza 17,854 odkrytych czynników (z czego 1,922 uznano za kluczowe) wciąż stanowi fundament rozumienia inżynierii wstecznej.

Dlaczego to ważne w 2026 roku? Ponieważ inżynierowie Yandexa (wielu z nich to byli pracownicy Google) budowali swoje systemy na tych samych założeniach teoretycznych (Information Retrieval). To, co zobaczyliśmy w kodzie Yandexa, jest „szklanym modelem” tego, co dzieje się w czarnej skrzynce Google.

Behawioralny „Święty Graal”: Czynniki User Signals

Największym odkryciem wycieku było potwierdzenie, jak obsesyjnie wyszukiwarki mierzą zachowanie użytkownika. Google oficjalnie zaprzecza używaniu CTR jako bezpośredniego czynnika rankingowego, ale kod Yandexa mówi co innego.

Kluczowe metryki behawioralne w kodzie:

Dwell Time & Pogo-Sticking: Kod zawiera zmienne mierzące, jak szybko użytkownik wraca do wyników wyszukiwania (tzw. „Short Click” vs „Long Click”). Jeśli użytkownik wraca po 5 sekundach, strona otrzymuje punkty karne.
CTR jako walidator: Yandex używa współczynnika klikalności (Click-Through Rate) do walidacji trafności. Jeśli strona na pozycji 5 ma wyższy CTR niż ta na pozycji 2, algorytm MatrixNet (odpowiednik RankBrain) zamienia je miejscami.
Powracalność (Retention): Odkryto czynnik premiujący strony, na które użytkownicy wracają w ciągu miesiąca. To dowód na to, że budowanie lojalnej audiencji (Brand Loyalty) jest strategią SEO.

Jakość treści: Poza słowa kluczowe

Wyciek obalił mit, że „Content is King” w prostym rozumieniu. Treść jest królem, ale tylko wtedy, gdy jest „świeża” i „wiarygodna”.

Ciekawostki z kodu:

Wiek dokumentu: Yandex (i prawdopodobnie Google) preferuje starsze dokumenty, ale tylko jeśli są regularnie aktualizowane. Zmienna DocumentAge była ważnym sygnałem zaufania.
Proporcja treści do kodu: Strony przeładowane JavaScriptem i kodem, z małą ilością tekstu (Low Text-to-HTML Ratio), były systemowo obniżane w rankingu.
Negatywne czynniki językowe: Algorytm penalizował teksty zawierające zbyt wiele wulgaryzmów lub błędów ortograficznych, traktując to jako sygnał niskiej jakości (Low Quality Score).

Linki: PageRank wciąż żyje

W kodzie Yandexa znaleziono bezpośrednie odwołania do mechanizmu PageRank, co potwierdza tezy z poprzednich artykułów – fundamenty matematyczne się nie zmieniły.

Wiek linków: Yandex różnicuje moc linków w zależności od ich wieku. Stare linki są traktowane jako bardziej stabilne.
Tematyczność: Zmienne w kodzie sugerują, że linki z niepowiązanych tematycznie stron (nawet o wysokim PR) mają zerową lub ujemną wartość.

Zaskakujące i nietypowe czynniki

Analiza ujawniła też czynniki, o których mało kto myślał w kontekście SEO:

Ruch z Wikipedii: Yandex posiadał specyficzny czynnik promujący strony, które otrzymują ruch z Wikipedii. Sugeruje to, że linki z Wikipedii, mimo atrybutu nofollow, są potężnym sygnałem zaufania.
Host Reliability: Stabilność serwera (Uptime) jest czynnikiem rankingowym. Częste błędy 5xx powodują trwałą utratę pozycji.
Pora dnia: Kod zawierał zmienne dostosowujące rankingi w zależności od pory dnia (np. serwisy z jedzeniem wyżej w porze lunchu).

Wnioski na 2026: Jak wykorzystać tę wiedzę?

Choć Yandex to nie Google, wyciek ten jest najlepszą „mapą drogową”, jaką mamy. Potwierdza on, że w 2026 roku SEO nie polega na oszukiwaniu robota, ale na optymalizacji doświadczenia człowieka.

Strategia post-Yandex Leak:

Skup się na User Intent: Jeśli użytkownik ucieka z Twojej strony, żaden link Ci nie pomoże.
Buduj Markę: Ruch bezpośredni (Direct Traffic) i powracający użytkownicy to sygnały, których nie da się łatwo sfałszować.
Dbaj o Higienę Techniczną: Szybki serwer, czysty kod i brak błędów 4xx/5xx to podstawa, bez której algorytm nawet nie zacznie analizować Twojej treści.