XML sitemap és robots.txt helyes beállítása - illusztráció

XML sitemap és robots.txt helyes beállítása

Frissítve: a 2026-os Search Console és bejárási útmutatók szerint. (frissítve: )

Összefoglaló

  • Az XML sitemap felsorolja a fontos, indexelendő URL-jeidet, és segít a keresőnek gyorsan megtalálni és bejárni őket - különösen nagy vagy új oldalaknál hasznos.
  • A robots.txt nem az indexelést, hanem a bejárást irányítja: megmondja a keresőknek, mit járjanak be és mit ne - de nem alkalmas tartalom elrejtésére.
  • A kettő szerepe eltér, és a leggyakoribb, legveszélyesebb hiba, ha a robots.txt véletlenül az egész oldalt kizárja a bejárásból.

Mi az XML sitemap és a robots.txt?

Az XML sitemap egy gépi olvasású lista a weboldalad fontos, indexelendő URL-jeiről, amely segít a keresőnek gyorsan megtalálni és bejárni őket. A robots.txt ezzel szemben egy egyszerű szövegfájl az oldal gyökerében, amely megmondja a keresőknek, mely részeket járhatják be és melyeket ne. A kettő az alapvető kommunikáció a kereső és a weboldalad között, és külön-külön más feladatot lát el a keresőoptimalizálásban.

A leggyakoribb félreértés a kettő összekeverése. A sitemap felkínál: „ezek az én fontos oldalaim, érdemes megnézni őket”. A robots.txt irányít: „ide bemehetsz, ide ne”. A fenti ábra ezt az eltérő szerepet szemlélteti, és érdemes már az elején tisztázni, mert a legtöbb hiba épp ebből a keveredésből fakad.

Egyik fájl sem garantálja a jó rangsorolást - ezek nem rangsorolási eszközök, hanem bejárási és felfedezési segédek. A jó beállításuk azonban a technikai seo alapja: biztosítja, hogy a kereső a fontos tartalmakat könnyen megtalálja, és ne pazarolja az idejét a felesleges oldalakra. Egy rossz beállítás viszont akár az egész oldalad láthatóságát tönkreteheti.

A sitemap és a robots.txt eltérő szerepe

A két fájl más problémát old meg, ezért fontos külön kezelni őket. Az XML sitemap a felfedezést segíti: felsorolja azokat az URL-eket, amelyeket szeretnél, ha a kereső ismerne és bejárna. Ez főleg akkor hasznos, ha nagy az oldal, mély a szerkezet, vagy sok az új, még kevés belső linkkel rendelkező tartalom.

A robots.txt a bejárást szabályozza: megmondja, mely mappákat és fájlokat ne járjon be a kereső. Ez nem indexelési tiltás, hanem bejárási irányítás - és épp ez a leggyakoribb tévedés forrása. A robots.txt-vel kizárt oldal ugyanis bizonyos esetekben még megjelenhet a találatokban, csak leírás nélkül, ha máshonnan hivatkoznak rá.

Mikor melyiket használd, ha el akarsz rejteni egy oldalt?

Ha azt akarod, hogy egy oldal ne jelenjen meg a találatokban, ne a robots.txt-t használd, hanem a noindex meta címkét - de ehhez a keresőnek be kell tudnia járnia az oldalt. Ha a robots.txt-vel egyszerre tiltod a bejárást, a kereső a noindex jelzést sem látja. A robots.txt inkább a felesleges, ismétlődő vagy erőforrás-URL-ek bejárásának visszafogására való, nem a tartalom elrejtésére.

A sitemap felkínálja, a robots.txt irányítja a bejárást - trendábra
A kettő szerepe eltér: a sitemap felkínálja a fontos URL-eket, a robots.txt a bejárást irányítja.

Mit tartalmazzon az XML sitemap?

A jó sitemap tiszta és fegyelmezett: csak azokat az URL-eket sorolja fel, amelyeket valóban indexeltetni szeretnél. Minden más csak zaj, amely elhomályosítja a fontos oldalakat. A fenti ábra jól mutatja, hogy a sitemap értéke épp a szűrésben van.

  • Csak a 200-as státuszú, valóban létező és elérhető oldalak.
  • Csak a kanonikus URL-ek - a másolatok és paraméteres variánsok maradjanak ki.
  • Ne kerüljön bele noindex, átirányított vagy blokkolt oldal.
  • Nagy oldalnál bontsd több sitemapre, és fűzd össze egy sitemap indexben.

Az utolsó módosítás dátuma (lastmod) akkor hasznos, ha valóban pontos, mert segít a keresőnek felismerni a frissült tartalmat. A prioritás és a gyakoriság mezőknek ma már csekély a jelentőségük, ezekre nem érdemes időt fordítani. A legtöbb modern rendszer, például a WordPress egy seo bővítménnyel automatikusan, karbantartás nélkül generálja a helyes sitemapet.

A sitemapbe kerülő és onnan kihagyandó URL-ek aránya - oszlopábra
A sitemapbe csak az indexelendő, kanonikus URL-ek kerüljenek, a zaj maradjon ki.

A robots.txt felépítése és a fontos szabályok

A robots.txt egy egyszerű szövegfájl, amelynek pontosan a domain gyökerében kell lennie, a /robots.txt címen. Csoportokban dolgozik: egy User-agent sor jelöli, melyik botra vonatkozik, majd Disallow és Allow sorok mondják meg, mit szabad bejárni. A csillag (*) minden botot jelöl, így a legtöbb szabály általános.

Érdemes a sitemap helyét is feltüntetni a robots.txt-ben egy Sitemap sorral, mert így a kereső azonnal megtalálja. Ne tiltsd le a CSS- és JavaScript-fájlok bejárását, mert akkor a kereső nem tudja helyesen megjeleníteni és értékelni az oldalt. A fenti ábra a tipikus hibákat súlyosságuk szerint mutatja be.

  • A robots.txt mindig a domain gyökerében legyen, kisbetűs néven.
  • Ne blokkold a megjelenítéshez szükséges CSS- és JS-fájlokat.
  • Tüntesd fel a sitemap teljes URL-jét egy Sitemap sorral.
  • Bejárási költséget takarítasz meg a felesleges paraméteres és belső kereső URL-ek tiltásával.
A robots.txt tipikus hibái súlyosság szerint koncentrikus körökkel
A robots.txt hibái enyhétől a súlyosig terjednek: a legveszélyesebb az egész oldal kizárása.

A sitemap beadása a Search Console-ba

Miután a sitemap elkészült és elérhető, add be a Google Search Console-ba a Sitemap-ek menüpontban. Ez felgyorsítja a felfedezést, és ami még fontosabb, visszajelzést ad: látod, hány URL-t olvasott be a Google, és hány került ténylegesen indexelésre. Az eltérés a beküldött és az indexelt között sokat elárul az oldal állapotáról.

A Search Console ezen felül jelzi a sitemap hibáit is: a nem elérhető, a hibás vagy a blokkolt URL-eket. Ezeket érdemes rendszeresen átnézni, mert a tiszta sitemap hitelesebb jelzés a keresőnek. A google analytics és search console összekötése pedig segít összekapcsolni az indexelési állapotot a valós forgalommal.

A legveszélyesebb hiba: az egész oldal kizárása

A robots.txt legsúlyosabb hibája, amikor egyetlen sorral az egész oldalt kizárod a bejárásból. A Disallow: / szabály minden botnak megtiltja a teljes oldal bejárását, ami néhány nap alatt a teljes láthatóság elvesztéséhez vezethet. Ez a hiba tipikusan úgy kerül élesbe, hogy a fejlesztés alatt szándékosan letiltott oldalt élesítéskor elfelejtik feloldani.

Ezért az élesítés utáni ellenőrző lista első pontja mindig a robots.txt legyen. Nyisd meg a /robots.txt címet, és győződj meg róla, hogy nem tartalmaz Disallow: / sort a teljes oldalra. A Search Console robots.txt-tesztelője és az URL-vizsgáló eszköz megmutatja, hogy egy adott URL bejárható-e. A fenti ábra a hibák súlyossági rétegeit szemlélteti, és a teljes kizárás a legkülső, legveszélyesebb kör.

További tipikus hibák és félreértések

Gyakori tévedés a robots.txt-t indexelési eszköznek hinni. A bejárás tiltása nem garantálja, hogy az oldal ne jelenjen meg a találatokban, és a bejárás blokkolása épp azt akadályozza meg, hogy a kereső lássa a noindex jelzést. Emellett gyakori, hogy a sitemapbe blokkolt, átirányított vagy noindex oldalak is bekerülnek, ami ellentmondó jelzést ad.

Előfordul az is, hogy a sitemap URL-jei nem a kanonikus változatot tartalmazzák, vagy hogy a robots.txt véletlenül a CSS- és JS-fájlokat is tiltja, így a kereső torzan látja az oldalt. A leggyakoribb apró hiba pedig a rossz helyre tett robots.txt - ha nem a domain gyökerében van, a kereső nem is találja meg. Ezeket a hibákat egy rendszeres technikai seo audit könnyen kiszűri.

Mikor érdemes szakértőt bevonni?

Egy egyszerű, kis oldalon a sitemapet egy seo bővítmény automatikusan kezeli, a robots.txt pedig néhány soros. Ahogy azonban nő az oldal - sok paraméterrel, szűrővel és aloldallal, a helyes beállítás egyre több megfontolást kíván. Egy elrontott robots.txt vagy egy zajos sitemap komoly, mégis rejtett kárt okozhat.

Cégünk a weboldal és a webshop készítést a technikai seo alapokkal együtt szállítja, így a sitemap és a robots.txt már az induláskor helyes. A robots.txt pontos szabályaihoz és a helyes szintaxishoz a Google hivatalos, folyamatosan frissülő dokumentációja ad megbízható alapot.

Ajánlott forrás: a Google hivatalos dokumentációja a robots.txt fájlról.

Összegzés: két fájl, két külön feladat

Az XML sitemap és a robots.txt az alapvető kommunikáció a kereső és a weboldalad között, de két külön feladatot látnak el. A sitemap felkínálja a fontos, kanonikus URL-eket, hogy a kereső gyorsan megtalálja őket, különösen nagy vagy új oldalaknál. A robots.txt a bejárást irányítja, de nem alkalmas tartalom elrejtésére - arra a noindex való, feltéve, hogy a bejárás nincs tiltva.

A jó sitemap fegyelmezett: csak a 200-as státuszú, indexelendő, kanonikus URL-eket sorolja fel, a másolatok és a noindex oldalak nélkül. A robots.txt a domain gyökerében legyen, ne tiltsa a CSS- és JS-fájlokat, és tüntesse fel a sitemap helyét. A legveszélyesebb hiba a Disallow: / az egész oldalra, ezért az élesítés utáni első lépés mindig a robots.txt ellenőrzése.

Végül add be a sitemapet a Search Console-ba, és figyeld a beküldött és az indexelt URL-ek eltérését, mert ez sokat elárul az oldal állapotáról. A rendszeres ellenőrzés és a tiszta beállítás biztosítja, hogy a kereső a fontos tartalmakat könnyen megtalálja, és ne pazarolja az idejét a felesleges oldalakra. Így a két egyszerű fájl a technikai seo stabil alapját adja.

Gyakran ismételt kérdések

Mi a különbség az XML sitemap és a robots.txt között?

Az XML sitemap felsorolja a fontos, indexelendő URL-jeidet, és segít a keresőnek megtalálni őket - vagyis felkínál. A robots.txt megmondja a keresőknek, mely részeket járhatják be és melyeket ne - vagyis irányít. A kettő tehát más feladatot lát el, és a legtöbb hiba épp abból fakad, hogy összekeverik a szerepüket.

Kell egyáltalán XML sitemap egy kis weboldalnak?

Egy kis, jól belinkelt oldalnak a kereső a sitemap nélkül is megtalálja minden fontos oldalát, de a sitemap ilyenkor sem árt. Igazán akkor hasznos, ha nagy az oldal, mély a szerkezet, vagy sok az új, kevés belső linkkel rendelkező tartalom. A legtöbb rendszer, például a WordPress egy seo bővítménnyel amúgy is automatikusan generálja, így nincs vele külön munka.

Elrejthetek egy oldalt a robots.txt-vel a keresőből?

Nem, ez gyakori félreértés: a robots.txt a bejárást tiltja, nem az indexelést. Egy robots.txt-vel blokkolt oldal bizonyos esetekben még megjelenhet a találatokban, csak leírás nélkül, ha máshonnan hivatkoznak rá. Ha azt akarod, hogy egy oldal ne jelenjen meg, a noindex meta címkét használd - de ehhez a keresőnek be kell tudnia járnia az oldalt, ezért ezt ne tiltsd le egyszerre a robots.txt-ben.

Mi kerüljön bele az XML sitemapbe?

Csak a 200-as státuszú, valóban létező, indexelendő és kanonikus URL-ek. A másolatok, a paraméteres variánsok, az átirányított és a noindex oldalak maradjanak ki, mert ezek ellentmondó jelzést adnak. Nagy oldalnál érdemes több sitemapre bontani, és egy sitemap indexben összefűzni őket az átláthatóság kedvéért.

Mi a legveszélyesebb robots.txt hiba?

A legsúlyosabb hiba a Disallow: / szabály minden botra, mert ez az egész oldalt kizárja a bejárásból, és néhány nap alatt a teljes láthatóság elvesztéséhez vezethet. Ez tipikusan úgy kerül élesbe, hogy a fejlesztés alatt letiltott oldalt élesítéskor elfelejtik feloldani. Ezért az élesítés utáni első ellenőrzés mindig a /robots.txt tartalmának megnézése legyen.

Hogyan adom be a sitemapet a Google Search Console-ba?

A Search Console Sitemap-ek menüpontjában add meg a sitemaped teljes URL-jét, majd küldd be. Ezután látod, hány URL-t olvasott be a Google, és hány került ténylegesen indexelésre, valamint az esetleges hibákat is. A beküldött és az indexelt URL-ek közti eltérés sokat elárul az oldal állapotáról, ezért érdemes rendszeresen átnézni.

Kapcsolódó szolgáltatások

Varga Réka - Keresőoptimalizálási és tartalomszakértő
Szerző Varga Réka Keresőoptimalizálási és tartalomszakértő

Varga Réka keresőoptimalizálási és tartalomszakértő, tíz éve foglalkozik google seo stratégiával, tartalomfejlesztéssel és a modern AI-keresőkre (GEO) való felkészítéssel. Cégünk seo- és tartalomcsapatának vezetője, aki a technikai alapoktól a citálható tartalomig kézben tartja a teljes folyamatot.

A szerző összes cikke
Olvass tovább

További cikkek