XML sitemap és robots.txt helyes beállítása
Frissítve: a 2026-os Search Console és bejárási útmutatók szerint. (frissítve: )
Összefoglaló
- Az XML sitemap felsorolja a fontos, indexelendő URL-jeidet, és segít a keresőnek gyorsan megtalálni és bejárni őket - különösen nagy vagy új oldalaknál hasznos.
- A robots.txt nem az indexelést, hanem a bejárást irányítja: megmondja a keresőknek, mit járjanak be és mit ne - de nem alkalmas tartalom elrejtésére.
- A kettő szerepe eltér, és a leggyakoribb, legveszélyesebb hiba, ha a robots.txt véletlenül az egész oldalt kizárja a bejárásból.
Mi az XML sitemap és a robots.txt?
Az XML sitemap egy gépi olvasású lista a weboldalad fontos, indexelendő URL-jeiről, amely segít a keresőnek gyorsan megtalálni és bejárni őket. A robots.txt ezzel szemben egy egyszerű szövegfájl az oldal gyökerében, amely megmondja a keresőknek, mely részeket járhatják be és melyeket ne. A kettő az alapvető kommunikáció a kereső és a weboldalad között, és külön-külön más feladatot lát el a keresőoptimalizálásban.
A leggyakoribb félreértés a kettő összekeverése. A sitemap felkínál: „ezek az én fontos oldalaim, érdemes megnézni őket”. A robots.txt irányít: „ide bemehetsz, ide ne”. A fenti ábra ezt az eltérő szerepet szemlélteti, és érdemes már az elején tisztázni, mert a legtöbb hiba épp ebből a keveredésből fakad.
Egyik fájl sem garantálja a jó rangsorolást - ezek nem rangsorolási eszközök, hanem bejárási és felfedezési segédek. A jó beállításuk azonban a technikai seo alapja: biztosítja, hogy a kereső a fontos tartalmakat könnyen megtalálja, és ne pazarolja az idejét a felesleges oldalakra. Egy rossz beállítás viszont akár az egész oldalad láthatóságát tönkreteheti.
A sitemap és a robots.txt eltérő szerepe
A két fájl más problémát old meg, ezért fontos külön kezelni őket. Az XML sitemap a felfedezést segíti: felsorolja azokat az URL-eket, amelyeket szeretnél, ha a kereső ismerne és bejárna. Ez főleg akkor hasznos, ha nagy az oldal, mély a szerkezet, vagy sok az új, még kevés belső linkkel rendelkező tartalom.
A robots.txt a bejárást szabályozza: megmondja, mely mappákat és fájlokat ne járjon be a kereső. Ez nem indexelési tiltás, hanem bejárási irányítás - és épp ez a leggyakoribb tévedés forrása. A robots.txt-vel kizárt oldal ugyanis bizonyos esetekben még megjelenhet a találatokban, csak leírás nélkül, ha máshonnan hivatkoznak rá.
Mikor melyiket használd, ha el akarsz rejteni egy oldalt?
Ha azt akarod, hogy egy oldal ne jelenjen meg a találatokban, ne a robots.txt-t használd, hanem a noindex meta címkét - de ehhez a keresőnek be kell tudnia járnia az oldalt. Ha a robots.txt-vel egyszerre tiltod a bejárást, a kereső a noindex jelzést sem látja. A robots.txt inkább a felesleges, ismétlődő vagy erőforrás-URL-ek bejárásának visszafogására való, nem a tartalom elrejtésére.

Mit tartalmazzon az XML sitemap?
A jó sitemap tiszta és fegyelmezett: csak azokat az URL-eket sorolja fel, amelyeket valóban indexeltetni szeretnél. Minden más csak zaj, amely elhomályosítja a fontos oldalakat. A fenti ábra jól mutatja, hogy a sitemap értéke épp a szűrésben van.
- Csak a 200-as státuszú, valóban létező és elérhető oldalak.
- Csak a kanonikus URL-ek - a másolatok és paraméteres variánsok maradjanak ki.
- Ne kerüljön bele noindex, átirányított vagy blokkolt oldal.
- Nagy oldalnál bontsd több sitemapre, és fűzd össze egy sitemap indexben.
Az utolsó módosítás dátuma (lastmod) akkor hasznos, ha valóban pontos, mert segít a keresőnek felismerni a frissült tartalmat. A prioritás és a gyakoriság mezőknek ma már csekély a jelentőségük, ezekre nem érdemes időt fordítani. A legtöbb modern rendszer, például a WordPress egy seo bővítménnyel automatikusan, karbantartás nélkül generálja a helyes sitemapet.

A robots.txt felépítése és a fontos szabályok
A robots.txt egy egyszerű szövegfájl, amelynek pontosan a domain gyökerében kell lennie, a /robots.txt címen. Csoportokban dolgozik: egy User-agent sor jelöli, melyik botra vonatkozik, majd Disallow és Allow sorok mondják meg, mit szabad bejárni. A csillag (*) minden botot jelöl, így a legtöbb szabály általános.
Érdemes a sitemap helyét is feltüntetni a robots.txt-ben egy Sitemap sorral, mert így a kereső azonnal megtalálja. Ne tiltsd le a CSS- és JavaScript-fájlok bejárását, mert akkor a kereső nem tudja helyesen megjeleníteni és értékelni az oldalt. A fenti ábra a tipikus hibákat súlyosságuk szerint mutatja be.
- A robots.txt mindig a domain gyökerében legyen, kisbetűs néven.
- Ne blokkold a megjelenítéshez szükséges CSS- és JS-fájlokat.
- Tüntesd fel a sitemap teljes URL-jét egy Sitemap sorral.
- Bejárási költséget takarítasz meg a felesleges paraméteres és belső kereső URL-ek tiltásával.

A sitemap beadása a Search Console-ba
Miután a sitemap elkészült és elérhető, add be a Google Search Console-ba a Sitemap-ek menüpontban. Ez felgyorsítja a felfedezést, és ami még fontosabb, visszajelzést ad: látod, hány URL-t olvasott be a Google, és hány került ténylegesen indexelésre. Az eltérés a beküldött és az indexelt között sokat elárul az oldal állapotáról.
A Search Console ezen felül jelzi a sitemap hibáit is: a nem elérhető, a hibás vagy a blokkolt URL-eket. Ezeket érdemes rendszeresen átnézni, mert a tiszta sitemap hitelesebb jelzés a keresőnek. A google analytics és search console összekötése pedig segít összekapcsolni az indexelési állapotot a valós forgalommal.
A legveszélyesebb hiba: az egész oldal kizárása
A robots.txt legsúlyosabb hibája, amikor egyetlen sorral az egész oldalt kizárod a bejárásból. A Disallow: / szabály minden botnak megtiltja a teljes oldal bejárását, ami néhány nap alatt a teljes láthatóság elvesztéséhez vezethet. Ez a hiba tipikusan úgy kerül élesbe, hogy a fejlesztés alatt szándékosan letiltott oldalt élesítéskor elfelejtik feloldani.
Ezért az élesítés utáni ellenőrző lista első pontja mindig a robots.txt legyen. Nyisd meg a /robots.txt címet, és győződj meg róla, hogy nem tartalmaz Disallow: / sort a teljes oldalra. A Search Console robots.txt-tesztelője és az URL-vizsgáló eszköz megmutatja, hogy egy adott URL bejárható-e. A fenti ábra a hibák súlyossági rétegeit szemlélteti, és a teljes kizárás a legkülső, legveszélyesebb kör.
További tipikus hibák és félreértések
Gyakori tévedés a robots.txt-t indexelési eszköznek hinni. A bejárás tiltása nem garantálja, hogy az oldal ne jelenjen meg a találatokban, és a bejárás blokkolása épp azt akadályozza meg, hogy a kereső lássa a noindex jelzést. Emellett gyakori, hogy a sitemapbe blokkolt, átirányított vagy noindex oldalak is bekerülnek, ami ellentmondó jelzést ad.
Előfordul az is, hogy a sitemap URL-jei nem a kanonikus változatot tartalmazzák, vagy hogy a robots.txt véletlenül a CSS- és JS-fájlokat is tiltja, így a kereső torzan látja az oldalt. A leggyakoribb apró hiba pedig a rossz helyre tett robots.txt - ha nem a domain gyökerében van, a kereső nem is találja meg. Ezeket a hibákat egy rendszeres technikai seo audit könnyen kiszűri.
Mikor érdemes szakértőt bevonni?
Egy egyszerű, kis oldalon a sitemapet egy seo bővítmény automatikusan kezeli, a robots.txt pedig néhány soros. Ahogy azonban nő az oldal - sok paraméterrel, szűrővel és aloldallal, a helyes beállítás egyre több megfontolást kíván. Egy elrontott robots.txt vagy egy zajos sitemap komoly, mégis rejtett kárt okozhat.
Cégünk a weboldal és a webshop készítést a technikai seo alapokkal együtt szállítja, így a sitemap és a robots.txt már az induláskor helyes. A robots.txt pontos szabályaihoz és a helyes szintaxishoz a Google hivatalos, folyamatosan frissülő dokumentációja ad megbízható alapot.
Ajánlott forrás: a Google hivatalos dokumentációja a robots.txt fájlról.
Összegzés: két fájl, két külön feladat
Az XML sitemap és a robots.txt az alapvető kommunikáció a kereső és a weboldalad között, de két külön feladatot látnak el. A sitemap felkínálja a fontos, kanonikus URL-eket, hogy a kereső gyorsan megtalálja őket, különösen nagy vagy új oldalaknál. A robots.txt a bejárást irányítja, de nem alkalmas tartalom elrejtésére - arra a noindex való, feltéve, hogy a bejárás nincs tiltva.
A jó sitemap fegyelmezett: csak a 200-as státuszú, indexelendő, kanonikus URL-eket sorolja fel, a másolatok és a noindex oldalak nélkül. A robots.txt a domain gyökerében legyen, ne tiltsa a CSS- és JS-fájlokat, és tüntesse fel a sitemap helyét. A legveszélyesebb hiba a Disallow: / az egész oldalra, ezért az élesítés utáni első lépés mindig a robots.txt ellenőrzése.
Végül add be a sitemapet a Search Console-ba, és figyeld a beküldött és az indexelt URL-ek eltérését, mert ez sokat elárul az oldal állapotáról. A rendszeres ellenőrzés és a tiszta beállítás biztosítja, hogy a kereső a fontos tartalmakat könnyen megtalálja, és ne pazarolja az idejét a felesleges oldalakra. Így a két egyszerű fájl a technikai seo stabil alapját adja.
Gyakran ismételt kérdések
Mi a különbség az XML sitemap és a robots.txt között?
Az XML sitemap felsorolja a fontos, indexelendő URL-jeidet, és segít a keresőnek megtalálni őket - vagyis felkínál. A robots.txt megmondja a keresőknek, mely részeket járhatják be és melyeket ne - vagyis irányít. A kettő tehát más feladatot lát el, és a legtöbb hiba épp abból fakad, hogy összekeverik a szerepüket.
Kell egyáltalán XML sitemap egy kis weboldalnak?
Egy kis, jól belinkelt oldalnak a kereső a sitemap nélkül is megtalálja minden fontos oldalát, de a sitemap ilyenkor sem árt. Igazán akkor hasznos, ha nagy az oldal, mély a szerkezet, vagy sok az új, kevés belső linkkel rendelkező tartalom. A legtöbb rendszer, például a WordPress egy seo bővítménnyel amúgy is automatikusan generálja, így nincs vele külön munka.
Elrejthetek egy oldalt a robots.txt-vel a keresőből?
Nem, ez gyakori félreértés: a robots.txt a bejárást tiltja, nem az indexelést. Egy robots.txt-vel blokkolt oldal bizonyos esetekben még megjelenhet a találatokban, csak leírás nélkül, ha máshonnan hivatkoznak rá. Ha azt akarod, hogy egy oldal ne jelenjen meg, a noindex meta címkét használd - de ehhez a keresőnek be kell tudnia járnia az oldalt, ezért ezt ne tiltsd le egyszerre a robots.txt-ben.
Mi kerüljön bele az XML sitemapbe?
Csak a 200-as státuszú, valóban létező, indexelendő és kanonikus URL-ek. A másolatok, a paraméteres variánsok, az átirányított és a noindex oldalak maradjanak ki, mert ezek ellentmondó jelzést adnak. Nagy oldalnál érdemes több sitemapre bontani, és egy sitemap indexben összefűzni őket az átláthatóság kedvéért.
Mi a legveszélyesebb robots.txt hiba?
A legsúlyosabb hiba a Disallow: / szabály minden botra, mert ez az egész oldalt kizárja a bejárásból, és néhány nap alatt a teljes láthatóság elvesztéséhez vezethet. Ez tipikusan úgy kerül élesbe, hogy a fejlesztés alatt letiltott oldalt élesítéskor elfelejtik feloldani. Ezért az élesítés utáni első ellenőrzés mindig a /robots.txt tartalmának megnézése legyen.
Hogyan adom be a sitemapet a Google Search Console-ba?
A Search Console Sitemap-ek menüpontjában add meg a sitemaped teljes URL-jét, majd küldd be. Ezután látod, hány URL-t olvasott be a Google, és hány került ténylegesen indexelésre, valamint az esetleges hibákat is. A beküldött és az indexelt URL-ek közti eltérés sokat elárul az oldal állapotáról, ezért érdemes rendszeresen átnézni.