A robots.txt fájl már közel 30 éves múltra tekint vissza, mégis sokan nem tudják, hogyan kell helyesen használni, ami hatalmas biztonsági kockázatot rejt. De mi is az robots.txt, hogyan néz ki és miként hozható létre? Miért van rá szükség és mi a szerepe a keresőoptimalizálásban? Milyen hibákat követhetünk el a robots.txt körül? Máris mutatom!

Mi is az a robots.txt?

Van egy kiváló film, a címe „Tizenhárom nap”, és az a kubai rakétaválságot dolgozza fel. Az egyik ikonikus jelenetben Robert McNamara akkori védelmi miniszter épp azt magyarázza el a mindent csak a háború szemüvegén keresztül látó katonai vezetőknek, hogy mi is valójában a blokád Kuba körül.

Ahogy mondja: „Ez itt egy nyelv, egy új szókincs, amit még nem ismer a világ. Itt Kennedy elnök beszélget Hruscsov első titkárral!”

Ha maradunk e szórakoztató párhuzamnál, akkor a mi esetünkben a robots.txt fájl az a kommunikációs eszköz, amellyel a webmesterek beszélgethetnek a keresőmotorokkal. Ennek segítségével tájékoztathatják a feltérképezést végző robotokat, hogy azok mely oldalakat és fájlokat kérhetik le az adott webhelyről, és melyiket nem.

Egy honlaphoz egy darab robots.txt fájl tartozik, és az a weboldal gyökérkönyvtárában található. Az esetek többségében külön kell létrehozni, de van olyan tartalomkezelő, ami automatikusan megcsinálja ezt helyettünk, például a WordPress.

A robots.txt fájl elemei és működése

A robots.txt egy vagy több két soros blokkból épül fel:

az első sor mindig egy User-agentet ad meg, ami a keresőrobot neve
a második sor pedig a direktíva, ami lehet disallow és allow, melyhez egy bizonyos URL párosul és az indexálásra vonatkozik

A robots.txt-t UNIX formátumban kell létrehozni, és az valahogy így néz ki:

User-agent: Googlebot
Disallow: /dashboard/

A robots.txt fájl a következő elemeket tartalmazza:

User-agent – A user-agent megadásával közölheti egy webmester, hogy melyik keresőmotor robotjaihoz szól (pl. Googlebot, Bing). Akár más és más instrukciókat is adhatnak az eltérő robotoknak. Például megengedheted, hogy a Google robotja (user-agent: Googlebot) feltérképezze webhelyedet, de kitilthatod a Bing keresőmotor (user-agent: Bingbot) robotját. A * jel alkalmazása azt jelenti, hogy az azt követő kizáró utasítás mindegyik keresőmotornak szól.
Disallow – A disallow parancs a leggyakoribb kizárási protokoll a robots.txt fájlokban. Megtiltja a robotoknak, hogy elérjék, és feltérképezzék egy webhely bizonyos oldalát, vagy oldalait. Ez azt jelenti, hogy többnyire elérhetők a megfelelő URL címen keresztül, de a keresési találatok között nem fognak szerepelni. Nem kell megijedni tőle, hatása az oldal vagy aloldal tényleges láthatóságára nem vonatkozik: egy tiltás alkalmazásával nem távolíthatsz el tartalmakat a weboldalról, ez az információ csak a keresőrobotoknak szól.
Allow – Az allow parancs engedélyt ad a robotoknak, hogy elérjenek egy bizonyos oldalt, vagy alkönyvtárat.
Crawl-delay – A crawl-delay paranccsal a webmester megadhatja, hogy egy robot mennyi időt várjon két lekérdezés között. Ez segít megakadályozni, hogy egy keresőmotor robotja túlterhelje a webhely szerverét.
Sitemap – Az oldaltérkép egy XML kiterjesztésű fájl a szerveren, ami a webhelyeden található legfontosabb oldalak URL címét tartalmazza, felhívva ezzel a robotok figyelmét, hogy mely oldalakat térképezzék fel.

Mivel hozhatod létre a robots.txt?

A robots.txt lényegében bármelyik – ASCII vagy UTF-8 kódolásra képes – szövegszerkesztővel létrehozható. Előírás azzal kapcsolatban, hogy a neve ne változzon („robots.txt”), és hogy egy webhelyen belül csak egy darab legyen belőle.

A WordPress használóinak külön előny, hogy azt a rendszer automatikusan létrehozza, kivéve akkor, ha már létezik egy valódi robots.txt fájl a szerveren.

Az elkészített robots.txt-t ellenőrizni is lehet. Mi azt szoktuk mondani, hogy létrehozni könnyebb, mint később menedzselni, de mivel fontos fájlról beszélünk, ezért nagyon oda kell figyelni annak szerkesztésére.

Miért van szükség a robots.txt-re?

Adódik a kérdés, hogy miért akarják elrejteni magukat a weblapok bizonyos esetekben? Nem az a weblaptulajdonosok célja, hogy a honlapjuk mindig elérhető legyen a felhasználói kereséseket követően?

Az esetek többségében igen, de nem mindig! A robots.txt-re azért van szükség, hogy megakadályozzuk a felesleges duplikátumok (szűrők, lapozók) feltérképezését és indexelését, vagy hogy kivegyünk valamit a hétköznapi felhasználók elől a találati listából: például:

kampány landingeket
vagy az adminfelület login-oldalát
esetleg kosár funkciókat

Amikor egy keresőrobot – például a linkek segítségével – rátalál egy webhelyre, akkor az első dolga az, hogy megkeresi a robots.txt fájlt, amiben ellenőrizni tudja az indexelési utasításokat. Vagyis azt, hogy mit szabad és mit nem szabad indexelnie.

Sőt, használatával akár az egész weboldal is elrejthető a Google vagy más keresőmotor szeme elől.

A robots.txt szerepe a SEO-ban

A sztenderd immáron 25 éves, és annak a keresőoptimalizáláskor is fontos szerep jut, de nem úgy, ahogy először gondolnád. SEO esetében ugyanis a robots.txt-re a keresőrobotok feltérképezési kerete (angolul: crawl budget) miatt van szükség.

Nézzük, mit is jelent ez pontosan!

A felhasználói élmény miatt a keresőmotorok – így például a Google is – korlátozza a robotok feltérképezésének gyakoriságát, ezért a webhelytulajdonosoknak ügyelniük kell arra, hogy azok tudják, hol kell mindenképp kutakodniuk. Ha egy URL ugyanis alacsony értékű, akkor a Google erősen korlátozza annak feltérképezését…

… tehát az nem kerülhet be az indexbe, vagy nem fog jól (vagy egyáltalán nem fog) rangsorolni.

A webmestereknek ezért fontos feladata, hogy kizárják a feltérképezésből az alacsony értékű URL-eket, mert így a keresőrobotok nem azokra pazarolják el az „erejüket”.

A gyakorlatban ez így néz ki, folytatva a fenti példát, 120 másodperces feltérképezési várakozással:

User-agent: Googlebot

Crawl-delay: 120

Disallow: /dashboard/

7 gyakori hiba a robots.txt fájl körül

Ahogy egyre bonyolultabbá válik egy weboldal, úgy lesz egyre szerteágazóbb és lassan követhetetlen a robots.txt fájl, ezzel pedig gyakoribbá válik és megnő a hiba lehetősége is.

Már önmagában a fájl is lehet problémás azáltal, ha biztonsági kockázattá válik: bármennyire is szeretnéd ezt elkerülni, az ártó szándékú robotok vagy felhasználók (például konkurensek) a robots.txt-t szokták először megnézni, ha tudni szeretnék, hol érdemes kutakodni az adott weboldalon belül.

Nézzük most a leggyakoribb problémákat, amiket érdemes elkerülni!

#1 Ne keverd a disallow-t és a noindexet!

Sokan elkövetik azt a hibát, hogy egy oldalt disallow-ra állítanak, de nem számolnak azzal, hogy ez ettől még feltűnhet a keresések között. Különösen akkor, ha más oldalak is hivatkoznak rá. Tehát kiadjuk a parancsot, de mivel korábban be volt indexelve, vagy egy másik oldal hivatkozik rá, ezért a kereső látja és indexeli.

Érdemesebb épp ezért a noindex meta taget használni az oldal head részében és odafigyelni arra, hogy a robots.txt fájlban az oldal ne disallow-ként szerepeljen.

Figyelj arra, hogy a noindex és a robots.txt disallow részét egyszerre sose használd!

#2 Allow és disallow problémák

Óriási összevisszaságot okozhat, ha nem jól adjuk meg ezeket a parancsokat. Érdemes átgondolni, hogy mi az, amit tényleg tiltani szeretnénk, ugyanis néha olyan tartalmak is tiltásra kerülnek, amelyeknél fontos lenne az indexelés.

#3 Index oldal hiánya

Célszerű odafigyelni arra, hogy minden egyes könyvtárunkba kerüljön egy index fájl. Nincs is idegesítőbb ugyanis annál, amikor a böngészők a könyvtár egész tartalmát kilistázzák pusztán azért, mert lemaradt az index fájl.

#4 Sose tilts fájlt, csak könyvtárat

Ennek azért van jelentősége, mert ha valaki nem épp jó szándékkal kutakodik a robots.txt fájlban és azt tapasztalja, hogy egy bizonyos fájl van disallow-ra állítva, akkor ezzel keményen visszaélhetnek. Ezért sokkal jobb megoldás könyvtárnál használni, mert így adunk számukra egy kis plusz munkát.

#5 Óvd a bizalmas könyvtáraidat

A bizalmas információkat – jelszavak, logok, adatbázisok – tartalmazó könyvtárakat sose tedd bele a robots.txt fájlba. Mivel az ártó szándékú hackerek első lépése a robots.txt ellenőrzése, komoly veszélynek teheted ki magad. Sokkal jobb, ha ilyen esetekben nem a robots.txt-ben végzed a tiltást, hanem IP korlátozást vagy jelszavas védelmet alkalmazol.

#6 Figyelj az elgépelésekre

Gyakori hiba szokott lenni az elgépelés is, például amikor a webmester nem tesz kettőspontot a user-agent és a disallow után.

#7 Nem jó megoldás a duplikált tartalom kezelésére

A robotst.txt-t nem szabad duplikált tartalom kezelésére használni, hiszen erre vannak sokkal jobb metódusok, mint a rel=canonical tag vagy a noindex parancs az aloldalakon.

Így teszteld a robots.txt-t!

Vannak a neten különböző eszközök, amelyekkel tesztelni tudjuk a robots.txt fájlt. Például használhatjuk a Google robots.txt tesztelő eszközét.

Ezzel az alábbiak ellenőrizhetők:

a robots.txt fájl letiltja-e a Google webes robotjainak hozzáférését a webhelyeden található adott URL-ekhez
a Googlebot-Image robot képes-e olyan kép URL-jének feltérképezésére, amelyet szeretnél letiltani a Google képkeresési találatai elől.

Nagyon egyszerűen működik. Meg lehet adni egy URL-t és az eszköz ellenőrzi a robots.txt fájlt, hogy az URL megfelelően van-e letiltva.

Összefoglalva

A robots.txt fájl az, amely megmondja a keresőmotorok robotjainak, hogy webhelyed mely oldalait kell indexelniük, és melyeket figyelmen kívül hagyniuk. Éppen ezért az egyik legfontosabb technikai SEO elem. Abban az esetben ugyanis, ha valamit nem megfelelően állítunk be, hiába a jó tartalom, akár egész weboldalunk eltűnhet a keresések közül.

Ha technikai SEO segítségre van szükséged, keress bennünket bizalommal! >>