Wat is het bestand Robots.txt in een domein?
Dit is gevaarlijk. Een slecht geconfigureerd robots.txt-bestand kan de SEO-status van uw site daadwerkelijk vernietigen en de kansen die u heeft voor het vergroten van uw verkeer, schaden.
Wat is het bestand Robots.txt?
De robots.txt Het bestand heeft de toepasselijke naam omdat het in wezen een bestand is met richtlijnen voor de webrobots (zoals robots van zoekmachines) over hoe en wat ze op uw website kunnen crawlen. Dit is een webstandaard, gevolgd door websites sinds 1994 en alle grote webcrawlers houden zich aan de standaard.
Het bestand wordt opgeslagen in tekstformaat (met de extensie .txt) in de hoofdmap van uw website. U kunt zelfs het robot.txt-bestand van een website bekijken door het domein in te typen gevolgd door /robots.txt. Als je dit met groovyPost probeert, zie je een voorbeeld van een goed gestructureerd robot.txt-bestand.
Het bestand is eenvoudig maar effectief. Dit voorbeeldbestand maakt geen onderscheid tussen robots. De opdrachten worden aan alle robots uitgegeven door de User-agent: * richtlijn. Dit betekent dat alle opdrachten die erop volgen van toepassing zijn op alle robots die de site bezoeken om deze te crawlen.
Web Crawlers opgeven
U kunt ook specifieke regels voor specifieke webcrawlers opgeven. U kunt bijvoorbeeld toestaan dat Googlebot (de webcrawler van Google) alle artikelen op uw site crawlt, maar u kunt de Russische webcrawler Yandex Bot niet toestaan om artikelen op uw site te crawlen die minachtende informatie over Rusland hebben..
Er zijn honderden webcrawlers die internet doorzoeken op informatie over websites, maar de 10 meest voorkomende waar je je zorgen om moet maken, staan hier.
- Googlebot: Google-zoekmachine
- Bingbot: Microsoft's Bing-zoekmachine
- Slurp: Yahoo zoekmachine
- DuckDuckBot: DuckDuckGeen zoekmachine
- Baiduspider: Chinese Baidu-zoekmachine
- YandexBot: Russische Yandex-zoekmachine
- Exabot: Franse Exalead-zoekmachine
- Facebot: De kruipende bot van Facebook
- ia_archiver: Alexa's web ranking crawler
- MJ12bot: Grote link indexeringsdatabase
Als u in het bovenstaande voorbeeldscenario wilt toestaan dat Googlebot alles op uw site zou indexeren, maar Yandex niet wilde blokkeren voor het indexeren van uw op Russisch gebaseerde artikelinhoud, zou u de volgende regels toevoegen aan uw robots.txt-bestand.
User-agent: googlebot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Disallow: / Rusland /
Zoals u kunt zien, blokkeert het eerste gedeelte alleen dat Google uw WordPress-aanmeldingspagina en administratieve pagina's crawlt. De tweede sectie blokkeert Yandex van dezelfde, maar ook van het hele gebied van uw site waar u artikelen met anti-Rusland inhoud heeft gepubliceerd.
Dit is een eenvoudig voorbeeld van hoe u de kunt gebruiken weigeren commando om specifieke webcrawlers te besturen die uw website bezoeken.
Andere Robots.txt-opdrachten
Disallow is niet de enige opdracht waartoe u toegang hebt in uw robots.txt-bestand. U kunt ook een van de andere opdrachten gebruiken die aangeven hoe een robot uw site kan crawlen.
- weigeren: Vertelt de user-agent dat het niet nodig is om specifieke URL's of volledige secties van uw site te crawlen.
- Toestaan: Hiermee kunt u specifieke pagina's of submappen op uw site verfijnen, ook al hebt u een bovenliggende map mogelijk niet toegestaan. U kunt bijvoorbeeld: / about / niet toestaan, maar dan toestaan: / about / ryan /.
- Crawl-delay: Dit vertelt de crawler om xx een aantal seconden te wachten voordat de inhoud van de site wordt gecrawld.
- Sitemap: Verstrek zoekmachines (Google, Ask, Bing en Yahoo) de locatie van uw XML-sitemaps.
Houd er rekening mee dat bots dit wel doen enkel en alleen luister naar de commando's die je hebt opgegeven wanneer je de naam van de bot opgeeft.
Een veelgemaakte fout die mensen maken is het weigeren van gebieden zoals / wp-admin / van alle bots, maar geef dan een googlebot-sectie op en verbiedt alleen andere gebieden (zoals / over /).
Aangezien bots alleen de opdrachten volgen die u in hun sectie opgeeft, moet u al die andere opdrachten die u voor alle bots hebt opgegeven, opnieuw uitvoeren (met behulp van de * user-agent).
- weigeren: De opdracht die wordt gebruikt om een user-agent te vertellen om bepaalde URL's niet te crawlen. Er is slechts één regel 'Disallow:' toegestaan voor elke URL.
- Toestaan (alleen van toepassing op Googlebot): De opdracht om Googlebot te laten weten dat het toegang heeft tot een pagina of submap, ook al is de bovenliggende pagina of submap mogelijk niet toegestaan.
- Crawl-delay: Hoeveel seconden een crawler moet wachten voordat de pagina-inhoud wordt geladen en gecrawld. Houd er rekening mee dat Googlebot deze opdracht niet bevestigt, maar dat de crawlsnelheid kan worden ingesteld in Google Search Console.
- Sitemap: Wordt gebruikt om de locatie op te roepen van een XML-sitemap (s) die aan deze URL is gekoppeld. Merk op dat deze opdracht alleen wordt ondersteund door Google, Ask, Bing en Yahoo.
Houd er rekening mee dat robots.txt bedoeld is om legitieme bots (zoals bots van zoekmachines) te helpen uw site effectiever te doorzoeken.
Er zijn veel snode rupsen die uw site crawlen om dingen te doen zoals het schrapen van e-mailadressen of het stelen van uw inhoud. Als u wilt proberen uw robots.txt-bestand te gebruiken om te voorkomen dat die crawlers iets op uw site crawlen, hoeft u zich geen zorgen te maken. De makers van die crawlers negeren meestal alles wat u in uw robots.txt-bestand heeft geplaatst.
Waarom niets uitsluiten?
Als u ervoor zorgt dat de zoekmachine van Google zo veel mogelijk inhoud op uw website crawlt, is dit voor de meeste website-eigenaren een van de grootste zorgen.
Google geeft echter maar een beperkt uit crawlbudget en crawlsnelheid op individuele sites. De crawlsnelheid is het aantal verzoeken per seconde dat Googlebot op uw site zal doen tijdens de crawl-gebeurtenis.
Belangrijker is het crawlbudget, dat is het totale aantal verzoeken dat Googlebot zal doen om uw site in één sessie te crawlen. Google 'besteedt' zijn crawlbudget door te focussen op delen van uw site die erg populair zijn of recentelijk zijn veranderd.
U bent niet blind voor deze informatie. Als u de Webmasterhulpprogramma's van Google bezoekt, kunt u zien hoe de crawler met uw site omgaat.
Zoals u ziet, houdt de crawler elke dag zijn activiteit op uw site vrijwel constant. Het crawlt niet alle sites, maar alleen de sites die het als het belangrijkst beschouwt.
Waarom laat u het aan Googlebot om te beslissen wat belangrijk is op uw site, wanneer u uw robots.txt-bestand kunt gebruiken om te vertellen wat de belangrijkste pagina's zijn? Hiermee voorkomt u dat Googlebot tijd verspilt aan pagina's met een lage waarde op uw site.
Uw crawlbudget optimaliseren
Met de Webmasterhulpprogramma's van Google kunt u ook controleren of Googlebot uw robots.txt-bestand goed leest en of er fouten zijn.
Hiermee kunt u controleren of u uw robots.txt-bestand correct heeft gestructureerd.
Welke pagina's moet u weigeren van Googlebot? Het is goed voor uw site-SEO om de volgende categorieën pagina's niet toe te staan.
- Dubbele pagina's (zoals printervriendelijke pagina's)
- Bedankt pagina's die op formulieren gebaseerde bestellingen volgen
- Bestel- of informatiezoekformulieren
- Contactpagina's
- Aanmeldpagina's
- Loodmagneet "verkoop" pagina's
Negeer uw bestand Robots.txt niet
De grootste fout die nieuwe website-eigenaren maken, is dat ze nooit naar hun robots.txt-bestand kijken. De ergste situatie zou kunnen zijn dat het robots.txt-bestand daadwerkelijk voorkomt dat uw site of gedeelten van uw site helemaal worden gecrawld.
Controleer uw robots.txt-bestand en zorg ervoor dat het is geoptimaliseerd. Op deze manier "zien" Google en andere belangrijke zoekmachines alle fantastische dingen die u de wereld aanbiedt met uw website.