Vad Är Robots.txt?
Robots.txt är en grundläggande men kraftfull komponent i en webbplats SEO-strategi.
Det är en textfil som instruerar sökmotorernas robotar (även kända som “sökspindlar” eller “bots”) om vilka delar av din webbplats som de ska genomsöka och indexera, och vilka delar de ska undvika.
Det hjälper till att styra vilket innehåll som ska visas i sökmotorernas resultat.
Varför Är Robots.txt Viktigt För SEO?
När en sökmotorbot anländer till en webbplats, söker den först efter en robots.txt-fil.
Robots.txt-filen innehåller regler som specificerar vilka delar av webbplatsen som är tillgängliga för genomsökning.
Det är först efter sökspindeln har rådfrågat denna fil som den går vidare för att genomsöka och indexera sidan.
Även om inte alla webbplatser behöver en robots.txt-fil, finns det viktiga situationer där den är avgörande:
- Blockerar Icke-Offentliga Sidor:
Förhindrar indexering av sidor som iscensättningsversioner, inloggningssidor eller interna dokument. Detta skyddar dem från att bli offentligt tillgängliga via sökmotorer. - Effektiv Användning av Resurser:
Om du upplever problem med att få alla dina sidor indexerade, kan en robots.txt-fil hjälpa till att fokusera sökmotorernas genomsökningsinsatser på viktiga sidor. - Prioritering av Innehåll:
Genom att begränsa genomsökningen till centrala sidor, kan du säkerställa att sökmotorerna spenderar sin tid på det innehåll som är mest värdefullt för dig. - Hantering av Multimedieresurser:
Medan metataggar kan styra indexering av vanliga webbsidor, är de inte lika effektiva för filer som PDF:er eller bilder. Här spelar robots.txt en viktig roll.
Hur Vet Du Om Du Behöver Robots.Txt?
Det är alltid en bra idé att ha en robots.txt fil, och det bör alltid vara ett av de första stegen i din SEO checklista.
Men hur vet vi om vi har indexeringsproblem på vår sida som vi sedan kan korrigera med hjälp av denna fil?
Ett enkelt sätt att göra detta på är genom att använda Google Search Console.
Gå in på rapporten över “Sidor”.
Jämför antalet indexerade sidor med det antal sidor du vill ha indexerade.
Om antalet indexerade sidor överstiger dina förväntningar, och du märker sidor som inte bör indexeras, är det dags att överväga en modiferad robots.txt-fil.
Syntax I Robots.txt
Om du v
Användaragent och Direktiv: Filen specificerar regler genom att identifiera användaragenten (sökmotorroboten) och sedan de direktiv som ska följas.
Användning av Joker-tecken: Asterisken (*) kan användas för att tillämpa regler på alla sökmotorrobotar.
Exempel På Regler I Robots.Txt
User-agent: *
Disallow: /privat/
Allow: /public/
- I exemplet ovan:
- Alla bots är tillåtna att genomsöka webbplatsen, förutom innehållet i mappen
/privat/
. - Innehållet i mappen
/public/
är dock tillgängligt för alla bots.
- Alla bots är tillåtna att genomsöka webbplatsen, förutom innehållet i mappen
Begränsningar Av Robots.Txt
- Inga Genomdrivande Makt: Robots.txt-filen kan inte tvinga bots att följa dess regler.
- Följs av Ärliga Bots: Medan ärliga och legitima sökmotorbots vanligtvis följer dessa regler, kan oärliga bots, som spambots, välja att ignorera dem.
Robots.txt Regler
Robots.txt-filen är uppbyggd enligt en enkel men strikt syntax, som bestämmer hur sökmotorrobotar interagerar med din webbplats.
Här är grunderna i dess struktur och hur den används.
Robots.txt Grundstruktur
- Direktivblock: Filen innehåller ett eller flera block av instruktioner, kända som direktiv.
- User-Agent: Varje direktivblock börjar med att specificera en “user-agent”, vilket är den sökrobot som direktivet är avsett för.
- Allow eller Disallow: Efter user-agenten följer en “allow” (tillåt) eller “disallow” (inte tillåt) instruktion.
Så här kan en robots.txt med direktiv se ut:
User-agent: Googlebot
Disallow: /not-for-google
User-agent: DuckDuckBot
Disallow: /not-for-duckduckgo
Sitemap: <https://www.yourwebsite.com/sitemap.xml>
Men för att modifiera robots.txt-filen till dina önskemål är det viktigt att du förstår de olika direktiven.
User-Agent-Direktivet
Användaragentdirektivet identifierar vilken sökrobot direktivet är avsett för.
Med andra ord är det vilken sökspindel/bot du vill instruera.
För att exempelvis instruera Googlebot att inte genomsöka en WordPress-administratörssida, skulle ditt direktiv se ut så här:
User-agent: Googlebot
Disallow: /wp-admin/
De flesta sökmotorer använder flera sökrobotar för olika ändamål som standardindexering, bilder och videor.
När flera direktiv finns kommer en sökrobot att välja det mest specifika direktivblocket som är relevant för den.
Låt oss säga du har tre olika direktiv, en för alla sökspindlar, en specifikt för Googlebot, och en för Googlebot Images.
Om Google News boten sedan kommer in på din sida kommer den att applicera de direktiv som du angett för Googlebot.
Direktivet Disallow I Robots.Txt
Disallow-direktivet specificerar de delar av din webbplats som inte ska genomsökas av sökmotorrobotar.
Dessa sidor kommer i sin tur att ignoreras och inte indexeras.
Du kan inkludera flera Disallow-direktiv i din robots.txt för att blockera tillgång till olika delar av din webbplats.
En tom Disallow-rad (Disallow:
) innebär att inga delar av webbplatsen är blockerade.
För att blockera alla sökmotorer från att genomsöka någon del av din webbplats kan du istället använda dig av (Disallow: /).
User-agent: *
Disallow: /
Observera att värdet efter Disallow-värdet är skiftlägeskänsligt. Så /bild/
och /Bild/
anses vara olika adresser.
Tillåt-Direktivet I Robots.Txt
Allow-direktivet används för att ge sökmotorer tillåtelse att genomsöka specifika underkataloger eller sidor, även om de ligger inom en större blockerad katalog.
För att tillåta Googlebot att genomsöka en specifik artikel, trots att övriga artiklar är blockerad:
User-agent: Googlebot
Disallow: /artiklar
Allow: /artiklar/exempel-inlägg
Inte alla sökmotorer känner igen Allow-direktivet, men större sökmotorer som Google och Bing gör det.
Direktivet Om Webbplatskartor
Detta direktiv ger sökmotorerna (särskilt Bing, Yandex och Google) en länk till din XML-webbplatskarta.
Webbplatskartor innehåller de sidor du vill att sökmotorerna ska genomsöka och indexera.
Direktivet kan placeras antingen längst upp eller längst ned i en robots.txt-fil.
Förutom att inkludera dem i robots.txt, bör du även skicka in din XML-webbplatskarta direkt till sökmotorer via deras webbansvarigverktyg.
Genomsökningsfördröjningsdirektivet
Detta direktiv används för att sätta en fördröjning i sökrobotarnas genomsökningshastighet för att undvika överbelastning av servern.
Google stöder inte längre genomsökningsfördröjningsdirektivet.
Inställningar för genomsökningshastighet görs istället via Google Search Console.
Bing och Yandex stöder däremot direktivet och tillåter webbplatsägare att ställa in en fördröjning.
Om du vill tillämpa dig kan du göra det genom att lägga till “Crawl Delay:” följt av antalet sekunder du vill fördröja den med, likt detta:
User-agent: *
Crawl-delay: 10
Begränsningar Av Robots.Txt
Medan ärliga och legitima sökmotorbots vanligtvis följer dessa regler, kan oärliga bots, som spambots, välja att ignorera dem.
Det är därför viktigt att förstå att robots.txt enbart är ett direktiv, och inte nödvändigtvis regler.
Robots.txt-filen kan inte tvinga bots att följa dess regler.
Hur Du Skapar En Robots.txt-Fil
Att skapa en robots.txt-fil är en viktig del av webbplatsens SEO-arbete.
Här är stegen för att skapa och implementera filen korrekt.
1. Skapa En Textfil Och Döp Det Till Robots.Txt
Det första steget är att öppna ett nytt .txt dokument i din webbläsare eller på datorn.
Det är i denna fil som vi kommer att lägga till direktiv.
2. Lägga Till Direktiv I Robots.Txt
En robots.txt-fil innehåller grupper av direktiv, där varje grupp är riktad till en specifik användaragent (sökmotorrobot) och definierar tillgängligheten till olika delar av din webbplats.
- Börja med User-Agent: Varje direktivgrupp börjar med en användaragent. Till exempel
User-agent: Googlebot
. - Definiera Tillåtna och Ej Tillåtna Områden: Använd
Disallow
för att blockera åtkomst till specifika kataloger eller sidor ochAllow
för att tillåta åtkomst (om det behövs). - Inkludera Webbplatskarta: Lägg till en länk till din webbplatskarta för att hjälpa sökmotorer att hitta viktiga sidor.
3. Ladda Upp Robots.Txt
Spara ner filen och se till att filen är korrekt namngiven till robots.txt
.
Använd din webbplats filhanteringssystem eller FTP-klient för att ladda upp filen till webbplatsens rotkatalog.
För WordPress & Andra CMS
Anvisningar kan variera beroende på plattform.
Sök specifik vägledning för din plattform, t.ex., “ladda upp robots.txt-fil till WordPress”.
4. Testa Din Robots.Txt
Att testa din robots.txt är ett avgörande steg för att säkerställa att filen fungerar som avsett och inte hindrar sökmotorerna från att indexera viktiga delar av din webbplats.
Kontrollera Tillgängligheten Manuellt
Använd din webbläsare för att kontrollera om robots.txt-filen finns på din webbplats. Exempel: https://www.dinhemsida.se/robots.txt.
Gör det i ett inkognitofönster.
Detta säkerställer att du ser den senaste versionen av filen.
Använd Googles Verktyg för Testing
Robots.txt-testaren i Search Console låter dig testa din robots.txt-fil för eventuella problem eller fel.
Så Fungerar Det:
- Logga in på Google Search Console och välj din webbplats.
- Gå till “Robots.txt Tester” och ladda upp din fil.
- Testaren identifierar syntaxvarningar eller logiska fel.
- Du kan redigera och testa din fil direkt i verktyget. Observera att ändringar gjorda här inte påverkar din faktiska fil på webbplatsen.
Kontinuerlig övervakning och testing av din robots.txt-fil är viktig för att säkerställa att den fortsätter att uppfylla dina SEO-behov.
Robots.txt – Bästa Tips
Nu vet du det mesta du behöver veta för att ladda upp och modifera din Robots.txt fil.
Men kom ihåg att små fel i filen kan göra stor skada. Här är våra topptips för att lyckas med din implementering eller ändring.
1. Använd Nya Linjer För Varje Direktiv
Varje direktiv bör placeras på en ny linje för att säkerställa att sökmotorer kan läsa och förstå dem korrekt.
Felaktigt:
User-agent: * Disallow: /admin/ Disallow: /katalog/
Korrekt:
User-agent: *
Disallow: /admin/
Disallow: /katalog/
2. Använd Varje Användaragent En Gång
Referera till varje användaragent endast en gång för att undvika förvirring och minska risken för fel.
Förvirrande:
User-agent: Googlebot
Disallow: /exempel-sida
User-agent: Googlebot
Disallow: /exempel-sida-2
Tydligt:
User-agent: Googlebot
Disallow: /exempel-sida
Disallow: /exempel-sida-2
3. Använd ‘*’ Och ‘$’ För Tydliga Instruktioner
Jokertecken (‘*’) används för att tillämpa ett direktiv på alla användaragenter eller för att matcha URL-mönster.
User-agent: *
Disallow: /skor/*?
Dollar-tecken (‘$’) indikerar slutet på en URL, användbart för att specificera filtyper.
User-agent: *
Disallow: /*.jpg$
4. Använd Hash (‘#’) För Kommentarer
Använd en hash (‘#’) i början av en rad för att lägga till kommentarer, vilket hjälper till att organisera och förklara din robots.txt-fil.
User-agent: *
# Målsidor
Disallow: /landing/
Disallow: /lp/
# Filer
Disallow: /filer/
Disallow: /privata-filer/
# Webbplatser
Allow: /webbplats/*
Disallow: /website/search/*
5. Använd Separata Robots.Txt-Filer För Olika Underdomäner
Robots.txt-filer gäller endast för underdomänen där de är placerade.
För olika underdomäner krävs separata robots.txt-filer.
Om du har domain.com
och blog.domain.com
, behöver du två separata robots.txt-filer – en i rotkatalogen för varje underdomän.