Hva er en robots.txt fil?

Hva er en robots.txt fil? Og hvordan kan den hjelpe nettstedet ditt.


En robots.txt fil skal i første omgang fortelle søkeroboter
hva de har,og ikke har, tilgang til på nettstedet ditt.
Du kan rett og slett stenge ute en søkerobot ved 
å skrive dette i robots.txt filen.
Robots.txt filen er en tekst fil som en kan lage ved 
hjelp av et enkelt tekst program (helst Notepad).


Hvorfor du trenger en robots.txt fil.


Det er tester som viser at nettsteder som bruker en slik fil,
blir indeksert mye dypere og faktisk får høyere resultat i søkemotorene.
Det er også lurt å stenge ute roboter fra filer du ikke vil 
at andre skal se.Slik som forskjellige program filer,passord beskyttet foldere
eller hvis du vil teste forskjellige versjoner av 
samme nettside uten å få "duplicate content" straff. 
Det forutsetter at filen er laget på rette måten slik at
søkerobotene forstår hva som står i den.

Noen bruker meta robots taggen i html koden på sidene,istedet for en
robots.txt fil.Men det er få av søkerobotene som leser robots taggen.
Da er det noe annet med robots.txt filen.

Du vil legge merke til at robotene alltid ser etter denne filen 
først før den går videre til andre filer i nettstedet ditt.
Det er bare å følge med i accessloggen din. 


Hvordan lage en robots.txt fil


Det første vi skriver i robots.txt filen er user-agent: .
User-agent: spesifiserer hvilken robot en vil lage regler for.
Feks hvis du vil lage regler for Google sin søkerobot så skriver du:
User-agent:Googlebot 

Googlebot er navnet på Google sin søkerobot.
Du kan også lage regler for alle søkeroboter ved å bruke *.
Da vil det se slik ut user-agent:* 

Du kan sjekke logfilene dine for å finne navn på andre søkeroboter.
Roboter som ser etter emailer er greit å stenge ute.
Slik som emailharvester.En vil slippe en hel del spam ved å gjøre dette.
Det neste du fører inn etter user-agent:,er Disallow: .
Disallow forteller søkerobotene hvilke sider eller foldere de ikke skal indeksere.
Disallow må alltid være med for at robots.txt filen skal bli rett.
Robotene vil ignorere robots.txt hvis en ikke får rett kode i denne
filen 
Feks vil du ikke at Google skal indeksere cgi-bin folderen din.
Da vil det se slik ut.
User-agent:Googlebot
Disallow:/cgi-bin/
Eller du vil ikke at noen søkeroboter skal finne denne filen.
User-agent:*
Disallow:/cgi-bin/
Hvis du vil at alle roboter skal finne alle sidene dine skriver du:
User-agent:*
Disallow:
En lar alle sidene være tilgjengelige Ved å la være å skrive noe 
etter Disallow: .
Hvis du vil stenge alle roboter ute skriver du:
user-agent:*
Disallow:/
Se videoen: En enkel måte å lage en robots.txt fil


Kommentarer i robots.txt filen.


Du kan også skrive inn kommentarer og merknader i filen.
Da må du begynne linjen med # og så skrive inn det du vil kommentere. 
Her er ett eksempel på en robots.txt fil fra en av mine sites.
Der kan du se hvordan kommentarer er brukt til å spesifisere hva de 
forskjellige reglene gjør.

User-agent: Mediapartners-Google 
Disallow: 

# NO access (e-collector)
User-agent: ecollector
Disallow: /
# PARTIAL access (All Spiders)
User-agent: *
Disallow: /astracker/
Disallow: /emailtemplates/
Disallow: /ioncube/
Disallow: /photoimages / 

Den første linja gjør at søke roboten for Google Adsense lettere finner 
fram og en får ikke så mange public service Adsense.
På neste linjen stenger jeg ute e-collector fra hele nettstedet mitt.
Denne søkeroboten samler emailer.Greit å stenge ute den.
På neste linje forteller jeg at alle roboter kan indeksere alle sidene
mine unntatt folderene astracker,emailtemplates,ioncube og photoimages.
Alle filene som ligger i disse folderene blir ikke indeksert.
Noen webmastere er redde for å skriver inn de folderene en ikke vil at 
andre skal se i robots.txt filen.Dette er fordi at det er relativt 
enkelt å finne denne filen.
(den skal alltid ligge i samme folderen som indeks fila.Altså i rot folderen på domenet.)
Da er det en viss fare for at andre webmastere kan lese robot.txt filen,
og så finne de filene en vil beskytte.
En ting en kan gjøre er å bruke forkortelser isteden for hele ordet.
Ett eksempel på det er hvis du har en folder som heter private-bilder
som du ikke vil at søkerobotene skal finne.Da kan du skrive:
User-agent:*
Disallow:/private
Husk på at alle foldere som begynner på private vil bli stengt på denne måten.
En ting du kan gjøre nå er å kopiere robots.txt filen ovenfor.
Og så fylle inn dine egne foldere og filer som du vil beskytte.
Eller hvis du vil at hele nettstedet ditt skal indekseres skriver du.
User-agent:*
Disallow:
Husk på å bruke en tekst editor som ikke føyer til ekstra kode.
(Slik som Golive og dreamweaver)Bruk Notepad.Gi filen navnet robots.txt.
Så laster du den opp til topp folderen på domenet ditt.DVS der indeks sida di er.
Torgeir Sunnarvik

Kommentarer

Populære indlæg fra denne blog

Lage seg et sidekart

Google Sidekart

Hvordan bruke anker tekst riktig