Robots.txt en meta tag

De robots meta tag en het robots.txt bestand zijn beide mechanismes om informatie aan zoekmachines door te geven met betrekking tot hoe je site geïndexeerd moet worden. Ze vervangen elkaar echter niet, beide hebben hun specifieke functie.

Robots.txt

De configuratie van robots.txt vindt plaats buiten het Joomla beheer. Om het aan te passen moet je het bestandje gewoon openen in een editor. Het bevat informatie over de delen van het Joomla bestandsbeheer die niet voor Google toegankelijk worden verklaard. Standaard crawlen zoekmachines je hele site, maar de mappen met code hoeft Google niet te zien, zoals bijvoorbeeld de /plugins map en de /modules map. Eventueel kun je er wel URL's mee blokkeren, al kun je dat vaak beter doen met de metatag.

URL's blokkeren in robots.txt kan niet altijd verhinderen dat de URL wordt geïndexeerd. Kijk maar eens naar dit voorbeeld van Raven Tools, een bekende leverancier van SEO software:

blocked-by-robots

Om dit te voorkomen werkt de robots metatag beter, zie hieronder.

logo 500

Terug naar robots.txt. Als je Joomla nieuw installeert wordt er een standaard robots.txt meegeleverd die volgens de laatste standaarden is gevuld. Als je echter jaren geleden een Joomla site hebt opgebouwd kan het zijn dat het robots.txt bestand in de tussentijd niet ge-update is. In dat geval wordt bijvoorbeeld de /images map geblokkeerd, wat voorkomt dat je plaatjes gevonden kunnen worden! In dat geval kun je die regel beter weghalen of er een commentaarteken voor zetten:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/    <-------- weggehaald met een #
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
# Disallow: /media/    <-------- weggehaald met een #
Disallow: /modules/
Disallow: /plugins/
# Disallow: /templates/    <-------- weggehaald met een #
Disallow: /tmp/
NB: Als je site na het uitkomen van Joomla 3.3 is opgebouwd staat dit waarschijnlijk wel goed.

Blokkeer geen CSS en Javascript

Google heeft vorig jaar het volgende statement gemaakt:

Don't block CSS, Javascript and other resource files by default. This prevents Google bot from properly rendering the page and understanding that it's optimized for mobile.

Om deze reden wordt de /templates folder niet langer geblokkeerd (en de /media folder ook niet meer). Let er echter op dat sommige extensies hun bestanden plaatsen in delen van Joomla die nog wel geblokkeerd zijn. JCH-Optimize plaatste vroeger zijn gecomprimeerde bestanden in de /plugins folder. In plaats van de hele plugins map open te stellen kun je het beste voor een klein deel die map weer open stellen met een zogenaamde Allow-regel:

Allow: /plugins/system/jch_optimize/assets2/
Allow: /plugins/system/jch_optimize/assets/

Geavanceerde tweaking van robots.txt

Een geavanceerde tip om je non-SEF URL's te blokkeren voor Google is om elke URL waar een vraagteken in zit te blokkeren (zorg wel dat je niet toevallig een extensie gebruikt die in 'correcte' URL's vraagtekens verwerkt). Je kun in dat geval deze allemaal in 1 keer blokkeren met een enkel regeltje met een reguliere expressie:

Disallow: /*?*

Wees voorzichtig. Meer voorbeelden vind je op searchengineland.com.

Test robots.txt in Google Webmaster Tools

Omdat Google steeds strenger omgaat met hoe je je robots.txt opzet hebben ze tooltjes gebouwd in Google Webmaster Tools om je te helpen bij het correct opzetten hiervan, namelijk de robots.txt Tester onder de Crawl opties:

robots tester webmaster

In dit geval is alles goed, maar als er wel problemen zijn krijg je deze hier netjes gerapporteerd. Let op: dit is puur een technische validatie op correcte commando's, het checkt niet of delen van je site onterecht zijn geblokkeerd.

Daarvoor hebben ze dan weer de Fetch als Google tool voor gebouwd. Deze optie is zeer nuttig, en vertelt je precies hoe Google je site ziet. Je kunt deze test zowel voor desktops als smartphones uitvoeren:

fetch as google

Vaak is het resultaat een groen vinkje, maar let op: als het oordeel partial of gedeeltelijk is heb je nog steeds een issue. Klik dan op de checkbox, en je ziet hoe Google denkt dat je site er uit ziet:

mobile view distorted

Dit is het resultaat wat je bijvoorbeeld zou kunnen hebben als je /templates folder geblokkeerd is. Daar zit al je CSS en Javascript, en dan ziet de site er dus totaal ongestyled uit. Google kan nu dus ook niet beoordelen of je site responsive is of niet! 

Verwijs naar je sitemap

Je kunt robots.txt ook gebruiken om te verwijzen naar de locatie van je sitemap.xml bestand. Als je een Joomla extensie als OSmap of Jsitemap hiervoor gebruikt zal het bestand niet in de hoofdmap staan. Zoek dan in de configuratie van de extensie op war het wel staat en neem deze locatie op in robots.txt:

Sitemap: index.php?option=com_osmap&view=xml&tmpl=component&id=1

Joomla updates en wijzigingen in robots.txt

Zo nu en dan worden er door jet Joomla project wijzigingen uitgevoerd in het robots.txt bestand. Helaas kunnen ze bij een gewenste wijziging niet zomaar een nieuw robots.txt bestand uitleveren, want dat zou zaken die we handmatig hebben aangepast weer overschrijven. wat ze in zo'n geval doen is het bestand opleveren als robots.txt.dist. Ook zie je hier dan een melding over in je controle paneel in Joomla met een installatiemelding. Als je nooit een handmatige wijziging hebt dan kun je het beste het bestaande robots.txt bestand weggooien en robots.txt.dist ontdoen van de .dist extensie. 

Heb je wel wijzigingen gedaan: kijk dan wat er is aangepast, en pas deze wijziging toe op je eigen bestand. Trouwens, hetzelfde geldt als er wijzigingen zijn in .htacces, die worden ook op die manier uitgeleverd.

Robots meta tag

De robots meta tag is een andere manier om delen van Joomla te blokkeren, maar deze is meer bedoeld voor URL's dan systeem bestanden. Het is een erg efficiënte manier om URL's uit Google te verwijderen. Je vindt deze instelling meestal bij de andere metadata instellingen (metabeschrijving en keywords). Om te beginnen stel je deze in in de Algemene Instellingen, onder de Metadata Instellingen. Je hebt hier 4 mogelijkheden:

robots-meta-tag-2

Tenzij je de hele site buiten Google wilt houden (bijvoorbeeld een testsite) kun je de instelling het beste op de default laten: Index, Follow. Voor specfieke pagina's kun je besluiten om een alternatieve instelling te gebruiken. Een login instelling zou je bijvoorbeeld op Noindex, Nofollow kunnen instellen, of een zoekpagina juist op Noindex, Follow.

Als je de metatag instelt zie je dat terugkomen in de broncode van je pagina:

<meta name="robots" content="NOINDEX, NOFOLLOW">

Dan een waarschuwing: Als je Noindex, Nofollow gebruikt om een test-site te verbergen, zorg dan dat je de instelling weer goed zet als je de site publiceert. het is al meermalen voorgekomen dat dit vergeten werd, met desastreuze gevolgen voor je SEO.... Op deze blogpost op Moz.com kun je eventueel nog wat meer achtergrondinformatie lezen.

Over deze site

Joomlaseo.com is volledig gebouwd en geschreven door Simon Kloostra, SEO Specialist en Webdesigner uit Utrecht. Ik heb ook een boek geschreven en blogs voor bedrijven als OStraining, TemplateMonster, SEMrush en dergelijke.