Skip to content

Instantly share code, notes, and snippets.

@luisrenemas
Last active April 11, 2016 08:30
Show Gist options
  • Select an option

  • Save luisrenemas/29a2ce9ee6da0fce98e3 to your computer and use it in GitHub Desktop.

Select an option

Save luisrenemas/29a2ce9ee6da0fce98e3 to your computer and use it in GitHub Desktop.
Tutorial robots.txt: para impedir el acceso a algunos de robots de Google

#Tutorial como crear un archivo robots.txt

Este es solo un tutorial para que se guíen y así lo puedan implementar en su sitio web.

##Página para ver el tutorial

como crear un archivo robots.txt

User-agent: *
Allow: /
Disallow: /recursos/
Disallow: /*.scss$
Disallow: /*.md$
User-agent: Googlebot-Image
Disallow: /assets/images/bg/
Disallow: /assets/images/overlays/
Sitemap: http://www.ejemplo.com/sitemap.xml
#LISTA DE SPIDERS http://www.robotstxt.org/db.html
#Robots de Google: https://support.google.com/webmasters/answer/1061943
#Usar comodín (*): esta regla se cumplirá para todos los rastreadores
User-agent: *
...
#Formato para declarar las reglas a cumplirse, para los diferentes rastreadores de Google
#Primero
User-agent: #nombre del rastreador (Robot) o (*)
#Segundo: por ejemplo bloquearemos una carpeta
Disallow: /recursos/
...
#fin
#Permitir el rastreo de todo el contenido del sitio
User-agent: *
Disallow:
o
User-agent: *
Allow: /
#Impedir el rastreo de todos los robots rastreadores
User-agent: *
Disallow: /
#Impedir el rastreo de una carpeta específica, para todos los robots rastreadores
User-agent: *
Disallow: /privado/
#Impedir el rastreo de algunas partes del sitio
User-agent: *
Disallow: /calendar/
Disallow: /junk/
#Impedir el rastreo de una página para Googlebot
User-agent: Googlebot
Disallow: /página_privada.html
#Los rastreadores de robot de Google no deben rastrear el directorio http://ejemplo.com/nogooglebot/
User-agent: Googlebot
Disallow: /nogooglebot/
#Ningún rastreador debe rastrear el directorio http://ejemplo.com/onlygooglebot/ y todas las URL incluidas.
User-agent: *
Disallow: /onlygooglebot/
#Impedir el rastreo de una imagen específica para Google Imágenes
User-agent: Googlebot-Image
Disallow: /images/foto_personal.jpg
#Impedir el rastreo de todas las imágenes que haya en el sitio, para Google Imágenes
User-agent: Googlebot-Image
Disallow: /
#Impedir el rastreo de formatos específicos para Google Imágenes
User-agent: Googlebot-Image
Disallow: /*.png$
o
User-agent: Googlebot-Image
Disallow: /*.gif$
o
...
#Bloquear las páginas del sitio, pero mostrar los anuncios de AdSense que haya en ellas,
#mediante el bloqueo de todos los rastreadores web que no sean Mediapartners-Google.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
#Impedir el rastreo de todas las sub carpetas que comienzan con la palabra personal para Googlebot
User-agent: Googlebot
Disallow: /personal*/
#Para bloquear el acceso a todas las URL que incluyan signos de interrogación (?).
#Por ejemplo, las variables que se pasan por url.
User-agent: Googlebot
Disallow: /*?
#Para bloquear URLs que terminen de una forma concreta, utiliza $. Por ejemplo, el código de muestra bloquea cualquier URL que acabe en .pdf.
User-agent: Googlebot
Disallow: /*.pdf$
#Permitir el acceso a un único rastreador
User-agent: Googlebot-Video
Disallow:
User-agent: *
Disallow: /
#Permitir el acceso a todos los rastreadores excepto a uno
User-agent: Mediapartners-Google
Disallow: /
User-agent: *
Disallow:
#Indicar a los rastreadores donde se encuentra el archivo Sitemap
Sitemap: http://www.ejemplo.com/sitemap.xml
#Nota: recuerda que, en algunas situaciones, las URL del sitio web se pueden indexar aunque no se hayan rastreado previamente.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment