Robots.txt de Blogger

Chequeando la indexación del contenido del blog en las herramientas para webmaster de Google me llamo la atención que tenia 2 errores de rastreo, ambos son por restricción del robot.txt

Pero que es el robot.txt y porque restringe el acceso?

El archivo robot.txt es el que nos permite controlar el comportamiento de los rastreadores (crawlers) de los buscadores cuando indexan nuestro sitio, dentro de el se encuentran las especificaciones en cuanto a que queremos que indexe y que no, con que frecuencia queremos, ext.


Cuando un rastreador como por ejemplo el Googlebots de Google llega a un sitio, lo primero que ve es el archivo robot.txt y sigue sus recomendaciones al indexar el contenido (como son recomendaciones existe la posibilidad de que no haga caso e indexe todo el contenido que encuentre).


El robot.txt de Blogger es el mismo que el de cualquier sitio con la diferencia de que no lo podemos manipular, es creado y manipulado exclusivamente por Blogger.

El contenido de todos los robot.txt de Blogger es:

User-agent: Mediapartners-Google
Disallow:


User-agent: *
Disallow: /search
Noindex: /feedReaderJson


Sitemap: http://interesesweb.blogspot.com/feeds/posts/default?orderby=updated


Y lo podemos ver agregando robot.txt al final de la dirección de nuestro blog (http://nombre_del _blog.blogspot.com/robots.txt).


Con las herramientas para webmaster de Google podemos analizar el robot.txt en la subsección análisis de robot.txt, esta herramienta nos muestra la dirección, la última descarga y el estado del robot.txt.




Que significan los valores dentro del robot.txt?


  • User-agent: es el nombre del rastreador al que le queremos dar instrucciones.

  • Mediapartners-Google es el rastreador de Google Adsend.

  • Googlebot es el de Google.

  • Googlebot-Image es el que se encarga de indexar las imágenes de Google.

  • Slurp es el de Yahoo.

  • Msnbot el de MSN.

  • el asterisco (*) es un comodín, significa que los valores siguientes se aplican a todos los rastreadores.

  • Disallow: se usa para indicar las páginas o directorios que no queremos que los rastreadores indexen, si no hay valor los rastreadores indexan todo lo que encuentren.

  • Disallow:/search impide a los rastreadores indexar las paginas que son resultados de búsquedas internas.


Las URLs restringidas por el robot.txt son /feedReaderJson y /search/label/, esto no es un error ya que los enlaces generados por feedReaderJson son parte del sitemap y se pueden considerar contenido duplicado (fraude penalizado por Google, el castigo es excluirte de sus resultados) y los resultados de búsqueda interna ubicados en /search/label/ también se pueden considerar contenido duplicado.


Pero podemos darle instrucciones a los rastreadores aun no teniendo acceso al archivo robot.txt, usando las etiquetas META.


  • <meta name="robots" content="index,follow" />
    indica que indexe la página y todos sus enlaces (valor por defecto).

  • <meta name="robots" content="index,nofollow" />
    indica que indexe la página pero no los enlaces.

  • <meta name="robots" content="noindex,follow" />
    indica que no indexe la página pero si los enlaces.

  • <meta name="robots" content="noindex,nofollow" />
    indica que no indexe la página ni los enlaces.

21 comentarios :

elocon52 dijo...

Gracias por la información. Hace dos días que estoy buscando una explicación así de clara

Anónimo dijo...

Muy buena explicación. Me ocurre algo curioso, en alguno de mis blogs en blogger hay algunas páginas en las que sí está permitido el rastreo y otras no. Quería cambiar el robot.txt pero pot lo que veo no se puede.

Jean Wolf dijo...

Holas

Buscando mucho sobre como editara el famosos robots.txt encontré tu blog y la info que proporcionas es muy útil, me atreviera a decir que de las mejores.
Gracias
Atte
Jean Wolf

New Hobby dijo...

Gracias por la información! Resultó útil pero aun no puedo indexar mi Blog en Google... Help!

DemonDary dijo...

No es por ser "tiquismiquis", pero no es ROBOT.TXT, sino ROBOTS.TXT

Por si acaso pudiera haber algún error con el tema. Gracias por vuestra atención.

Atte. desde http://demondary.blogspot.com

Cesar Angel dijo...

tuve que visitar muchas paginas y leer muchos foros, sin resultados. En esta pagina acabo de eoncontrar la respuesta correcta a mi inquietud de si se puede modificar el archivo robots.txt.
Aunque me queda una duda:
Por que automaticamente google genera dicho archivo para que uno no pueda indexar su blog?

atentamente
www.canvillegas.blogspot.com

Cesar Angel dijo...

Porque google genera automaticamente este archivo robots.txt en nuestros blogs, si nos va a dejar bloqueados para indexarlos?

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Noindex: /feedReaderJson


Sitemap: http://interesesweb.blogspot.com/feeds/posts/default?orderby=updated

by canvillegas.blogspot.com

fer dijo...

Me resulto muy util la informacion, google ya me indexa mi blog.

juegos de lógica dijo...

¿Y no hay penalización por contenido duplicado con las labels?

LaGrapadora dijo...

Gracias por la información, me ha sido de mucha utilidad.
Saludos.
LaGrapadora
http://lagrapadora-iforcas.blogspot.com

alfredo dijo...

una pregunta solo esto es usado para los que estan registrados en blogger y que pasa con los de worpress saludos..
http://www.alfredojorge.com

juegos de carreras dijo...

Excelente aporte lastima que no se pueda editar, podria traer buenos resultados la pagina search

Simon Gomez dijo...

Gracias me sirvió mucho entender esto! pero te quisiera mostrar que pasa con el mio porque parece que mi dominio nuevo lo afecta si puedes escribeme a SimonGekk@hotmail.com o contactame en http://www.simongekk.co.cc/

Descargar Android dijo...

Muy buen articulo ;)

Anónimo dijo...

y dodne se añaden esos meta señalados en la entrada?¿

Mantenimiento Informatico Toledo dijo...

Me parece muy interesante el analisis que se hace en este post sobre el archivo robots pero segun he leido por ahi hay otros atributos para el archivo muy utiles como pueden ser "noodp,noydir", no estaria de mas que se hiciera un post con todos los atributos posibles

Mr. Cioccolato dijo...

Me ha gustado la explicacion gracias!! :D
Atentamente desde: http://mrtics.blogspot.com/

redes sociales dijo...

un poco loco de parte de google que no nos permita editar el fichero. Como quiere mejores resultados sin permitir esto?

Anónimo dijo...

Gracias por la información es muy interesante me ha servido mucho
gracias
www.facturando.com.mx

Unknown dijo...

Buena información Hay que conocer estos elementos para realizar un buen posicionamiento de la web :)

Anónimo dijo...

Buenas, buen post!! En mi robots.txt funciona quitando tu blog por el mio.mi blog es anunnak.blogspot.com

 

Blogger Template 2007 - 2010 Designed By Nicolás Pereyra