¿Sabes lo que pasa cuando publicas un enlace en Twitter?

El día a día, Tecnología

 

diy-seo-blog

 

Hace unos minutos hemos publicado una oferta de trabajo para nuestra empresa. Para tener un único punto de referencia a la hora de enviar el enlace con las condiciones de la misma, hemos creado una página en nuestro servidor web.

Hasta aquí todo normal. Hemos visto que se veía bien y hemos puesto el enlace en Twitter para empezar a dar a conocer la oferta.

Por casualidad, estaba en ese momento mirando los log del servidor. Y ¿adivinas lo que pasa prácticamente en el mismo instante en que envías una dirección a Twitter?


46.236.24.49 - - [14/May/2014:18:35:10 +0200] "GET /oferta-grails.html HTTP/1.1" 200 14284 "-" "Mozilla/5.0 (compatible; TweetmemeBot/3.0; +http://tweetmeme.com/)"
199.16.156.126 - - [14/May/2014:18:35:10 +0200] "GET /robots.txt HTTP/1.1" 404 510 "-" "Twitterbot/1.0"
199.16.156.126 - - [14/May/2014:18:35:10 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5377 "-" "Twitterbot/1.0"
199.16.156.124 - - [14/May/2014:18:35:10 +0200] "GET /robots.txt HTTP/1.1" 404 510 "-" "Twitterbot/1.0"
199.16.156.124 - - [14/May/2014:18:35:11 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5377 "-" "Twitterbot/1.0"
173.192.79.101 - - [14/May/2014:18:35:11 +0200] "GET /robots.txt HTTP/1.1" 404 510 "-" "ShowyouBot (http://showyou.com/crawler)"
74.112.131.245 - - [14/May/2014:18:35:11 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5434 "-" "Mozilla/5.0 ()"
54.241.198.78 - - [14/May/2014:18:35:11 +0200] "HEAD /oferta-grails.html HTTP/1.1" 200 319 "-" "Google-HTTP-Java-Client/1.17.0-rc (gzip)"
54.241.198.78 - - [14/May/2014:18:35:11 +0200] "HEAD /oferta-grails.html HTTP/1.1" 200 319 "-" "Google-HTTP-Java-Client/1.17.0-rc (gzip)"
173.192.79.101 - - [14/May/2014:18:35:11 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5377 "-" "ShowyouBot (http://showyou.com/crawler)"
98.137.206.123 - - [14/May/2014:18:35:11 +0200] "GET /robots.txt HTTP/1.1" 404 594 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
98.137.206.123 - - [14/May/2014:18:35:11 +0200] "GET /oferta-grails.html HTTP/1.1" 200 14284 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
37.187.180.111 - - [14/May/2014:18:35:12 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5434 "http://www.virtualsw.com/oferta-grails.html" "Livelapbot/0.1"
23.227.176.35 - - [14/May/2014:18:35:14 +0200] "HEAD /oferta-grails.html HTTP/1.1" 206 330 "-" "MetaURI API/2.0 +metauri.com"
23.227.176.35 - - [14/May/2014:18:35:15 +0200] "GET /oferta-grails.html HTTP/1.1" 206 14352 "-" "MetaURI API/2.0 +metauri.com"
98.137.206.123 - - [14/May/2014:18:35:15 +0200] "HEAD /oferta-grails.html HTTP/1.1" 200 285 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
65.52.244.38 - - [14/May/2014:18:35:24 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5434 "-" "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)"
82.98.141.46 - - [14/May/2014:18:35:48 +0200] "HEAD /oferta-grails.html HTTP/1.1" 200 285 "-" "python-requests/2.2.1 CPython/2.7.5 Linux/2.6.32-5-amd64"
37.59.16.157 - - [14/May/2014:18:36:43 +0200] "GET /oferta-grails.html HTTP/1.1" 200 5434 "-" "Mozilla/5.0 (compatible; PaperLiBot/2.1; http://support.paper.li/entries/20023257-what-is-paper-li)"
208.115.113.85 - - [14/May/2014:18:39:40 +0200] "GET /asm/PROD_1281.html HTTP/1.1" 404 601 "-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"

Correcto: en cosa de un par de segundos llegan las arañas de Twitter, Google, Yahoo, paper.li (¿!?) … pidiendo solamente la página en cuestión, no los enlaces relacionados ni el resto de recursos asociados.

Unos minutos despues han llegado Bing, Flipboard, OpensiteExplorer y de nuevo algunos de los buscadores de antes pidiendo, ahora si, todo el contenido relacionado con la página.

Resulta curioso como los buscadores buscan activamente nuevos enlaces (cuando he vuelto a publicar en enlace desde mi cuenta personal sólo se ha registrado la visita del bot de Twitter, imagino que a verificar que el enlace existía o no habia cambiado). Y también está bien haber visto esto como prueba de quien tiene y quien no acceso al stream completo de Twitter, algo muy, pero que muy caro económicamente y muy costoso en términos de potencia de cálculo

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s