Common-Crawl Un repositorio abierto de 5.000.000.000 páginas web que se pueden recorrer con una araña

http://www.commoncrawl.org/

Los datos están almacenados en un servicio de Amazon, a los que se puede acceder normalmente y a través de una map-reduce.

http://www.commoncrawl.org/data/

Este es el Crawl pipeline

http://www.commoncrawl.org/data/processing-pipeline/

http://www.commoncrawl.org/data/accessing-the-data/

Anuncios

Acerca de ebaste

Inventando y solucionando problemas. Ahora la pronunciación del inglés.

Publicado el noviembre 12, 2011 en Uncategorized. Añade a favoritos el enlace permanente. Deja un comentario.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: