Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado en: 03/04/2021 15:35

Common Crawl: un archivo completo de la Web con fines de investigación, de 280 TB y con 270 millones de páginas

El nombre de Common Crawl es a la vez un proyecto y una organización sin ánimo de lucro que desde 2011 se dedica a rastrear la World Wide Web y generar un archivo abierto y accesible para que cualquier persona o empresa pueda acceder a una copia completa cómodamente y sin tener que pagar nada… algo así como lo mismo que tienen Google, Bing y el resto de buscadores, pero en versión de los comunes de los mortales. Según cuentan en su blog la última versión ocupa 280 terabytes y contiene 2.700 millones de páginas. Buenas cifras; inmensas pero no inabarcables.

Entre los proyectos ya llevados a cabo con estos datos están:

Análisis de popularidad de dominios
Extracción de ofertas de empleo
Pruebas de categorización
Análisis sobre la publicidad en internet
Búsqueda de tags
Reconocimiento de sitios que publican feeds RSS
Análisis del impacto de noticias en los mercados
… y decenas de otros

El proyecto técnicamente utiliza un bot llamado CCBot que está basado en Nutch, de Apache. Se comporta como cualquier otro bot y cualquier webmaster pueden utilizar el protocolo robots.txt de exclusión de robots, si quiere evitar que indexe sus páginas o que lo haga más despacio (ver FAQ). El rastreo es automático y se realiza periódicamente, según parece al menos una vez al mes. Aunque no lo he visto específicamente indicado da la impresión de que sólo extrae el texto de las páginas, no las imágenes ni vídeos, que sin duda ocuparían mucho más.

Por que he cotilleado por ahí el número promedio …

Lee toda la nota original aquí

Top noticias del 3 de Abril de 2021

PayPal ya permite el pago con Bitcoins

Zendaya dará voz a Lola Bunny en ‘Space Jam: A New Legacy’

Rutilio Escandón promete no publicitar sus logros durante veda electoral

"Samsung mantendrá su lugar en la gama media; Xiaomi y Realme tienen que buscar su hueco"

Cómo ver HBO en la televisión

Primer vistazo al gameplay del nuevo juego de Sherlock Holmes: Chapter One

Se filtran datos privados de más de 533 millones de usuarios de Facebook

Los datos de 533 millones de usuarios de Facebook de 106 países se filtraron en internet, según Reuters