Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Microsiervos

Publicado en: 14/07/2020 02:54

Escrito por: [email protected] (Alvy)

Un extractor de tablas HTML a CSV sencillo y que funciona

Un extractor de tablas HTML a CSV sencillo y que funciona

HTML Table Scraper es una aplicación de esas sencillas que hace una sola cosa y la hace bien: extraer datos de tablas de las páginas HTML y exportarlas como hojas de cálculo en formato CSV. Esto evita tener que hacer malabarismos con los copypastes y la hoja de cálculo, porque aunque estamos en el siglo XXI no es algo que resulte fácil precisamente.

Todo lo que hay que hacer es (1) pegar la URL de la página y (2) en caso de que haya varias tablas elegir cuál de ellas se quiere exportar. Con un clic el fichero se descarga y queda en formato CSV con una fila por registro y los campos separados por comas. Si hay textos con comas se encierran entre comillas; si hay celdas vacías aparecen como empty cell, lo que permite un tratamiento semimanual posterior.

La conversión no siempre es perfecta; por ejemplo en algunas tablas de la Wikipedia los números de notas al estilo nota[42] también se incluyen con los datos, y hay que filtrarlos a mano. Como todo esto suele tener un patrón –comas, comillas, corchetes– se pueden filtrar con otro programa. Yo suelo hacerlo con BBEdit, pero casi cualquier editor puede valer.

Relacionado:

El diseño de tablas en la web desde el punto de vista tipográfico

# Enlace Permanente

Top noticias del 14 de Julio de 2020