Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Microsiervos

Publicado en: 17/12/2024 13:06

Escrito por: [email protected] (Alvy)

La nube de anti-tags

La nube de anti-tags

Curiosa visualización la de esta nube de anti-tags, que básicamente toma todas las palabras de un libro y las compara con la lista de palabras más usadas para extraer las palabras que menos se mencionan en el contenido del libro. Y los resultados son bastante interesantes.

Al hacer este tipo de procesamiento de los datos hay que tener en cuenta algunos factores. Por ejemplo, hay muchas palabras vacías (stopwords) que por irrelevantes y comunes deben ignorarse para no emponzoñar la lista («el», «la», «y», etcétera). También sucede que en inglés una misma palabra puede escribirse de dos formas (color/colour) según sea inglés americano o británico, así que esas listas requieren cierta «limpieza» manual.

Los ejemplos son todos en inglés, porque proceden de libros del dominio público del Proyecto Gutenberg y las palabras más frecuentes del Wiktionary. La lista no es muy grande, pero va creciendo poco a poco por lo que he podido ver. Estaría divertido ver el equivalente para algunos libros en castellano.

Relacionado:

WordItOut: convirtiendo palabras en nubes
El misterio de la ley de Zipf y el lenguaje

# Enlace Permanente

Top noticias del 17 de Diciembre de 2024