Los artistas digitales, pintores y fotógrafos empiezan a preguntarse si entre los miles de millones de imágenes usadas para entrenar los modelos de IA de síntesis de imágenes como DALL-E 2 o Stable Diffusion —tan de moda en los últimos meses— se encuentran sus propias creaciones, previamente publicadas en Internet y seleccionadas por los creadores de estas IAs para formar parte de sus respectivos 'datasets'.
Por ello, el matrimonio de artistas Mat Dryhurst y Holly Herndon, ellos mismos veteranos en el entrenamiento de redes neuronales, han creado un sitio web a partir de la información de uno de esos datasets; concretamente LAION-5B, usado para entrenar Stable Diffusion, Midjourney y los modelos Image AI de Google, y que contiene 5.800 millones de imágenes. Aunque advierten que, en el futuro, se agregará el contenido de fuentes de datos.
Dicha web se titula 'Have I Been Trained?', y permite realizar búsquedas como si estuviéramos usando Google Imágenes (es decir, tanto subiendo una imagen de referencia para realizar una búsqueda inversa como introduciendo un término de búsqueda). Gracias a eso, podremos buscar nuestras propias imágenes para saber si han sido usadas en este dataset, o meramente explorar el contenido del mismo.
Ejemplo de búsqueda inversa.
Cuando ejecutamos una búsqueda inversa de una imagen presente en el dataset, la URL de la búsqueda nos muestra de qué web fue extraída.
Esta web no nos permite, …