Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Software Gurú

Publicado en: 01/03/2022 14:34

Escrito por: Fernando

¿Qué es Apache Beam y cómo encaja en el ecosistema de procesamiento de datos?

¿Qué es Apache Beam y cómo encaja en el ecosistema de procesamiento de datos?

¿Qué es Apache Beam y cómo encaja en el ecosistema de procesamiento de datos?






Fernando
Tue, 03/01/2022 - 14:34

Si bien Apache Beam existe desde hace más de 5 años, descubrimos que los recién llegados a veces tienen dificultades para comprender claramente qué es y cómo se relaciona con otras herramientas y tecnologías de procesamiento de datos. En este breve artículo explicaremos qué es Apache Beam y su lugar en el ecosistema de procesamiento de datos.

¿Qué es Apache Beam?

La definición más simple de Apache Beam es que es "un modelo unificado para definir pipelines de procesamiento de datos". Esta definición tiene dos palabras muy importantes que necesitamos revisar más a fondo: modelo y unificado.

Ser un "modelo" significa que Apache Beam se centra en la definición, no en la implementación. Beam es una abstracción que deja los detalles de implementación a los motores de ejecución (o runners, como se les llama) como Apache Flink o Google Dataflow, por ejemplo.

Por otro lado, estar "unificado" significa que puedes aplicar el mismo modelo para distintos escenarios. Probablemente, la "unificación" más importante que proporciona Beam es que permite usar el mismo modelo para procesar datos por lotes (batch) o transmisión (streaming). Esta unificación también se aplica a los diferentes runners: en lugar de que definas tu pipeline mediante la sintaxis o herramientas específicas del runner, lo defines a través del modelo Beam y luego puede ejecutarlo en el runner más adecuado a tus …

Top noticias del 1 de Marzo de 2022