Apache Spark con su release 1.0 pretende ser el más rápido con Big Data

Big Data es un término relativamente nuevo y se le aplica a esas tecnologías que se encargan de recopilar, almacenar y procesar inmensidades de datos en tiempo real para poder ofrecer resultados claros para el ser humano. Un buen ejemplo de ello fue la victoria de Obama en 2012 gracias al Big Data.

Actualmente en muchos casos estas grandes cantidades de datos se suelen procesar gracias Hadoop, un framework de procesamiento de Big Data, pero Apache Spark quiere hacerle frente y augura tener 100 veces mayor rapidez en cálculos en memoria y 10 veces más en disco.

Spark es una plataforma de código abierto para el análisis y procesamiento de estas grandes cantidades de datos que puede ser usado en tres frecuentes lenguajes: Scala (en el lenguaje que está escrito Spark), Java y Python. Además incorpora una serie de herramientas integradas para el análisis como es la librería MLib (para implementar funciones cognitivas), el motor de gráficos GraphX, Shark (para procesar grandes consultas en SQL) y Spark Streaming para procesar en tiempo real grandes cantidades de datos entre clústeres.

Un punto a favor que puede ayudar a dar el paso a alguna empresa que procesase estos datos tan grandes con Hadoop es que tiene una gran compatibilidad con este otro framework de procesamiento de Big Data.

Spark no se limita a grandes equipos o CPDs, sino que lo podemos usar de forma más reducida en nuestro equipo y probar su funcionamiento con total libertad. Además para los que se quieran iniciar en la temática hay bastantes tutoriales que pueden servir de ayuda.

Más información | Apache Spark
Vía | Java Hispano

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios