- Date of publication
- Marzo 2018
- Technology
- Article
ESIC Business & Marketing School
ESIC Business & Marketing School.
Hoy en día, la variedad de herramientas Big Data a utilizar es muy extensa. Esto hace que acercarse al mundo del Big Data pueda resultar intimidante cuanto menos. Decidir qué software utilizar a la hora de definir nuestra arquitectura requiere mucho cuidado y planificación. Pero entonces, ¿Cuáles son las herramientas en las que debería centrar mi atención? Sería muy difícil responder a esta pregunta de forma general pero podemos al menos hacer un listado de las 7 herramientas Big Data que deberíamos conocer para que nuestro aterrizaje en este mundo sea lo más seguro posible.
7 herramientas Big Data que deberías conocer
1. Apache Hadoop
Es el principio de todo y el punto en el que se apoyan otras soluciones enfocadas a Big Data. El sistema de almacenamiento distribuido de ficheros HDFS y el gestor de recursos YARN son sus componentes principales. Incluye también una implementación del sistema de procesamiento MapReduce que hace uso de YARN para la distribución de las tareas. Es una herramienta cuyo conocimiento es indispensable para todo aquél que quiera adentrarse en este mundo.
Usado en Yahoo!, Amazon y de una u otra manera por todos los demás.
2. Apache Spark
Es uno de los chicos grandes. Es una herramienta de procesamiento distribuido de datos en batch y tiempo real con una API unificada para ambos modelos. Desde su llegada al ecosistema en 2014 Spark ha ganado cada día más y más adeptos. Todo recién llegado debería profundizar en su uso. Su único inconveniente es que para explotarlo al máximo requiere que aprendamos además el uso del lenguaje de programación Scala.
Usado en Cisco, Verizon y Visa.
3. Apache Flink
Es el principal rival de Spark y pasito a pasito está haciendo mella en su base de usuarios. Flink ofrece las mismas características de Spark pero con una implementación muy diferente. Algunas de las mejoras que Flink trae al mundo del procesamiento en tiempo real hacen que sea una herramienta a conocer.
Usado en Zalando.
4. Presto
Esta herramienta Big Data no forma parte del ecosistema Apache pero es otra de esas cuyo conocimiento es necesario para todo entusiasta. Presto es un motor de consultas SQL que permite relacionar información presente en múltiples sistemas de almacenamiento diferentes de forma unificada sin necesidad de mover los datos a una única plataforma.
Usado en Airbnb, Netflix y Facebook.
5. Apache HBase
HBase es un viejo conocido dentro de este ámbito. Se trata de un sistema de almacenamiento de datos distribuido y escalable basado en ficheros HDFS. Su modelo de datos es orientado a familias de columnas y su principal ventaja es que permite la actualización y el acceso aleatorio a los datos. Está presente en las principales distribuciones de Hadoop por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills necesarios para todo conocedor.
Usado en Facebook, Airbnb, y Spotify.
6. Apache Cassandra
Cassandra es, en cierta forma, el principal rival de HBase dentro del mundo de las herramientas Big Data. No solo porque es también uno de esos proyectos primordiales si no además porque utiliza un modelo de datos muy similar. A diferencia de HBase no hace uso de ningún componente del ecosistema Hadoop ni está incluida en ninguna de las distribuciones de éste. A cambio de esta desventajas Cassandra es de las pocas soluciones desarrolladas para dar soporte a despliegues multi-datacenter por lo que es también un ‘debe’ en nuestra lista de conocimientos.
Usado en el CERN, Cisco y Walmart.
7. Apache Kudu
Kudu es la herramienta perfecta para complementar al HDFS. Se trata de un sistema de almacenamiento de datos en formato columnar que permite realizar consultas analíticas sobre estos de forma más fácil y con un gran rendimiento. Kudu es un recién llegado al ecosistema pero la forma en que complementa a otros de los componentes lo hará cada vez más omnipresente en las arquitecturas Big Data.
Usado en Cloudera.
Esta lista de soluciones orientadas a Big Data no es exhaustiva. Sería imposible listar todas y cada una de las herramientas Big Data. No obstante contiene las tecnologías básicas que deben ser conocidas por cualquiera interesado en el IT digital que se hace un hueco cada vez mayor en los negocios ya sean estos nuevos o tradicionales.
Si quieres seguir aprendiendo sobre análisis de datos y las posibilidades que brindan a cualquier empresa, fórmate con el Programa Superior en Data Engineering de ICEMD. Toda la información e inscripciones, aquí.
You may also be interested in
Customer success: definition and how to implement it
In today's business environment, where competition is fierce and customer expectations continue to grow, customer success has become a key element in ensuring the success of a company's business.
- Published by _ESIC Business & Marketing School
What is the Ishikawa diagram and how to do it. Examples
How many times have we tried to solve a problem by patching it up, without going deep into the real cause, into the root of the problem? There are many companies that, when faced with crises or problems, try to...
- Published by _ESIC Business & Marketing School
JavaScript: what it is, what it is used for and examples
Undoubtedly, JavaScript is one of the most widely used programming languages worldwide. In fact, as early as 2021 it was being used by 14 million programmers according to Genbeta. The trend has been increasing...
- Published by _ESIC Business & Marketing School