Estructuras de datos en Scala

RDD (Resilient Distributed Dataset)

  • Datos no estructurados, ejemplo: binarios, text streaming.
  • Utiliza acciones y transformaciones de bajo nivel
  • No soporta serialización Encoders.
  • No de un esquema ni formato de columna.

 

DataSets – Sets

  • Datos estructurados (entradas RDBMS) o semi-estructurados (son, csv)
  • API con un tipado fuerte de datos.
  • Mayor rendimiento que RDDs y menor que DataFrames

 

DataFrames – DataFrames

  • Datos estructurados (entradas RDBMS) o semi-estructurados (son, csv)
  • Necesita ejecutar consultas hive
  • Mayor rendimiento que RDDs y DataSets

 

Listas – Lists

  • Lista de datos tipada a un tipo de datos.

Más información sobre listas

 

Arrays

  • Arrays de datos tipada a un tipo de datos.

Más información sobre listas

 

Vectores – Vectors

  • Vector de datos

 

Filas – Row

  • Define files de otras estructuras de datos más complejas

 

Diccionarios – Maps

  • Colecciones de datos clave-valor.
  • Se puede recuperar cualquier valor en función de su clave.

Tuplas – Tuples

  • Puede contener datos de diferentes tipos a diferencia de las listas o los arrays.

 

Opciones – Options

  • Proporciona un contenedor para cero o un elemento de un tipo determinado.

 

Iteradores – Iterators

  • No es una colección de datos, sino una forma de acceder a los elementos de una colección uno por uno.

Autor: Diego Calvo