Definición de RDD

Definición de RDD

RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela.

Un RDD se puede crear o bien paralelizando una colección de datos (lista, diccionario,..) o bien cargándolos de un sistema de almacenamiento externo, como un sistema compartido de archivos, HDFS, HBase, o cualquier fuente de datos que ofrece un formato de entrada Hadoop.