Definición de RDD

por | Jun 27, 2018 | Spark | 1 Comentario

Definición de RDD

RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela.

Un RDD se puede crear o bien paralelizando una colección de datos (lista, diccionario,..) o bien cargándolos de un sistema de almacenamiento externo, como un sistema compartido de archivos, HDFS, HBase, o cualquier fuente de datos que ofrece un formato de entrada Hadoop.

1 Comentario

  1. yostin7771@gmail.com

    me encantaría ver como puedo recibir información, algunas revistas o link, o webinars de todo el mundo de la ciencia de datos, big data, databricks, python etc

    Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada.