Definición de RDD

por | Jun 27, 2018 | Spark | 1 Comentario

Definición de RDD

RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela.

Un RDD se puede crear o bien paralelizando una colección de datos (lista, diccionario,..) o bien cargándolos de un sistema de almacenamiento externo, como un sistema compartido de archivos, HDFS, HBase, o cualquier fuente de datos que ofrece un formato de entrada Hadoop.

1 Comentario

  1. yostin7771@gmail.com

    me encantaría ver como puedo recibir información, algunas revistas o link, o webinars de todo el mundo de la ciencia de datos, big data, databricks, python etc

    Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *