Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs....

Resumir información de dataframe en R

Determinar la frecuencia de aparición de un elemento library(dplyr) frecuencias <- data.frame(id = datos$texto, value = datos$valor) frecuencias <- mutate(group_by(frecuencias,id), cumsum=cumsum(value)) datos.frec <-...

Eliminar columnas de un dataframe en R

Eliminar columnas de un dataframe # Carga de datos a utilizar id <- c(1,2,3,4,5,6,7,8,9) valor <- c(7,1,12,4,5,16,71,38,19) categoria <- c(rep(«bajo»,3),rep(«medio»,3),rep(«alto»,3)) color <- c(rep(«rojo»,1),rep(«azul»,2), rep(«naranja»,2),rep(«morado»,1),...

Ordenar datos en R

Ordenar dataframe por una columna # Cargar datos del dataframe id <- c(1,2,3,4,5,6,7,8,9) valor <- c(7,1,12,4,5,16,71,38,19) categoria <- c(rep(«bajo»,3),rep(«medio»,3),rep(«alto»,3)) datos <- data.frame(id=id, valor=valor, categoria=categoria) head(datos,...

Unificar categorías de dataframe en R

Unificar categorias sustituyendo por elementos de un conjunto # Ampliar el conjunto de datos datos$sexo <- c(«masculino»,»h», «hombre», «h»,»mujer»,»femenino», «mujer», «m») # Ver que valores toma la variable unique(datos$sexo) ## [1] «masculino» «h» «hombre»...