Prévia do material em texto
14:03 29 Pandas PySpark OPERAÇÕES PANDAS PYSPARK Visualizar df.head() df.show() Tabela Formato da df.shape Tabela Visualizar df.info() df.printSchema() Esquema Selecionar Colunas Filtrar df[df['col] value] df.filter(df.col > value) Linhas Condições df.query('coll >10 & col2 == "A") & (df.col2 == Múltiplas Ondenar df.sort_values('col) df.orderBy('col) Linhas Agrupamentos e df.groupby('col).sum() Agregações Contar Valores df.select('col).distinct().count() Retornar Valores Únicos Identificar df.isnull().sum() Valores Nulos c)).alias(c) for C in df.columns]) Excluir Valores df.dropna() df.dropna() Nulos Preencher df.fillna(value) df.fillna(value) Valores Nulos Mesclar Tabelas Remover df.drop_duplicates() df.dropDuplicates() Duplicados Adicionar + df.col2) Colunas Renomear df.rename(columns= Colunas 223 Carlos Felippe Rocha de... Seguir 6 ANALISTA DE DADOS BIÓLOGO DEV Pandas vs PySpark - Qual escolher? ...mais