Buscar

10 funções mais usadas para manipular dataframes no Pandas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Privacidade - Termos de
Utilização
 
10 funções mais usadas para manipular dataframes no
Pandas
O Pandas é uma das bibliotecas mais utilizadas para analisar dados em Python, além de ser
uma ferramenta poderosa, flexível e confiável para muitos analistas de dados. Existem
algumas funções conhecidas, bem como técnicas não tão formais que podem tornar a vida
mais fácil para qualquer analista de dados, seja ele um profissional ou um entusiasta.
Neste artigo, serão discutidas algumas funções úteis e técnicas significativas, todas com
exemplos. Com certeza você já usou algumas dessas funções com frequência, mas elas podem
não ser tão familiares para todos. No geral, você enriquecerá suas habilidades em Análise de
Dados.
No decorrer deste artigo você verá as seguintes funções:
unique e nunique 
describe
sort_values
value_counts
isnull 
fillna 
groupby 
map e seu uso para codificação categórica
apply e lambda
pivot
Vamos começar
Antes de usar as funções mencionadas acima, você pode criar um dataframe usando o dataset
Kaggle Titanic, você pode baixá-lo aqui . Dessa forma, uma variedade de opções pode ser
explorada. Como alternativa, qualquer conjunto de dados de código aberto pode ser usado
para a prática.
 
1.  unique e nunique
A função unique no Pandas retorna uma lista dos elementos únicos com base na ocorrência.
Esta função é mais rápida do que a unique do NumPy e também inclui valores NaN. Isso é
particularmente útil para verificar os diferentes valores em um campo categórico.
Saída:
A função Nunique, por outro lado, conta os valores distintos das colunas. Os valores NaN
 30 de junho de 2021 Tempo de Leitura: 5 minutos Análise de Dados Dataframes Pandas
1 data['Embarked'].unique()
1 array (['S', 'C', 'Q', nan], dtype = objeto)
Procure aqui 
Acompanhe nossas redes
      
Mais lidas
Os 11 melhores canais de
Data Science no
Telegram
6 truques do Pandas
para impulsionar sua
análise de dados
5 cursos gratuitos de
Data Science e Machine
Learning para fazer na
quarentena
O Papel da Mineração de
Processos na Ciência de
Dados
Curso: Imersão em
Ciência de Dados
 Home Time Pesquisa Projetos Blog Vagas Contato
https://www.google.com/intl/pt-PT/policies/privacy/
https://www.google.com/intl/pt-PT/policies/terms/
https://insightlab.ufc.br/#facebook
https://insightlab.ufc.br/#twitter
https://insightlab.ufc.br/#whatsapp
https://insightlab.ufc.br/#telegram
https://insightlab.ufc.br/#linkedin
https://www.kaggle.com/c/titanic
https://insightlab.ufc.br/2021/06/
https://insightlab.ufc.br/category/analise-de-dados/
https://insightlab.ufc.br/category/dataframes/
https://insightlab.ufc.br/category/pandas/
https://t.me/insight_lab
https://www.instagram.com/_insightlab/
https://www.facebook.com/insightdatasciencelab/
https://www.linkedin.com/company/insight-data-science-lab/
https://twitter.com/insightlab_
https://github.com/InsightLab
https://www.youtube.com/c/InsightLabDataScience
https://medium.com/@insightlab
https://insightlab.ufc.br/os-11-melhores-canais-de-data-science-no-telegram/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena/
https://insightlab.ufc.br/o-papel-da-mineracao-de-processos-na-ciencia-de-dados/
https://insightlab.ufc.br/curso-imersao-em-ciencia-de-dados/
https://insightlab.ufc.br/
https://insightlab.ufc.br/
https://insightlab.ufc.br/time/
https://insightlab.ufc.br/pesquisa/
https://insightlab.ufc.br/projetos/
https://insightlab.ufc.br/blog/
https://insightlab.ufc.br/vagas/
https://insightlab.ufc.br/contato/
https://insightlab.ufc.br/?lang=en
Privacidade - Termos de
Utilização
ç q , p ,
podem ser ignorados. Isso mostra apenas o número de categorias diferentes presentes em
uma coluna de um dataframe.
Saída: 3
 
2. describe
Esta função mostra estatísticas descritivas, como média, desvio padrão, máximo, mínimo e
outras tendências centrais, além da forma da distribuição. Isso exclui os valores NaN do
resumo. Isso é útil para se ter uma ideia sobre a distribuição dos campos de dados e outliers,
se houver. O percentil da saída pode ser personalizado mencionando a faixa de percentis no
parâmetro da função.
data.describe() 
 
Saída:
3. sort_values
Esta função altera a ordem dos valores em uma coluna classificando-a. Portanto, podemos
usar isso para mostrar o dataset de acordo com nossa necessidade, classificando em ordem
crescente ou decrescente.
Podemos definir o parâmetro “ascending” verdadeiro ou falso, que por padrão é
verdadeiro. Também podemos alterar a classificação por índice ou coluna definindo o
parâmetro “eixo” 0 ou 1. Além disso, podemos classificar várias colunas mencionando-as
em uma lista, por exemplo:
Saída:
 
4. value_counts
Esta função retorna o valor da contagem para cada item exclusivo presente na coluna. Os
valores são exibidos em ordem decrescente para que o elemento mais frequente venha
primeiro. Isso exclui os valores nulos. Aqui, veremos o número de homens e mulheres a
bordo em diferentes classes, chamando a função value_counts () da seguinte maneira:
 
Saída:
5. isnull 
1 data['Embarked'].nunique()
1 data.describe()
1 (e.g. data.sort_values(by=[‘Age’,’Pclass’, ascending=[False,True])
2 data.sort_values(by='Age',ascending=False)
1 data[['Pclass','Sex']].value_counts()
Acompanhe nossas redes
      
Mais lidas
Os 11 melhores canais de
Data Science no
Telegram
6 truques do Pandas
para impulsionar sua
análise de dados
5 cursos gratuitos de
Data Science e Machine
Learning para fazer na
quarentena
O Papel da Mineração de
Processos na Ciência de
Dados
Curso: Imersão em
Ciência de Dados
 Home Time Pesquisa Projetos Blog Vagas Contato
https://www.google.com/intl/pt-PT/policies/privacy/
https://www.google.com/intl/pt-PT/policies/terms/
https://t.me/insight_lab
https://www.instagram.com/_insightlab/
https://www.facebook.com/insightdatasciencelab/
https://www.linkedin.com/company/insight-data-science-lab/
https://twitter.com/insightlab_
https://github.com/InsightLab
https://www.youtube.com/c/InsightLabDataScience
https://medium.com/@insightlab
https://insightlab.ufc.br/os-11-melhores-canais-de-data-science-no-telegram/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena/
https://insightlab.ufc.br/o-papel-da-mineracao-de-processos-na-ciencia-de-dados/
https://insightlab.ufc.br/curso-imersao-em-ciencia-de-dados/
https://insightlab.ufc.br/
https://insightlab.ufc.br/
https://insightlab.ufc.br/time/
https://insightlab.ufc.br/pesquisa/
https://insightlab.ufc.br/projetos/
https://insightlab.ufc.br/blog/
https://insightlab.ufc.br/vagas/
https://insightlab.ufc.br/contato/
https://insightlab.ufc.br/?lang=en
Privacidade - Termos de
Utilização
Esta função descobre se há algum valor ausente presente em um objeto do tipo array. Esta
função retorna valores booleanos após verificar os valores ausentes. Estamos criando uma
lista com um valor nulo e quando ela é passada pela função isnull (), ela dá saída com uma
lista booleana.
Isso também pode ser útil quando verificamos se há valores ausentes em um grande
dataframe. Podemos calcular o número total de valores ausentes de uma coluna adicionando
a função sum () ao final da função isnull (). Aqui, pegamos nosso dataset e verificamos para
cada coluna se há algum valor ausente e mostramos o mesmo.
 
#tirando cada coluna do dataframe
#verificando se há algum nulo na coluna
#se for nulo, número total de nulos nas colunas armazenadas
 
Saída:
 
6. fillna
Esta função é usada para preencher os valores ausentes com base no método especificado.
Fillna usa parâmetros como valor (um valor que é usado para preencher o valor ausente) e
método (como bfill, ffill, etc). Em nosso conjunto de dados de exemplo, o campo “Idade” tem
um total de 177 valores ausentes. Vamospreenchê-lo com a mediana de “Idade” usando a
função fillna ().
 
Saída: 0
O parâmetro “valor” de fillna () também pode ser obtido de outro groupby complexo ou
dataframe ou dicionário.
 
7. groupby 
A função Pandas groupby( ) é usada para dividir os dados e ajudar a aplicação de
alguma função a eles e no final combinar o resultado para outro objeto. Frequentemente
precisamos dividir os dados e aplicar alguma agregação (por exemplo, soma, média,
contagem, etc.) ou transformá-los (por exemplo, para preencher valores ausentes ou
padronizar dados), a função groupby é útil nessas situações.
 
# queremos ver para cada campo de gênero máximo, mínimo, média e mediana de idade
Saída:
 
8. map 
1 forcolindata.columns:
1 ifdata[col].isnull().sum()>0:
1 total_null=data[col].isnull().sum() print('Column{}hastotalnull{},i.e.{}%'.format(c
1 data['Age'].fillna(value=data['Age'].median(),inplace=True)
2 data['Age'].isnull().sum()
1 data.groupby(['Sex'])['Age'].agg(['max','min','mean','median'])
Acompanhe nossas redes
      
Mais lidas
Os 11 melhores canais de
Data Science no
Telegram
6 truques do Pandas
para impulsionar sua
análise de dados
5 cursos gratuitos de
Data Science e Machine
Learning para fazer na
quarentena
O Papel da Mineração de
Processos na Ciência de
Dados
Curso: Imersão em
Ciência de Dados
 Home Time Pesquisa Projetos Blog Vagas Contato
https://www.google.com/intl/pt-PT/policies/privacy/
https://www.google.com/intl/pt-PT/policies/terms/
https://t.me/insight_lab
https://www.instagram.com/_insightlab/
https://www.facebook.com/insightdatasciencelab/
https://www.linkedin.com/company/insight-data-science-lab/
https://twitter.com/insightlab_
https://github.com/InsightLab
https://www.youtube.com/c/InsightLabDataScience
https://medium.com/@insightlab
https://insightlab.ufc.br/os-11-melhores-canais-de-data-science-no-telegram/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena/
https://insightlab.ufc.br/o-papel-da-mineracao-de-processos-na-ciencia-de-dados/
https://insightlab.ufc.br/curso-imersao-em-ciencia-de-dados/
https://insightlab.ufc.br/
https://insightlab.ufc.br/
https://insightlab.ufc.br/time/
https://insightlab.ufc.br/pesquisa/
https://insightlab.ufc.br/projetos/
https://insightlab.ufc.br/blog/
https://insightlab.ufc.br/vagas/
https://insightlab.ufc.br/contato/
https://insightlab.ufc.br/?lang=en
Privacidade - Termos de
Utilização
A função map ( ) no Pandas é usada para mapear séries e substituir valores de uma
série por outro valor associado a um dicionário, série ou função. Esta função é
frequentemente usada para substituir valores de uma coluna de um dataframe ou uma série,
mas lembre-se que todos os valores têm de ser do mesmo tipo!
Em nosso dataset, suponha que queremos converter o campo de gênero em um campo
binário, ou seja, substituir “masculino” pelo valor 1 e feminino pelo valor 0. O mesmo pode
ser feito facilmente da seguinte maneira:
 
Saída:
#crie um dicionário para substituir os valores
#chame a função map e passe o dicionário para mapear os valores da coluna
 
Saída:
 
9. apply
A função apply() no Pandas certamente é uma das funções mais versáteis entre todas. Nós
podemos utilizar uma função apply() e ela se aplicará a todo o dataframe (ou a uma série
particular). Isso ajuda a modificar os dados de acordo com a condição de uma maneira muito
flexível. Vamos ver um exemplo simples, aqui temos um dataframe e uma das colunas tem
marcas que queremos converter em uma porcentagem.
 
Saída:
 
Saída:
Aplicar função também pode ser usada com função anônima ou função lambda. Suponha que
tenhamos que converter um campo contínuo como “idade” em uma coluna de faixa etária
diferente ou converter um campo categórico em um campo codificado por rótulo e, em
seguida, aplicar a função junto com a função lambda é muito útil nessas situações.
 
A coluna Age_bin será criada da seguinte forma
1 data['Sex'].head()
1 gender = {'male':1, 'female':0}
1 data['Sex'].map(gender).head()
1 df=pd.DataFrame({'Name':['X','Y','Z'],'Marks':[150,120,175]})
2 df
1 def percentage_marks(x):
2 return x/2
3 df['Marks'].apply(percentage_marks)
1 data['Age_bin']=data['Age'].apply(lambda x : 1 if x<=30 else
2 (2 if x>30 and x<=45 else</pre>
3  (3 if x>45 and x<=60 else 4)))
Acompanhe nossas redes
      
Mais lidas
Os 11 melhores canais de
Data Science no
Telegram
6 truques do Pandas
para impulsionar sua
análise de dados
5 cursos gratuitos de
Data Science e Machine
Learning para fazer na
quarentena
O Papel da Mineração de
Processos na Ciência de
Dados
Curso: Imersão em
Ciência de Dados
 Home Time Pesquisa Projetos Blog Vagas Contato
https://www.google.com/intl/pt-PT/policies/privacy/
https://www.google.com/intl/pt-PT/policies/terms/
https://t.me/insight_lab
https://www.instagram.com/_insightlab/
https://www.facebook.com/insightdatasciencelab/
https://www.linkedin.com/company/insight-data-science-lab/
https://twitter.com/insightlab_
https://github.com/InsightLab
https://www.youtube.com/c/InsightLabDataScience
https://medium.com/@insightlab
https://insightlab.ufc.br/os-11-melhores-canais-de-data-science-no-telegram/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena/
https://insightlab.ufc.br/o-papel-da-mineracao-de-processos-na-ciencia-de-dados/
https://insightlab.ufc.br/curso-imersao-em-ciencia-de-dados/
https://insightlab.ufc.br/
https://insightlab.ufc.br/
https://insightlab.ufc.br/time/
https://insightlab.ufc.br/pesquisa/
https://insightlab.ufc.br/projetos/
https://insightlab.ufc.br/blog/
https://insightlab.ufc.br/vagas/
https://insightlab.ufc.br/contato/
https://insightlab.ufc.br/?lang=en
Privacidade - Termos de
Utilização
 
10. pivot
A função pivot remodela o dataset por valores de índice ou coluna. Essa função é basicamente
semelhante à tabela dinâmica. Ele usa o valor exclusivo de uma coluna para formar um índice
de um dataset. Ao contrário da função groupby, o pivot não oferece suporte à agregação de
dados. Veja exemplo abaixo:
 
Saída:
 
 
Saída:
__ __ __
 
Esperamos que estas funções contribuam ainda mais na sua Análise de Dados, especialmente
para você que está iniciando no mundo do Python e Pandas. Acompanhe o nosso blog para
saber sempre mais!
Artigo original, Analytics Vidhya
 
1 df=pd.DataFrame({'Class':['1st','2nd','3rd','1st','2nd','3rd'],'Section':</pre&g
2 <pre>['A','A','A','B','B','B'],'Gr':[1,2,3,4,5,6]})</pre>
3 <pre>df
1 df.pivot(index='Class',columns='Section',values='Gr')
Márcia de Lima
Marketing Digital | Graduanda em Publicidade e Propaganda na Universidade Federal
do Ceará
Lucas Peres
Desenvolvedor Full Stack e doutorando em Ciência da Computação na Universidade
Federal do Ceará.
Postagens Relacionadas
Acompanhe nossas redes
      
Mais lidas
Os 11 melhores canais de
Data Science no
Telegram
6 truques do Pandas
para impulsionar sua
análise de dados
5 cursos gratuitos de
Data Science e Machine
Learning para fazer na
quarentena
O Papel da Mineração de
Processos na Ciência de
Dados
Curso: Imersão em
Ciência de Dados
 Home Time Pesquisa Projetos Blog Vagas Contato
https://www.google.com/intl/pt-PT/policies/privacy/
https://www.google.com/intl/pt-PT/policies/terms/
https://www.analyticsvidhya.com/blog/2021/06/the-10-most-frequently-used-functions-you-must-know-to-manipulate-pandas-dataframe/
https://insightlab.ufc.br/author/marciadelima/
https://insightlab.ufc.br/author/lucas-peres/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://t.me/insight_lab
https://www.instagram.com/_insightlab/
https://www.facebook.com/insightdatasciencelab/
https://www.linkedin.com/company/insight-data-science-lab/https://twitter.com/insightlab_
https://github.com/InsightLab
https://www.youtube.com/c/InsightLabDataScience
https://medium.com/@insightlab
https://insightlab.ufc.br/os-11-melhores-canais-de-data-science-no-telegram/
https://insightlab.ufc.br/6-truques-do-pandas-para-impulsionar-sua-analise-de-dados/
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena/
https://insightlab.ufc.br/o-papel-da-mineracao-de-processos-na-ciencia-de-dados/
https://insightlab.ufc.br/curso-imersao-em-ciencia-de-dados/
https://insightlab.ufc.br/
https://insightlab.ufc.br/
https://insightlab.ufc.br/time/
https://insightlab.ufc.br/pesquisa/
https://insightlab.ufc.br/projetos/
https://insightlab.ufc.br/blog/
https://insightlab.ufc.br/vagas/
https://insightlab.ufc.br/contato/
https://insightlab.ufc.br/?lang=en

Mais conteúdos dessa disciplina