Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

<p>Data Club</p><p>Aprenda ANOVA de Uma</p><p>Vez por Todas</p><p>Data Club</p><p>Fala, pessoal!</p><p>Vamos falar hoje sobre uma técnica</p><p>estatística que muitas pessoas conhecem ou</p><p>pelo menos já ouviram falar: ANOVA.</p><p>Muitas pessoas, quando se deparam com o</p><p>nome ANOVA, já pensam que é algo</p><p>extremamente complexo e que nunca vão</p><p>conseguir aprender. Entretanto, vão ver que é</p><p>um conceito bem simples e, com um</p><p>exemplo, vão conseguir fixar na cabeça de</p><p>uma vez por todas.</p><p>Por isso, peço que me acompanhem até o</p><p>final, onde irei utilizar um exemplo prático de</p><p>negócio e, logo em seguida, apresentar a</p><p>teoria.</p><p>Bora?</p><p>Introdução</p><p>Data Club</p><p>Imagine que você é um Cientista de Dados</p><p>em uma grande empresa e a área de negócio</p><p>te entregou uma base de dados com o</p><p>faturamento de todas as unidades da</p><p>empresa no Brasil, separado por trimestre.</p><p>Além disso, eles também te entregaram a</p><p>média de salário dos funcionários de cada</p><p>unidade.</p><p>A área de negócio pediu para você verificar</p><p>se há diferença no faturamento entre as</p><p>unidades e, também, se o salário dos</p><p>funcionários influencia no faturamento. Para</p><p>resolver esse problema, utilizaremos a</p><p>ANOVA.</p><p>Agora que já sabemos o problema de negócio,</p><p>vamos apresentar a teoria por trás da Análise</p><p>de Variância.</p><p>Problema de Negócio</p><p>Data Club</p><p>Abaixo, está os dados que iremos utilizar</p><p>Problema de Negócio</p><p>Data Club</p><p>A Análise de Variância, mais conhecida como</p><p>ANOVA (ANalysis Of VAriance), é uma</p><p>técnica estatística que permite testar a</p><p>igualdade de médias populacionais de três ou</p><p>mais grupos.</p><p>Uma grande vantagem da ANOVA em relação</p><p>ao t-teste é a capacidade de fazer</p><p>comparações múltiplas, ou seja, ela compara</p><p>as médias de todos os grupos</p><p>simultaneamente, ao invés de fazer</p><p>comparações dois a dois.</p><p>Antes de partirmos para a fórmula da Análise</p><p>de Variância, precisamos definir alguns</p><p>conceitos.</p><p>Teoria da ANOVA</p><p>Grau de Liberdade: Os graus de liberdade</p><p>(GL) na ANOVA são parâmetros essenciais</p><p>para determinar a distribuição amostral.</p><p>Existem dois tipos de graus de liberdade: os</p><p>graus de liberdade entre os grupos,</p><p>calculados como k−1 (onde k é o número de</p><p>grupos), e os graus de liberdade dentro dos</p><p>grupos, calculados como n−k (onde n é o</p><p>número total de observações).</p><p>MSS: O Mean Square for Sample (MSS)</p><p>representa a variância das médias amostrais.</p><p>É calculado dividindo a Soma de Quadrados</p><p>Entre os Grupos (SSentre) pelo seu</p><p>respectivo grau de liberdade, k−1. A MSS</p><p>mede a dispersão das médias dos grupos em</p><p>torno da média geral.</p><p>Data Club</p><p>Teoria da ANOVA</p><p>MSE: O Mean Square Error (MSE) indica a</p><p>variância dos erros dentro dos grupos. Para</p><p>calculá-lo, divide-se a Soma de Quadrados</p><p>dos Erros (SSDentro) pelo seu respectivo</p><p>grau de liberdade, n−k. A MSE mede a</p><p>dispersão dos valores individuais em torno</p><p>das médias dos grupos.</p><p>Estatística F: A estatística F é obtida</p><p>dividindo-se a MSS pela MSE. Esta razão</p><p>fornece a relação entre a variância das</p><p>médias dos grupos e a variação dentro dos</p><p>grupos, ajudando a determinar se as médias</p><p>dos grupos são significativamente diferentes</p><p>entre si.</p><p>Data Club</p><p>Teoria da ANOVA</p><p>No nosso problema de negócio, temos 4</p><p>grupos, que são as 4 unidades da empresa.</p><p>Além disso, o número total de observações</p><p>(n) é 16, pois temos 4 observações para cada</p><p>unidade.</p><p>Vamos, primeiramente, caluclar o SSentre</p><p>(Soma dos Quadrados Entre Grupos). Para</p><p>isso, utilizamos a seguinte fórmula:</p><p>Onde:</p><p>y é a média geral de todos os grupos</p><p>yj é a média do j-ésimo grupo</p><p>nj é o número de observações do grupo j</p><p>Com os devidos cálculos, encontraremos que</p><p>SSentre = 325.</p><p>Agora, vamos calcular a Soma de Quadrados</p><p>dos Erros (SSdentro). Para isso, utilizamos a</p><p>seguinte fórmula:</p><p>Data Club</p><p>Cálculo da Análise de Variância</p><p>Com os devidos cálculos, encontramos que</p><p>SSdentro = 30050.0.</p><p>Com isso, vamos calcular o valor da Estatística</p><p>F. Para isso, utilizamos a seguinte fórmula:</p><p>Substituindo os valores, chegamos em F =</p><p>0.0432.</p><p>Agora que já temos o valor da estatística F,</p><p>precisamos encontrar o valor crítico para</p><p>traçarmos a nossa conclusão.</p><p>Utilizando um nível de significância de 5%, um</p><p>grau de liberdade dos grupos (k−1) igual a 4−1 = 3</p><p>e um grau de liberdade dentro dos grupos (n−k)</p><p>igual a 16−4=12, encontramos que o valor crítico</p><p>é igual a 3.49.</p><p>Data Club</p><p>Cálculo da Análise de Variância</p><p>Como o nosso valor da estatística F (0.0432)</p><p>não é maior que o valor crítico (3.49), não temos</p><p>evidências suficientes para rejeitar a hipótese</p><p>nula de que todas as médias dos grupos são</p><p>iguais.</p><p>Em outras palavras, não há diferença estatística</p><p>entre as médias de faturamento das unidades.</p><p>Data Club</p><p>Cálculo da Análise de Variância</p><p>Agora que já vimos a teoria, vamos implementar</p><p>tudo isso em Python.</p><p>Para fazer a implementação, vou utilizar as</p><p>bibliotecas numpy e scipy. Portanto, caso você</p><p>ainda não tenha elas instaladas, utilize o</p><p>comando !pip install numpy scipy.</p><p>Data Club</p><p>Implementação em Python</p><p>import pandas as pd</p><p>import numpy as np</p><p>import scipy.stats as stats</p><p># Dados de faturamento trimestral</p><p>dados_faturamento = {</p><p>'Unidade': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'D', 'D', 'D',</p><p>'D'],</p><p>'Trimestre': [1, 2, 3, 4] * 4,</p><p>'Faturamento': [100, 150, 200, 250, 120, 160, 210, 240, 130, 170, 220, 230, 140, 180, 190,</p><p>210]</p><p>}</p><p># Dados de média salarial</p><p>dados_salario = {</p><p>'Unidade': ['A', 'B', 'C', 'D'],</p><p>'Media_Salarial': [4.5, 5.0, 5.5, 6.0]</p><p>}</p><p># Criando DataFrames</p><p>df_faturamento = pd.DataFrame(dados_faturamento)</p><p>df_salario = pd.DataFrame(dados_salario)</p><p># Calculando a média geral do faturamento</p><p>media_geral_faturamento = df_faturamento['Faturamento'].mean()</p><p># Calculando a Soma de Quadrados Entre os Grupos (SSentre)</p><p>SSentre = sum(df_faturamento.groupby('Unidade').apply(lambda x: len(x) *</p><p>(x['Faturamento'].mean() - media_geral_faturamento)**2))</p><p>Data Club</p><p>Implementação em Python</p><p># Calculando os graus de liberdade</p><p>k = df_faturamento['Unidade'].nunique()</p><p>n = len(df_faturamento)</p><p>GL_entre = k - 1</p><p>GL_dentro = n - k</p><p># Calculando MSS e MSE</p><p>MSS = SSentre / GL_entre</p><p>MSE = SSDentro / GL_dentro</p><p># Calculando a estatística F</p><p>F = MSS / MSE</p><p># Calculando o valor p</p><p>p_value = stats.f.sf(F, GL_entre, GL_dentro)</p><p>print(f"Estatística F: {F}")</p><p>print(f"Valor p: {p_value}")</p><p># Verificando a influência do salário no faturamento</p><p>df_merged = df_faturamento.merge(df_salario, on='Unidade')</p><p># Calculando a correlação entre salário e faturamento</p><p>correlacao = df_merged['Media_Salarial'].corr(df_merged['Faturamento'])</p><p>print(f"Correlação entre salário e faturamento: {correlacao}")</p><p>Data Club</p><p>Chegamos ao final de mais um material,</p><p>pessoal! Espero que tenham aprendido</p><p>bastante e que o material seja muito útil nos</p><p>seus estudos.</p><p>Tente implementar o código e depois me</p><p>conta se deu certo!</p><p>Um abraço,</p><p>Anwar.</p><p>Conclusão</p>

Mais conteúdos dessa disciplina