Buscar

Big data aula 12

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

CIÊNCIA DE DADOS BIG DATA ANALYTIC
CICLO DE VIDA E INTRODUÇÃO À LINGUAGEM R
ESTATÍSTICA DESCRITIVA
Introdução;
Amplitude;
Variância;
Desvio Padrão;
Coeficiente de Dispersão;
Principais funções;
Conclusão.
ESTATÍSTICA DESCRITIVA
AGENDA
ESTATÍSTICA DESCRITIVA
INTRODUÇÃO
As medidas de dispersão são capazes de descrever o quanto os valores de um conjunto estão próximos ou distantes de uma medida central, como a média;
As medidas mais comuns de dispersão ou variância dos dados são:
amplitude;
variância;
desvio padrão;
coeficiente de variação.
ESTATÍSTICA DESCRITIVA
AMPLITUDE
É a diferença entre o maior e o menor valor de um conjunto (v);
amplitude (v) = max (v) – min (v);
Embora seja uma medida simples de calcular, sua interpretação precisa ser feita com cuidado, pois ela pode ser influenciada por valores extremos (outliers);
ESTATÍSTICA DESCRITIVA
VARIÂNCIA
É a média dos quadrados das diferenças entre entre cada valor do conjunto v e a média desse conjunto;
Formalmente é definido como:
ESTATÍSTICA DESCRITIVA
DESVIO PADRÃO
É a raiz quadrada da variância;
O resultado dessa medida geralmente é usado para verificar a consistência de um fenômeno (um fenômeno é consistente quando o cálculo do desvio padrão resulta em valores baixos);
Formalmente é definido como:
ESTATÍSTICA DESCRITIVA
COEFICIENTE DE DISPERSÃO
É a razão entre o desvio padrão e a média;
Também conhecido como coeficiente de variação de Pearson;
É capaz de expressar a dispersão relativa dos valores e é útil para comparar a dispersão de dois ou mais conjuntos de valores;
Formalmente é definido como:
ESTATÍSTICA DESCRITIVA
EXEMPLO
Para ilustrar os conceitos de medidas de dispersão, vamos considerar o conjunto de valores assumidos pela variável Quantidade, conforme tabela abaixo:
ESTATÍSTICA DESCRITIVA
AMPLITUDE
No ambiente estatístico R, a amplitude é obtida utilizando as funções max( ) e min( ), que retornam o maior e o menor valor de um conjunto de dados, respectivamente;
ESTATÍSTICA DESCRITIVA
AMPLITUDE
Podemos utilizar também a função range( ) para calcular a amplitude:
ESTATÍSTICA DESCRITIVA
EXEMPLO
Vamos calcular a variância, desvio padrão e o coeficiente de dispersão, utilizando a planilha ao lado;
Em seguida vamos calcular essas medidas utilizando o ambiente estatístico R;
ESTATÍSTICA DESCRITIVA
VARIÂNCIA
No ambiente estatístico R, a variância é dada pela função var(x):
ESTATÍSTICA DESCRITIVA
DESVIO PADRÃO
No ambiente estatístico R, o desvio padrão é dada pela função sd(x):
ESTATÍSTICA DESCRITIVA
COEFICIENTE DE DISPERSÃO
No ambiente estatístico R, o coeficiente de dispersão deve ser calculado dividindo o desvio padrão pela média, multiplicado por 100:
Podemos utilizar também a função summary( ) que fornece um resumo das estatísticas descritivas:
ESTATÍSTICA DESCRITIVA
MEDIDAS DE DISPERSÃO
ESTATÍSTICA DESCRITIVA
PRINCIPAIS FUNÇÕES
Considere o seguinte vetor:
x = c(30, 10, 40, 20, 80, 50, 70, 100, 90)
ESTATÍSTICA DESCRITIVA
PRINCIPAIS FUNÇÕES
ESTATÍSTICA DESCRITIVA
CONCLUSÃO
Compreender a importância das medidas de dispersão para o entendimento de amostra de dados.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes