Buscar

Big data aula 11

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

CIÊNCIA DE DADOS BIG DATA ANALYTIC
CICLO DE VIDA E INTRODUÇÃO À LINGUAGEM R
ESTATÍSTICA DESCRITIVA
Introdução;
Medidas de Posição;
Média Aritmética;
Mediana;
Moda;
Conclusão.
ESTATÍSTICA DESCRITIVA
AGENDA
ESTATÍSTICA DESCRITIVA
INTRODUÇÃO
A Estatística Descritiva é uma ferramenta capaz de descrever ou resumir dados, mostrando aspectos importantes do conjunto de dados, como o tipo de distribuição associada e os valores mais representativos do conjunto, e permitindo criar visualizações referentes a tais aspectos;
ESTATÍSTICA DESCRITIVA
MEDIDAS DE POSIÇÃO OU MEDIDAS DE TENDÊNCIA CENTRAL
Permitem encontrar os valores que orientam a análise dos dados no que diz respeito à sua localização, ou como a distribuição associada aos valores se comporta no universo da amostra;
As medidas de posição mais comuns são a:
média aritmética;
mediana;
moda.
ESTATÍSTICA DESCRITIVA
MÉDIA ARITMÉTICA
É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores:
Onde a média representa, a soma Xi dos valores do conjunto, dividida pela quantidade n de elementos do conjunto.
ESTATÍSTICA DESCRITIVA
MÉDIA ARITMÉTICA
No ambiente estatístico R, geramos a média através da função mean( ), como descrito abaixo:
ESTATÍSTICA DESCRITIVA
MEDIANA
É o valor que divide a distribuição dos valores exatamente ao meio;
Importante lembrar que tal valor não precisa estar presente no conjunto;
Para o cálculo da mediana todos os valores devem ser ordenados de forma crescente; 
O cálculo é realizado da seguinte forma:
ESTATÍSTICA DESCRITIVA
MEDIANA
Se a série dada tiver número ímpar de termos:
O valor mediano será o termo de ordem dado pela fórmula: 
Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 
Ordenar a série: {0, 0, 1, 1, 2, 2, 3, 4, 5}; 
n = 9 elementos;
Pela fórmula: (n+1)/2 é dado por: (9+1) / 2 = 5; 
Logo, o quinto elemento da série ordenada será a mediana;
Este elemento é o número 2. 
ESTATÍSTICA DESCRITIVA
MEDIANA
Se a série dada tiver número par de termos:
o valor mediano será o termo de ordem dado pela fórmula: 
 
onde (n/2) e (n/2 + 1) são termos de ordem e devem ser substituídos pelo seu valor correspondente;
	Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 
Ordenar a série {0,0,1,1,2,3,3,4,5,6}; 
n = 10 elementos;
Pela fórmula [(10/2) + (10/2 + 1)]/2 resultará em (5o termo + 6o termo)/2;
Estes termos são 2 e 3, respectivamente;
Logo a mediana será (2+3)/ 2, ou seja, Md = 2,5. 
ESTATÍSTICA DESCRITIVA
MEDIANA
No ambiente estatístico R, geramos a mediana através da função median( ), como descrito abaixo:
ESTATÍSTICA DESCRITIVA
MODA
É o valor mais frequente em um conjunto de valores;
É a única medida de posição que pode assumir mais de um valor;
Essa situação ocorre quando dois ou mais valores aparecem no conjunto de valores com a mesma frequência, a máxima do conjunto;
Um conjunto de valores pode ser:
amodal (não possui moda);
unimodal (possui uma moda);
bimodal (possui duas modas);
multimodal (possui diversas modas).
ESTATÍSTICA DESCRITIVA
MODA
No ambiente estatístico R, existem duas funções para encontrar a moda, são elas:
table( )
Ordena em ordem crescente os dados e indica o número de vezes em que o elemento se repete na série de dados apresentada;
É utilizada para encontrar a moda em pequenas amostras;
 subset( )
esta função é utilizada quando o tamanho da amostra é grande.
ESTATÍSTICA DESCRITIVA
MODA
No ambiente estatístico R, geramos a moda através das funções table( ) e subset( ), como descrito abaixo:
ESTATÍSTICA DESCRITIVA
QUARTIS
São medidas separatrizes que dividem o conjunto de valores, ordenado de forma crescente, em quatro partes iguais;
Precisamos de três quartis (Q1, Q2 e Q3) para dividir a série em quatro partes iguais;
O quartil Q2 será sempre igual à mediana da série:
ESTATÍSTICA DESCRITIVA
QUARTIS
Exemplo: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} 
Inicialmente se deve ordenar em ordem crescente os valores. Isto resulta em: {2, 5, 6, 9, 10, 13, 15}. 

O valor que divide a série acima em duas partes iguais é o elemento 9, logo a Mediana e o Quartil2 (Q2) é 9. 

Temos agora {2, 5, 6, 9} e {9, 10, 13, 15}, como sendo os dois grupos contendo 50% das informações sobre os dados da série. Para o cálculo do primeiro e do terceiro quartis, basta calcular as medianas dos dois grupos resultantes. 

Logo em {2,5,6,9} a mediana é 5.5, ou seja, o quartil Q1 é 5.5 e em {9,10,13,15} a mediana é 11.5, ou seja, o quartil Q3 é 11.5. 
ESTATÍSTICA DESCRITIVA
QUARTIS
No ambiente estatístico R, geramos o quartis através da função quantile( );
Vamos calcular o exemplo dado através do ambiente R:
Entender a importância do uso da estatística descritiva;
Próxima aula, medidas de dispersão.
ESTATÍSTICA DESCRITIVA
CONCLUSÃO

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais