Buscar

04 Slides Modulo 4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 600 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 600 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 600 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Big Data Real-Time Analytics com 
Python e Spark
www.datascienceacademy.com.br
Análise Estatística de Dados
www.datascienceacademy.com.br
Os números constituem a única verdade universal.
Nathanael West
www.datascienceacademy.com.br
Introdução
Análise Estatística de Dados
www.datascienceacademy.com.br
Introdução
O que é Estatística?
www.datascienceacademy.com.br
Introdução
É a ciência que nos permite aprender a 
partir dos dados.
www.datascienceacademy.com.br
Introdução
Com a Estatística nós podemos:
www.datascienceacademy.com.br
Introdução
Coletar dados
www.datascienceacademy.com.br
O principal objetivo é determinar quais os dados são mais relevantes no
momento do levantamento dos dados. A qualidade e confiabilidade da
análise estatística está diretamente ligada à qualidade e a confiabilidade
dos dados.
Introdução
Coletar
Organizar
Apresentar
Descrever
Interpretar 
os Dados
www.datascienceacademy.com.br
Introdução
Tipos de Dados
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Sistema de Cotas
Branco
Pardo
Negro
www.datascienceacademy.com.br
Introdução
Idade dos Estudantes
17
18
1
7
1919
27
20
25
www.datascienceacademy.com.br
Tipos de Dados
Qualitativos
(categóricos)
Quantitativos
(numéricos)
Nominais Ordinais Discretas Contínuas
• Profissão
• Sexo
• Religião
• Escolaridade
• Classe Social
• Fila
• Número de 
Filhos
• Número de 
carros
• Número de 
acessos 
• Altura
• Peso
• Salário
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Dados Qualitativos Nominais – representam
descrições para os dados e não permitem
ranqueamento. Exemplo: CEP (70.098-080).
www.datascienceacademy.com.br
Dados Qualitativos Ordinais - existe uma ordenação
entre as categorias (ranqueamento) e os dados
podem ser medidos.
www.datascienceacademy.com.br
Dados Quantitativos Discretos – valores baseados
em observações que podem ser contados,
normalmente representados por valores inteiros.
www.datascienceacademy.com.br
Dados Quantitativos Contínuos – valores baseados
em observações que podem ser medidas e
normalmente representados por valores decimais.
www.datascienceacademy.com.br
Introdução
Exercício
www.datascienceacademy.com.br
Introdução
Dados Tipo de Dados
1 – Masculino / 2 - Feminino
Branco / Pardo / Negro
3.125,44 
3 filhos
1 – Acima da Média / 
2 – Abaixo da Média
Qualitativo
Quantitativo Discreto
Quantitativo Contínuo
www.datascienceacademy.com.br
Introdução
Níveis de Medição dos Dados
Nominal
Ordinal
Intervalar
Razão/Ratio
www.datascienceacademy.com.br
Introdução
A População é a coleção completa de todos os 
dados de interesse que estão sob observação.
www.datascienceacademy.com.br
População
www.datascienceacademy.com.br
Introdução
Censo é a colação de dados de cada membro 
da população
www.datascienceacademy.com.br
Introdução
O tamanho da população = número de membros
www.datascienceacademy.com.br
Introdução
O tamanho da população = número de membros
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Roraima
505,7 mil
0,2%
São Paulo
44,4
milhões
21,7%
204.450.649
Número de Brasileiros = 
N = 
População 
Minas Gerais
20,86 milhões
Bahia
15,2 milhões 
Rio de 
Janeiro 
16,55
milhões
Fonte IBGE 2010 
www.datascienceacademy.com.br
Roraima
505,7 mil
0,2%
São Paulo
44,4
milhões
21,7%
204.450.649
Número de Brasileiros = 
N = 
População 
Minas Gerais
20,86 milhões
Bahia
15,2 milhões 
Rio de 
Janeiro 
16,55
milhões
Fonte IBGE 2010 
1,09% da 
população é 
amarela
www.datascienceacademy.com.br
Introdução
Amostra é a parte da população da qual os 
dados foram recolhidos.
www.datascienceacademy.com.br
Introdução
O Tamanho da Amostra = número de objetos 
pertencentes à amostra
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
População
www.datascienceacademy.com.br
Amostra
18% = 180 g/L
www.datascienceacademy.com.br
Introdução
Investigação:
O propósito de um estudo estatístico está na 
razão ou motivo da pesquisa ou investigação. 
www.datascienceacademy.com.br
Introdução
Perguntas tais:
 Quem são os membros de interesse da população?
 Quais dados são os mais relevantes para pesquisa?
 Como os dados devem ser coletados?
www.datascienceacademy.com.br
Introdução
Exercício
www.datascienceacademy.com.br
Introdução
Identificar o problema a ser investigado da população 
e da amostra a seguir. E determinar se a amostra é 
representativa da população.
www.datascienceacademy.com.br
Introdução
A Universidade de Brasília,
deseja saber a nota média
do Enem para os alunos que
se candidatam para o curso
de medicina. E que estão
cursando a disciplina
Fundamentos de Morfologia.
www.datascienceacademy.com.br
Introdução
Métodos de Amostragem
Amostragem: é a técnica, processo ou a pesquisa que
podem ser realizadas para obter uma amostra.
www.datascienceacademy.com.br
Introdução
Amostragem
Amostragem Probabilística
Aleatória Simples
Sistemática
Estratificada
Conglomerados
Conveniência
Reamostragem (Bootstrap) 
Amostragem Não-Probabilistica
www.datascienceacademy.com.br
Introdução
Amostragem probabilística é uma amostra em que todos os
membros da população tem chance de pertencer a amostra.
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Amostragem Não Probabilística
A amostra em que a probabilidade de selecionar um membro
da população para a amostra, não é conhecida, é criada
através de amostragem não-probabilística.
www.datascienceacademy.com.br
Introdução
Pesquisa de internet, aquelas enquetes que você vê quando
acessa os mais diversos sites.
www.datascienceacademy.com.br
Introdução
As pessoas ficam impressionadas quando veem os números
nas pesquisas, normalmente respondidas por milhares de
pessoas (internautas).
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Sem querer entrar em polêmicas aqui, talvez você se
lembre de uma pesquisa feita no site da FIFA alguns
anos atrás. Nela, o organizador perguntava: Quem foi o
melhor jogador de futebol do século?
www.datascienceacademy.com.br
Introdução
Na pesquisa feita pela
internet, Maradona foi
escolhido o melhor jogador
do século e Pelé ficou em
segundo. 1º
2º
www.datascienceacademy.com.br
Introdução
Quando a pesquisa foi feita usando amostragem
probabilística (selecionando para a amostra técnicos,
jornalistas esportivos, ex-jogadores e profissionais do
futebol).
www.datascienceacademy.com.br
Introdução
Maradona ficou em quinto lugar e Pelé em primeiro.
1º 2º 3º 4º 5º
www.datascienceacademy.com.br
Introdução
A que se atribui tal diferença?
www.datascienceacademy.com.br
Introdução
Veja a pesquisa aqui:
https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA
www.datascienceacademy.com.br
https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA
Introdução
Não ter controle sobre a amostra, reduz muito a
confiabilidade dos resultados de análise.
www.datascienceacademy.com.br
Introdução
A amostragem é uma técnica fabulosa, que nos
permite obter informações sobre uma população
inteira, analisando apenas uma porção dos
dados.
www.datascienceacademy.com.br
Introdução
Parâmetro
Estatística
Valores que descrevem características da 
população, como média e mediana da 
população.
Valores calculados a partir da amostra, 
como média e mediana da amostra.
www.datascienceacademy.com.br
Introdução
Erro de amostragem = x - 
Onde:
x = média da amostra
 = média da população
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
47%
43%
10%
Pesquisa Eleitoral
Senador A
Senador BSenador C
www.datascienceacademy.com.br
Introdução
Considerando uma margem de erro de 0.03 para mais ou
para menos:
47%
43%
10%
Pesquisa Eleitoral
Senador A
Senador B
Senador C
www.datascienceacademy.com.br
Introdução
Senador A tem a proporção de
votos de 47%.
A proporção real fica entre:
0,47 + 0,03 = 50% ( para mais)
0,47 – 0,03 = 44% (para menos)
47%
43%
10%
Pesquisa Eleitoral
Senador A
Senador B
Senador C
Portanto, a margem de erro é a distância entre o
valor populacional e o valor amostral.
www.datascienceacademy.com.br
Introdução
Estudos Estatísticos
www.datascienceacademy.com.br
Introdução
Há dois tipos de estudos estatísticos:
 Observacional
 Experimental
www.datascienceacademy.com.br
Introdução
Em um estudo de observação, os dados e as 
características específicas são recolhidas e 
observadas, entretanto, não há iniciativa de 
modificar os estudos que estão sendo 
realizados.
www.datascienceacademy.com.br
Introdução
Exemplo
www.datascienceacademy.com.br
Introdução
50 alunos receberam um formulário de avaliação
educacional.
o 25 alunos receberam a instrução de enviar a
resposta por e-mail.
o 25 alunos receberam a instrução de enviar a
resposta por carta sem identificação.
www.datascienceacademy.com.br
Introdução
Em um estudo experimental, cada indivíduo é 
aleatoriamente atribuído a um grupo de 
tratamento, em seguida, os dados e as 
características específicas são observadas e 
coletadas
www.datascienceacademy.com.br
Introdução
A Análise de Dados é o meio através do qual
utilizamos a estatística para apresentar e demonstrar
os resultados dos dados que foram avaliados.
www.datascienceacademy.com.br
Introdução
Estatística não tem sido usada apenas por técnicos, mas
também por gestores de todos os níveis.
Para onde se olha, se vê Estatística sendo aplicada, desde o
planejamento corporativo, até decisões simples do dia a dia.
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Análise Estatística de Dados
www.datascienceacademy.com.br
A matemática é o alfabeto que Deus usou para escrever o universo.
Galileu Galilei
www.datascienceacademy.com.br
Estatística Descritiva
www.datascienceacademy.com.br
Estatística Descritiva
É um conjunto de métodos estatísticos 
utilizados para descrever as principais 
características dos dados.
www.datascienceacademy.com.br
Estatística Descritiva
O principal propósito de métodos gráficos é 
organizar e apresentar os dados de forma 
gerencial e ágil.
www.datascienceacademy.com.br
Estatística Descritiva
A Estatística Descritiva tem por objetivo sumarizar e mostrar
os dados, de forma que se possa rapidamente obter uma visão
geral da informação que está sendo analisada.
www.datascienceacademy.com.br
Estatística Descritiva
Por meio da Estatística Descritiva entendemos melhor um
conjunto de dados através de suas características.
As três principais características são:
www.datascienceacademy.com.br
Estatística Descritiva
Um valor representativo do conjunto de dados. Ex.: uma 
média
www.datascienceacademy.com.br
Estatística Descritiva
Uma medida de dispersão ou variação. Ex: Variância, 
desvio padrão.
www.datascienceacademy.com.br
Estatística Descritiva
A natureza ou forma da distribuição dos dados: sino, 
uniforme ou assimétrica
www.datascienceacademy.com.br
Estatística Descritiva
Visualização de dados
www.datascienceacademy.com.br
Estatística Descritiva
Um dos meios mais simples de descrever dados é
através de tabelas de frequência, que refletem as
observações feitas nos dados.
www.datascienceacademy.com.br
Estatística Descritiva
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
Exemplo de uma tabela de frequência
www.datascienceacademy.com.br
Estatística Descritiva
Cada linha em uma tabela de frequência corresponde a
uma classe.
Classe
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
www.datascienceacademy.com.br
Estatística Descritiva
Classe
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
Cada classe corresponde a uma categoria em uma 
tabela de frequência.
www.datascienceacademy.com.br
Estatística Descritiva
Distribuição de Frequência
www.datascienceacademy.com.br
Distribuição de Frequência
Mostra o número de observações de dados que estão 
em um intervalo específico.
www.datascienceacademy.com.br
Estatística Descritiva
Como construir uma Distribuição de Frequência?
www.datascienceacademy.com.br
Para construir uma tabela de Distribuição de Frequência nós precisamos:
Criar o Rol
Definir a Amplitude
Determinar o Número de Classes
Determinar o Tamanho do Intervalo de Classes
Fazer a Distribuição de Frequência
1
2
3
4
5
www.datascienceacademy.com.br
Estatística Descritiva
Exemplo
www.datascienceacademy.com.br
Fazer a Distribuição de Frequência das Notas de 30
alunos da Turma C, do Colégio BluSky.
www.datascienceacademy.com.br
Fazer a Distribuição 
de Frequência das 
Notas de 30 alunos 
da Turma C, do 
Colégio BluSky.
www.datascienceacademy.com.br
Colocar os números em uma ordem de grandeza crescente
ou decrescente. O rol representa o conjunto dos dados
organizados.
Criar o Rol é…1
www.datascienceacademy.com.br
Estabelecer a diferença entre os valores extremos do
conjunto de dados.
Definir a Amplitude é…2
Fórmula: At = Vmáx - Vmín
Onde: 
At = Amplitude Total
Vmáx = Maior Valor 
Vmín = Menor Valor
www.datascienceacademy.com.br
At = Vmáx - Vmín
At = 10,0 – 1,0 = 9
Resposta: Amplitude Total é = 9
www.datascienceacademy.com.br
Definir a quantidade de intervalos de dados que iremos
trabalhar, ou seja, quantas linhas terão a tabela de
distribuição de frequência.
Determinar o Número de Classes é…3
Para determinar o número de classes nós podemos 
utilizar: 
4 regras:
www.datascienceacademy.com.br
Resposta: O número de classe é = 6
K =
K = 5,4772 
K = nn
30
Obs: Nesse caso arredondamos para 6, pois não é possível termos 5,4772 linhas
www.datascienceacademy.com.br
Realizar a razão da Amplitude Total pelo número de classes.
Determinar o Tamanho do Intervalo de Classe é…4
Fórmula:
Onde: 
h= Tamanho do intervalo
At = Amplitude Total 
K = Número de classes
h = 
At
K
www.datascienceacademy.com.br
Resposta: O tamanho do intervalo de classe é = 1,50
h = 
At
K
h = 
9
6
h = 1,50 
www.datascienceacademy.com.br
Para tanto, vamos apresentar os 4 tipos de distribuição de 
Frequência:
Montar a sua Tabela de Distribuição de Frequência a partir dos
dados coletados selecionando o tipo de distribuição desejada.
Fazer a Distribuição de Frequência é…5
www.datascienceacademy.com.br
Vamos apresentar os 4 tipos de distribuição de 
Frequência:
Distribuição de Frequência Simples ou Absoluta - fi1
Distribuição de Frequência Relativa Simples - fri2
Distribuição de Frequência Acumulada - Fi
Distribuição de Frequência Relativa Acumulada - Fri
3
4
www.datascienceacademy.com.br
Distribuição de Frequência Simples ou Absoluta - fi5.1
São os valores que representam o número de dados de cada classe.
A soma das frequências simples é igual ao número total dos dados.
Fórmula: fi = n 
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Simples é = 30
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1
2.0 1
3.0 3
4.0 3
5.0 6
6.0 2
7.0 5
8.0 3
9.0 3
10.0 3
Total 30
fi = n 
fi = 30 
www.datascienceacademy.com.br
Permite visualizar os valores das razões entre as Frequências Simples e
a Frequência Total.
Distribuição de Frequência Relativa Simples - fri5.2
Fórmula:
fi
fi
=fri
Sempre = 1 ou 100%
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Simples
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1 1 / 30 3%
2.0 1 1 / 30 3%
3.0 3 3 / 30 10%
4.0 3 3 / 30 10%
5.0 6 6 / 30 20%
6.0 2 2 / 30 7%
7.0 5 5 / 30 17%
8.0 3 3 / 30 10%
9.0 3 3 / 30 10%10.0 3 3 / 30 10%
Total 30 30 / 30 100%
fi
fi
=fri
fri =
1
30
www.datascienceacademy.com.br
Permite visualizar o total das Frequências de todos os valores inferiores
ao limite superior do intervalo de uma dada classe.
Distribuição de Frequência Acumulada - Fi5.3
Fórmula: f1 + f2 + … + 
fk
=Fk
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Acumulada
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1 1 / 30 3% 1
2.0 1 1 / 30 3% 2
3.0 3 3 / 30 10% 5
4.0 3 3 / 30 10% 8
5.0 6 6 / 30 20% 14
6.0 2 2 / 30 7% 16
7.0 5 5/ 30 17% 21
8.0 3 3 / 30 10% 24
9.0 3 3 / 30 10% 27
10.0 3 3 / 30 10% 30
Total 30 30 / 30 100%
Fk = f1 + f2 + … + fk
www.datascienceacademy.com.br
Permite visualizar a frequência acumulada da classe, dividida pela
frequência total da distribuição.
Distribuição de Frequência Relativa Acumulada - Fri5.4
Fórmula: =Fri
Fi
fi
www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Acumulada
Fri =
Fi
fi
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1 1 / 30 3% 1 3%
2.0 1 1 / 30 3% 2 6%
3.0 3 3 / 30 10% 5 16%
4.0 3 3 / 30 10% 8 26%
5.0 6 6 / 30 20% 14 46%
6.0 2 2 / 30 7% 16 53%
7.0 5 5/ 30 17% 21 70%
8.0 3 3 / 30 10% 24 80%
9.0 3 3 / 30 10% 27 90%
10.0 3 3 / 30 10% 30 100%
Total 30 30 / 30 100%
Fri=
14
30
Obs: Posso 
demonstrar em % 
multiplicando por 100
www.datascienceacademy.com.br
Estatística Descritiva
Visualização de Dados
www.datascienceacademy.com.br
Nós já sabemos que Dados qualitativos descrevem
características dos dados, tais como sexo, nível de educação
ou cor dos olhos. Estes tipos de dados são tratados de forma
diferente dos dados quantitativos.
www.datascienceacademy.com.br
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
www.datascienceacademy.com.br
Tabela de Frequência
Gráfico de Barras
Gráfico de Pareto
Gráfico de Pizza
Gráfico de Linha
Tabela de Contingência
Ramos e Folhas
Pontos de Dispersão
Histograma
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?
www.datascienceacademy.com.br
Gráfico de Barras
Grades Frequência
A 7
B 14
C 6
D 1
E 0
F 2
www.datascienceacademy.com.br
7
14
6
1
0
2
0
2
4
6
8
10
12
14
16
A B C D E F
Fr
e
q
u
e
n
ci
a
Grades de Notas
Frequência
Grades Frequência
A 7
B 14
C 6
D 1
E 0
F 2
www.datascienceacademy.com.br
Gráfico de Pareto
Razões de Atraso de Voo
Frequência 
(fi)
Frequência 
Relativa (fri)
Frequencia 
Relativa 
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
www.datascienceacademy.com.br
Gráfico de Pareto
Razões de Atraso de 
Voo
Frequência 
(fi)
Frequência 
Relativa (fri)
Frequencia 
Relativa 
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000
www.datascienceacademy.com.br
Gráfico de Pizza
Empresa
Número Computadores 
Vendidos
HPTP 4228
Dello 3996
Acert 2076
Applex 1135
Tosser 1005
Outros 2837
Total 15277
www.datascienceacademy.com.br
Gráfico de Pizza
Empresa
Número Computadores 
Vendidos
HPTP 4228
Dello 3996
Acert 2076
Applex 1135
Tosser 1005
Outros 2837
Total 15277
HPTP
14%
Dello
13%
Acert
7%
Applex
4%Tosser
3%
Outros
9%
Total
50%
Número Computadores Vendidos
HPTP Dello Acert Applex Tosser Outros Total
www.datascienceacademy.com.br
Gráfico de Linhas
Ano 
Faturamento Vendas 
XPTO - Milhões de Reais
2004 8.5
2005 10.4
2006 12.5
2007 18.7
2008 11.4
2009 22.8
2010 21.4
2011 23.7
2012 24
2013 25
2014 28.6
2015 32.4
www.datascienceacademy.com.br
Gráfico de Linhas
Ano 
Faturamento Vendas 
XPTO - Milhões de Reais
2004 8.5
2005 10.4
2006 12.5
2007 18.7
2008 11.4
2009 22.8
2010 21.4
2011 23.7
2012 24
2013 25
2014 28.6
2015 32.4
1980
1990
2000
2010
2020
2030
2040
2050
2060
1 2 3 4 5 6 7 8 9 10 11 12
Faturamento de Vendas
Ano Faturamento Vendas XPTO - Milhões de Reais
www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão
3 Masculino Dinheiro
4 Masculino Dinheiro
5 Feminino Cartão
6 Feminino Cartão
7 Masculino Dinheiro
8 Feminino Cartão
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro
www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento
1 Feminino Dinheiro
2 Masculino Cartão
3 Masculino Dinheiro
4 Masculino Dinheiro
5 Feminino Cartão
6 Feminino Cartão
7 Masculino Dinheiro
8 Feminino Cartão
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro
Soma de Cliente Rótulos de Coluna
Rótulos de Linha Cartão Dinheiro Total Geral
Feminino 45 26 71
Masculino 22 27 49
Total Geral 67 53 120
www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$
46 2600
46 3980
32 1200
40 1480
26 970
32 1115
46 3400
46 5560
32 2400
40 1120
26 1130
32 1320
www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$
46 2600
46 3980
32 1200
40 1480
26 970
32 1115
46 3400
46 5560
32 2400
40 1120
26 1130
32 1320
0
1000
2000
3000
4000
5000
6000
0 5 10 15 20 25 30 35 40 45 50
Preço da TV R$
www.datascienceacademy.com.br
Histograma
Pontuação 
Campeonato 
Golf
Frequência
Frequência 
Relativa
Frequência Relativa 
Acumulada
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000
www.datascienceacademy.com.br
Histograma
Pontuação 
Campeonato Golf
Frequência Frequência Relativa
Frequência Relativa 
Acumulada
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000 0
5
10
15
20
25
275-279 280-284 285-289 290-294 295-299 300-304
Fr
e
q
u
e
n
ci
a
Pontuação
Histograma
www.datascienceacademy.com.br
Histograma
Pontuação 
Campeonato Golf
Frequência Frequência Relativa
Frequência Relativa 
Acumulada
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000 0
5
10
15
20
25
275-279 280-284 285-289 290-294 295-299 300-304
Fr
e
q
u
e
n
ci
a
Pontuação
Histograma
www.datascienceacademy.com.br
Histograma
Exemplo
www.datascienceacademy.com.br
Histograma
Considerando uma pesquisa realizada em 4 regiões do país
para identificar o número de Taxoplasmose congênita (doença
que pode ser fatal ou levar a cegueira, icterícia que é a pele
amarelada, convulsões ou retardo mental) em crianças de 0 a
12 anos de idade.
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
Histograma
www.datascienceacademy.com.br
O Gráfico Caule e Folha, divide os dados em duas partes:
O caule (ramo): são os valores maiores e ficam à esquerda do
traço vertical.
Caule e Folha
www.datascienceacademy.com.br
As folhas são os menores valores, ficam à direita do traço
vertical. Listando todas folhas à direita de cada caule,
podemos graficamente descrever como os dados estão
distribuídos.
Caule e Folha
www.datascienceacademy.com.br
A beleza do Caule e folha é a simplicidade. Ele não requer um
software para ser construído, mostra cada um dos valores e
prove uma visão tipo histograma da distribuição dos dados.
Caule e Folha
www.datascienceacademy.com.br
Caule e Folha
Exemplo
www.datascienceacademy.com.br
Notas dos Exames
80 8678 80 81 82 92 90
79 83 84 95 85 88 80 78
84 79 80 83 79 87 84 80
Considerando essa tabela fictícia de notas de Exame, vamos
montar o gráfico de Caule e Folha:
www.datascienceacademy.com.br
1º Passo 
Ordenar os valores.
Notas dos Exames
78 78 79 79 79 80 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 90 92 95
www.datascienceacademy.com.br
2º Passo 
Traçar a linha vertical
www.datascienceacademy.com.br
3º Passo 
Colocar os valores das dezenas
7
8
9
Notas dos Exames
7 8 78 79 79 79 8 0 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 9 0 92 95
www.datascienceacademy.com.br
4º Passo 
Fazer a distribuição das unidades
7
8
9
8 8 9 9 9
0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
0 2 5
Notas dos Exames
78 78 79 79 79 80 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 90 92 95
www.datascienceacademy.com.br
Gráfico Concluído
7
8
9
8 8 9 9 9
0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
0 2 5
Notas dos Exames
78 78 79 79 79 80 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 90 92 95
www.datascienceacademy.com.br
Você como um Analista de Dados deve ter os conceitos
de estatística em seu rol de conhecimentos e saber
utilizar as ferramentas adequadas para realizar o
trabalho de análise de Dados.
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Medidas de Tendência Central e 
Dispersão
www.datascienceacademy.com.br
Os números governam o mundo
Pitágoras
www.datascienceacademy.com.br
Média, Mediana, Desvio Padrão e Variância
São as principais medidas de tendência central 
utilizadas em Análise Exploratória de Dados 
www.datascienceacademy.com.br
Análise 
Exploratória 
de Dados
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Estatística DescritivaAltura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
__________________________________________________________________
15
Média =
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
__________________________________________________________________
15
Média =
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
__________________________________________________________________
15
Média =
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
__________________________________________________________________
15
Média =
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Desvio = 169-133 = 36
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Desvio = 169-133 = 36
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Desvio = 169-133 = 36 
36 ^ 2 = 1296
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Variância = Soma dos quadrados de todos os desvios / 15
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Std = Raíz quadrada da Variância Variância
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Q1=
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 13512 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
133
135
137
145
160
160
168
168
173
173
180
194
194
205
205
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
www.datascienceacademy.com.br
Altura Idade
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22
Altura Idade Sexo
1 133 11 F
2 135 12 M
3 137 11 M
4 145 17 F
5 168 14 F
6 173 15 F
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M
Mode = 160 e 19 
www.datascienceacademy.com.br
Sem dúvida, médias são as formas mais simples de
identificar tendências em um conjunto de dados.
Entretanto, médias podem trazer armadilhas que levam
a conclusões distorcidas.
www.datascienceacademy.com.br
O que usar? Vantagens Desvantagens
Média
 Relativamente fácil de 
calcular
 Fácil de compreender seu 
significado
 Pode ser muito afetada por 
valores extremos
Mediana
 Não é afetada por valores 
extremos
 Requer mais esforço para 
ser determinada que a 
Média
Moda
 Pode ser usada com dados 
descritivos
 Pode não existir em um 
conjunto de dados
 Pode não ser única (pode 
existir mais de uma moda)
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Medidas de Forma
www.datascienceacademy.com.br
Você quer ficar o resto da sua vida vendendo água com açúcar ou 
você quer uma chance de mudar o mundo?
Steve Jobs
www.datascienceacademy.com.br
Medidas de Forma
As medidas de assimetria (skewness) e curtose (kurtosis) 
caracterizam a forma da distribuição de elementos da população 
amostrados em torno da média.
www.datascienceacademy.com.br
Medidas de Assimetria
www.datascienceacademy.com.br
Medidas de Assimetria
Distribuição Simétrica
Distribuição Assimétrica 
Positiva ou à direita
Distribuição Assimétrica 
Negativa ou à esquerda
www.datascienceacademy.com.br
Medidas de Curtose
www.datascienceacademy.com.br
Medidas de Curtose
Mesocúrtica
www.datascienceacademy.com.br
Medidas de Curtose
Platicúrtica
www.datascienceacademy.com.br
Medidas de Curtose
Leptocúrtica
www.datascienceacademy.com.br
Coeficiente de Curtose
Se k = 0,263 – curva mesocúrtica
Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica
www.datascienceacademy.com.br
Coeficiente de Curtose
Se k = 0,263 – curva mesocúrtica
Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica
www.datascienceacademy.com.br
Coeficiente de Curtose
Se k = 0,263 – curva mesocúrtica
Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica
www.datascienceacademy.com.br
Coeficiente de Curtose
Se k = 0,263 – curva mesocúrtica
Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Aquilo a que chamamos acaso não é, não pode deixar de ser, senão a 
causa ignorada de um efeito conhecido.
Voltaire
www.datascienceacademy.com.br
Introdução à Probabilidade
Blaise Pascal Pierre de Fermat
Carl Friedrich Gauss
Lenis Poisson
www.datascienceacademy.com.br
Introdução à Probabilidade
A probabilidade
é uma medida matemática do acaso
www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade é um valor numérico que indica a chance, ou
probabilidade, de um evento específico ocorrer. Este valor
numérico vai estar entre 0 e 1 .
Se um evento não possui chance de ocorrer, sua probabilidade
é 0 (ou 0%) .
Se temos certeza sobre a ocorrência do evento, sua
probabilidade é 1 (ou 100%).
www.datascienceacademy.com.br
Introdução à Probabilidade
Evento – um ou mais resultados de um experimento.
O resultado e/ou resultados são um subconjunto do espaço da 
amostra.
www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade Clássica : é usada quando nós sabemos o número
de possíveis resultados do evento de interesse e podemos
calcular a probabilidade do evento com a seguinte fórmula:
P(A) = Número de possíveis resultados do evento A
Número total de possíveis resultados dentro do 
espaço da amostra
Onde: P(A) é a probabilidade de um evento ocorrer.
www.datascienceacademy.com.br
Introdução à Probabilidade
A Probabilidade Empírica, envolve conduzirmos um
experimento, para observarmos a frequência com que um
evento ocorre.
Para calcularmos a probabilidade empírica, usamos a fórmula:
P(A) = Frequência em que o evento A ocorre
Número total de observações
www.datascienceacademy.com.br
Introdução à Probabilidade
Dados ou experimentos não estão disponíveis para calcular a
probabilidade.
Usamos Probabilidade Subjetiva, quando:
www.datascienceacademy.com.br
Introdução à Probabilidade
Regra1ª
Se P(A) = 1, então podemos garantir que o evento A ocorrerá.
www.datascienceacademy.com.br
Introdução à Probabilidade
Regra2ª
Se P(A) = 0, então podemos garantir que o evento A NÃO ocorrerá.
www.datascienceacademy.com.br
Introdução à Probabilidade
Regra3ª
A probabilidade de qualquer evento sempre será entre 0 e 1. 
Probabilidades nunca podem ser negativas ou maior que 1.
www.datascienceacademy.com.br
Introdução à Probabilidade
Regra4ª
A soma de todas as probabilidades para um evento simples, em um 
espaço de amostra, será igual a 1.
www.datascienceacademy.com.br
Introdução à Probabilidade
O complemento do evento A é definido como todos os resultados em
um espaço de amostra, que não fazem parte do evento A. Ou seja:
P(A) = 1 – P(A’), onde P(A’) é o complemento do evento A.
Regra5ª
www.datascienceacademy.com.br
Introdução à Probabilidade
Tabela de Contingência
www.datascienceacademy.com.br
Introdução à Probabilidade
As Tabelas de Contingência são os meios de organizar as
informações correspondentes aos dados classificados segundo
dois critérios.
www.datascienceacademy.com.br
Introdução à Probabilidade
As Tabelas de Contingência permitem representar os
dados quer sejam eles qualitativos ou quantitativos.
www.datascienceacademy.com.br
Introdução à Probabilidade
Nas Tabelas de Contingência podemos ter os dados
das linhas representados por um critério e os dados
das colunas representados por outro critério
totalmente diferente.
www.datascienceacademy.com.br
Introdução à Probabilidade
Nós usamos Tabela de Contingência para comparar 2
variáveis.
www.datascienceacademy.com.br
Introdução à Probabilidade
As Tabelas de Contingência, são muito utilizadas com
probabilidades.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Sexo
Grau de Instrução
Total
1o Grau 2o Grau
3o Grau 
Incompleto
3o Grau 
Completo
Pós-
Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
Total 510 810 1450 1640420 120 50 5000
Tabela de Contingência
www.datascienceacademy.com.br
Introdução à Probabilidade
Dessa Tabela de Contingência nós podemos tirar as
seguintes conclusões:
www.datascienceacademy.com.br
Introdução à Probabilidade
1ª Conclusão: O número de homens que concluíram o
mestrado é de 40.
Sexo
Grau de Instrução
Total
1o Grau 2o Grau
3o Grau 
Incompleto
3o Grau 
Completo
Pós-
Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
www.datascienceacademy.com.br
Introdução à Probabilidade
2ª Conclusão: A probabilidade de Homens que concluem o
doutorado é de apenas 1%.
Sexo
Grau de Instrução
Total
1o Grau 2o Grau
3o Grau 
Incompleto
3o Grau 
Completo
Pós-
Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
www.datascienceacademy.com.br
Introdução à Probabilidade
3ª Conclusão: O número de mulheres com curso superior
completo é de 900.
Sexo
Grau de Instrução
Total
1o Grau 2o Grau
3o Grau 
Incompleto
3o Grau 
Completo
Pós-
Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
www.datascienceacademy.com.br
Introdução à Probabilidade
4ª Conclusão: o percentual de mulheres que concluem o 2º
grau é de 69%, enquanto que o percentual de homens que
concluem o 2º grau é de somente 31%.
Sexo
Grau de Instrução
Total
1o Grau 2o Grau
3o Grau 
Incompleto
3o Grau 
Completo
Pós-
Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
www.datascienceacademy.com.br
Introdução à Probabilidade
Ou seja, para essa amostra de estudantes, um
Analista de dados pode tirar n conclusões e utilizá-las
para realizar diversos cálculos e estruturar sua
pesquisa para alcançar os seus objetivos finais.
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
A Matemática apresenta invenções tão sutis que poderão servir não só 
para satisfazer os curiosos, como também para auxiliar as artes e 
poupar trabalho aos homens. 
Descartes
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvore de Decisão
www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à
tomada de decisão que consiste em uma representação
gráfica das alternativas disponíveis, geradas a partir de
uma decisão inicial.
www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à tomada de
decisão que consiste em uma representação gráfica das
alternativas disponíveis, geradas a partir de uma decisão inicial.
Analista de Dados?
Está Estudando 
Estatística?
Está Pensando em 
Estudar?
Vai Perder uma Grande 
Oportunidade
Excelente Salário
Conseguirá uma 
Colocação no Mercado
Parabéns!!!
www.datascienceacademy.com.br
Introdução à Probabilidade
Uma das grandes vantagens da Árvore de Decisão é a
possibilidade de transformação/decomposição de um
problema complexo em diversos subproblemas mais simples.
www.datascienceacademy.com.br
Introdução à Probabilidade
Para efetuar a representação gráfica da Árvore de Decisão são
geralmente usadas linhas para identificar a decisão (por
exemplo "sim" ou "não") e nós para identificar as questões
sobre as quais se deve decidir.
www.datascienceacademy.com.br
Introdução à Probabilidade
Cada um dos ramos formado por linhas e nós termina numa
espécie de folha que identifica a consequência mais provável
da sequência de decisões tomadas.
www.datascienceacademy.com.br
Introdução à Probabilidade
Além da gestão, Árvores de Decisão são também muito
utilizadas em outras áreas, com especial destaque para a
criação de algorítmos de computação e análise de dados.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão são similares a regras Se-então. Que é uma
estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão são similares a regras Se-então. Que é uma
estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão tomam como entrada uma situação
descrita por um conjunto de atributos e retorna uma decisão,
que é o valor previsto para o valor de entrada.
www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão também são muito usadas em aprendizado
de máquina (Machine Learning), onde computadores são
programados para tomar decisão baseados em respostas aos
eventos.
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Uma verdade matemática não é simples nem complicada por si mesma. 
É uma verdade.
Emile Lemoine
www.datascienceacademy.com.br
Introdução à Probabilidade
Análise Combinatória
www.datascienceacademy.com.br
Introdução à Probabilidade
As principais ferramentas da Análise Combinatória são:
Permutação
Arranjo
Combinação
www.datascienceacademy.com.br
Introdução à Probabilidade
Qual delas utilizar para resolver um problema específico?
www.datascienceacademy.com.br
Introdução à Probabilidade
Permutação
www.datascienceacademy.com.br
Introdução à Probabilidade
Uma permutação de n elementos distintos é um agrupamento
ordenado desses elementos.
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação=
Pn = n! 
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Você deve usar a Fórmula Permutação quando você quiser
contar quantas possibilidades existem de se organizar um
número de objetos de forma distinta.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Qual o número de anagramas da palavra FORÇA?
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:
5! = 5 x 4 x 3 x 2 x 1 = 120.
Uma vez que, para a primeira posição você pode colocar 
5 letras. Para a segunda, restaram 4, para a terceira, 3 e 
assim por diante.
www.datascienceacademy.com.br
Introdução à Probabilidade
Qual o número de filas que podem ser formadas com 15
pessoas?
www.datascienceacademy.com.br
Introdução à Probabilidade
O número de filas que podem ser formadas com 15 pessoas é
15! (15 fatorial), calculada através de:
15! = 15 x 14 x 13 x 12 x 11x...1
Pois, para o primeiro lugar da fila temos 15 possibilidades, para 
o segundo 14 e assim por diante...
www.datascienceacademy.com.br
Introdução à Probabilidade
Arranjo
www.datascienceacademy.com.br
Introdução à Probabilidade
Um arranjo de n elementos dispostos p a p, com p menor ou
igual a n, é uma escolha de p entre esses n objetos na qual a
ordem importa.
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo =
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar o arranjo quando o que importa é a ordem dos
elementos.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Em uma competição de 20 jogadores, quantas são as
possibilidades de se formar um pódio com os três primeiros
lugares?
www.datascienceacademy.com.br
Introdução à Probabilidade
Note que, neste problema,queremos dispor 20 jogadores em 3
lugares, onde a ordem importa, afinal o pódio formado por
Marcelo, por Josias e por Damião não é o mesmo formado por
Damião, por Marcelo e por Josias.
www.datascienceacademy.com.br
Introdução à Probabilidade
Outro exemplo é o número de possibilidades de se formar
uma foto com n pessoas.
www.datascienceacademy.com.br
Introdução à Probabilidade
Perceba que as permutações nada mais são do que casos
particulares de arranjos onde n = p.
www.datascienceacademy.com.br
Introdução à Probabilidade
Combinação
www.datascienceacademy.com.br
Introdução à Probabilidade
As Combinações de n elementos tomados p a p são escolhas
não ordenadas desses elementos.
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação =
www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação – Quando Usar?
www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar a combinação quando o importante do
resultado deva ser a natureza, ou seja, os elementos devem
ser diferentes.
www.datascienceacademy.com.br
Introdução à Probabilidade
Exemplo
www.datascienceacademy.com.br
Introdução à Probabilidade
Como formar uma comissão de 3 pessoas escolhidas entre 10
pessoas?
www.datascienceacademy.com.br
Introdução à Probabilidade
Diferentemente do pódio do exemplo anterior, uma comissão
formada por Mauro, por Joana e por Paula é a mesma
comissão formada por Joana, por Paula por Mauro.
www.datascienceacademy.com.br
Introdução à Probabilidade
Se desejarmos saber quantas duplas podemos fazer com 7
jogadores de vôlei, usaremos a combinação, uma vez que, o
importante é a natureza, ou seja os jogadores devem ser
diferentes, pois a dupla Marcelo e Tedy é a mesma que Tedy e
Marcelo.
www.datascienceacademy.com.br
Introdução à Probabilidade
Trabalhar como um Analista de dados, requer tomar
decisões probabilísticas, avaliar riscos e manipular
números.
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Distribuição de Probabilidade
www.datascienceacademy.com.br
É claro que meus filhos terão computadores, mas antes terão livros.
Bill Gates
www.datascienceacademy.com.br
Em estatística, uma Distribuição de Probabilidade descreve a
chance que uma variável (discreta ou contínua) pode assumir
ao longo de um espaço de valores.
www.datascienceacademy.com.br
Variáveis Aleatórias
www.datascienceacademy.com.br
Variáveis Aleatórias
ContínuaDiscreta
www.datascienceacademy.com.br
Distribuição de Probabilidade 
Tipos de Distribuição 
de Probabilidade
Distribuição
Discreta
Binomial
Poisson
Bernoulli
Geométrica
Hipergeométrica
Distribuição
Contínua
Normal
Uniforme
Exponencial
Gama
tStudent
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Distribuição Binomial
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
A Distribuição Binomial é utilizada para descrever
cenários em que os resultados de uma variável
aleatória podem ser agrupados em duas categorias.
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
No geral, as duas categorias de uma distribuição
binomial são classificadas como:
Sucesso
Falha
www.datascienceacademy.com.br
Portanto, a probabilidade de sucesso podemos
chamar de p.
E, a probabilidade de falha vamos chamar de q.
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Ou seja:
p = 1 – q
Onde:
p = probabilidade de sucesso
q = probabilidade de fracasso
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Distribuição Binomial
São realizadas n repetições no experimento, onde n é 
uma constante.
Só existem dois resultados possíveis em cadas 
repetição, Sucesso e Falha.
A probabilidade de sucesso e a de falha permanencem 
constantes em todas as repetições.
Todas as repetições são independentes. Os resultados 
não são influenciados por resultados externos.
www.datascienceacademy.com.br
Distribuição Binomial
Os parâmetros da Distribuição 
Binominal são n e p.
A Média de uma Distribuição Binomial, 
representa a média de longo prazo de 
sucessos esperados, baseado no 
número de observações.
Fórmula:
Média = = n . P 
Onde: n = número de tentativas
p = probabilidade de sucesso
www.datascienceacademy.com.br
Distribuição Binomial
A Variância de uma Distribuição
Binomial, representa a variação que
existe no número de sucessos (p) sobre
um número (n) de observações.
Fórmula:
Variância = = (n.p).(1-p)
Onde: n = número de tentativas
p = probabilidade de sucesso
2
www.datascienceacademy.com.br
Distribuição Binomial
Exemplo
www.datascienceacademy.com.br
Distribuição Binomial
Numa fábrica de HD (Discos Rígidos) de computador, um
engenheiro extrai uma amostra de HD para cada 15 HD’s
aleatoriamente fabricados.
Sabendo que 85% dos HD’s são aceitáveis.
Qual a probabilidade de que 10 HD’s extraídos sejam
aceitáveis?
www.datascienceacademy.com.br
Distribuição Binomial
p = 0,85% (probabilidade de sucesso)
q = 0,15% (probabilidade de fracasso)
x = 10
n = 15 (amostra extraída)
p= 1 – q
0,85 = 1 – q
q = 0,15
www.datascienceacademy.com.br
Distribuição Binomial
Fórmula da Função binomial
P (x) = 4,5% 
www.datascienceacademy.com.br
Distribuição Binomial
E = 10 x 0.27
E = 2,70
www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Distribuição Poisson
www.datascienceacademy.com.br
A Distribuição Poisson é utilizada para descrever
cenários onde existe a probabilidade de ocorrência de
um intervalo contínuo.
Distribuição Poisson
www.datascienceacademy.com.br
Distribuição Poisson
O número de ocorrências dependem do tamanho do 
intervalo.
As ocorrências não interferem sobre as ocorrências de 
intervalos externos.
A probabilidade de duas ou mais ocorrências 
acontecerem num mesmo intervalo de tempo é muito 
pequena.
www.datascienceacademy.com.br
Distribuição Poisson
O único parâmetro da 
Distribuição Poisson é 
chamado λ (lambda), 
que representa a taxa 
de eventos por 
unidade.
www.datascienceacademy.com.br
Distribuição Poisson
www.datascienceacademy.com.br
Distribuição Poisson
Exemplo
www.datascienceacademy.com.br
Distribuição Poisson
Um consultório médico recebe 5 pacientes por hora.
Qual a probabilidade de receber 2 pacientes numa
hora aleatória?
www.datascienceacademy.com.br
Distribuição Poisson
X = 2
λ = 5
www.datascienceacademy.com.br
Distribuição Poisson
X = 2
λ = 5
P= 8,42% 
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Distribuição de Probabilidade Discreta
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Um dos pontos chave das Distribuições Binomial e
Poisson é que os eventos são independentes uns dos
outros.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Cada amostra de cada experimento é um conjunto novo
de dados.
www.datascienceacademy.com.br
Distribuição Hipergeométrica
Desta forma, a probabilidade de sucesso ou de
número de ocorrências, se mantém constante.
www.datascienceacademy.com.br
A Distribuição Hipergeométrica é uma distribuição de
probabilidade discreta que descreve o número de
sucesso numa sequência de n extrações de uma
população finita, ou seja, sem reposição.
www.datascienceacademy.com.br
A Distribuição Hipergeométrica é usada quando as
amostras são colhidas de uma população finita sem ser
substituída.
www.datascienceacademy.com.br
Quando a amostragem é sem substituição, a
probabilidade de sucesso muda durante o processo de
amostragem, isso viola os requisitos para uma
distribuição de probabilidade binomial.
Então, nesse caso use a Distribuição Hipergeométrica.
www.datascienceacademy.com.br
nN
xRxnRN
C
CC
xP
×
= --)(
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
x = Número de sucessos da amostra
Fórmula da Distribuição Hipergeométrica
www.datascienceacademy.com.brDistribuição Hipergeométrica
Exemplo
www.datascienceacademy.com.br
Considerando um comércio onde 5 de 50 contas estão
inadimplentes. Se um auditor seleciona aleatoriamente
10 contas sem substituição, qual é a probabilidade de
que pelo menos uma conta possa ser inadimplente?
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Precisamos encontrar:
P(x ≥ 1) = 1 – P(x = 0)
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Usamos:
N = 50 = Tamanho da população
R = 5 = O número de sucessos da população
n = 10 = Tamanho da Amostra
x = 0 = Número de sucessos da amostra
Considerando um comércio onde 5 de 50 contas estão
inadimplentes. Se um auditor seleciona aleatoriamente 10
contas sem substituição, qual é a probabilidade de que pelo
menos uma conta possa ser inadimplente?
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Fórmula:
0.31
(10)!10)!(50
50!
(0)!0)!(5
5!
(10)!10)!(45
45!
=
-
-
×
-
=
×
=
×
=
×
=
--
--
1050
051045
1050
05010550)0(
)(
C
CC
C
CC
P
C
CC
xP
nN
xRxnRN Sendo:
P(0) = 0.31,
P(x ≥ 1) = 1 – P(x = 0)
= 1 – 0.31
= 0.69
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Sendo:
P(0) = 0.31,
P(x ≥ 1) = 1 – P(x = 0)
= 1 – 0.31
= 0.69
Assim, a probabilidade de que pelo menos uma conta inadimplente 
será encontrada numa amostra de dez contas é de 69%.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Assim como as outras distribuições, a Distribuição
Hipergeométrica também possui média e desvio
padrão.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Fórmula para Média da Distribuição Hipergeométrica
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
N
nR
=m
www.datascienceacademy.com.br
Fórmula para Desvio Padrão da Distribuição
Hipergeométrica
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
1
)(
2 -
--
=
N
nN
N
RNnR
s
www.datascienceacademy.com.br
Exemplo I
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Para o exemplo da conta inadimplente: A média da
Distribuição Hipergeométrica é
1.0
50
(10)(5)
===
N
nR
m
Distribuição Hipergeométrica
www.datascienceacademy.com.br
1.0
50
(10)(5)
===
N
nR
m
A média é de 1,0: 10% da população é inadimplente
(5 de 50) então, nós esperamos que 10% da amostra
seja inadimplente (1 de 10).
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Para o exemplo da conta inadimplente: O Desvio
Padrão da Distribuição Hipergeométrica é
0.8571.9035)(0.9487)(00.81630.9
150
1050
(50)
5)(10)(5)(50
2
===
-
--
=
-
--
=
1
)(
2 N
nN
N
RNnR
s
σ = 0,8571 representa a variação que esperamos ver
no número de contas inadimplentes encontrados em
uma amostra de dez contas.
www.datascienceacademy.com.br
Exemplo II
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Imagine uma rede de supermercados que possuem 22
funcionários, sendo que 8 possuem idade superior a 55
anos (vamos nos referir aos funcionários com mais de 55
anos como “funcionários antigos” para diferenciar do
outro grupo, que chamaremos de “funcionários novos”)
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Devido a uma recente crise econômica, o supermercado
decide demitir 7 funcionários, destes, 5 são funcionários
antigos.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Se os funcionários foram demitidos randomicamente,
qual a probabilidade de eles serem funcionários
antigos?
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Esta informação seria útil para advogados tentando
identificar se houve ou não discriminação na escolha dos
funcionários a serem demitidos.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Vamos definir como sucesso, um funcionário antigo ser
selecionando randomicamente para demissão.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Este é um exemplo claro de uma amostra de uma
população finita, cuja variável não pode ser reposta, pois
uma vez que um funcionário foi selecionado para
demissão, ele não poderá ser selecionado novamente.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Consequentemente, a probabilidade de funcionários
antigos serem selecionados para demissão, muda a
cada seleção.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Evento A = randomicamente selecionar funcionários
antigos para demissão:
P(A) = 8 / 22
P(A) = 0.364
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Entretanto, a probabilidade não é constante neste
processo.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Vamos supor que o primeiro funcionário selecionado
para demissão foi um funcionário antigo.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Qual a probabilidade que o próximo selecionado também
seja funcionário antigo?
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Perceba que o número de funcionários antigos diminuiu 
de 8 para 7, pois um já foi selecionado. Desta forma:
P(A) = 7 / 21 = 0.333
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Perceba que a Probabilidade de Sucesso em nosso
exemplo muda, durante o processo de amostragem.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Isso viola uma das regras da Distribuição Binomial e
por isso ela não poderia ser usada neste caso.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
E qual a regra de Distribuição que devemos usar nesse
caso?
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Muito bem!!!
Usamos a regra de Distribuição
Hipergeométrica.
Distribuição Hipergeométrica
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Normal
www.datascienceacademy.com.br
Distribuição Normal
www.datascienceacademy.com.br
A Distribuição Normal é útil quando os dados tendem a
estar próximos ao centro da distribuição (próximos da
média) e quando valores extremos (outliers) são muito
raros.
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Uniforme
www.datascienceacademy.com.br
A Distribuição Uniforme é usada para descrever os
dados quando todos os valores têm a mesma chance de
ocorrer.
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição Exponencial
www.datascienceacademy.com.br
A Distribuição Exponencial é usada para descrever os
dados quando valores mais baixos tendem a dominar a
distribuição e quando valores muito altos não ocorrem
com frequência .
www.datascienceacademy.com.br
Distribuição de Probabilidade Continua
Distribuição t de Student
www.datascienceacademy.com.br
A Distribuição t de Student é uma das principais
distribuições de probabilidade, com inúmeras aplicações
em inferência estatística.
www.datascienceacademy.com.br
Resumindo
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Quando achamos a matemática e a física teórica muito 
difíceis, voltamo-nos para o misticismo.
Stephen Hawking
www.datascienceacademy.com.br
Teorema do Limite Central
www.datascienceacademy.com.br
Teorema do Limite Central
Teorema do Limite Central – é fundamental para a estatística,
uma vez que diversos procedimentos estatísticos comuns
requerem que os dados sejam aproximadamente normais e o
Teorema do Limite Central permite aplicar esses
procedimentos úteis a população que são fortemente não-
normais.
www.datascienceacademy.com.br
Esse teorema possibilita medir o quanto sua média amostral
irá variar, sem ter que pegar outra média amostral para fazer
a comparação. Ou seja, permite-nos conduzir alguns
procedimentos de inferência sem ter qualquer conhecimento
de distribuição da população.
Teorema do Limite Central
www.datascienceacademy.com.brEsse teorema basicamente diz que sua média amostral tem
uma distribuição normal, independente da aparência da
distribuição dos dados originais.
Teorema do Limite Central
www.datascienceacademy.com.br
O formato da Distribuição de Frequência está relacionado a
concentração de valores no intervalo de variação da variável.
Teorema do Limite Central
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
O formato da Distribuição de Frequência está relacionado a
concentração de valores no intervalo de variação da variável.
Mudanças de uma medida de variação provocam alterações
no aspecto visual do gráfico de Distribuição de Frequencia .
O formato de uma distribuição de frequência está relacionado
aos conceitos de Simetria e Curtose.
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Simetria indica que o formato de distribuição é o mesmo à
esquerda e a direita do eixo de um gráfico.
www.datascienceacademy.com.br
Numa distribuição simétrica a média é o ponto de simetria.
Dessa forma, os valores do intervalo serão os mesmos à
direita e à esquerda.
média
www.datascienceacademy.com.br
Numa distribuição Unimodal a Simetria implica que a média,
mediana e moda são coincidentes, ou estejam muito
próximas.
Média=moda=mediana
www.datascienceacademy.com.br
Muitos procedimentos pressupõem que uma Distribuição
Normal é uma Distribuição Simétrica.
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.
Assimetria Positiva - Implica em uma
concentração maior de valores menores, e o
gráfico possuirá uma cauda mais longa à
direita.
Distribuição Assimétrica 
Positiva : 
www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.
Distribuição Assimétrica 
Negativa 
Assimetria Negativa - implica em uma
concentração de valores maiores, e o gráfico
possuirá uma cauda maior à esquerda.
www.datascienceacademy.com.br
Curtose vem da palavra grega, Kurtos, que significa Curvatura. Esse
termo está relacionado com o grau de concentração das
observações no centro e nas caudas de distribuição dos gráficos. Ou
seja, o grau de achatamento da curva.
www.datascienceacademy.com.br
Classificação da Curtose
Mesocúrtica: quando a concentração das
observações ocorre da mesma forma que na
Distribuição normal.
Leptocúrtica: Ocorre quando há alta concentração de
valores no centro e na cauda
Platicúrtica: Ocorre quando a concentração
no centro é baixa, tornando a distribuição
mais achatada que a distribuição normal.
www.datascienceacademy.com.br
Teorema do Limite Central
Distribuição Normal
www.datascienceacademy.com.br
Distribuição Normal
Os valores de grandes conjuntos de dados,
normalmente se localizam ao redor da média ou da
mediana.
Desta forma, um histograma dos dados, mostraria
uma curva simétrica bem definida (em forma de sino).
www.datascienceacademy.com.br
Distribuição Normal
Em uma distribuição normal de dados, simétrica, nós
podemos esperar que 68%, 95% e 99.7% dos valores estarão
em, respectivamente, 1, 2 e 3 desvios padrões acima e abaixo
da média.
www.datascienceacademy.com.br
Distribuição Normal
Ou seja, em uma curva simétrica dos dados, praticamente
todos os dados estarão em até 3 desvios padrões do centro
dos dados (média).
www.datascienceacademy.com.br
Distribuição Normal
Perceba que este conceito somente se aplica, quando os
dados criam um histograma simétrico.
www.datascienceacademy.com.br
A Distribuição Normal também é utilizada para ajudar a medir a
precisão de muitas estatísticas, incluindo a média, por meio da
utilização de um importante resultado em estatística como o
Teorema do Limite Central.
Distribuição Normal
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Amostragem
www.datascienceacademy.com.br
A Matemática não mente. Mente quem faz mau uso dela
Albert Einstein
www.datascienceacademy.com.br
Populações
Finitas x Infinitas
www.datascienceacademy.com.br
Amostragem
www.datascienceacademy.com.br
Principais Técnicas de Amostragem
www.datascienceacademy.com.br
Amostragem Probabilística ou Aleatória
www.datascienceacademy.com.br
Principais Técnicas de Amostragem Probabilística
• Amostragem Aleatória Simples
• Amostragem Aleatória Simples sem reposição
• Amostragem Aleatória Simples com reposição
www.datascienceacademy.com.br
Amostragem Sistemática
www.datascienceacademy.com.br
Amostragem Estratificada
www.datascienceacademy.com.br
Amostragem Por Conglomerados
www.datascienceacademy.com.br
Resumindo
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
Devemos investigar e aceitar os resultados. Se não resistirem a estes 
testes, até as palavras de Buda devem ser rejeitadas.
Dalai Lama
www.datascienceacademy.com.br
Teste de Hipótese
www.datascienceacademy.com.br
Teste de Hipótese
Um Teste de Hipótese Estatística é um procedimento de
decisão que nos possibilita decidir entre Ho (hipótese nula)
ou Ha (hipótese alternativa), com base nas informações
contidas na amostra
www.datascienceacademy.com.br
Teste de Hipótese
Ho = é a hipótese que assumimos como verdade para construção
do teste
Ha = é a hipótese que consideramos caso a hipótese nula não
tenha evidência.
Erro Tipo I = é a probabilidade de rejeitarmos a hipótese nula
quando ela é efetivamente verdadeira
Erro Tipo II = é a probabilidade de rejeitarmos a hipótese
alternativa quando ela é efetivamente verdadeira.
www.datascienceacademy.com.br
Formular as 
hipóteses 
nula e 
alternativa.
Coletar uma 
amostra de 
tamanho n 
e calcular a 
média da 
amostra.
Traçar a 
média da 
amostra no 
eixo x da 
distribuição 
da amostra.
Escolher um 
nível de 
significância 
 com base 
na 
gravidade 
do erro tipo 
I.
Calcular a 
estatística, 
os valores 
críticos e a 
região 
crítica. 
Se a média 
da amostra 
estiver na 
região 
branca do 
gráfico NÃO 
rejeitamos a 
hipótese 
nula.
Se a média 
da amostra 
estiver em 
uma das 
caudas nós 
rejeitamos a 
hipótese 
nula.
Procedimento para o Teste de Hipótese
www.datascienceacademy.com.br
Teste de Hipótese
Teste de Hipótese Unilateral
www.datascienceacademy.com.br
Teste de Hipótese
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como:
< ou >
www.datascienceacademy.com.br
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como < ou >.
H0: μ = 1.8 
HA: μ > 1.8
H0: μ =1.8 
HA: μ < 1.8
Teste Cauda Superior: nós assumimos que μ = 1.8 a 
menos que a média da amostra seja maior que the 1.8
Teste Cauda Inferior: nós assumimos que μ = 1.8 a 
menos que a média da amostra seja menor que 1.8
Rejeitar H0
Rejeitar 
H0
Não rejeitar H0
Não rejeitar H0
0H

1.8 scale x escala
Rejeitar 
H0
Rejeitar H0 Não rejeitar H0
0H

Não rejeitar H0
1.8 scale x escala
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Rejeitar H0
Rejeitar H0
Não rejeitar H0
Não rejeitar H0
0H

1.8 scale x escala
Teste Unilateral Direito
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Rejeitar H0
Rejeitar H0
Não rejeitar H0
Não rejeitar H0
0H

1.8 scale x escala
Teste Unilateral Direito:
(Superior) 
H0: μ = valor numérico 
HA: μ > valor numérico
Teste Unilateral Direito
www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Rejeitar 
H0
Rejeitar H0 Não rejeitar H0
0H

Não rejeitar H0
1.8 scale x escala
Teste Unilateral Esquerdo:
(Inferior) 
H0: μ = valor numérico 
HA: μ < valor numérico
Teste Unilateral Esquerdowww.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
Teste de Hipótese
Uma escola possui um grupo de alunos (população)
considerados obesos. A distribuição de probabilidade do peso
dos alunos dessa escola entre 12 e 17 anos é normal com uma
média de 80 kgs e desvio padrão de 10 kgs. O diretor da escola
propõe uma campanha de tratamento com acompanhamento
médico para combater a obesidade. Esse tratamento será
composto por dietas, exercícios físicos e mudança de hábito
alimentar. O médico afirma que o resultado do tratamento será
apresentado em 4 meses. E que os alunos terão seus pesos
diminuídos nesse período.
www.datascienceacademy.com.br
Teste de Hipótese
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 80 
HA: μ < 80
Onde: μ = média dos pesos dos alunos após os
4 meses.
www.datascienceacademy.com.br
Teste de Hipótese
Teste de Hipótese Bilateral
www.datascienceacademy.com.br
O teste Bilateral é usado sempre que a hipótese alternativa é 
expressa como ≠ de:
H0: μ = 1.8 
HA: μ ≠ 1.8
Nós assumimos que μ = 1.8 a menos que a média da 
amostra seja ≠ que 1.8
Rejeitar 
H0
Rejeitar H0 Rejeitar H0Não Rejeitar H0
Rejeitar 
H0
0H

Não Rejeitar H0
1.8 scale x escala
www.datascienceacademy.com.br
A curva acima representa a distribuição da
amostragem da média de utilização de banda larga.
Assume-se que a média da população é 1.8 GB, de
acordo com a hipótese nula H0 :  = 1.8.
Rejeitar 
H0
Rejeitar H0 Rejeitar H0Não Rejeitar H0
Rejeitar 
H0
0H

Não Rejeitar H0
1.8 scale x escala
www.datascienceacademy.com.br
Por existirem duas regiões de rejeição no gráfico (regiões
em amarelo), este é chamado teste de hipótese bilateral
ou bicaudal.
Rejeitar 
H0
Rejeitar H0 Rejeitar H0Não Rejeitar H0
Rejeitar 
H0
0H

Não Rejeitar H0
1.8 scale x escala
www.datascienceacademy.com.br
Como a hipótese nula é expressa como ≠ ela pode ser 
maior ou menor que, por isso o teste é bilateral.
Rejeitar 
H0
Rejeitar H0 Rejeitar H0Não Rejeitar H0
Rejeitar 
H0
0H

Não Rejeitar H0
1.8 scale x escala
www.datascienceacademy.com.br
Teste Bilateral:
H0 : μ = Valor numérico.
Valor numérico.HA : μ ≠ 
www.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
Uma fábrica de biscoitos
empacota as caixas com peso de
500 gramas. O peso é monitorado
periodicamente. O departamento
de qualidade estabeleceu que o
peso deve ser mantido em 500
gramas. Qual a condição para que o
departamento de qualidade
interrompa a produção dos
biscoitos?
www.datascienceacademy.com.br
Portanto, as hipóteses que deverão ser testadas são:
H0: μ = 500
HA: μ ≠ 500
A condição requerida para 
a empresa continuar 
empacontando os biscoitos.
www.datascienceacademy.com.br
Teste de Hipótese
Erros Tipo I e Tipo II
www.datascienceacademy.com.br
O propósito do teste de hipótese é verificar a validade
de uma afirmação sobre um parâmetro da população,
baseado em amostragem.
www.datascienceacademy.com.br
Como estamos tomando amostra como base, estamos
expostos ao risco de conclusões erradas sobre a
população, por conta de erros de amostragem.
www.datascienceacademy.com.br
A hipótese nula pode ser verdadeira,
caso tenhamos coletado uma amostra
que não seja representativa da
população.
Ou
talvez, a amostra tenha sido muito
pequena.
www.datascienceacademy.com.br
Vimos que para testar a H0, é preciso definir uma regra
de decisão com o objetivo de estabelecer uma zona de
rejeição da hipótese, ou seja, definir um nível de
significância,  , sendo os mais consensuais os alfas
0.10, 0.05 e 0.01.
Grau de 
Confiança
Nível de Significância
90% 0,10
95% 0,05
99% 0,01
www.datascienceacademy.com.br
Se o valor do parâmetro da população, defendido pela
H0, cair na zona de rejeição, então esse valor é muito
pouco provável de ser o valor verdadeiro da população e
a H0 será rejeitada em favor da HA.
Rejeitar 
H0
Rejeitar H0 Rejeitar H0Não Rejeitar H0
Rejeitar 
H0
0H

Não Rejeitar H0
n
scale x escala
www.datascienceacademy.com.br
Pode acontecer, que apesar de rejeitada com base em
dados de uma amostra, a H0 de fato seja verdadeira.
Nesse caso, estaríamos cometendo um erro de decisão.
Esse erro é chamado de Erro Tipo I, cuja probabilidade
de ocorrência depende do alfa escolhido.
www.datascienceacademy.com.br
Quando o valor defendido pela H0 cair fora da zona de
rejeição, então consideramos que não há evidência para
rejeitar H0 em prejuízo da HA. Mas aqui, também
podemos estar cometendo um erro se a HA, apesar de
descartada pelos dados em mãos, for de fato verdadeira.
Esse erro é chamado Erro Tipo II.
www.datascienceacademy.com.br
Portanto,
Condição
A Hipótese Nula é 
Verdadeira
A Hipótese Nula 
é Falsa
D
E
C
I
S
Ã
O
Decidimos rejeitar a 
hipótese nula.
Erro Tipo I
(Rejeição de uma 
hipótese nula 
verdadeira)
Decisão correta
Não rejeitamos a 
hipótese nula.
Decisão correta Erro Tipo II
(Não rejeição de 
uma hipótese 
nula falsa)
www.datascienceacademy.com.br
Teste de Hipótese
Exemplo
www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.
Que hipóteses devem ser formuladas?
Que erros podemos encontrar?
www.datascienceacademy.com.br
Resposta:
Hipótese Nula H0 : p = 0,25
Hipótese alternativa HA : p > 0,25
Erro Tipo I : aprovar a vacina quando, na realidade, ela não 
tem nenhum efeito superior ao da vacina em uso.
Erro Tipo II : rejeitar a nova vacina quando ela é, 
de fato, melhor que a vacina em uso.
www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo I depende
dos valores dos parâmetros da população e é designada
por  (alfa - nível de significância).
Dizemos então que o nível de significância alfa de um
teste, é a probabilidade máxima com que desejamos
correr o risco de um Erro Tipo I.
O valor alfa é tipicamente predeterminado e escolhas
comuns são  = 0.05 e  = 0.01
www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo II é 
designada por .
www.datascienceacademy.com.br
Obrigado
Muito Obrigada por Participar!
www.datascienceacademy.com.br
A estatística mostra que este ano aumentou em 60% o 
roubo nos bancos brasileiros. Não diz de que lado.
Millôr Fernandes 
www.datascienceacademy.com.br
Intervalo de Confiança é uma amplitude (ou um
intervalo) de valores que tem a probabilidade de conter
o valor verdadeiro da população.
Desculpe
, Não 
podemos 
confiar 
em você
www.datascienceacademy.com.br
Observe que na definição de intervalo de confiança, está
associado uma probabilidade. A esta probabilidade
chamamos de:
Intervalo de Confiança
www.datascienceacademy.com.br
Observe que na definição de intervalo de confiança, está
associado uma probabilidade. A esta probabilidade
chamamos de:
www.datascienceacademy.com.br
Essas probabilidades podem vir a partir de escolhas
comuns do grau de confiança que se deseja alcançar,
dentre os mais comuns temos:
Grau de 
Confiança
Nível de Significância Valor Crítico
Z
90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,575
Intervalo de Confiança
www.datascienceacademy.com.br
Descrição dos termos:
Considerando:
Probabilidade {c1 <=  <= c2} = 1 - 
Onde:
 O intervalo (c1, c2) é chamado de intervalo de confiança.
  = média da população.
  é o nível de significância.
 100 (1 - ) é nível de confiança.
 1 -  é o coeficiente de confiança.
www.datascienceacademy.com.br
Um Intervalo de Confiança funciona como um

Continue navegando