Buscar

MATF35 - Slides

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

7/8/2021
1
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
1
Paulo Canas Rodrigues possui graduação em Matemática pela Universidade Nova de
Lisboa (2003), mestrado em Estatística pela Universidade Técnica de Lisboa (2007),
Doutorado em Estatística pela Universidade Nova de Lisboa (2012), e Agregação
(Habilitation) em Matemática, especialização em Estatística e Processos Estocásticos, pela
Universidade de Lisboa (2019).
É Estatístico e Cientista de Dados, atualmente Professor na Universidade Federal da
Bahia. Publicou mais de 65 artigos científicos em revistas internacionais, em colaboração
com mais de 90 coautores, de 20 países, e ministrou mais de 110 palestras e seminários
por convite. É membro eleito do International Statistical Institute (ISI), foi o fundador, o
Chairperson (2017-2019), e o Past-Chairperson (2019-2021) da Latin American Regional
Section (LARS) of the International Association for Statistical Computing (IASC), foi Council
Member do International Statistical Institute (2015 - 2019), e foi Vice-Presidente (2009-
2011; 2011-2013) e Council Member (2015-2019) da International Society for Business
and Industrial Statistics. Entre 2015 e 2019 foi também o Research Director do Center for
Applied Statistics and Data Analytics (CAST), da Universidade de Tampere, na Finlândia.
Paulo Canas Rodrigues
Email: paulocanas@gmail.com
Web: www.paulocanas.org
2
7/8/2021
2
De entre outras atividades, Paulo Canas Rodrigues atualmente exerce as seguintes funções:
• Professor da Universidade Federal da Bahia
• Co-Editor do jornal científico Computational Statistics (01/2021 - 12/2023)
• Co-Editor do jornal científico Brazilian Journal of Biometrics (01/2021 - 12/2022)
• Co-Editor do jornal científico Biometrical Letters (desde 2013)
• Managing Editor do jornal Statistics, Optimization and Information Computing (desde 213)
• Co-fundador e Vice-Coordenador da Especialização em Ciência de Dados e Big Data (ECD) da
UFBA (desde 2018)
• Presidente da Região Brasileira da International Biometric Society (2018-2020; 2020-2022)
• Membro do Conselho DIretor da Associação Brasileira de Estatística (2020-2024)
• Membro do Comitê Executivo da International Association for Statistical Computing (2017-
2028; 2018-2021)
• Membro do Representative Council da International Biometric Society (2021-2025)
• Presidente-Eleito da International Society for Business and Industrial Statistics (2021-
2023; Presidente entre 2023 e 2025)
• Co-fundador e (primeiro) Chair do Special Interest Group (SIG) on Data Science do
International Statistical Institute (2021-2023)
Paulo Canas Rodrigues
Email: paulocanas@gmail.com
Web: www.paulocanas.org
3
Time series analysis and forecasting
• Classical time series models
• Singular spectrum analysis
• Artificial and recurrent neural networks (e.g. LSTM)
• Clustering time series
• Application to environment, economy, finances, energy, etc.
Long range correlation
• Application to electroencephalogram (EEG) signals and finances
Alguns projetos em andamento
4
7/8/2021
3
Statistics in Sports
• Supervised and unsupervised learning in NBA
High dimension data analysis
• new methodologies for regression, classification
and clustering with high dimensional features
Spatial-temporal modelling
• Application to environmental data
Alguns projetos em andamento
Image analysis
• Kernel robust singular value decomposition
• Generative adversarial networks
Public policy
• High-dimensional and complex data from
Brazilian social programs
Music and signal analysis
Statistical and machine learning
5
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
6
7/8/2021
4
Conteúdo programático
7
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
8
7/8/2021
5
Importância da Estatística em 
Ciência de Dados?
9
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
10
7/8/2021
6
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
11
Estatística 
12
7/8/2021
7
O que é estatística? 
É um conjunto de métodos quantitativos que serve para estudar e
medir os fenômenos acerca de uma população com base em uma
amostra.
É uma ciência que trata da coleta, da análise, da interpretação e da
apresentação de massas de dados numéricos.
É uma ciência baseada na Teoria das Probabilidades, cujo objetivo
principal é nos auxiliar a tomar decisões ou obter conclusões em
situação de incerteza, a partir de informações numéricas.
13
Por que estudar estatística? 
� Precisamos do conhecimento da estatística para tomar algumas de
suas decisões e para evitar serem ludibriados por certos resultados
errôneos ou viciados
� Para saber como apresentar e descrever informações de forma
apropriada
� Para saber como tirar conclusões a partir de grandes populações,
com base somente na informação obtida a partir de amostras
� Para saber como melhorar os processos
14
7/8/2021
8
A estatística em várias áreas: 
� Na área médica: metodologia adequada que possibilita decidir
sobre a eficiência de um novo tratamento.
� Na pesquisa de mercado e de opinião pública: definição de novos
produtos, lançamentos, vendas, etc.
� Nas ciência sociais: estudo de diferentes indicadores sociais.
15
A estatística em várias áreas: 
A Estatística é empregada como ferramenta fundamental em várias
áreas, praticamente todo campo de pesquisa se beneficia da utilização
de métodos estatísticos.
� Na industria : controle de qualidade de produto e processo.
� Em computação : estudo do desempenho de sistemas, algoritmos
para aumentar a eficiência, etc.
16
7/8/2021
9
Divisão da estatística
� Estatística descritiva: se preocupa com a coleta, organização,
apresentação, interpretação e análise dos dados
� Estatística inferencial: consiste em inferir (deduzir ou tirar
conclusões) a respeito das propriedades de um universo a partir de
uma amostra.
17
Etapas de uma análise estatística
18
7/8/2021
10
Introdução à Estatística 
19
Etapas de uma análise estatística
20
7/8/2021
11
� É o conjunto de todos os indivíduos, objetos ou informações que
apresentam pelo menos uma característica comum cujo
comportamento interessa-nos analisar
Definições Básicas
População
� Deseja-se conhecer o número de funcionários de uma determinada
empresa que foi ao teatro nos últimos 3 meses.
População: todos os funcionários da empresa que foram ao teatro nos
últimos 3 meses.
Exemplo
Característica de interesse: funcionários de uma determinada empresa.
21
População
Tipos de população
Finita: apresenta um número limitado de elementos. É possível
enumerar todos os elementos.
Exemplo
� Idade dos universitários residentes em Salvador.
� Empresas de mediano porte no estado da Bahia nesteano.
� Número de nacidos no Brasil nos últimos cinco anos.
22
7/8/2021
12
População
Tipos de população
Infinita:apresenta um número ilimitado de elementos. Não é possível
enumerar todos os elementos.
Exemplo
� Todas as bactérias existente no corpo humano.
� As pressões atmosféricas ocorridas nos diversosn pontos do
continente em determinado momento.
23
Definições Básicas
Amostra
� Representa qualquer subconjunto finito de elementos extraídos da
população, sobre o qual se faz as observações.
24
7/8/2021
13
Estatística Descritiva
25
� Consiste na recolha, apresentação, análise e interpretação de dados
numéricos, através da criação de instrumentos adequados: quadros,
gráficos e indicadores numéricos.
� A Estatística Descritiva visa somente descrever e analisar um certo
grupo (amostra) sem daí retirar conclusões ou inferências sobre a
população da qual foi retirado esse grupo.
Estatística Descritiva
26
7/8/2021
14
A questão básica que se põe é:
o Como resumir os aspectos essenciais dos dados?
o Será que existem regularidades, tendências, ciclos, concentrações,...,
padrões, dignos de nota nos dados?
Estatística Descritiva
Dada a enorme quantidade de dados disponíveis, a
questão central é:
o Como resumir os dados de forma que a informação
neles contida possa ser facilmente comunicada e assimilada?
Este é o papel da Estatística Descritiva!
27
Estatística Inferêncial
28
7/8/2021
15
É o conjunto de técnicas, que permitem construir proposições de
carácter probabilístico acerca da população, partindo da observação de
alguns dos
seus elementos (amostra).
Estatística Inferêncial
Na Inferência Estatística ou Estatística Matemática a questão central é:
como usar os dados para tentar obter conclusões acerca do todo ou
população de onde são originários os dados.
29
Estatística Inferêncial
Os métodos de inferência estatística envolvem o cálculo de estatísticas,
a partir das quais se infere sobre os parâmetros da população, isto é,
permitem com determinado grau de probabilidade, generalizar à
população certas conclusões, por comparação com os resultados
amostrais.
30
7/8/2021
16
Estatística Inferêncial
Em suma, inferir significa, portanto, deduzir como consequência,
conclusão ou probabilidade. Os processos de inferência estatística
introduzem ordem em qualquer tentativa para tirar conclusões da
evidência fornecida por amostras.
A Estatística Inferencial aborda dois tipos de problemas fundamentais:
a) a estimação de parâmetros de uma população, e
b) o teste de hipóteses.
31
Variáveis Aleatórias
32
7/8/2021
17
Variável aleatória
É a característica de interesse que é medida em cada elemento da
amostra ou população.
Variáveis são características que são medidas, controladas ou
manipuladas em uma pesquisa.
Diferem em muitos aspectos, principalmente no papel que a elas é dado
em uma pesquisa e na forma como podem ser medidas.
As variáveis podem ter valores numéricos ou não numéricos.
33
Variáveis aleatórias
34
7/8/2021
18
Variáveis aleatórias
Variáveis Qualitativas (ou categóricas):
são as características que não possuem valores quantitativos, mas, ao
contrário, são definidas por várias categorias, ou seja, representam uma
classificação dos indivíduos.
Podem ser nominais ou ordinais.
35
Variáveis aleatórias
Variáveis nominais:
não existe ordenação dentre as categorias.
Exemplos:
o sexo,
o cor dos olhos,
o fumante/não fumante,
o doente/sadio.
36
7/8/2021
19
Variáveis aleatórias
Variáveis ordinais:
existe uma ordenação entre as categorias.
Exemplos:
o escolaridade (1o, 2o, 3o graus),
o estágio da doença (inicial, intermediário, terminal),
o mês de observação (janeiro, fevereiro,..., dezembro)..
37
Variáveis aleatórias
Variáveis Quantitativas:
são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos que fazem sentido.
Podem ser contínuas ou discretas.
38
7/8/2021
20
Variáveis aleatórias
Variáveis discretas
características mensuráveis que podem assumir apenas um número finito
ou infinito contável de valores e, assim, somente fazem sentido valores
inteiros.
Geralmente são o resultado de contagens.
Exemplos:
o número de filhos,
o número de bactérias por litro de leite,
o número de cigarros fumados por dia.
39
Variáveis aleatórias
Variáveis contínuas
características mensuráveis que assumem valores em uma escala
contínua (na reta real), para as quais valores fracionais fazem sentido.
Usualmente devem ser medidas através de algum instrumento.
Exemplos:
o peso (balança),
o altura (régua),
o tempo (relógio),
o pressão arterial,
o idade.
40
7/8/2021
21
Medidas de posição central
41
Medidas de posição
� Máximo (max): a maior observação.
� Mínimo (min): a menor observação.
� Moda (mo): é o valor (ou atributo) que ocorre com maior frequência.
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.
� Ordenamos: 12, 42, 56, 56, 57 e 61.
• max: 61.
• min: 12.
• moda: 56.
42
7/8/2021
22
Medidas de posição
� Média ( �̅ ): É a média aritmética de uma distribuição de
escores/dados. É a estatística mais usada nas pesquisas de ciências
socias, médicas, etc.
�̅ � �� � �� �⋯� ��	 � ∑ ������	
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.
�̅ � �� � �� �⋯� ��	 � ∑ ������	 � 56 � 42 �⋯� 566 � 47,33.
43
Medidas de posição
� Mediana (Md): É o valor da variável que ocupa a posição central de
um conjunto de n dados ordenados.
Posição da mediana:
���� � 0,50�	 � 1�
Exemplo: Detectou-se que, em uma amostra formada por cinco
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12.
� Ordenamos: 12, 42, 56, 57 e 61. Aqui n - impar
Posição da mediana:
���� � 0,50 5 � 1 � 3
Md = 56
44
7/8/2021
23
Medidas de posição
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 55, 42, 57, 61, 12, 56.
� Ordenamos: 12, 42, 55, 56, 57 e 61.
Aqui n é par
Posição da mediana:
���� � 0,50 6 � 1 � 3.5
Md = (55+56)/2=55.5
45
Medidas de posição
Casos particulares:
• Percentil 50: mediana ou segundo quartil.
• Percentil 25: primeiro quartil (Q1).
• Percentil 75: terceiro quartil (Q3).
• Percentil 10: primeiro decil.
� Percentis: É o valor da variável que ocupa a posição � � 	 � 1 , 0 �� � 1 do conjunto de dados ordenados.
46
7/8/2021
24
Medidas de posição
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.zz
� Ordenamos: 12, 42, 56, 56, 57 e 61.
Posição do percentil 50: 0,50 6 � 1 � 3.5
Posição do percentil 25: 0,25 6 � 1 �	1,75
Posição do percentil 75: 0,75 6 � 1 � 5,25
Q1 = (12+42)/2=27 Q3 = (57+61)/2=59
47
Medidas de dispersão
48
7/8/2021
25
Medidas de dispersão
Têm como objetivo encontrar um valor que resuma a variabilidade de
um conjunto de dados.
Amplitude:	� � � � ! �"	
Intervalo- Interquartil: #$ � $3 ! $1
� Ordenamos: 12, 42, 56, 56, 57 e 61.
• A= 61-12 = 49.
• IQ: Q3 – Q1 = 59 – 27 = 32.
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.
49
Medidas de dispersão
Variância: A variância é um dos indicadores de variabilidade mais
conhecido e aparece citada, com frequência, em trabalhos científicos.
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.
% � �� ! �̅ � � �� ! �̅ � �⋯� �� ! �̅ �	 ! 1 � 1	& �� ! �̅ �
�
���
%� � 56 ! 47,33 � � 42 ! 47,33 � �⋯� 56 ! 47,33 �6 ! 1 � 341,47
50
7/8/2021
26
Medidas de dispersão
Desvio Padrão:
Exemplo: Detectou-se que, em uma amostra formada por seistrabalhadores, seriam encontrados os seguintes salários semanais(em
reais): 56, 42, 57, 61, 12, 56.
%� � 56 ! 47,33 � � 42 ! 47,33 � �⋯� 56 ! 47,33 �6 ! 1 � 341,47
% � %�' � 341,47' � 18,47
% � %�' � ) *"â	," '
51
Medidas de dispersão
Coeficiente de Variação (VC):
• É uma medida de dispersão relativa
• Elimina o efeito da magnitude dos dados
• Exprime a variabilidade em relação a média
• Quanto menor o CV mais homogêneo é o conjunto de dados
Exemplo: Detectou-se que, em uma amostra formada por seis
trabalhadores, seriam encontrados os seguintes salários semanais (em
reais): 56, 42, 57, 61, 12, 56.
-) � %�̅ � 100%
-) � 18,4747,33 � 100% � 39,04%
52
7/8/2021
27
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
53
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
54
7/8/2021
28
Probabilidade
55
Algumas definições importantes
Probabilidade
Experimento Aleatório
56
7/8/2021
29
Probabilidade
Experimento Aleatório (E)
Procedimento que, ao ser repetido sob as mesmas condições, pode
fornecer resultados diferentes.
Exemplos
� Jogar um dado e observar o resultado;
� Jogar uma moeda e observar o resultado;
� Hábito de fumar de um aluno sortiado da turma;
� Condições climáticas no próximo domingo;
� Taxa de inflação do próximo mês.
57
Algumas definições importantes
Probabilidade
Experimento Aleatório
Espaço Amostral (Ω)
58
7/8/2021
30
Probabilidade
Espaço Amostral (Ω)
Conjunto de todos os resultados possíveis de um experimento aleatório.
Exemplos
� Resultados no lançamento de uma moeda:Ω � 1, * , ,2*2 3;
� Resultados no lançamento de um dado:Ω � 11, 	2, 3, 4, 5, 63;
� Hábito de fumar:Ω � 45� 	67, 8ã2	:5� 	67 .
59
Algumas definições importantes
Probabilidade
Experimento Aleatório
Espaço Amostral (Ω)
Evento (A)
60
7/8/2021
31
Probabilidade
Evento (A)
Subconjunto do espaço amostral Ω denotado, pelo geral, por: A, B, C, ....
Exemplos
� Lançamento de um dado:Ω � 11, 	2, 3, 4, 5, 63;
Vamos definir alguns evento:
� A: Sair a face superior parA � 2, 4, 6 	⊂ 	Ω		;
� B: Sair a face superior menor que trêsB � 1, 2, 3 ⊂ 	Ω	;
61
Probabilidade
Operações com evento
Suponhamos que A e B sejam dois eventos de um espaço amostral Ω.
o A⋃B:união dos eventos A e B. Representa a ocorrência de pelo
menos um dos eventos, A ou B.
o A ∩ B: interseção dos eventos A e B. Representa a ocorrência
simultanea dos eventos A e B.
62
7/8/2021
32
Probabilidade
Operações com evento
Suponhamos que A e B sejam dois eventos de um espaço amostral Ω.
o Os eventos A e B são disjuntos ou mutuamente exclusivos quando
não tem elementos em comum, isto é, A ∩ B � ∅.
Vamos a representar o complemento do evento A como AC.
o Os eventos A e B são complementares se suas interseções é vazia
e sua união é o espaço amostral, isto é, A ∩ B � ∅ e A⋃B � Ω.
63
Probabilidade
Operações com evento
Exemplo
Em uma pesquisa realizada com 200 alunos da Faculdade Pitagoras, foi
obtido o resultado apresentado na tabela seguinte:
Sexo
Curso
Comunicação Filosofia Direito Administração
Homes 45 22 38 29
Mulheres 35 16 12 3
64
7/8/2021
33
Probabilidade
Operações com evento
Continuando o exemplo
Dentre os 200 alunos, podemos selecionar um alunos ao acaso.
Consideremos os eventos a seguir:
H: O aluno escolhido é homem.
M: O aluno escolhido é mulher
C: O aluno escolhido é do curso de Comunicação.
F: O aluno escolhido é do curso de Filosofia.
D: O aluno escolhido é do curso de direito.
A: O aluno escolhido é do curso de Administração.
65
Probabilidade
Operações com evento
Continuando o exemplo
H ∪ A: Representa, o aluno escolhido é homem OU é do curso de
Aministração.
Podemos definir também:
M ∩ D	: Representa, o aluno escolhido é mulher E é do curso de Direito.
HI 	: Representa, o aluno escolhido é mulher.
66
7/8/2021
34
Probabilidade
Operações com evento
1. Comutatividade: A⋃B � B⋃A,A⋂B � B⋂A
2. Associatividade: A ∪ B ∪ C � A ∪ B UC
3. Lei distributiva: A ∩ B ∪ C � �A ∩ B� ∪ �A ∩ C�
4. Lei DeMorgan: �� ∪ M�I� �I ∩ MI , � ∩ M I � �I ∪ MI .
Mais propriedades
Sejam três eventos quaisquer, A, B e C, definidos em um espaço
amostral Ω. Então,
67
Probabilidade
Operações com evento
Exemplo
Consideremos os eventos:
G: gostar de gatos
A: gostar de cachorros
Podemos definir:
GC: não gostar de gatosGC ∩ AC: não gostar de gatos e não gostar de cachorros
GC ∩ AC � �G ∪ A�C Complementar de gostar gatos ou cachorros
68
7/8/2021
35
Algumas definições importantes
Probabilidade
Experimento Aleatório
Espaço Amostral (Ω)
Evento (A)
Probabilidade - P(A)
69
Probabilidade
Probabilidade - P(A)
Medida de incerteza associada aos resultados do experimento aleatório.
Como atribuir probabilidades aos elementos do espaço amostral?
Fornece a informação de quaã verossimil é a ocorrencia de um evento
em particular.
70
7/8/2021
36
Probabilidade
Probabilidade - P(A)
Através das frequências de ocorrências
1. O experimento aleatório é repetido “n” vezes.
2. Calcula-se a frequência relativa com que cada resultado ocorre
Observação:
Para um número grande de realizações, a frequência relativa
aproxima-se da probabilidade.
71
Probabilidade
Probabilidade - P(A)
Através de suposições teóricas
1. Dado um espaço amostral Ω � 1ω�, ω�, … 3.
2. A probabilidade P�ω� para cada ponto amostral satisfaz
0	 R P ω R 1
P ω � P ω�, ω�, … � 	&P ωS � 1'S
72
7/8/2021
37
Probabilidade
Probabilidade - P(A)
o Se A é um evento, então
P A � & P�ωT�'UV∈X
Observação
o Se Ω � ω�, ω�, … , ωY e P ωS � 1/N (pontos equiprováveis),
então
P A � ⋕ de	elementos	de	A⋕ de	elementos	de	Ω � ⋕ �A�⋕ �Ω�
73
Probabilidade
Continuando com o exemplo
Probabilidade - P(A)
Sexo
Curso
TotalComunicação Filosofia Direito Administração
Homes 45 22 38 29 134
Mulheres 35 16 12 3 66
Total 80 38 50 32 200
Qual a probabilidade de um aluno de esse grupo, escolhido ao acaso:
a) Ser Mulher
b) Ser homem e cursar Administração
74
7/8/2021
38
Probabilidade
Continuando com o exemplo
Sexo
Curso
TotalComunicação Filosofia Direito Administração
Homes 45 22 38 29 134
Mulheres 35 16 12 3 66
Total 80 38 50 32 200
a) Ser Mulher
M: O aluno escolhido é mulher.
P M � ⋕ �M�⋕ �Ω� � 66200 � 0,33 e 33,0%
Analogamente
P M � P HC � 1 ! P H � 1 ! ⋕ H⋕ Ω � 1 ! 134200 � 0,33 e 33,0%
Onde: H representa o evento do aluno escolhido é homem.
75
Probabilidade
Continuando com o exemplo
Sexo
Curso
TotalComunicação Filosofia Direito Administração
Homes 45 22 38 29 134
Mulheres 35 16 12 3 66
Total 80 38 50 32 200
b) Ser homem e cursar Administração
H: O aluno escolhido é homem.
A: O aluno escolhido é do curso de Administração.
P H ∩ A � ⋕ �H ∩ A�⋕ �Ω� � 29200 � 0,145 e 14,5%
Conclusão: A probabilidade do aluno selecionado ser
homem e este cursando administração é 29/200 ou
14,5%.
76
7/8/2021
39
Probabilidade
Probabilidade - P(A)
Regra da adição de probabilidades
Sejam A e B eventos de Ω. Então
P A ∪ B � P A � P B ! P A ∩ B .
� Se A e B forem eventos disjuntos, entãoP A ∪ B � P A � P B
� Para qualquer evento A de Ω,P A � 1 ! P AC
77
Probabilidade
Continuando com o exemplo
Sexo
Curso
TotalComunicação Filosofia Direito Administração
Homes 45 22 38 29 134
Mulheres 35 16 12 3 66
Total 80 38 50 32 200
c)Ser Mulher ou cursar Comunicação
M: O aluno escolhido é mulher.
C: O aluno escolhido é do curso de Comunicação.
P M ∪ C � P M � P C ! P M ∩ C � ⋕ �M�⋕ �Ω� � ⋕ �C�⋕ �Ω� ! ⋕ M ∩ -⋕ Ω
Conclusão: A probabilidadedo aluno selecionado ser
mulher ou estar cursando comunicação é 111/200
ou de 55.5%.
� 66200 � 80200 ! 35200 � 111200 � 0,555 e 55,5%
78
7/8/2021
40
Probabilidade
Probabilidade condicional - P(A|B)
Dado dois eventos A e B, a probabilidade condicional de A dado que
ocorreu B é denotado por P(A|B) e definida por
P A|B � P�A ∩ B�P�B� , P B g 0.
Regra do produto
P A ∩ B � P A P�A|B�
79
Probabilidade
Continuando com o exemplo
Sexo
Curso
TotalComunicação Filosofia Direito Administração
Homes 45 22 38 29 134
Mulheres 35 16 12 3 66
Total 80 38 50 32 200
d) Cursar comunicação dado que é mulher
Sabemos que:
C: O aluno escolhido é do curso de Comunicação.
M: O aluno escolhido é mulher.
P C|M � P�C ∩M�P�M� � 35/20066/200 � 3566 � 0,53 e 53%.
80
7/8/2021
41
Probabilidade
Independência
Dizemos que dois eventos são estatísticamente independentes quando
a ocorrência de um não interfere na ocorrencia de outro.
Dado dois eventos A e B, dizemos que o evento A é independente do
evento B se
P A B � P A ou P A ∩ B � P A P B .
81
Probabilidade
Exemplo
Independência
A probabilidade de João resolver um problema de estatística é igual a
20%. A probabilidade de Lucas é igual a 25%. Se ambos tentarem
resolver o problema de forma independente, qual a probabilidade de
que o problema seja resolvido?
Consideremos os eventos:
J: João resolve o problema de estatística.
L: Luca resolve o problema de estatística.
R: O problema seja resolvido 
Como os eventos J e L são independentes 
e P J � 0,20 e P L � 0,25 .
P R � P J ∗ P L � 0,20 ∗ 0,25 � 0,05 e 5%
82
7/8/2021
42
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
83
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
84
7/8/2021
43
Variáveis aleatórias
85
Na prática é, muitas vezes, mais interesante associarmos um número a
um evento aleatório e calcularmos a probabilidade da ocorrência desse
número do que a probabilidade do evento.
Variável Aleatória
Então, definamos uma função X que associa a cada elemento do espaço
amostral Ω um valor x (do conjunto dos números reais) é denominada
de variável aleatória.
86
7/8/2021
44
Variável Aleatória
Exemplo
Consideremos o experimento de lançar um dado duas vezes e observar
a face superior se é par o impar.
Assumindo P= face par e I=face impar, o espaço amostral é dado por:
Ω � 1PP, PI, IP, II3
Definamos uma variável aleatória X que representa o número de vezes
que saiu par nos dois lançamentos do dado.
87
Variável Aleatória
Exemplo
Ω
PP
PI
IP
II
X
X: número de vezes que saiu par nos dois lançamentos do dado
X=0 II
X=1 IP PIou 
X=2 PP
88
7/8/2021
45
Variável Aleatória
Uma variável aleatória (v.a.) pode ser classificada em:
� Variável aleatória discreta
� Variável aleatória contínua
Uma v.a. é discreta quando os valores que assume é finito ou 
infinito enumerável. 
Uma v.a. é contínua quando o conjunto de valores possíveis 
que ela assume for não enumerável.
89
Variável Aleatória 
Exemplo: Variável aleatória discreta
Exemplo: Variável aleatória contínua
Número de filhos, número de ligações recebidas, número de erros
ortográficos, etc.
0 1 2 3 4 …
Altura, peso, idade de um indivíduo.
0
90
7/8/2021
46
Variáveis aleatórias discretas
91
Variável Aleatória Discreta
Exemplo
Consideros o exemplo de observar o SEXO das criançãs dos funcionários
da empresa “DataStat” com três filhos.
Assumindo:
M: criança do sexo masculino
F: criança do sexo feminino
Como seria o espaço amostral?
Ω � 1MMM,MMF,MFM, FMM,MFF, FMF, FFM, FFF3
92
7/8/2021
47
Variável Aleatória Discreta
Exemplo
Defina X: Número de criança do sexo masculino, considerando três
cianças
MMM MMF MFM FMM MFF FMF FFM FFF
x 3 2 2 2 1 1 1 0
Ω
Como X assume valores no conjunto {0,1,2,3}, então X é uma variável
aleatória discreta.
Como atribuir probabilidades?
P�X � 3�: Probabilidade de observar 3 crianças do sexo masculino.
93
Variável Aleatória Discreta
Exemplo
Defina Y: Número de criança do sexo feminino
MMM MMF MFM FMM MFF FMF FFM FFF
y 0 1 1 1 2 2 2 3
Ω
Como Y assume valores no conjunto {0,1,2,3}, então Y é uma variável
aleatória discreta.
Como atribuir probabilidades?
P�Y � 2�: Probabilidade de observar, dentre as 3 crianças, 
duas do sexo feminino.
94
7/8/2021
48
Variável Aleatória Discreta
Função de probabilidade
É a função que atribui a cada valor x da variável aleatória discreta X sua
probabilidade de ocorrencia e pode ser representada pela tabela.
x
P(X=x)
�� �� �p ... ��
q�r � ��� q�r � ��� q�r � �p� q�r � ���...
Toda função de probabilidade deve satisfazer:
0 R q r � �� R 1, i=1,2,…,n
&q r � �� � 1����
95
Variável Aleatória Discreta
Exemplo
O departamento de vendas de uma companhia de automóveis é
formado por 35 funcionários, sendo 21 homes e 14 mulheres. Com
objetivo de implantar uma nova estratégia de vendas serão formados
grupos de 3 funcionários, sorteados aleatoriamente. Qual é a
probabilidade do grupo estar formado:
a) Por três mulheres?
b) Pelo menos duas mulheres?
c) No máximo uma mulher?
96
7/8/2021
49
Exemplo:
Definamos X: Número de mulheres no grupo
H
M
H
H
H
H
H
H
M
M
M
M
M
M
HHH
HHM
HMH
HMM
MHH
MHM
MMH
MMM
21/35
14/35
20/34
14/34
21/34
13/34
19/33
14/33
20/33
13/33
20/33
13/33
21/33
12/33
Qual é a probabilidade do grupo estar formado por três mulheres?
97
Exemplo: Qual é a probabilidade do grupo estar formado por três
mulheres?
Como X é o número de mulheres no grupo, sua função de distribuição 
de probabilidade é dada por:
x 0 1 2 3
P(X=x) 0,203 0,450 0,291 0,356
q r � 0 � q HHH � 0,203
q r � 1 � q HHs ∪HsH ∪sHH � q HHs � q HsH � q�sHH�q r � 1 � 0,450
q r � 2 � q Hss ∪sHs ∪ssH � q Hss � q sHs � q�ssH�q r � 2 � 0,291
q r � 3 � q sss � 0,056 
98
7/8/2021
50
Exemplo:
Variável Aleatória Discreta
a) Qual é a probabilidade do grupo estar formado por três
mulheres?q r � 3 � 0,056 
b) Qual é a probabilidade do grupo estar com pelo menos
duas mulheres?
q r t 2 � q r � 2 � q�r � 3� � 0,291 � 0,056=0,347 
c) Qual é a probabilidade do grupo estar com no máximo uma
mulher?q r R 1 � q r � 0 � q r � 1 � 0,203 � 0,450 � 0,653
99
Variável Aleatória Discreta
Exitem caracteristica numéricas que são muito importantes em uma
distribuição de probabilidade de uma variável aleatória discreta:
� Média (Valor esperado, esperança matemática).
� Variância 
100
7/8/2021
51
Variável Aleatória Discreta
Valor Esperado (Média)
E X � 	 x� � P X � x� �⋯� xw � P X � xw
� &xS � P�X � xS�wS��
Notação:
μ � E�X�
101
Variável Aleatória Discreta
Variância
Notação:
y� � Var�X�
Representa o valor esperado da variável aleatória �X ! E�X���, isto é
Var X � &�xS ! E�X��� � P�X � xS�wS��
Analogamente:
Var X � E r� ! }~�r���
102
7/8/2021
52
Variável Aleatória Discreta
Desvio padrão
Notação:
y �	DP(X)
Definida como a razão quadrada positiva da variância, isto é,
DP X � VAR�X�'
103
Variável Aleatória Discreta
Exemplo
Determinar a média, variância e desvio padrão da soma dos resultados
no lançamento de dois dados calibrados.
Experimento: Lançamento de dois dados calibrados e observar o 
resultado
Variável aleatória: X - Soma dos resultados
104
7/8/2021
53
Variável Aleatória Discreta
Exemplo Ω � 1 ", � : ", � � 1,2,3,4,5,63
x P(X=x)
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
10 3/36
11 3/36
12 1/36
105
Variável Aleatória Discreta
Exemplo~ r � 2 � 136 � 3 � 236 �⋯� 12 � 136 � 25236 � 7
) * r � �2 ! 7��� 136 � �3 ! 7��� 236 �⋯� 12 ! 7 � � 136
� 5,83
�q r � ) * r' � 5,83' � 2,41
106
7/8/2021
54
Variável Aleatória Discreta
Propriedades
� E k � k, k:constante
� E k · X � k · E X
� E aX � b � aE�X� � b
� E X ! μ � 0
� Var aX � b � a�Var�X�
� Var k � 0, k: constante
107
Variáveis aleatórias contínuas
108
7/8/2021
55
Variável Aleatória Contínua
Consideremos a distribuição de probabilidade da variável aleatória
discreta X:
x 1 2 3 4 5
P(X=x) 0,1 0,2 0,4 0,2 0,1
Podemos construir o histograma da distribuição de probabilidade de X,
construido com rectângulos de bases unitárias e alturas iguais as
probabilidades de X.
109
Variável Aleatória Contínua
A� A� Ap A� A�
&q r � " � &������ � 1
�
���
Podemos calcular, por exemplo, q�1 R r R 3�, bastaria calcular a
soma das areas 1, 2 e 3.
&�� � 0,1 � 0,2 � 0,4 � 0,7p���
110
7/8/2021
56
Variável Aleatória Contínua
Se utilizamos os pontos médios das bases superiores dos rectângulos e
os unimos por uma curva, teremos, se consideramos X uma variável
aleatória contínua, uma função contínua f(X).
q R r R � �?
a b
f(X)
111
Variável Aleatória Contínua
Como dito, toda variável aleatória contínua é caracterizada por sua
função de densidade de probabilidade, f(X), com as propriedades a
seguir:
� A área sob a função é 1.
� :��� t 0.
� A área sob a função e acima do eixo x, 
entre os pontos a e b é P a R X R b .
� q R r R � � q R r � � � q� � r R�� � q � r � � .
� q r � � 0
112
7/8/2021
57
Variável Aleatória Contínua
Uma função de densidade de probabilidade, f(X), deve satisfazer:
f x t 0
� f x dx � 1'
'
Propriedades
E X � �xf x dx'
'
Var X � � x ! E X �'
'
f x dx
Var X � E X� ! �E�X���
DP X � Var�X�'
113
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
114
7/8/2021
58
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
115
Modelos probabilísticos discretos
116
7/8/2021
59
Modelo de Bernoulli ou Binário
117
� Um entrevistado concorda ou não com a afirmação feita.
Modelo de Bernoulli
Exemplos
� O resultado de um exame médico para a detecção de uma doença é
positivo ou negativo.
� Uma peça eletrônica é classificada como boa ou defeituosa.
Situações dicotômicos são representados, em muitas situações, como
respostas do tipo sucesso – fracasso.
118
7/8/2021
60
Resposta do tipo sucesso – fracasso caracterizam experimentos de
Bernoulli que origina uma variável aleatória, X, com distribuição de
Bernoulli.
Modelo de Bernoulli
Variável aleatória de Bernoulli
Caracterizada por assumir apenas dois valores:
� 1 – quando representada como sucesso.
� 0 – quando representada como fracasso.
Por conveniência vamos assumir que a probabilidade
de succeso é �, consequêntemente a probabilidade
de fracasso é 1 ! �.
119
Modelo de Bernoulli
Variável aleatória de Bernoulli r	~	M7*	25��"���
Denotaremos assim, para representar uma variável aleatória com
distribuição de Bernoulli com parâmetro �.
r � �1,0, Se ocorre “sucesso”.Se ocorre “fracasso”.
A função de probabilidade é representada por:
x 1 0
P(X=x) p 1-p 
Onde:
~ r � � ) * r � ��1 ! ��
120
7/8/2021
61
Modelo de Bernoulli
Variável aleatória de Bernoulli
r	~	M7*	25��"���
Quando repetimos, de forma independente, experimentos de
bernoulli com mesma probabilidade de sucesso, origina uma variável
aleatória, X, com distribuição binomial.
121
Distribuição Binomial
122
7/8/2021
62
Uma variável aleatória, X, é dita Binomial com parâmetros 	 e �, quando
corresponde a 	 ensaios independente de bernoulli com mesma
probabilidade � de sucesso.
Distribuição binomial
Variável aleatória Binomial
Notação: r	~	��	; ��
A função de probabilidade é representada por:
q r � � � 	� ���1 ! �����, 			� � 0,1,⋯ , 	.
Onde: 	� � 	!	 ! � ! �! sendo 	a! é fatorial a.
123
Distribuição binomial
Exemplo:
	! � 	 � 	 ! 1 � 	 ! 2 � ⋯� 3 � 2 � 1
�	 ! ��! � �	 ! �� � 	 ! � ! 1 � 	 ! � ! 2 � ⋯� 3 � 2 � 1
5! � 5 � 4 � 3 � 2 � 1 � 120
103 � 10!10 ! 3 ! 3! � 10 � 9 � 8 � ⋯� 3 � 2 � 1�7 � 6 �⋯� 3 � 2 � 1� � �3 � 2 � 1� � 120
0! �1
124
7/8/2021
63
Distribuição binomial
Variável aleatória Binomial
r	~	��	; ��
q r � � � 	� ���1 ! ����� , 				� � 0,1,⋯ , 	.
Resultados:
� Média: � � ~ r � 	 � �
� Variância: y� � ) * r � 	 � � � �1 ! ��
125
Distribuição binomial
Exemplo:
Vamos considerar uma prova de Estatística com 12 questões, cada
uma com 4 alternativas. Suponhamos que um aluno escolha as
respostas ao acas. Qual é a probabilidade de que o aluno acerte pelo
menos 6 questões.
Experimento de bernoulli: Selecionar uma questão e observar se:
r � �1,0, acertou a resposta “sucesso”.não acertou a resposta “fracasso”.
q r � 1 � 14 � 0,25
126
7/8/2021
64
Distribuição binomial
Exemplo:
Experimento binomial: Repetimos 12 vezes (número de questões da
prova) o ensaio de bernolli e observamos o número de questões
acertadas pelo aluno.
Y	~	��	 � 12; � � 0,25�
Definamos a variável aleatória Y como o número de questões que o
aluno acertará. Então,
q � � � � 12� 0,25��1 ! 0,25�����, 			� � 0,1,⋯ , 12.
Pergunta:q � t 6 � q r � 6 � q r � 7 �⋯� q r � 12 �?
127
Distribuição binomial
Exemplo:
q � � 6 � 126 0,25��1 ! 0,25������ 0,0401.q � � 7 � 127 0,25��1 ! 0,25������ 0,0115.q � � 8 � 128 0,25��1 ! 0,25������ 0,0024.q � � 9 � 129 0,25��1 ! 0,25������ 0,0004.q � � 10 � 1210 0,25���1 ! 0,25������� 0,0000.q � � 11 � 0,0000.q � � 12 � 0,0000.
q � t 6 � 0,0401 � 0,0115 � 0,0024 � 0,0004 � 0.0544
Então:
Muito cálculo?
128
7/8/2021
65
Distribuição binomial
Tabela da distribuição binomial
129
Distribuição binomial
Exemplo:
q r � 2 � 0,1406
Suponhamos uma variável aleatória X	~	��	 � 3; � � 0,25�
Utilizando a tabela da 
distribuição binomial.
130
7/8/2021
66
Distribuição binomial
Voltando ao exemplo:
q � t 6 � 0,0401 � 0,0115 � 0,0024 � 0,0004�0,0000 � 0,0000 � 0,0000 � 0.0544
131
Distribuição binomial
Exemplo:
A probabilidade de um funcionário das metalúrgicas Bigorna Ltda. Ser
promovido a gerente com menos de 5 anos de trabalho na empresa é
igual a 5%. Cálcule a probabilidade de, em grupo de 6 funcionários novos:
a) nenhum ser promovido a gerente
b) pelo menos um ser promovido
c) todos serem promovidos
X	~	��	 � 6; � � 5% � 0,05�
Definamos a variável aleatória X como o número de funcionários
promovidos. Então,
132
7/8/2021
67
Distribuição binomial
Exemplo: X	~	��	 � 6; � � 0,05�
q r � � � 6� �0,05���1 ! 0,05����, 			� � 0,1,2,3,4,5,6.
133
Distribuição binomial
Exemplo:
a) nenhum ser promovido a gerente
q r � 0 � 0,7351
b) pelo menos um ser promovido
q r t 1 � q r � 1 �⋯� q�r � 6� �0,2648
c) todos serem promovidos
q r � 6 � 0,000
134
7/8/2021
68
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
135
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35– Estatística Aplicada
136
7/8/2021
69
Modelos probabilísticos contínuos
137
Modelo normal
138
7/8/2021
70
Observamos a altura, em cm., de 1000 pessoas adultas selecionadas,
aleatóriamente, de uma certa comunidade em Salvador.
Modelo normal
Exemplo
O histograma mostra que a
distribuição das alturas é simétrica
em torno de 170 cm.
139
Muitos fenomenos aleatórios comportam-se de forma simétrica:
Modelo normal
Exemplo: De um certo grupo de indivíduos observa-se:
� o peso
� A pressão sanguínea 
� A idade 
� Etc… 
Podemos selecionar uma pessoa ao acaso, da população, e observar seu
peso, ou sua idade, ou sua pressão sanguínea; caracterizando uma
variável aleatória contínua, X.
Qual é a distribuição de probabilidade de X?
140
7/8/2021
71
Uma variável aleatória X tem distribuição normal com parametro � e y�
se sua função de densidade de probabilidade é
Distribuição normal
: � � 1y 2�' 7�
������� � 																								! ∞ � � � ∞
Notação: r	~	8��; y��
Resultados:
� Média: � � ~ r
� Variância: y� � ) * r
141
Distribuição normal
Propriedades: r	~	8��; y��
� ~ r � �, ) * r � y� e �q r � σ
� :��� → 0 quando � → �∞
� � � � ponto de máximo 
� � � y são pontos de inflexão de : � .
142
7/8/2021
72
Distribuição normal
Exemplo
Consideremos o evento: a pessoa selecionada aleatóriamente ter 180
cm ou menos, r R 180.
Como encontrar a probabilidade do evento?
q�r R 180�
143
Distribuição normal
Exemplo
Consideremos o evento: a pessoa selecionada aleatóriamente ter entre
160 cm e 180 cm.,160 � r R 180.
Como encontrar a probabilidade do evento?
q�160 R r R 180�
144
7/8/2021
73
Distribuição normal
Exemplo
Consideremos o evento: a pessoa selecionada aleatóriamente ter 180
cm. ou mais, 	r t 180.
Como encontrar a probabilidade do evento?
q�r t 180�
145
Distribuição normal padrão
¤ � r ! �y ~8�0,1�
~ ¤ � 0
) * ¤ � 1
146
7/8/2021
74
Distribuição normal padrão
Seja Z uma variável aleatória normal padrão, ¤~8�0,1�. Então,
q � r � � � q ! �y � r ! �y � � ! �y
¤
q � r � � � q ! �y � ¤ � � ! �y
Assim,
Dada uma variável aleatória ¤~8 0,1 , podemos obter a variável
aleatória X através da transformação inversa
r � � � y¤
¥� ¥�
147
Distribuição normal
Exemplo
Consideremos X uma variável aleatoria com distribuição normal com
média 170 e desvio padrão 15. isto é,
A probabilidade q r t 180 pode ser encontrada atraves:
r	~	8�� � 170;y� � 15��
q r t 180 � q r ! 17015 t 180 ! 17015 � q�¤ t 0,67�
¤
148
7/8/2021
75
Distribuição normal
Exemplo
q r t 180 � q ¤ ! 17015 t 180 ! 17015 � q�¤ t 0,67�
q r t 180 e q�¤ t 0,67�
Como encontrar essa 
probabilidade?
149
Tabela da distribuição normal
q r t 180 � q ¤ t 0,67 � 0,5 ! 0,2486 � 0.2514
150
7/8/2021
76
As vendas diárias de uma lanchonete seguem uma distribuição
aproximadamente normal, com média R$400,00 e desvio padrão
R$100,00. Cálcule a probabilidadede que em um determinado dia a
lanchonete fature.
Distribuição normal
Exemplo
� Entre R$450,00 e R$650,00.
� Mais de R$500,00
� Menos que R$300,00
Seja X: vendas diarias da lanchonete
r	~	8�� � 400;y� � 100��
151
Distribuição normal
Exemplo
� Entre R$450,00 e R$650,00.
q 450 R r R 650 � q 450 ! 400100 R r ! 400100 R 650 ! 400100� q�0,50 R ¤ R 2,50�� q 0 R ¤ R 2,50 ! q 0 R ¤ R 0,5� 0,4946 ! 0,1915 � 0,3031
152
7/8/2021
77
Distribuição normal
Exemplo
q r g 500 � q r ! 400100 g 500 ! 400100� q ¤ g 1,0 � 0,5 ! q�0 � ¤ � 1,0�
� Mais de R$500,00
� 0,5 ! 0,3413 �	0,1587
153
Distribuição normal
Exemplo
q r � 300 � q r ! 400100 � 300 ! 400100� q ¤ � !1,0 � q ¤ g 1,0 � 0,5 ! q�0 � ¤ � 1,0�� 0,5 ! 0,3413 �	0,1587
� Menos que R$300,00
154
7/8/2021
78
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
155
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
156
7/8/2021
79
Técnicas de amostragem
157
� População: conjunto da totalidade dos elementos (valores, pessoas,
medidas) a serem estudados. Congrega todas as observações que
sejam relevantes para o estudo de uma ou mais características dos
indivíduos (animados ou inanimados)
� Amostra: um subconjunto de elementos extraídos de uma população
� Censo: é uma coleção de dados relativos a todos os elementos de uma
população
� Parâmetro: qualquer medida estatística (e.g. média, mediana, moda,
desvio padrão, variância, etc.) calculada com os dados da população
� Estatística: medida estatística calculada com as informações obtidas
a partir da amostra.
Introdução
Conceitos
158
7/8/2021
80
Introdução
Etapas de uma análise estatística
Reis et al. (2003)
159
� Métodos de Amostragem não Aleatória: Métodos ad-hoc de carácter
pragmático ou intuitivo; possibilitam um estudo mais rápido e com
menores custos; a inclusão de um elemento da população na amostra
é determinada por um critério subjectivo.
� Métodos de Amostragem Aleatória: todos os elementos da
população poderem ser selecionados de acordo com uma
probabilidade pré-definida.
Técnicas de amostragem
160
7/8/2021
81
� Amostra intencional: os elementos da população são selecionados
intencionalmente pelo investigador, porque este considera que esses
elementos possuem características típicas ou representativas da
população. Ex.: escolha de localidades “representativas” em tempo de
eleições presidenciais
� Amostra por conveniência: Os elementos são escolhidos por
conveniência ou por facilidade. Um exemplo deste tipo de
amostragem é o caso em que os espectadores de um determinado
programa são convidados a responder a um questionário ou a votar
em um concorrente preferido. As amostras obtidas desta forma não
são representativas da população e, em geral, são enviesadas
Técnicas de amostragem
Métodos de Amostragem não Aleatória
161
� Amostra “snowball”: amostra intencional em que o pesquisador
escolhe um grupo inicial de indivíduos e pede-lhes o nome de outros
indivíduos pertencentes na mesma população. Ex.: fazer um
questionário no facebook, aos amigos e amigos de amigos
� Amostra por quotas: As amostras são obtidas dividindo a população
por categorias ou estratos e selecionando um certo número (quota) de
elementos de cada categoria de modo não aleatório.
� Ex. Ao selecionar uma amostra de 20 pessoas de uma população
com 60% mulheres e 40% homens, devem ser escolhidos 12
mulheres e 8 homens
� Se durante a amostragem tivessem surgido 15 mulheres, 3 não
seriam consideradas porque a quota era de 12
Técnicas de amostragem
Métodos de Amostragem não Aleatória
H H M H … M H M H H M
1º 2º 1ª 3º … 10ª 8º 11ª X X 12ª
162
7/8/2021
82
� Amostragem Aleatória Simples (com ou sem reposição): cada
elemento da população tem igual probabilidade de pertencer à
amostra
� Exemplo: obter uma amostra, de 10%, representativa para a pesquisa
da estatura de 90 alunos de uma escola.
� 1º passo - Numerar os alunos de 1 a 90.
� 2º passo - Escrever os números dos alunos, de 1 a 90, em
pedaços iguais de papel, colocar uma urna e, após mistura,
retirar, um a um, os nove números que formarão a amostra. A
seleção também pode ser realizada com a ajuda de um
computador.
� Resultado obtido (exemplo) = {aluno 20, aluno 27,
aluno 15, aluno 56, aluno 81, aluno 12, aluno 66,
aluno54, aluno 72}
Técnicas de amostragem
Métodos de Amostragem Aleatória – Amostragem Aleatória Simples
163
� Amostragem sistemática: selecionar os sujeitos a incluir na amostra
utilizando um critério (um intervalo entre sujeitos selecionados)que é
aplicado de forma sistemática a uma lista com os nomes dos sujeitos
incluídos na população (por exemplo, uma lista telefónica, uma lista
com o nome dos alunos de um curso, etc.)
� Procedimento:
� 1º) Considere “N” o tamanho da população e “n” o tamanho da amostra.
Calcular o intervalo de amostragem, chamado “k”, através da fórmula “k =
N/n”, sendo “k” igual ao número inteiro menor mais próximo ;
Técnicas de amostragem
Métodos de Amostragem Aleatória – Amostragem Sistemática
� 2º) Sortear um número entre um e “k”, chamado “m”,
sendo 0 < m ≤ k. Esse número “m” será o primeiro
elemento da amostra. O segundo elemento da
amostra será “m+k”; o terceiro elemento será
“m+2k”; e assim sucessivamente, de forma
sistemática.
164
7/8/2021
83
� Exemplo: Considere uma população constituída pelas 12 primeiras letras do
alfabeto. Para obter uma amostra sistemática de 3 elementos/letras deve-se:
� Considerar N=12 (dimensão da população), n=3 (dimensão da amostra)
� Calcular k=N/n=12/3=4 (intervalo de amostragem
� Sortear por amostragem aleatória simples uma das 4 primeiras letras, por
exemplo m=2. Essa letra (a segunda) será o primeiro elemento da amostra
� Depois, a partir dessa letra, contar k=4 e retirar a letra correspondente, a
letra na posição m+k=2+4=6ª
� Repetir o procedimento e retirar mais uma letra na posição
m+2*k=2+2*4=10ª
� A amostra, neste exemplo, terá as letras 2ª, 6ª e 10º, ou seja {B, F, J}.
Técnicas de amostragem
Métodos de Amostragem Aleatória – Amostragem Sistemática
A B C D E F G H I J K L
165
� Amostragem Aleatória Estratificada: a população é dividida em
estratos e, em cada estrato é realizada uma amostragem aleatória
simples. Ex.: Intenção de voto antes das eleições.
Técnicas de amostragem
Métodos de Amostragem Aleatória – Amostragem Aleatória Estratificada
Sexo População 10% Amostra
Masc. 54 5.4 5
Fem. 36 3.6 4
Total 90 9.0 9
� Numerar os alunos de 01 a 90 (de 01 a 54 para os
meninos e de 55 a 90 para as meninas) e proceder
ao sorteio como na amostra aleatória simples.
� Exemplo: obter uma amostra, de 10%, representativa para a pesquisa
da estatura de 90 alunos de uma escola, supondo que 54 sejam
meninos e 36 sejam meninas. São, portanto, dois estratos (sexo
masculino e sexo feminino).
166
7/8/2021
84
� Amostragem Aleatória por Conglomerados: a população é dividida
em grupos exaustivos e mutuamente exclusivos; uma amostra
aleatória simples de grupos é realizada, e todos os elementos dos
grupos selecionados são considerados na amostra.
� Exemplo 1: escolher alguns municípios (grupos) e inquirir todos os
habitantes desse município para reduzir custos de deslocação de uma
amostragem aleatória simples
� Exemplo 2: uma amostra de estudantes pode ser selecionada por uma
amostra de escolas ou turmas
Técnicas de amostragem
Métodos de Amostragem Aleatória – Amostragem Aleatória por Conglomerados
167
� Amostras independentes
� Não existe nenhum tipo de relação ou fator unificador entre os
elementos das amostras, i.e. um determinado indivíduo não pode
pertencer a mais do que uma amostra;
� Exemplo: duas (ou mais) marcas comerciais; dois (ou mais)
tratamentos clínicos; etc.
� Amostras pareadas/emparelhadas
� Quando as amostras são constituídas usando os mesmos
sujeitos experimentais, e.g. quando uma variável é medida antes
e depois de um determinado tratamento aos mesmos sujeitos;
Técnicas de amostragem
Métodos de Amostragem Aleatória
� Exemplo: Medição da pressão arterial antes e
depois de fazer exercício; Fazer o mesmo
questionário aos mesmos indivíduos antes e
depois de uma campanha publicitária; etc.
168
7/8/2021
85
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
169
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
170
7/8/2021
86
Inferência Estatística
171
� Estatística descritiva: consiste em um conjunto de métodos que
ensinam a sumarizar uma quantidade de dados bastante numerosa
em um número pequeno de medidas, substitutas e representantes
daquela massa de dados
� Estatística indutiva (ou inferência estatística): consiste em inferir
(deduzir ou tirar conclusões a respeito das) propriedades de um
universo a partir de uma amostra. O processo de generalização, que é
característico do método indutivo, está associado a uma margem de
incerteza. A medida de incerteza é tratada mediante técnicas e
métodos que se fundamentam na Teoria das Probabilidades.
Introdução
Áreas da Estatística
172
7/8/2021
87
Introdução
Etapas de uma análise estatística
Reis et al. (2003)
Parâmetro População Amostra
Média � r¦
Variância y� §�
Desvio padrão y §
173
� Para amostras aleatórias simples (r�, r�, … , r�), retiradas de uma
população com média � e variância y�, a distribuição amostral da
média
r¦ � r� � r� �⋯� r�	 � ∑ r����� 		
aproxima-se de uma distribuição normal com média � e variância  �� ,
quando 	 tende ao infinito.
� Desta forma, ~ r¦ � � e ) * r¦ �  �� .
� Assim, se r~8 �, y� , então r¦~̈8��,  �� �, 	 g 1.
� Para padronizar a variável aleatória r¦, subtrai-se a
média e divide-se pelo desvio padrão: ¤ � ©¦��ª «'¬ ~8 0,1 .
Inferência Estatística
Teorema Central do Limite – Distribuição amostral da média
174
7/8/2021
88
� Uma variável aleatória r tem distribuição normal com média 100 e
desvio padrão 10. Se r¦ é a média de uma amostra de 16 elementos
dessa população, calcule q�90 � r¦ � 110�.
� Se r~8�100,100�, então r¦~8 �,  �� ~8 100, ����� ~8 100, 6.25
� Assim, q 90 � r¦ � 110 � q ����ª «'¬ � ¤ � �����ª «'¬ �
� q ������­® ­®®'¬ � ¤ � �������­® ­®®⁄ � q ����.� � ¤ � ���.� �
� q�!4 � ¤ � 4� e 1.0
Inferência Estatística
Distribuição amostral da média – Exemplo
175
� Consideremos que numa determinada população, a proporção de
elementos que possuem uma determinada característica é �.
� Sabemos então que a proporção de indivíduos que não possuem essa
característica é 1 ! �.
� Seja r a variável aleatória que conta o número de pessoas que
possuem a característica de interesse.
� Já vimos que essa variável aleatória tem uma distribuição Binomial,
com média ~ r � 	� e variância ) * r � 	��1 ! ��.
� Definindo como �̂ a proporção de indivíduos portadores da
característica na amostra, teremos que, para n suficientemente
grande (teorema central do limite), a distribuição amostral da
proporção �̂ será:
�̂~8 �, ��1 ! ��	
Inferência Estatística
Distribuição amostral da proporção
176
7/8/2021
89
� Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se
aleatoriamente 8 peças com reposição, e calcula-se a proporção �̂ de
peças defeituosas na amostra. Qual será a distribuição de �̂?
� Como vimos, �̂~8 �, ±���±�� , onde � � 20% � 0.20 e 	 � 8.
� Então, como ~ �̂ � � � 0.20 e ) * �̂ � ± ��±� � �.� ���.�� � 0.02,
� Podemos dizer que �̂~8 0.20, 0.02 .
Inferência Estatística
Distribuição amostral da proporção – Exemplo
177
Inferência Estatística
Estimação de parâmetros
pontual (estatísticas)
por intervalo (intervalos de confiança)
Estimação
População Amostra
Distribuição da População Distribuição Amostral
(valor fixo) (função da amostra)
EstatísticaParâmetros
Estimar
� Estatística: é a variável aleatória que estima (pontualmente) um parâmetro 
(populacional). Por vezes é chamada simplesmente de estimador
� Estimativa: é o valor do estimador obtido para uma amostra específica
178
7/8/2021
90
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
UniversidadeFederal da Bahia
Paulo Canas Rodrigues
179
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
180
7/8/2021
91
Intervalos de Confiança
181
� Até ao momento calculámos uma estimativa do parâmetro
desconhecido através de estimadores pontuais (as estatísticas), que
especificam um único valor para o estimador
� Por exemplo quando calculamos a média amostral �̅ da altura dos
alunos de uma universidade considerando uma amostra de alunos,
com o objetivo de estimar a média da altura da população � (todos os
alunos dessa universidade)
� Mas, este procedimento não nos permite julgar a possível magnitude
do erro que estamos cometendo ao usar essa amostra e não outra.
Pode assim, haver o interesse de se obter um indicador da precisão
dessa estimativa.
� Daí, surge a ideia de fazer a estimativa através de um
intervalo de confiança, obtido através da amostra
Intervalos de Confiança
Introdução
182
7/8/2021
92
� O objetivo é construir o intervalo de confiança de tal forma que
tenhamos uma probabilidade pequena de sortearmos amostras com
erros não desejáveis
� Ou seja, admitindo uma probabilidade de 10%, teremos 10% de
amostras que gerarão estimativas cujo erro amostral superará o valor
máximo admitido
� Existirão, portanto, 90% de amostras cujas estimativas serão
consideradas “boas”, isto é, cujos intervalos de confianças gerados a
partir dessas amostras contenham o verdadeiro parâmetro
populacional
� Chama-se a esta probabilidade de nível de confiança,
denotada de (1 ! ²)
Intervalos de Confiança
Introdução
183
� Usualmente considera-se um nível de confiança (1 ! ²) � 100% de
90%, 95% ou 99%, por exemplo
� Considerando como interesse a estimação da média da população �
através de um intervalo de confiança, ³#	e ³§ os limites inferior e
superior do intervalo de confiança, podemos dizer que
� P LI � � � LS � 1 ! α
� Ou seja, existe uma confiança de 1 ! α � 100% que a verdadeira
média da população �	está entre ³#	e ³§
� E o intervalo }³#; ³§� é o intervalo aleatório com 1 ! α � 100% de
confiança para a média populacional �.
Intervalos de Confiança
Introdução
184
7/8/2021
93
Intervalos de Confiança para a média ¶
185
Passo 1: Variável aleatória de interesse
� Pela distribuição amostral da média, se r~8 �, y� , entãor¦~̈8��,  �� �
� Padronizando a variável aleatória r¦ temos ¤ � ©¦��ª «'¬ ~8 0,1
� Esta é a variável aleatória que vamos usar para construir o intervalo
de confiança
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
186
7/8/2021
94
Passo 2: Quantis
� Como a variável aleatória ¤~8 0,1 , vamos considerar o intervalo de
valores de ¤, simétrico em torno da média, tal que a probabilidade de¤ assumir um valor nesse intervalo seja de (1 ! ² ), o nível de
confiança, isto é q !¥� � ¤ � ¥� � 1 ! ²
� A visualização no gráfico da distribuição de ¤~8 0,1 é a seguinte
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
-∞ +∞0
(0,1)N
z0-z0
2
α
2
α
1 α−
187
Passo 3: Intervalo de confiança aleatório
� Sabemos que q !¥� � ¤ � ¥� � 1 ! ² , e que ¤ � ©¦��ª «'¬ ~8 0,1 .
Então:
� q !¥� � ¤ � ¥� � 1 ! ²
� �q !¥� � ©¦��ª «'¬ � ¥� � 1 ! ²
� �q !¥�  �' � r¦ ! � � ¥�  �' � 1 ! ²
� �q !r¦ ! ¥�  �' � !� � !r¦ � ¥�  �' � 1 ! ²
� �q r¦ ! ¥�  �' � � � r¦ � ¥�  �' � 1 ! ²
� Logo, #-��¹ � � r¦ ! ¥� �  �' ; 	r¦ � ¥� �  �'
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
Erro amostral
188
7/8/2021
95
Exemplo 1: Considere a variável aleatória r que representa a taxa de
colesterol no plasma sanguíneo humano. Vamos supor que essa variável
aleatória tem distribuição aproximadamente normal com média � e
desvio padrão y � 20	�º/100�� de plasma.
Com base em uma amostra de tamanho 	 � 25, obteve-se uma média
amostral �̅ � 198	�º/100��. Obtenha o intervalo de confiança para a
média populacional �, considerando um nível de confiança 1 ! ² � 95%.
� Passo 1: Como a variância populacional é conhecida, a variável
aleatória de interesse é
� ¤ � ©¦��ª «'¬ ~8 0,1
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
189
� Passo 2: Como ¤~8 0,1 , e 1 ! ² � 95%,
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
-∞ +∞0
(0,1)N
z0-z0
1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025
� Considerando a tabela da distribuição normal (ou um software
estatístico), podemos calcular ¥� � 1.96.
� Portanto, os valores da distribuição 8 0,1 entre
-1.96 e 1.96 correspondem a uma área de 0.95.
190
7/8/2021
96
Passo 3: Intervalo de confiança aleatório
� Neste caso (variância populacional y� conhecida, o intervalo de
confiança aleatório é #-��¹ � � r¦ ! ¥� �  �' ; 	r¦ � ¥� �  �'
Passo 4: Intervalo de confiança
� Substituindo os valores de �̅ � 198, y � 20, 	 � 25 e ¥� � 1.96,
obtemos:
� #-�.�� � � �̅ ! ¥� �  �' ; 	 �̅ � ¥� �  �'
� � 198 ! 1.96 � ����' ; 198 � 1.96 � ����'
� � 198 ! 7.84; 198 � 7.84
� � 190.16; 205.84
� Na prática, podemos que a verdadeira média populacional
Está neste intervalo com 95% de confiança.
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
Erro amostral
191
Exemplo 2: Não se conhece o consumo médio de combustível de
automóveis da marca T. Sabe-se, no entanto, que o desvio padrão do
consumo de combustível de automóveis dessa marca é 10 km/l.
Na análise de 100 automóveis da marca T, obteve-se consumo médio de
combustível de 8 km/l. Encontre um intervalo de confiança para o
consumo médio de combustível dessa marca de carro. Adote um
coeficiente de confiança igual a 95%.
� Passo 1: Como a variância populacional é conhecida, a variável
aleatória de interesse é
� ¤ � ©¦��ª «'¬ ~8 0,1
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
192
7/8/2021
97
� Passo 2: Como ¤~8 0,1 , e 1 ! ² � 95%,
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
-∞ +∞0
(0,1)N
z0-z0
1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025
� Considerando a tabela da distribuição normal (ou um software
estatístico), podemos calcular ¥� � 1.96.
� Portanto, os valores da distribuição 8 0,1 entre
-1.96 e 1.96 correspondem a uma área de 0.95.
193
Passo 3: Intervalo de confiança aleatório
� Neste caso (variância populacional y� conhecida, o intervalo de
confiança aleatório é #-��¹ � � r¦ ! ¥� �  �' ; 	r¦ � ¥� �  �'
Passo 4: Intervalo de confiança
� Substituindo os valores de �̅ � 8 , y � 10 , 	 � 100 e ¥� � 1.96,
obtemos:
� #-�.�� � � �̅ ! ¥� �  �' ; 	 �̅ � ¥� �  �'
� � 8 ! 1.96 � �����' ; 	8 � 1.96 � �����'
� � 8 ! 1.96; 	8 � 1.96
� � 6.04; 9.96
� Na prática, podemos que a verdadeira média populacional
Está neste intervalo com 95% de confiança.
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
Erro amostral
194
7/8/2021
98
Exemplo 3: Deseja-se estimar o tempo médio de estudo (em anos) da
população adulta de um município. Sabe-se que o tempo de estudo tem
distribuição normal com desvio padrão y � 2.5	 anos. Foram
entrevistados 	 � 25 indivíduos, obtendo-se para essa amostra, um
tempo médio de estudo igual a 10,5 anos. Obter um intervalo de 90% de
confiança para o tempo médio de estudo populacional.
� Passo 1: Como a variância populacional é conhecida, a variável
aleatória de interesse é
� ¤ �©¦��ª «'¬ ~8 0,1
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
195
� Passo 2: Como ¤~8 0,1 , e 1 ! ² � 90%,
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
-∞ +∞0
(0,1)N
z0-z0
1 ! ²� 0.90²2 � 0.102 � 0.05
²2 � 0.102 � 0.05
� Considerando a tabela da distribuição normal (ou um software
estatístico), podemos calcular ¥� � 1.65.
� Portanto, os valores da distribuição 8 0,1 entre
-1.65 e 1.65 correspondem a uma área de 0.90.
196
7/8/2021
99
Passo 3: Intervalo de confiança aleatório
� Neste caso (variância populacional y� conhecida, o intervalo de
confiança aleatório é #-��¹ � � r¦ ! ¥� �  �' ; 	r¦ � ¥� �  �'
Passo 4: Intervalo de confiança
� Substituindo os valores de �̅ � 10.5, y � 2.5, 	 � 25 e ¥� � 1.65,
obtemos:
� #-�.�� � � �̅ ! ¥� �  �' ; 	 �̅ � ¥� �  �'
� � 10.5 ! 1.65 � �.���' ; 10.5 � 1.65 � �.��.�'
� � 10.5 ! 0.825; 10.5 � 0.835
� � 9.675; 11.325
� Na prática, podemos que a verdadeira média populacional
Está neste intervalo com 95% de confiança.
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸conhecida)
Erro amostral
197
� A partir da relação ε � ¥� �  �' , o tamanho da amostra pode ser
calculado como
	 � ¥�ε � y�
� Para tal, é necessário conhecer o desvio padrão da população y, o erro
amostral pretendido ¼ e o nível de confiança 1 ! ² para poder calcular¥�.
Intervalos de Confiança para �
Dimensionamento da amostra
198
7/8/2021
100
Exemplo 1: A renda per-capita domiciliar numa certa região tem
distribuição normal com desvio padrão y � 250	 reais e média �
desconhecida. Se desejamos estimar a renda média � com erro ¼ � 50
reais e com uma confiança 1 ! ² � 95%, quantos domicílios devemos
consultar?
� Podemos calcular
� 	 � ½®¾ � y�
� � 	 � �.���� � 250�
� � 	 � 96.04
� Devem ser calculados 	 � 97 domicílios.
Intervalos de Confiança para �
Dimensionamento da amostra - Exemplo
199
� No caso de não conhecermos a variância populacional y�, precisamos
calcular a sua estimativa §� a partir da amostra, a variância amostral.
� Sabemos que §� � ����∑ �� ! �̅ ����� � ����∑ ��� ! 	�̅�����
� Também sabemos que se r~8 �, y� , então r¦~8��,  �� � e,
consequentemente, ¤ � ©¦��ª «'¬ ~8 0,1 .
� Mas, como neste caso não conhecemos a variância populacional y�, a
variável aleatória de interesse é
¤ � r¦ ! �§ 	'¬ ~6���
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
200
7/8/2021
101
Distribuição t de Student
� A distribuição 6 de Student tem apenas um parâmetro 	 que
representa o número de graus de liberdade
� O gráfico desta distribuição é simétrico em torno do zero, e similar à
curva da distribuição normal, mas um pouco mais “achatada”
� De forma análoga à distribuição normal, as probabilidades da
distribuição 6 de Student também podem ser calculadas através de
uma tabela ou de um software estatístico.
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
201
Distribuição t de Student
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
� Se Â~6�, q  g 2.306 � 0.025
� Se Â~6� e q  g 6� � 0.05, então 6� � 2.132 202
7/8/2021
102
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
Passo 3: Intervalo de confiança aleatório
� Sabemos que q !6� � ¤ � 6� � 1 ! ², e que  � ©¦��à «'¬ ~6���. Então:
� q !6� � Â � 6� � 1 ! ²
� �q !6� � ©¦��Ä «'¬ � 6� � 1 ! ²
� �q !6� Å�' � r¦ ! � � 6� Å�' � 1 ! ²
� �q !r¦ ! 6� Å�' � !� � !r¦ � 6� Å�' � 1 ! ²
� �q r¦ ! 6� Å�' � � � r¦ � 6� Å�' � 1 ! ²
� Logo, #-��¹ � � r¦ ! 6� � Å�' ; 	r¦ � 6� � Å�'
Erro amostral
203
Exemplo 1: Considere a variável aleatória r que representa a taxa de
colesterol no plasma sanguíneo humano. Suponhamos que, com base em
uma amostra aleatória simples de 	 � 25 indivíduos normais, um
pesquisador obteve uma média amostral �̅ � 198	�º/100�� de plasma
e um desvio padrão amostral % � 30	�º/100�� de plasma. Obtenha o
intervalo de confiança para a média populacional �, considerando um
nível de confiança 1 ! ² � 90%.
� Passo 1: Como a variância populacional é desconhecida e 	 � 30 , a
variável aleatória de interesse é
�  � ©¦��Ä «'¬ ~6���
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
204
7/8/2021
103
� Passo 2: Como Â~6��� e 1 ! ² � 90%,
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
� Considerando a tabela da distribuição 6 de Student (ou um software
estatístico) com 	 ! 1 � 25 ! 1 � 24, podemos calcular 6� � 1.711.
� Portanto, os valores da distribuição 6 entre
-1.711 e 1.711 correspondem a uma área de 0.90.
-∞ +∞0
t0-t0
1 ! ²� 0.95²2 � 0.102 � 0.05
²2 � 0.102 � 0.05
6���
205
Passo 3: Intervalo de confiança aleatório
� Neste caso (variância y� desconhecida e 	 � 30 , o intervalo de
confiança aleatório é #-��¹ � � r¦ ! 6� � Å�' ; 	r¦ � 6� � Å�'
Passo 4: Intervalo de confiança
� Substituindo os valores de �̅ � 198, y � 30, 	 � 25 e 6� � 1.711,
obtemos:
� #-�.�� � � �̅ ! 6� � Æ�' ; 	 �̅ � 6� � Æ�'
� � 198 ! 1.711 � p���' ; 198 � 1.711 � p���'
� � 198 ! 10.266; 198 � 10.266
� � 187.734; 208.266
� Na prática, podemos que a verdadeira média populacional
Está neste intervalo com 90% de confiança.
Intervalos de Confiança para �
Intervalos de confiança para � (variância populacional ·¸
desconhecida e ¿ � ÀÁ)
Erro amostral
206
7/8/2021
104
� Para �, variância conhecida:
� ¤ � ©¦��ª «'¬ ~8�0,1�;
� #-��¹ � � r¦ ! ¥Ç� �  �' ; 	r¦ � ¥Ç� �  �'
� Para �, variância desconhecida e 	 t 30: (pelo teorema central do limite)
� ¤ � ©¦��Ä «'¬ ~̈8�0,1�;
� #-��¹ � � r¦ ! ¥Ç� � Å�' ; 	r¦ � ¥Ç� � Å�'
� Para �, variância desconhecida e 	 � 30:
�  � ©¦��Ä «'¬ ~6���;
� #-��¹ � � r¦ ! 6Ç� � Å�' ; 	r¦ � 6Ç� � Å�'
Intervalos de Confiança
Intervalos de confiança para � – Resumo
207
Intervalos de Confiança para a 
diferença de médias ¶È ! ¶¸
208
7/8/2021
105
� Para �� ! ��, variância conhecida:
� ¤ � �©¦­�©¦�����­����ª­�«­	�	ª��«�'
~8�0,1�
� #-��¹ �� ! �� � �r¦�!r¦�� ! ¥Ç� �  ­��­ 	� 	 ����' ; 	�r¦�!r¦�� � ¥Ç� �  ­��­ 	� 	 ����'
� Para �� ! ��, variância desconhecida:
�  � �©¦­�©¦�����­����«­É­ Ä­�Ê	�«�É­�Ä��«­Ê«�É� �' ­«­	�	 ­«�'
~6�­�����
� #-��¹ �� ! �� � Ë�r¦�!r¦�� ! 6Ç� � �­�� Å­��	 ���� Å���­����� �' ��­ 	� 	 ���' ;
�r¦�!r¦�� � 6Ç� � �­�� Å­��	������Å���­����� �' ��­ 	�	 ���' Ì
Intervalos de Confiança para ¶È ! ¶¸
Intervalos de confiança para �È ! �¸ – Resumo
209
Intervalos de Confiança para a proporção Í
210
7/8/2021
106
� Já verificamos que �̂~8 �, ±���±��
� Padronizando a variável aleatória �̂ obtemos ¤ � ±Î�±Ï�­ÉÏ�«' ~8 0,1
� Esta é a variável aleatória que vamos usar para construir o intervalo
de confiança para a proporção populacional �.
Intervalos de Confiança para Í
Intervalos de confiança para Í
211
Passo 2: Quantis
� Como a variável aleatória ¤~8 0,1 , vamos considerar o intervalo de
valores de ¤, simétrico em torno da média, tal que a probabilidade de¤ assumir um valor nesse intervalo seja de (1 ! ² ), o nível de
confiança, isto é q !¥� � ¤ � ¥� � 1 ! ²
� A visualização no gráfico da distribuição de ¤~8 0,1 é a seguinte
Intervalos de Confiança para Í
Intervalos de confiança para Í
-∞ +∞0
(0,1)N
z0-z0
2
α
2
α
1 α−
212
7/8/2021
107
Passo 3: Intervalo de confiança aleatório
� Sabemos que q !¥� � ¤ � ¥� � 1 ! ², e que ¤ � ±Î�±Ï�­ÉÏ�«' ~8 0,1 .
Então:
� q !¥� � ¤ � ¥� � 1 ! ²
� �q !¥� � ±Î�±Ï�­ÉÏ�«' � ¥� � 1 ! ²
� �q !¥� ±���±��' � �̂ ! � � ¥� ±���±��' � 1 ! ²
� �q �̂ ! ¥� ±���±��' � � � �̂ � ¥� ±���±��' � 1 ! ²
� Logo, #-��¹ � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��'
Intervalos de Confiança para Í
Intervalos de confiança para Í
Erro amostral
213
Exemplo: Entre 500 pessoas inquiridas sobre as suas preferências
eleitorais, 260 mostraram-sefavoráveis ao candidato Y. Calcular um
intervalo de confiança, com um nível de confiança de 90%, para a
percentagem de eleitores favoráveis a Y.
� Passo 1: Como a estamos interessados em um intervalo de confiança
para a proporção populacional �, a variável aleatória de interesse é
� ¤ � ±Î�±Ï�­ÉÏ�«' ~8 0,1
Intervalos de Confiança para Í
Intervalos de confiança para Í
214
7/8/2021
108
� Passo 2: Como ¤~8 0,1 , e 1 ! ² � 90%,
Intervalos de Confiança para Í
Intervalos de confiança para Í
-∞ +∞0
(0,1)N
z0-z0
1 ! ²� 0.90²2 � 0.102 � 0.05
²2 � 0.102 � 0.05
� Considerando a tabela da distribuição normal (ou um software
estatístico), podemos calcular ¥� � 1.64.
� Portanto, os valores da distribuição 8 0,1 entre
-1.64 e 1.64 correspondem a uma área de 0.90.
215
Passo 3: Intervalo de confiança aleatório
� Neste caso, o intervalo de confiança aleatório é
#-��¹ � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��'
Passo 4: Intervalo de confiança
� Substituindo os valores de �̂ � ������ � 0.52, 	 � 500 e ¥� � 1.54,
obtemos:
� #-�.�� � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��'
� � 0.52 ! 1.54 � �.�� ���.�����' ; 0.52 � 1.54 � �.������.������'
� � 0.52 ! 0.034; 0.52 � 0.034
� � 0.486; 0.554
� Na prática, podemos que a verdadeira proporção populacional
está neste intervalo com 90% de confiança.
Intervalos de Confiança para Í
Intervalos de confiança para Í
Erro amostral
216
7/8/2021
109
� Para �:
� ¤ � ±Î�±Ï�­ÉÏ�«' ~8�0,1�;
� #-��¹ � � �̂ ! ¥Ç� � ±���±��' ; 	 �̂ � ¥Ç� � ±���±��'
� Para �� ! ��:
� ¤ � �±Î­�±Î����±­�±��±Î���±Î� ­«­	�	 ­«�' ~8�0,1�, 		�̂ �
�­±Î­	�	��±Î��­	�	�� ;
� #-��¹ �� ! �� � Ë��̂� ! �̂�� ! ¥Ç� � �̂�1 ! �̂� ��­ 	�	 ���' ;
��̂� ! �̂�� � ¥¹� � �̂�1 ! �̂� 1	� 	� 	 1	�' Ð
Intervalos de Confiança
Intervalos de confiança para Í e para ÍÈ ! ͸ – Resumo
217
Relação entre nível de confiança, amplitude do 
intervalo de confiança e dimensão da amostra
218
7/8/2021
110
� Diminuindo o nível de confiança de 99% a 95%, aumentamos o risco
de estar errados: de 1% de risco passamos a 5% de risco, ou seja
temos mais possibilidades (5/100 em vez de 1/100) de que o
intervalo de confiança não contenha a média populacional
� Ao aumentar o risco (diminuir o nível de confiança), o intervalo deve
ser mais preciso (menor amplitude)
� Aumentar a dimensão da amostra resulta em um intervalo de
confiança de menor amplitude
Intervalos de Confiança
Relações gerais
219
MATF35 – Estatística Aplicada
Especialização em Ciência de Dados e Big Data
Universidade Federal da Bahia
Paulo Canas Rodrigues
220
7/8/2021
111
� 1. Análise Descritiva
� 1.1. Medias de posição e dispersão
� 1.2. Representação gráfica
� 2. Probabilidade
� 2.1. Conceitos de probabilidade e propriedades
� 2.2. Variáveis aleatórias discretas e contínuas
� 2.3. Principais modelos probabilísticos
� 3. Inferência Estatística
� 3.1. Estimação pontual
� 3.2. Estimação intervalar
� 3.3. Teste de hipóteses
� 4. Noções de regressão linear
� 4.1. Regressão linear simples
� 4.2. Análise de variância
� 5. Testes de hipóteses não paramétricos
� 5.1. Teste qui-quadrado
� 5.2. Teste de Mann-Whitney
� 5.3. Teste de Kruskal Wallis
MATF35 – Estatística Aplicada
221
Teste de Hipóteses
222
7/8/2021
112
� A inferência estatística inclui duas grandes áreas de interesse:
� Estimação de parâmetros (pontual e intervalar)
� Teste de hipóteses
Teste de Hipóteses
Introdução
223
� Exemplo: Considere que estamos interessados em estudar a duração
de vida de uma população de componentes eletrônicas produzidas
segundo determinada tecnologia.
� Se pretendermos conhecer o tempo médio de duração de vida
destas componentes eletrônicas, uma possível solução consistia
em observar a duração de vida de 	 componentes escolhidas ao
acaso e calcular a media desses valores observados para estimar
o verdadeiro valor do tempo médio de duração de vida destas
componentes eletrônicas, ou obter um intervalo de confiança.
� Se pretendermos testar se o tempo médio de duração de vida
destas componentes eletrônicas ultrapassa um determinado
valor de referência, tal pode ser feito através
de testes de hipóteses, usando a amostra
de n componentes escolhidas ao acaso.
Teste de Hipóteses
Introdução
224
7/8/2021
113
� Definição: Um Teste de Hipóteses é um procedimento que conduz a
uma tomada de decisão, com base na informação fornecida pelos
dados de uma amostra, sobre a aceitação ou a não aceitação de
determinada hipótese estatística que se coloca sobre uma população.
� É uma afirmação sobre uma população, e não sobre amostra!
� Normalmente são formuladas duas hipóteses:
� H�: (hipótese nula) que é a hipótese que que tem a igualdade
� HÑ: (hipótese alternativa) que será aceita se não for possível
provar que H� é verdadeira
� Exemplo:
� H�: mulheres vivem o mesmo ou mais que homens
� HÑ: mulheres vivem menos que os homens
Teste de Hipóteses
Introdução
225
� As hipóteses podem ter várias formas:
Teste de Hipóteses
Introdução
Teste
1. Bilateral
2. Unilateral
H�: 	� � ��HÑ: � Ò ��
2.1. à esquerda
2.2. à direita
H�: 	� t ��HÑ: � � ��
H�: 	� R ��HÑ: � g ��
� Onde �� é o valor numérico específico que está sendo
considerado nas hipóteses nula e alternativa.
226
7/8/2021
114
� Ao nos decidirmos pela rejeição ou pela não rejeição de H0 podemos
cometer dois tipos de erros:
� Erro tipo I: rejeitar H0 quando H0 é verdadeira
� Erro tipo II: não rejeitar H0 quando H0 é falsa
Teste de Hipóteses
Tipos de erros de decisão
� A probabilidade de cometer o erro tipo I é denominada
“nível de significância” e é denotada por ²
� A probabilidade de cometer o erro tipo II é denotada
por Ó
Decisão H0 é verdadeira H0 é falsa
Não rejeitar H0 Decisão Correta Erro tipo II
Rejeitar H0 Erro tipo I Decisão Correta
227
� Regra de decisão ideal: conseguir que a probabilidade de cometermos
estes erros seja nula
� Problema: é impossível porque as probabilidades associadas a estes
erros têm um sentido oposto de crescimento. Isto é, quando diminui
uma das probabilidades de erro, aumenta a probabilidade do outro
erro!
� Objetivo: tentar manter o valor destas probabilidades num nível
aceitavelmente pequeno.
Teste de Hipóteses
Tipos de erros de decisão
� Procedimento: usualmente estabelece-se e fixa-se o
valor da probabilidade do erro de tipo I num valor
(pequeno) ² (0 � ² � 1) e então definir a regra de
decisão que minimize a probabilidade do erro de tipo II.
Usualmente ² � 0.05	�5%� ou ² � 0.01	�1%�.
228
7/8/2021
115
� Definição: A probabilidade de, sob a validade de H�, se observar um
resultado amostral pelo menos tão extremo como o que foi observado
é chamado de �-valor ou valor-�
� O �-valor pode ser interpretado como o menor nível para o qual o
valor observado da estatística de teste é significante
� Regra de decisão:
� Se �-valor	g 	², então não rejeitar H�
� Se �-valor� 	², então rejeitar H�
Teste de Hipóteses
p-valor
229
Teste de hipóteses para a média ¶
230
7/8/2021
116
Exemplo 1 (teste de hipótese bilateral): Uma amostra de 	 � 25 valores
foi selecionada ao acaso, chegando-se a uma média amostral �̅ � 11,3.
Poderia esta média amostral ter sido obtida de uma população com
média � � 10 e variância y� � 16? Considere um nível de significância de
5%.
� Passo 1: Hipóteses
� H�: 	� � 10 (hipótese nula)
� HÑ: 	� Ò 10 (hipótese alternativa) -> Teste bilateral
� Passo 2: Estatística de teste
� Como a variância populacional é conhecida, a estatística de teste
é ¤ � ©¦��ª «'¬ ~8 0,1
Teste de hipóteses para �
Teste de hipóteses para � (variância populacional ·¸ conhecida)
231
� Passo 3: Região crítica (ou região de rejeição, RR)
� Como ¤~8(0,1), e ²=5%,
Teste de hipóteses para �
Teste de hipóteses para � (variância populacional ·¸ conhecida)
-∞ +∞0
(0,1)N
z0-z0
1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025
aceitação
de H0
rejeição
de H0
rejeição
de H0
� ÔÔ �� !∞;!¥� ∪ ¥�; �∞}
� ÔÔ �� !∞;!1.96 ∪ 1.96;�∞}
� Considerando a
tabela da distribuição
normal (ou um
software estatístico),
podemos calcular¥� � 1.96.
232
7/8/2021
117

Outros materiais