Buscar

Estatistica II - TRABALHO

Prévia do material em texto

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS 
 
 
ADAPTAÇÃO DE ESTATISTICA II 
 
 
Orientador: Edson Gimenez 
Acadêmico: Gabrielle Cavalcante Palmeira - 17741432 
Curso Acadêmico: Administração 
 
 
 
Salto/2019 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
2 
 
Sumário 
1. Noções sobre Probabilidade .................................................................................................... 3 
1.1 Definições e Conceitos Fundamentais ........................................................................... 3 
1.1.1 Experimento aleatório e ponto amostral ....................................................................... 3 
1.1.2 Espaço amostral ............................................................................................................... 4 
1.2 Probabilidade de um evento ............................................................................................ 4 
1.3 Probabilidade Condicional ............................................................................................... 5 
2. Distribuição Binomial ................................................................................................................. 5 
2.1 Distribuição de Probabilidade .......................................................................................... 5 
2.1.1 Variáveis aleatórias .......................................................................................................... 6 
2.1.3 Variáveis aleatórias contínuas ....................................................................................... 7 
2.2 Distribuição Binomial ........................................................................................................ 7 
2.3 Curva Normal – Interpretação do Desvio ...................................................................... 8 
3. Distribuição Normal – Estimativas ......................................................................................... 10 
3.1 Distribuição Normal ............................................................................................................... 10 
3.2 Intervalos de Confiança ........................................................................................................ 11 
3.2.1 Qual a relevância de um Intervalo de Confiança ...................................................... 12 
3.2.2 Como interpretar um Intervalo de Confiança ............................................................. 12 
4. Testes Estatísticos ................................................................................................................... 14 
4.1 Distribuição T ......................................................................................................................... 14 
4.1.1 Contextualizando uma aplicação da ANOVA ............................................................ 15 
4.1.2 A Análise de Variância .................................................................................................. 16 
4.1.3 Quais são os resultados gerados pela análise de variância ................................... 18 
4.1.4 Como interpretar os resultados da ANOVA ............................................................... 19 
4.2 Teste Quiquadrado .................................................................................................................... 19 
4.2.1 Teste do Quiquadrado para uma amostra ................................................................. 19 
4.2.2 Condições para a execução do teste .......................................................................... 19 
4.2.3 Procedimento para a execução do teste .................................................................... 20 
Exemplo ..................................................................................................................................... 20 
Referências ....................................................................................................................................... 22 
 
 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
3 
 
1. Noções sobre Probabilidade 
1.1 Definições e Conceitos Fundamentais 
As definições básicas de probabilidade são: experimento aleatório, ponto 
amostral, espaço amostral, evento e o cálculo da probabilidade. 
Probabilidade é o estudo das chances de obtenção de cada resultado de 
um experimento aleatório. A essas chances são atribuídos os números reais do 
intervalo entre 0 e 1. Resultados mais próximos de 1 têm mais chances de 
ocorrer. Além disso, a probabilidade também pode ser apresentada na 
forma percentual. 
1.1.1 Experimento aleatório e ponto amostral 
Um experimento aleatório pode ser repetido inúmeras vezes e nas 
mesmas condições e, mesmo assim, apresenta resultados diferentes. Cada um 
desses resultados possíveis é chamado de ponto amostral. São exemplos de 
experimentos aleatórios: 
a. Cara ou coroa 
Lançar uma moeda e observar se a face voltada para cima é cara ou coroa 
é um exemplo de experimento aleatório. Se a moeda não for viciada e for 
lançada sempre nas mesmas condições, poderemos ter como resultado tanto 
cara quanto coroa. 
b. Lançamento de um dado 
Lançar um dado e observar qual é o número da face superior também é 
um experimento aleatório. Esse número pode ser 1, 2, 3, 4, 5 ou 6 e cada um 
desses resultados apresenta a mesma chance de ocorrer. Em cada lançamento, 
o resultado pode ser igual ao anterior ou diferente dele. 
Observe que, no lançamento da moeda, as chances de repetir o resultado 
anterior são muito maiores. 
c. Retirar uma carta aleatória de um baralho 
Cada carta tem a mesma chance de ocorrência cada vez que o 
experimento é realizado, por isso, esse é também um experimento aleatório. 
 
 
 
https://mundoeducacao.bol.uol.com.br/matematica/chances-um-evento-acontecer.htm
https://mundoeducacao.bol.uol.com.br/matematica/experimento-aleatorio-espaco-amostral.htm
https://mundoeducacao.bol.uol.com.br/matematica/conjunto-dos-numeros-reais.htm
https://mundoeducacao.bol.uol.com.br/matematica/porcentagem.htm
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
4 
 
1.1.2 Espaço amostral 
O espaço amostral (Ω) é o conjunto formado por todos os resultados 
possíveis de um experimento aleatório. Em outras palavras, é o conjunto 
formado por todos os pontos amostrais de um experimento. Veja exemplos: 
a. O espaço amostral do experimento “cara ou coroa” é o conjunto S = 
{Cara, Coroa}. Os pontos amostrais desse experimento são os mesmos 
elementos desse conjunto. 
b. O espaço amostral do experimento “lançamento de um dado” é o conjunto 
S = {1, 2, 3, 4, 5, 6}. Os pontos amostrais desse experimento são 1, 2, 3, 
4, 5 e 6. 
O espaço amostral também é chamado de Universo e pode ser representado 
pelas outras notações usadas nos conjuntos. Além disso, todas 
as operações entre conjuntos valem também para espaços amostrais. 
O número de elementos do espaço amostral, número de pontos amostrais 
do espaço amostral ou número de casos possíveis em um espaço amostral é 
representado da seguinte maneira: n(Ω). 
1.2 Probabilidade de um evento 
Um evento é qualquer subconjunto de um espaço amostral. Ele pode 
conter nenhum elemento (conjunto vazio) ou todos os elementos de 
um espaço amostral. O número de elementos do evento é representado da 
seguinte maneira: n(E), sendo E o evento em questão. 
São exemplos de eventos: 
a. Sair cara em um lançamento de uma moeda 
O evento é sair cara e possui um único elemento. A representação dos eventos 
também é feita com notações de conjuntos: 
E = {cara} 
O seu número de elementos é n(E) = 1. 
b. Sair um número par no lançamento de um dado. 
O evento é sair um número par: 
E = {2, 4, 6} 
 
https://mundoeducacao.bol.uol.com.br/matematica/operacoes-entre-conjuntos.htm
https://mundoeducacao.bol.uol.com.br/matematica/operacoes-entre-conjuntos.htm
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
5 
 
1.3 Probabilidade Condicional 
Probabilidadecondicional refere-se à probabilidade de um evento ocorrer 
com base em um evento anterior. Evidentemente, esses dois eventos precisam 
ser conjuntos não vazios pertencentes a um espaço amostral finito. 
Em um lançamento simultâneo de dois dados, por exemplo, obtêm-se 
números em suas faces superiores. Qual é a probabilidade de que a soma 
desses números seja 8, desde que ambos os resultados sejam ímpares? 
A probabilidade de a soma desses números ser 8 está condicionada a 
resultados ímpares nos dois dados. Logo, lançamentos que apresentam um ou 
dois números pares na face superior podem ser descartados e, por isso, há uma 
redução no espaço amostral. 
O novo espaço amostral é composto pelos pares: 
{1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5} 
Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de que 
se obtenha soma 8 no lançamento de dois dados, dado que os resultados obtidos 
são ambos ímpares, é de: 
2 
9 
Fórmula da probabilidade condicional 
Seja K um espaço amostral que contém os eventos A e B não vazios. 
A probabilidade de A acontecer, dado que B já aconteceu, é representada por 
P(A|B) e é calculada pela seguinte expressão: 
P(A|B) = P(A∩B) 
 P(B) 
Caso seja necessário calcular a probabilidade da intersecção entre dois 
eventos, pode-se utilizar a seguinte expressão: 
P(A∩B) = P(A|B) ·P(B) 
2. Distribuição Binomial 
2.1 Distribuição de Probabilidade 
A distribuição de frequência de uma amostra é uma estimativa da 
distribuição de probabilidade da população correspondente. Se o tamanho da 
https://mundoeducacao.bol.uol.com.br/matematica/uniao-dois-eventos.htm
https://mundoeducacao.bol.uol.com.br/matematica/experimento-aleatorio-espaco-amostral.htm
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
6 
 
amostra for grande, espera-se que a distribuição de frequências da amostra 
tenha uma boa aproximação da distribuição de probabilidade da população. 
No estudo de pesquisas empíricas e análises de situações reais, a 
Estatística Descritiva (tabelas de frequências, média, moda, mediana, desvio 
padrão, etc) são bastante úteis. Porém, no estudo de uma população, as 
distribuições de probabilidades, como veremos mais adiante, são preferidas, 
pois possibilitam a construção de modelos matemáticos que nos auxiliam na 
compreensão dos fenômenos do mundo real. 
2.1.1 Variáveis aleatórias 
O conjunto de todos os possíveis resultados de um experimento aleatório é 
chamado de espaço amostral. Os elementos desse conjunto podem ser 
numéricos ou não. Por exemplo, o número de filhos de um casal é um exemplo 
de conjunto numérico. Porém, o grau de escolaridade de um indivíduo é algo não 
numérico. Dessa forma, em muitas vezes, para podermos trabalhar 
probabilisticamente com uma variável não numérica, atribuímos valores para 
cada elemento do espaço amostral. 
O resultado de um experimento de probabilidade geralmente é uma 
contagem ou uma medida. Quando isso ocorre, o resultado é chamado de 
variável aleatória. 
Definição: uma variável aleatória X representa um valor numérico associado 
a cada resultado de um experimento de probabilidade. A palavra aleatória indica 
que os valores assumidos por X são obtidos ao acaso. 
Notação: geralmente, as variáveis aleatórias são representadas por letras 
maiúsculas (X), enquanto que os valores assumidos por essas variáveis 
aleatórias são representados por letras minúsculas (x). Dessa forma, se 
escrevermos X=x queremos dizer que a variável aleatória X assume um valor 
numérico igual a x. 
As variáveis aleatórias podem ser de dois tipos: discretas ou contínuas. 
 2.1.2 Variáveis aleatórias discretas 
Uma variável aleatória é discreta se ela assume um número finito de 
valores ou assume um número infinito de valores numeráveis (contáveis). 
Podemos dizer que uma variável é discreta quando seus valores puderem ser 
listados. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
7 
 
Por exemplo: o número de ligações recebidas por dia em um escritório 
pode ser um valor igual a 0, 1, 2, 3, 4, ... Assim, definimos a variável aleatória X: 
 X: número de ligações recebidas pelo escritório. 
Os valores que essa variável pode assumir são x=0, 1, 2, 3, ... Dessa 
forma, se escrevermos X=3 estamos dizendo que “o número de ligações 
recebidas pelo escritório (X) é igual a 3 ligações (x)”. 
2.1.3 Variáveis aleatórias contínuas 
Uma variável aleatória é contínua se ela possui um número incontável de 
possíveis resultados. Ou seja, uma variável é dita contínua quando os valores 
que ela pode assumir puderem ser representados como um intervalo na reta dos 
números reais. Neste caso, os valores assumidos por uma variável contínua, não 
podem ser listados, visto que são infinitos os possíveis valores dessa variável. 
Por exemplo: consideremos o tempo de duração de uma ligação recebida 
em minutos (incluindo frações de minutos). Neste caso, podemos definir uma 
variável aleatória Y da seguinte forma: 
Y: tempo de duração de uma ligação em minutos. 
Perceba que os valores de Y podem assumir qualquer valor em um intervalo 
real. Suponhamos, para facilitar, que o tempo máximo de uma ligação seja de 
120 minutos. Neste caso, os valores y pertencem ao intervalo [0, 120]. 
2.2 Distribuição Binomial 
Para construir o modelo binomial vamos introduzir uma sequência de ensaios 
de Bernoulli. Tal sequência é definida por meio das seguintes condições: 
Em cada ensaio considera-se somente a ocorrência ou não-ocorrência de um 
certo evento que será denominado sucesso (S) e cuja não-ocorrência será 
denominada falha (F). 
Os ensaios são independentes. 
A probabilidade de sucesso, que denotaremos por p é a mesma para cada 
ensaio. A probabilidade de falha será denotada por 1-p. 
Para um experimento que consiste na realização de ensaios 
independentes de Bernoulli, o espaço amostral pode ser considerado como o 
conjunto de n-uplas, em que cada posição há um sucesso (S) ou uma falha (F). 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
8 
 
A probabilidade de um ponto amostral com sucessos nos primeiros 
ensaios e falhas nos ensaios seguintes é 
Note que esta é a probabilidade de qualquer ponto com sucessos 
e falhas. O número de pontos do espaço amostral que satisfaz essa 
condição é igual ao número de maneiras com que podemos escolher ensaios 
para a ocorrência de sucesso dentre o total de ensaios, pois 
nos restantes deverão ocorrer falhas. Este número é igual ao número de 
combinações de elementos tomados a , ou seja, 
 
 Ou seja, para : 
 
2.3 Curva Normal – Interpretação do Desvio 
Uma distribuição estatística é uma função que define uma curva, e a área 
sob essa curva determina a probabilidade de ocorrer o evento por ela 
correlacionado. A distribuição normal é a mais importante dentre as distribuições 
estatísticas. Também conhecida como distribuição gaussiana, é uma curva 
simétrica em torno do seu ponto médio, apresentando assim seu famoso formato 
de sino. 
A curva de distribuição normal representa o comportamento de diversos 
processos nas empresas e muitos fenômenos comuns, como por exemplo, altura 
ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o 
tempo que um grupo de estudantes gasta para realizar uma prova. 
A distribuição normal pode ser usada para aproximar distribuições 
discretas de probabilidade, como por exemplo a distribuição binomial. Além 
disso, a distribuição normal serve também como base para a inferência 
estatística clássica. Nela, a média, mediana e moda dos dados possuem o 
mesmo valor. 
Conseguimos desenhar uma curva de distribuição normal tendo apenas 
dois parâmetros: média e desvio padrão. Considerando a probabilidade de 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
9 
 
ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer 
dizer que a probabilidade de uma observação assumir um valor entre dois pontos 
quaisqueré igual à área compreendida entre esses dois pontos. 
O ponto mais alto na curva, representa o valor com a maior moda do 
processo, ou seja, o valor que mais aparece na base de dados. Esse é 
representado na curva pelo corte central deste diagrama. Os outros cortes 
verticais, representam o desvio padrão em relação à média, ou seja, temos uma 
faixa de valores que significa a soma ou subtração de um desvio padrão em 
relação à média. 
Outro detalhe importante e conhecido da curva de distribuição normal é que 
cada faixa de valores representa uma certa probabilidade de ocorrência. 
Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio 
padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco 
mais e pegar a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de 
possibilidade de ocorrência. Por fim, se pegarmos a faixa mais ampla dessa 
distribuição, ou seja, mais ou menos 3 sigmas. Essa faixa já representa 99,74% 
dos dados. Essa região, chamamos de faixa natural de variação do processo. A 
estatística entende que um processo possui uma certa variabilidade, ou seja, 
trabalha dentro de uma faixa de valores, com determinada variação. Se esse 
processo, é um processo estável, significa que a variação desse processo vai 
acontecer dentro dessa faixa de valores. 
Se tiver algum problema ou perturbação maior no processo, pode ser que ele 
produza um resultado que não é o esperado, ou que não era provável, um 
resultado muito acima ou muito abaixo do normal. Esse resultado seria um ponto 
fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora 
da curva. Um ponto cuja a probabilidade é tão baixa de acontecer que o 
denominamos de outlier. 
Com esse conceito de distribuição normal contextualizado para uma empresa 
ou processo, é possível comparar e entender, que quando se tem uma base de 
dados representada pela curva de Gauss compreendida entre uma faixa de mais 
ou menos 3 sigmas, esse processo é considerado estável. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
10 
 
3. Distribuição Normal – Estimativas 
3.1 Distribuição Normal 
A distribuição normal é a mais importante distribuição estatística, 
considerando a questão prática e teórica. 
Este tipo de distribuição se apresenta em formato de sino, uni modal, 
simétrica em relação a sua média. 
Considerando a probabilidade de ocorrência, a área sob sua curva soma 
100%. Isso quer dizer que a probabilidade de uma observação assumir um valor 
entre dois pontos quaisquer é igual à área compreendida entre esses dois 
pontos. 
 
68,26% => 1 desvio 
95,44% => 2 desvios 
99,73% => 3 desvios 
Na figura acima, tem as barras na cor marrom representando os desvios 
padrões. Quanto mais afastado do centro da curva normal, mais área 
compreendida abaixo da curva haverá. A um desvio padrão, temos 68,26% das 
observações contidas. A dois desvios padrões, possuímos 95,44% dos dados 
compreendidos e finalmente a três desvios, temos 99,73%. Podemos concluir 
que quanto maior a variabilidade dos dados em relação à média, maior a 
probabilidade de encontrarmos o valor que buscamos embaixo da normal. 
 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
11 
 
Propriedade 1 
f(x) é simétrica em relação à origem, x = média = 0. 
Propriedade 2 
f(x) possui um máximo para z=0, e nesse caso sua ordenada vale 0,39. 
Propriedade3 
f(x) tende a zero quando x tende para + infinito ou - infinito. 
Propriedade 4 
f(x) tem dois pontos de inflexão cujas abscissas valem média + DP e média - DP, 
ou quando z tem dois pontos de inflexão cujas abscissas valem +1 e -1. 
Para se obter a probabilidade sob a curva normal, devemos utilizar a tabela 
de faixa central. 
3.2 Intervalos de Confiança 
É uma estimativa de um intervalo utilizado na estatística, que contém um 
parâmetro populacional. Esse parâmetro de população desconhecido é 
encontrado através de um modelo de amostra calculado a partir dos dados 
recolhidos. 
Exemplo: a média de uma amostra recolhida x̅ pode ou não coincidir com 
a verdadeira média populacional μ. Para isso, é possível considerar um intervalo 
de médias amostrais onde está média populacional possa estar contida. Quanto 
maior este intervalo, maior a probabilidade de isso ocorrer. 
O intervalo de confiança é expresso em porcentagem, denominadas por 
nível de confiança, sendo 90%, 95% e 99% as mais indicadas. Na imagem 
abaixo, por exemplo, temos um intervalo de confiança de 90% entre seus limites 
superior e inferior (a e -a). 
 
https://www.somatematica.com.br/estat/normal.php
https://www.somatematica.com.br/estat/normal.php
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
12 
 
 
Exemplo de Intervalo de Confiança de 90% entre seus limites superior (a) 
e inferior (-a). 
O Intervalo de Confiança é um dos conceitos mais importantes dentro dos 
testes de hipóteses na estatística, por ser utilizado como uma medida de 
incerteza. O termo foi introduzido pelo matemático e estatístico polonês Jerzy 
Neyman em 1937. 
3.2.1 Qual a relevância de um Intervalo de Confiança 
O intervalo de confiança é importante para indicar a margem de incerteza 
(ou imprecisão) frente a um cálculo efetuado. Esse cálculo usa a amostra do 
estudo para estimar o tamanho real do resultado na população de origem. 
O cálculo de um intervalo de confiança é uma estratégia que considera a 
amostragem de erro. A dimensão do resultado do seu estudo e seu intervalo de 
confiança caracterizam os valores presumíveis para a população original. 
Quanto mais estreito for o intervalo de confiança, maior é a probabilidade 
de a porcentagem da população de estudo representar o número real da 
população de origem dando maior certeza quanto ao resultado do objeto de 
estudo. 
3.2.2 Como interpretar um Intervalo de Confiança 
A interpretação correta do intervalo de confiança é provavelmente o 
aspecto mais desafiador desse conceito estatístico. Um exemplo da 
interpretação mais comum do conceito é a seguinte: 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
13 
 
Existe uma probabilidade de 95% de que, no futuro, o verdadeiro valor do 
parâmetro da população (por exemplo, média) caia no intervalo X (limite inferior) 
e Y (limite superior). 
Assim, interpreta-se o intervalo de confiança da seguinte maneira: é 95% 
confiante de que o intervalo entre X (limite inferior) e Y (limite superior) contém 
o verdadeiro valor do parâmetro populacional. 
Seria totalmente incorreto declarar que: há uma probabilidade de 95% de 
que o intervalo entre X (limite inferior) e Y (limite superior) contenha o valor real 
do parâmetro populacional. 
A afirmação acima é o equívoco mais comum sobre o intervalo de 
confiança. Depois que o intervalo estatístico é calculado, ele pode conter apenas 
o parâmetro da população ou não. 
No entanto, os intervalos podem variar entre as amostras, enquanto o 
parâmetro da população verdadeira é o mesmo, independentemente da amostra. 
Portanto, a declaração de probabilidade relativa ao intervalo de confiança 
pode ser feita somente no caso em que os intervalos de confiança são 
recalculados para o número de amostras. 
3.3 Estimativas de Proporções 
Proporção amostral de uma categoria (ou classe) é a frequência relativa com 
que essa categoria se observa na amostra. 
Proporção populacional de uma categoria é a frequência relativa com que 
essa categoria se observa na população. 
A proporção populacional e amostral representa-se, respetivamente, por p 
e pˆp^. Se representarmos por N e n, respetivamente a dimensão da 
população e a dimensão da amostra, e por x e x’, respetivamente, o número 
elementos da população ou da amostra que possuem a característica em estudo, 
então, 
p=xNepˆ=x′N.p=xNep^=x′N. 
Suponha que numa escola com 1154 alunos, 675 são do “sexo feminino”. 
Então a proporção populacional de alunos do “sexo feminino” é 675/1154≈0,58. 
https://wikiciencias.casadasciencias.org/wiki/index.php/Frequ%C3%AAncia_relativahttps://wikiciencias.casadasciencias.org/wiki/index.php/Amostra
https://wikiciencias.casadasciencias.org/wiki/index.php/Popula%C3%A7%C3%A3o_(Estat%C3%ADstica)
https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_popula%C3%A7%C3%A3o
https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_popula%C3%A7%C3%A3o
https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_amostra
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
14 
 
Também se pode dizer que, nesta escola, a probabilidade de selecionado um 
aluno ao acaso, ele ser do “sexo feminino”, é aproximadamente 0,58. Se 
selecionarmos, ao acaso, 100 alunos da escola e se se verificar que 61 são 
raparigas, então a proporção amostral com que se verifica a categoria “sexo 
feminino” é 0,61. Este valor é uma estimativa do parâmetro proporção 
populacional da categoria “sexo feminino”. Se se selecionar outra amostra de 
100 alunos, o número de raparigas nos alunos selecionados não é 
necessariamente 61, pelo que obteremos outra estimativa, não necessariamente 
igual à primeira. 
Costuma-se designar por um “sucesso” sempre que se observa a 
característica em estudo sobre um elemento selecionado para a amostra. No 
exemplo anterior, um sucesso é um aluno selecionado ser do “sexo feminino”. 
Se representarmos por X a variável aleatória que representa o número de 
sucessos numa amostra de dimensão n, então a proporção amostral 
pˆ=Xnp^=Xn 
É um estimador centrado e consistente (ver estatística) do parâmetro p. 
4. Testes Estatísticos 
4.1 Distribuição T 
A distribuição t de Student é uma distribuição de probabilidade 
estatística, publicada por um autor que se chamou de Student, pseudônimo 
de William Sealy Gosset, que não podia usar seu nome verdadeiro para publicar 
trabalhos enquanto trabalhasse para a cervejaria Guinness.[1][2] 
A distribuição t é uma distribuição de probabilidade teórica. É simétrica, 
campaniforme, e semelhante à curva normal padrão, porém com caudas mais 
largas, ou seja, uma simulação da t de Student pode gerar valores mais extremos 
que uma simulação da normal. O único parâmetro v que a define e caracteriza a 
sua forma é o número de graus de liberdade. Quanto maior for esse parâmetro, 
mais próxima da normal ela será. 
Suponha Z, uma variável aleatória de distribuição normal padrão com 
média 0 e variância 1, e V, uma variável aleatória com distribuição Chi-quadrado 
https://wikiciencias.casadasciencias.org/wiki/index.php/Par%C3%A2metro_(Estat%C3%ADstica)
https://wikiciencias.casadasciencias.org/wiki/index.php/Vari%C3%A1vel_aleat%C3%B3ria
https://wikiciencias.casadasciencias.org/wiki/index.php/Estat%C3%ADstica
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o
https://pt.wikipedia.org/wiki/William_Sealy_Gosset
https://pt.wikipedia.org/wiki/Guinness
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-1
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-2
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_normal
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_normal
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
15 
 
com ν graus de liberdade. Se Z e V são independentes, então a distribuição da 
variável aleatória t será[3]: 
Essa é a distribuição t de Student com ν graus de liberdade. 
A função densidade de probabilidade é: 
em que Γ é a função gama. Usando-se a função beta B, a função densidade de 
probabilidade pode ser escrita como: 
A distribuição t de Student aparece naturalmente no problema de se 
determinar a média de uma população (que segue a distribuição normal) a partir 
de uma amostra. Neste problema, não se sabe qual é a média ou o desvio padrão 
da população, mas ela deve ser normal. 
Supondo que o tamanho da amostra n seja muito menor que o tamanho 
da população, temos que a amostra é dada por n variáveis aleatórias normais 
independentes X1, ..., Xn, cuja média é o melhor estimador para a média da 
população. 
Considerando como a variância amostral, temos o seguinte resultado: 
A variável aleatória t dada por: 
ou : segue uma distribuição t de Student com graus de liberdade. 
4.1 Analise de Variação 
A ANOVA ou Análise de Variância é um procedimento usado para comparar 
a distribuição de três ou mais grupos em amostras independentes. 
A análise de variância é também uma forma de resumir um modelo de 
regressão linear através da decomposição da soma dos quadrados para cada 
fonte de variação no modelo e, utilizando o teste F, testar a hipótese de que 
qualquer fonte de variação no modelo é igual a zero. 
4.1.1 Contextualizando uma aplicação da ANOVA 
Suponha um curso preparatório para o ENEM que tenha em seu corpo docente 
três professores de matemática, que são responsáveis por diferentes turmas de 
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-3
https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_densidade_de_probabilidade
https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_gama
https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_beta
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
16 
 
alunos. A direção da escola suspeita que a variação do desempenho dos alunos 
nas provas de matemática do ENEM pode ser explicada pelo trabalho 
desenvolvido pelos seus professores. 
Sendo assim, a direção resolveu verificar as notas na prova de 
matemática dos alunos de cada professor e calculou a média das notas de cada 
turma. 
 
Mas será que essa informação é suficiente para afirmar que o 
desempenho dos alunos de cada professor é realmente diferente? E se um dos 
professores tiver em sua turma um aluno que não se preparou e errou quase 
todas as questões? Esse aluno não seria responsável por ter diminuído a média 
do grupo de alunos desse professor? 
Para verificar então se realmente o desempenho dos alunos variou de 
acordo com o professor, se faz necessário a utilização de teste estatístico, que 
além de considerar a média das notas, leva também em conta a variação das 
notas dentro de cada turma. 
4.1.2 A Análise de Variância 
Um dos objetivos da aplicação da ANOVA é o de realizar teste estatístico 
para verificar se há diferença entre distribuição de uma medida entre três ou mais 
grupos. Em nosso exemplo, podemos definir as hipóteses do teste como: 
• H0: Não existe diferença entre o desempenho das notas dos alunos de 
cada professor. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
17 
 
• H1: Há pelo menos um professor com alunos com desempenho diferente. 
Caso os três grupos de alunos apresentem mesma variabilidade e mesma 
média de desempenho, suas distribuições tendem a se sobrepor, confirmando a 
hipótese de que não existe diferença entre o desempenho das notas dos alunos 
de cada professor. Caso contrário, ou seja, quando os grupos apresentam 
mesma variabilidade interna e médias de desempenho diferentes, as 
distribuições de distanciam quanto mais as médias de desempenho se 
diferenciam. 
 
O modelo ANOVA e seus pressupostos 
Para aplicação da análise de variância, são necessárias algumas suposições, 
sendo elas: 
1. As observações são independentes, ou seja, cada elemento amostral 
(aluno) deve ser independente; 
2. Os grupos comparados apresentam a mesma variância; 
3. Os erros são independentes e provenientes de uma distribuição normal 
com média igual a zero e variância constante. 
Cabe ressaltar que os grupos de alunos de cada professor podem ser vistos 
como três níveis de um mesmo fator, sendo que o objetivo é saber se o fator 
professor exerce alguma influência na variação do desempenho das notas de 
matemática. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
18 
 
4.1.3 Quais são os resultados gerados pela análise de variância 
 As informações geradas na análise de variância estão resumidas na 
tabela abaixo. Nela são apresentados os graus de liberdade, a soma de 
quadrados, o quadrado médio, a estatística F e o valor-p. 
Análisede Variância das Notas dos Alunos por Turma 
Fonte de Variação 
Tratamentos Graus de 
Liberdade 
Soma de 
Quadrados 
Quadrado 
Médio 
Estatística 
F 
Valor 
P 
Resíduos 2 56.806 28.403 5,25 0,010 
Total 33 178.783 5.418 
 
 
Os graus de liberdade são calculados com base no número de 
professores (grupos) e no número total de alunos. 
A soma de quadrados mede a variação dos dados. A soma de quadrados 
total mede a variação total nos dados, a soma de quadrados dos tratamentos 
mede a variação entre os professores de cada turma e a soma dos quadrados 
dos resíduos mede a variação dentro de cada turma, ou seja, mede a variação 
dos alunos de cada professor. 
O quadrado médio é a razão entre a soma de quadrados e os graus de 
liberdade e a estatística F, pode ser encontrada na tabela de distribuição F de 
Fisher- Snedecor. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
19 
 
4.1.4 Como interpretar os resultados da ANOVA 
Tomando como base a tabela anterior, pode-se concluir que existe pelo 
menos dois professores com alunos com desempenho significativamente 
diferentes ao avaliar o valor-p = 0,010 (menor que o nível de significância 
estabelecido de 0,05). 
A conclusão da ANOVA pode ser feita também com base na Estatística F. A 
estatística F tem distribuição F de Fisher-Snedecor com k-1 e n-k graus de 
liberdade, onde k é o número de grupos (k = 3) e n é o número de observações 
(n = 36). Neste caso fictício, obteríamos F ≅ 3,32 e como a Estatística F (5,25) 
foi maior que o F tabelado (3,32), conclui-se que existe pelo menos dois 
professores com alunos com desempenho significativamente diferentes. 
4.2 Teste Quiquadrado 
Este teste objetiva verificar se a frequência absoluta observada de uma 
variável é significativamente diferente da distribuição de frequência 
absoluta esperada. 
4.2.1 Teste do Quiquadrado para uma amostra 
Aplica-se quando se quer estudar a dependência entre duas variáveis, 
através de uma tabela de dupla entrada ou também conhecida como tabela de 
contingência. 
4.2.2 Condições para a execução do teste 
Exclusivamente para variáveis nominais e ordinais; 
Observações independentes; 
Não se aplica se 20% das observações forem inferiores a 5Não pode 
haver frequências inferiores a 1; 
Nos dois últimos casos, se houver incidências desta ordem, aconselha-se 
agrupar os dados segundo um critério em específico. 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
20 
 
4.2.3 Procedimento para a execução do teste 
1. Determinar H0. Será a negativa da existência de diferenças entre a 
distribuição de frequência observada e a esperada; 
2. Estabelecer o nível de significância (µ ); 
3. Determinar a região de rejeição de H0. Determinar o valor dos graus de 
liberdade (φ), sendo K – 1 (K = número de categorias). Encontrar portanto, 
o valor do Qui-quadrado tabelado; 
4. Calcular o Qui Quadrado, através da fórmula: 
 
Sendo o Quiquadrado calculado, maior do que o tabelado, rejeita-se H0 em 
prol de H1. 
Exemplo 
Um vendedor trabalhou comercializando um produto em sete bairros 
residenciais de uma mesma cidade em um mesmo período do ano. 
Seu gerente decidiu verificar se o desempenho do vendedor oscilava em 
virtude do bairro trabalhado, ou seja, se as diferenças eram significativas nos 
bairros trabalhados. 
A partir deste estudo o gerente poderia então elaborar uma estratégia 
comercial para cada bairro ou manter uma para todos. 
Bairro 1 2 3 4 5 Total 
Valores 
Observados 
9 11 25 20 15 80 
Valores 
Esperados 
16 16 16 16 16 80 
H0: não há diferenças significativas entre os bairros 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
21 
 
H1: as diferenças observadas para os bairros 3 e 4 são significativamente 
diferentes para melhor em relação aos demais bairros. 
µ = 0,05 
g.l = 5 – 1 = 4, onde Qui quadrado tabelado é igual a 9,49. 
Χ2 = (9-16)2 + (11 – 16) 2 + (25-16) 2 + (20 – 16) 2 + (15 – 16) 2/16 
Χ2 = 72 + 52 +92 + 42 + 12= 172/16 = 10,75 
Conclui-se que o Qui quadrado calculado (10,75) é maior do que o 
tabelado (9,49), rejeita-se H0 em prol de H1. 
Portanto há diferença significativa, ao nível de 0,05, para os bairros 3 e 4. 
Face ao cálculo o gerente deve elaborar uma estratégia comercial para cada 
bairro. 
 
 
CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 
 
22 
 
Referências 
https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas-
probabilidade.htm 
https://mundoeducacao.bol.uol.com.br/matematica/probabilidade-
condicional.htm 
https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3%
A3o_de_probabilidades 
http://professorguru.com.br/estatistica/distribuicoes-de-
probabilidade/distribuicoes--probabilidades-esperanca-.html 
http://www.portalaction.com.br/probabilidades/51-distribuicao-binomial 
https://www.somatematica.com.br/estat/basica/normal.php 
https://www.voitto.com.br/blog/artigo/distribuicao-normal 
https://www.significados.com.br/intervalo-de-confianca/ 
https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3%
A3o_(Estat%C3%ADstica) 
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student 
http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de-
variancia-anova/ 
https://www.somatematica.com.br/estat/ap24.php 
https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas-probabilidade.htm
https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas-probabilidade.htm
https://mundoeducacao.bol.uol.com.br/matematica/probabilidade-condicional.htm
https://mundoeducacao.bol.uol.com.br/matematica/probabilidade-condicional.htm
https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3%A3o_de_probabilidades
https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3%A3o_de_probabilidades
http://professorguru.com.br/estatistica/distribuicoes-de-probabilidade/distribuicoes--probabilidades-esperanca-.html
http://professorguru.com.br/estatistica/distribuicoes-de-probabilidade/distribuicoes--probabilidades-esperanca-.html
http://www.portalaction.com.br/probabilidades/51-distribuicao-binomial
https://www.somatematica.com.br/estat/basica/normal.php
https://www.voitto.com.br/blog/artigo/distribuicao-normal
https://www.significados.com.br/intervalo-de-confianca/
https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3%A3o_(Estat%C3%ADstica)
https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3%A3o_(Estat%C3%ADstica)
https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student
http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de-variancia-anova/
http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de-variancia-anova/
https://www.somatematica.com.br/estat/ap24.php

Continue navegando