Buscar

Reforço de Noções de Estatística - Resumo teórico (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Reforço de Noções de Estatística 
Revisão P1 
Dados: {2, 4, 5, 6, 8, 9} 
Média – Soma de todos os valores da amostra, dividido pelo total de elementos. 
̅ݔ = ߤ = ݔଵ + ݔଶ + ݔଷ + ݔସ + ⋯ݔ௡
݊
 
Mediana – É o valor de variável que ocupa a posição central de um conjunto de n dados 
ordenados. A posição da mediana é dada por: 
௡ାଵ
ଶ
 
Quartis – O primeiro quartil é dado por: 0,25 * (n+1). O terceiro quartil é dado por: 0,75 * 
(n+1). Os dois quartis dão a posição. 
Variância 
ݏଶ = ߪଶ = (ݔଵ − ̅ݔ)ଶ + (ݔଶ − ̅ݔ)ଶ + (ݔଷ − ̅ݔ)ଶ + (ݔସ − ̅ݔ)ଶ + ⋯ (ݔ௡ − ̅ݔ)ଶ
݊ − 1 
Fórmula alternativa - 
ݏଶ = ߪଶ = ∑ ݔ௜ଶ௡௜ୀଵ − ݊ݔଶ(݊ − 1) 
Desvio Padrão 
ݏ = ߪ = √ܸܽݎ݅â݊ܿ݅ܽ 
Coeficiente de variação – Exprime a variabilidade dos valores em relação à média. 
ܥܸ = ݏ
ݔ
∗ 100% 
 
Com base nos dados acima, temos: 
 Média = (2 + 4 + 5 + 6 + 8 + 9) / 5 = 6,8 
 Mediana = (6 + 1) / 2 = 3,5  Logo, o valor é a média entre o 5 e o 6, então o valor da 
mediana é 5,5. 
 Quartis – Q1 = 0,25 * (6+1) = 1,75  Então o valor é a média entre o 2 e o 4, sendo 
igual a 3. Q3 = 0,75 * (6+1) = 5,25  Então o valor é a média entre o 8 e o 9, sendo 
igual a 8,5. 
 Variância - 
ݏଶ = (2 − 6,8)ଶ + (4 − 6,8)ଶ + (5 − 6,8)ଶ + (8 − 6,8)ଶ + (9 − 6,8)ଶ6 − 1 = 29,765 = 5,9 
 Desvio Padrão - 
ݏ = ߪ = ඥ5,9 ≅ 2,4 
 Coeficiente de variação - 
ܥܸ = 2,46,8 ∗ 100% ≅ 0,35 ∗ 100% = 35% 
 BOXPLOT – Gráfico que representa os dados através de um retângulo construído com os 
quartis e fornece várias informações, incluindo a existência de valores extremos. 
 
 Máximo – Maior valor dos dados abaixo do limite superior. 
 Mínimo – Menor valor dos dados acima do limite inferior. 
 
Probabilidade – ܲ(ܣ) = ௡º ௗ௘ ௘௟௘௠௘௡௧௢௦ ௗ௘ ஺
௡º ௧௢௧௔௟ ௗ௘ ௘௟௘௠௘௡௧௢௦ 
 Regra do E – Se quisermos saber a chance de acontecer o evento A e o evento B, então 
calculamos: ܲ(ܣ ∩ ܤ) = ܲ(ܣ) ∗ ܲ(ܤ) 
Os eventos A e B são mutuamente exclusivos ou disjuntos quando não tem elementos em 
comum, isto é, ܲ(ܣ ∩ ܤ) = ∅ 
 Regra do OU – Se quisermos saber a chance de acontecer o evento A ou o evento B, então 
calculamos: ܲ (ܣ ∪ ܤ) = ܲ(ܣ) + ܲ(ܤ) −ܲ(ܣ ∩ ܤ) 
 Probabilidade condicional – Saber a chance do evento A acontecer sabendo que o evento 
B aconteceu: 
ܲ(ܣ|ܤ) = ܲ(ܣ ∩ ܤ)
ܲ(ܤ) , ܲ(ܤ) > 0 
 Eventos independentes – Os eventos A e B são independentes se a informação de 
ocorrência de B (ou não ocorrência) não altera a probabilidade de ocorrência A. 
ܲ(ܣ|ܤ) = ܲ(ܣ), ܲ(ܤ) > 0 
 
 
Distribuição Binomial 
 n = total de tentativas 
 p = probabilidade de sucesso 
 Notação – ܺ~ܾ(݊; ݌) 
 Fórmula para cálculo da probabilidade – ܲ(ܺ = ݇) = ൫௡௞൯݌௞(1 − ݌)௡ି௞ , ݇ = 0,1,2, … ,݊ 
 Valor Esperado (Média) – ߤ = ܧ(ܺ) = ݊ ∗ ݌ 
 Variância – ߪଶ = ܸܽݎ(ܺ) = ݊ ∗ ݌ ∗ (1 − ݌) 
 
Distribuição Normal Padrão 
 Notação – ܼ~ܰ(0; 1) 
 Cálculo da probabilidade – ܲ(ܽ < ܺ < ܾ) = ܲ ቀ௔ିఓ
ఙ
< ௑ିఓ
ఙ
< ௕ିఓ
ఙ
ቁ = ܲ ቀ௔ିఓ
ఙ
< ܼ < ௕ିఓ
ఙ
ቁ 
 Uso dos valores na tabela da normal – Assim que achar um valor de Z através da fórmula 
௑ିఓ
ఙ
, podemos utilizar a tabela da normal e localizar o valor referente à área do gráfico 
para aquele z. 
 
 
Estimação 
Nessa parte, procuramos estimar uma proporção p de elementos em uma população, 
apresentando uma característica de interesse, a partir da informação fornecida por uma 
amostra. 
 Estimador pontual para p (ou proporção amostral) – é definido como ݌̂ = ௑
௡
= ௞
௡
, sendo: 
o X : número de elementos na amostra que apresentam a característica. 
o n : tamanho da amostra coletada. 
o k : valor observado da v.a. X. 
 Estimativa intervalar ou intervalo de confiança – Na forma [݌̂ − ߝ; ݌̂ + ߝ] 
o ε : erro amostral ou margem de erro e é calculado por: ߝ = ݖට௣ො(ଵି௣ො)
௡
 
o Coeficiente de confiança do intervalo (P(ε) ou γ) : ܲ(ߝ) = ߛ = ܲ(−ݖ ≤ ܼ ≤ ݖ), 
sendo que y = A(z), então tendo y podemos localizar na tabela da normal o valor 
de z que corresponde àquele y. 
o Dimensionamento da amostra n : ݊ = ቀ௭
ఌ
ቁ
ଶ
݌(1 − ݌), nesta expressão o n 
depende de p(1-p) que é desconhecido, para esses casos utilizamos o p(1-p) = 
0,25, então o cálculo fica assim ݊ = ቀ௭
ఌ
ቁ
ଶ
∗ 0,25. 
 
Teste de Hipóteses I 
O que é uma hipótese? 
É uma conjectura sobre um parâmetro populacional. Por exemplo, a proporção p é um 
parâmetro populacional. 
Em estimação, o objetivo é “estimar” o valor desconhecido de um parâmetro, por exemplo, a 
proporção p de “indivíduos” em uma população com determinada característica. A estimativa 
é baseada no número x de “indivíduos” com a característica numa amostra aleatória de 
tamanho n. Entretanto, se o objetivo for saber se o valor observado x nessa amostra dá ou não 
suporte a uma conjectura sobre o valor de p, trata-se de um teste de hipóteses. 
 No caso especial de teste de hipóteses sobre a proporção populacional p, temos: 
o Hipótese nula: afirmação sobre p geralmente relacionada a um valor de referência, ou 
a uma especificação padrão ou histórica. 
o Hipótese alternativa: afirmação sobre p que suspeitamos ser verdadeira. 
 Hipótese Alternativa Bilateral: Quando queremos detectar desvios em torno 
de p em qualquer direção. 
 Hipótese Alternativa Unilateral: Quando queremos detectar desvios em torno 
de p em apenas uma direção. 
o Região Crítica (RC) ou Região de rejeição de H: Conjunto de valores nos quais 
rejeitamos H. 
o Erro Tipo I: Rejeitar H, quando H é verdadeira. 
o Erro Tipo II: Não rejeitar H, quando H é falsa. 
 
 Probabilidade de erros: 
 P(erro I) = P(Rejeitar H | H é verdadeira) = α, sendo α o nível de significância do 
teste. 
 P(erro II) = P(Não Rejeitar H | H é falsa) = β, sendo 1-β o poder do teste. 
 
 
Resumo para se testar uma hipótese 
 
 ࢄ~࢈࢏࢔࢕࢓࢏ࢇ࢒(࢔;࢖) 
 
1) Estabelecer as hipóteses: 
 H: p = p₀ contra uma das alternativas 
 A: p ≠ p₀, A: p > p₀ ou A: p < p₀. 
 
2) Escolher um nível de significância α. 
 
3) Determinar a região crítica RC da forma 
 {X ≤ k1} U {X ≥ k2}, {X ≥ k} ou {X ≤ k}, respectivamente às hipóteses alternativas. 
 
4) Selecionar uma amostra aleatória e determinar o número x de elementos na amostra 
com o atributo desejado. 
 
5) Decidir, usando a evidência x, ao nível de significância α, e concluir. 
 ݔ ∈ ܴܥ  Rejeitamos H. 
 ݔ ∉ ܴܥ  Não rejeitamos H. 
 
 
Nível Descritivo (Valor P) é o menor nível de significância para o qual o resultado observado é 
significante, ou seja, conduz à rejeição da hipótese nula H. 
 
 ࡼ(ࢄ ≤ ࢞࢕࢈࢙|࢖) 
 P ≤ α  Rejeitamos H. 
 P > α  Não rejeitamos H. 
 
Testes Qui-quadrado 
1. Testes de Aderência 
 
Objetivo: Testar a adequabilidade de um modelo probabilístico a um conjunto de 
dados observados. 
 Em um teste de aderência testaremos as seguintes hipóteses: 
 ࡴ: ࢖૚ = ࢖࢕૚, … ,࢖࢑ = ࢖࢕࢑ 
࡭:۳ܠܑܛܜ܍ ܘ܍ܔܗ ܕ܍ܖܗܛ ܝܕ܉ ܌ܑ܎܍ܚ܍ܖç܉ 
E na maioria das vezes a hipótese está no próprio enunciado da questão. 
 
Ex: Você diria, através de um teste de hipótese estatístico adequado, a um nível de 
significância de 5%, que os resultados deste experimento indicam que, após a 
campanha, houve mudanças na participação de cada versão nas vendas deste 
modelo? 
Então: 
H: após a campanha, houve mudanças na participação de cada versão nas vendas 
deste modelo; 
A: após a campanha, não houve mudanças na participação de cada versão nas vendas 
deste modelo. 
O resultado só é válido para n grande e para ࡱ࢏ ≥ ૞, ࢏ = ૚, … ,࢑. 
Sendo que ݍ = ݇ − 1representa o número de graus de liberdade. 
ܺ௢௕௦
ଶ = ෍ ( ௜ܱ −ܧ௜)ଶ
ܧ௜
௞
௜ୀଵ
~ܺ௤ଶ ݁ ܲ = ܲ൫ܺ௤ଶ ≥ ܺ௢௕௦ଶ ൯ 
Categorias 
Frequência 
Observada 
Frequência 
Esperada sob H 
1 ଵܱ ܧଵ = ݊ ∗ ݌ଵ 
2 ܱଶ ܧଶ 
3 ܱଷ ܧଷ 
. . . 
k ܱ௞ ܧ௞ 
Total n n 
 
Se para α fixado, obtemos ܲ ≤ ߙ, rejeitamos a hipótese H. 
 
2. Testes de Independência 
 
Objetivo: Verificarse existe independência entre duas variáveis medidas nas mesmas 
unidades experimentais. 
 
Em geral, os dados referem-se a mensurações de duas características (A e B) feitas em 
n unidades experimentais, que são apresentadas conforme a seguinte tabela: 
A \ B ܤଵ ܤଶ ... ܤ௦ Total 
ܣଵ ܱଵଵ ܱଵଶ ... ଵܱ௦ ଵܱ. 
ܣଶ ܱଶଵ ܱଶଶ ... ܱଶ௦ ܱଶ. 
... ... ... ... ... ... 
ܣ௥ ܱ௥ଵ ܱ௥ଶ ... ௥ܱ௦ ௥ܱ. 
Total ܱ.ଵ ܱ.ଶ ... ܱ.௦ n 
 
 Hipóteses a serem testadas com o Teste de independência: 
H: A e B são variáveis independentes 
A: As variáveis A e B não são independentes 
 Os valores esperados estatisticamente são dados por: 
ܧ௜௝ = ௜ܱ. ∗ .ܱ௝݊ 
ܺ௢௕௦
ଶ = ෍෍൫ ௜ܱ௝ −ܧ௜௝൯ଶ
ܧ௜௝
௦
௝ୀଵ
௥
௜ୀଵ
~ܺ௤ଶ ݁ ܲ = ܲ൫ܺ௤ଶ ≥ ܺ௢௕௦ଶ ൯ 
Sendo que ݍ = (ݎ − 1) ∗ (ݏ − 1) representa o número de graus de liberdade. 
Se para α fixado, obtemos ܲ ≤ ߙ, rejeitamos a hipótese H de independência.

Continue navegando