Baixe o app para aproveitar ainda mais
Prévia do material em texto
Reforço de Noções de Estatística Revisão P1 Dados: {2, 4, 5, 6, 8, 9} Média – Soma de todos os valores da amostra, dividido pelo total de elementos. ̅ݔ = ߤ = ݔଵ + ݔଶ + ݔଷ + ݔସ + ⋯ݔ ݊ Mediana – É o valor de variável que ocupa a posição central de um conjunto de n dados ordenados. A posição da mediana é dada por: ାଵ ଶ Quartis – O primeiro quartil é dado por: 0,25 * (n+1). O terceiro quartil é dado por: 0,75 * (n+1). Os dois quartis dão a posição. Variância ݏଶ = ߪଶ = (ݔଵ − ̅ݔ)ଶ + (ݔଶ − ̅ݔ)ଶ + (ݔଷ − ̅ݔ)ଶ + (ݔସ − ̅ݔ)ଶ + ⋯ (ݔ − ̅ݔ)ଶ ݊ − 1 Fórmula alternativa - ݏଶ = ߪଶ = ∑ ݔଶୀଵ − ݊ݔଶ(݊ − 1) Desvio Padrão ݏ = ߪ = √ܸܽݎ݅â݊ܿ݅ܽ Coeficiente de variação – Exprime a variabilidade dos valores em relação à média. ܥܸ = ݏ ݔ ∗ 100% Com base nos dados acima, temos: Média = (2 + 4 + 5 + 6 + 8 + 9) / 5 = 6,8 Mediana = (6 + 1) / 2 = 3,5 Logo, o valor é a média entre o 5 e o 6, então o valor da mediana é 5,5. Quartis – Q1 = 0,25 * (6+1) = 1,75 Então o valor é a média entre o 2 e o 4, sendo igual a 3. Q3 = 0,75 * (6+1) = 5,25 Então o valor é a média entre o 8 e o 9, sendo igual a 8,5. Variância - ݏଶ = (2 − 6,8)ଶ + (4 − 6,8)ଶ + (5 − 6,8)ଶ + (8 − 6,8)ଶ + (9 − 6,8)ଶ6 − 1 = 29,765 = 5,9 Desvio Padrão - ݏ = ߪ = ඥ5,9 ≅ 2,4 Coeficiente de variação - ܥܸ = 2,46,8 ∗ 100% ≅ 0,35 ∗ 100% = 35% BOXPLOT – Gráfico que representa os dados através de um retângulo construído com os quartis e fornece várias informações, incluindo a existência de valores extremos. Máximo – Maior valor dos dados abaixo do limite superior. Mínimo – Menor valor dos dados acima do limite inferior. Probabilidade – ܲ(ܣ) = º ௗ ௧௦ ௗ º ௧௧ ௗ ௧௦ Regra do E – Se quisermos saber a chance de acontecer o evento A e o evento B, então calculamos: ܲ(ܣ ∩ ܤ) = ܲ(ܣ) ∗ ܲ(ܤ) Os eventos A e B são mutuamente exclusivos ou disjuntos quando não tem elementos em comum, isto é, ܲ(ܣ ∩ ܤ) = ∅ Regra do OU – Se quisermos saber a chance de acontecer o evento A ou o evento B, então calculamos: ܲ (ܣ ∪ ܤ) = ܲ(ܣ) + ܲ(ܤ) −ܲ(ܣ ∩ ܤ) Probabilidade condicional – Saber a chance do evento A acontecer sabendo que o evento B aconteceu: ܲ(ܣ|ܤ) = ܲ(ܣ ∩ ܤ) ܲ(ܤ) , ܲ(ܤ) > 0 Eventos independentes – Os eventos A e B são independentes se a informação de ocorrência de B (ou não ocorrência) não altera a probabilidade de ocorrência A. ܲ(ܣ|ܤ) = ܲ(ܣ), ܲ(ܤ) > 0 Distribuição Binomial n = total de tentativas p = probabilidade de sucesso Notação – ܺ~ܾ(݊; ) Fórmula para cálculo da probabilidade – ܲ(ܺ = ݇) = ൫൯(1 − )ି , ݇ = 0,1,2, … ,݊ Valor Esperado (Média) – ߤ = ܧ(ܺ) = ݊ ∗ Variância – ߪଶ = ܸܽݎ(ܺ) = ݊ ∗ ∗ (1 − ) Distribuição Normal Padrão Notação – ܼ~ܰ(0; 1) Cálculo da probabilidade – ܲ(ܽ < ܺ < ܾ) = ܲ ቀିఓ ఙ < ିఓ ఙ < ିఓ ఙ ቁ = ܲ ቀିఓ ఙ < ܼ < ିఓ ఙ ቁ Uso dos valores na tabela da normal – Assim que achar um valor de Z através da fórmula ିఓ ఙ , podemos utilizar a tabela da normal e localizar o valor referente à área do gráfico para aquele z. Estimação Nessa parte, procuramos estimar uma proporção p de elementos em uma população, apresentando uma característica de interesse, a partir da informação fornecida por uma amostra. Estimador pontual para p (ou proporção amostral) – é definido como ̂ = = , sendo: o X : número de elementos na amostra que apresentam a característica. o n : tamanho da amostra coletada. o k : valor observado da v.a. X. Estimativa intervalar ou intervalo de confiança – Na forma [̂ − ߝ; ̂ + ߝ] o ε : erro amostral ou margem de erro e é calculado por: ߝ = ݖටො(ଵିො) o Coeficiente de confiança do intervalo (P(ε) ou γ) : ܲ(ߝ) = ߛ = ܲ(−ݖ ≤ ܼ ≤ ݖ), sendo que y = A(z), então tendo y podemos localizar na tabela da normal o valor de z que corresponde àquele y. o Dimensionamento da amostra n : ݊ = ቀ௭ ఌ ቁ ଶ (1 − ), nesta expressão o n depende de p(1-p) que é desconhecido, para esses casos utilizamos o p(1-p) = 0,25, então o cálculo fica assim ݊ = ቀ௭ ఌ ቁ ଶ ∗ 0,25. Teste de Hipóteses I O que é uma hipótese? É uma conjectura sobre um parâmetro populacional. Por exemplo, a proporção p é um parâmetro populacional. Em estimação, o objetivo é “estimar” o valor desconhecido de um parâmetro, por exemplo, a proporção p de “indivíduos” em uma população com determinada característica. A estimativa é baseada no número x de “indivíduos” com a característica numa amostra aleatória de tamanho n. Entretanto, se o objetivo for saber se o valor observado x nessa amostra dá ou não suporte a uma conjectura sobre o valor de p, trata-se de um teste de hipóteses. No caso especial de teste de hipóteses sobre a proporção populacional p, temos: o Hipótese nula: afirmação sobre p geralmente relacionada a um valor de referência, ou a uma especificação padrão ou histórica. o Hipótese alternativa: afirmação sobre p que suspeitamos ser verdadeira. Hipótese Alternativa Bilateral: Quando queremos detectar desvios em torno de p em qualquer direção. Hipótese Alternativa Unilateral: Quando queremos detectar desvios em torno de p em apenas uma direção. o Região Crítica (RC) ou Região de rejeição de H: Conjunto de valores nos quais rejeitamos H. o Erro Tipo I: Rejeitar H, quando H é verdadeira. o Erro Tipo II: Não rejeitar H, quando H é falsa. Probabilidade de erros: P(erro I) = P(Rejeitar H | H é verdadeira) = α, sendo α o nível de significância do teste. P(erro II) = P(Não Rejeitar H | H é falsa) = β, sendo 1-β o poder do teste. Resumo para se testar uma hipótese ࢄ~࢈ࢇ(;) 1) Estabelecer as hipóteses: H: p = p₀ contra uma das alternativas A: p ≠ p₀, A: p > p₀ ou A: p < p₀. 2) Escolher um nível de significância α. 3) Determinar a região crítica RC da forma {X ≤ k1} U {X ≥ k2}, {X ≥ k} ou {X ≤ k}, respectivamente às hipóteses alternativas. 4) Selecionar uma amostra aleatória e determinar o número x de elementos na amostra com o atributo desejado. 5) Decidir, usando a evidência x, ao nível de significância α, e concluir. ݔ ∈ ܴܥ Rejeitamos H. ݔ ∉ ܴܥ Não rejeitamos H. Nível Descritivo (Valor P) é o menor nível de significância para o qual o resultado observado é significante, ou seja, conduz à rejeição da hipótese nula H. ࡼ(ࢄ ≤ ࢞࢈࢙|) P ≤ α Rejeitamos H. P > α Não rejeitamos H. Testes Qui-quadrado 1. Testes de Aderência Objetivo: Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados. Em um teste de aderência testaremos as seguintes hipóteses: ࡴ: = , … , = :۳ܠܑܛܜ܍ ܘ܍ܔܗ ܕ܍ܖܗܛ ܝܕ܉ ܌ܑ܍ܚ܍ܖç܉ E na maioria das vezes a hipótese está no próprio enunciado da questão. Ex: Você diria, através de um teste de hipótese estatístico adequado, a um nível de significância de 5%, que os resultados deste experimento indicam que, após a campanha, houve mudanças na participação de cada versão nas vendas deste modelo? Então: H: após a campanha, houve mudanças na participação de cada versão nas vendas deste modelo; A: após a campanha, não houve mudanças na participação de cada versão nas vendas deste modelo. O resultado só é válido para n grande e para ࡱ ≥ , = , … ,. Sendo que ݍ = ݇ − 1representa o número de graus de liberdade. ܺ௦ ଶ = ( ܱ −ܧ)ଶ ܧ ୀଵ ~ܺଶ ݁ ܲ = ܲ൫ܺଶ ≥ ܺ௦ଶ ൯ Categorias Frequência Observada Frequência Esperada sob H 1 ଵܱ ܧଵ = ݊ ∗ ଵ 2 ܱଶ ܧଶ 3 ܱଷ ܧଷ . . . k ܱ ܧ Total n n Se para α fixado, obtemos ܲ ≤ ߙ, rejeitamos a hipótese H. 2. Testes de Independência Objetivo: Verificarse existe independência entre duas variáveis medidas nas mesmas unidades experimentais. Em geral, os dados referem-se a mensurações de duas características (A e B) feitas em n unidades experimentais, que são apresentadas conforme a seguinte tabela: A \ B ܤଵ ܤଶ ... ܤ௦ Total ܣଵ ܱଵଵ ܱଵଶ ... ଵܱ௦ ଵܱ. ܣଶ ܱଶଵ ܱଶଶ ... ܱଶ௦ ܱଶ. ... ... ... ... ... ... ܣ ܱଵ ܱଶ ... ܱ௦ ܱ. Total ܱ.ଵ ܱ.ଶ ... ܱ.௦ n Hipóteses a serem testadas com o Teste de independência: H: A e B são variáveis independentes A: As variáveis A e B não são independentes Os valores esperados estatisticamente são dados por: ܧ = ܱ. ∗ .ܱ݊ ܺ௦ ଶ = ൫ ܱ −ܧ൯ଶ ܧ ௦ ୀଵ ୀଵ ~ܺଶ ݁ ܲ = ܲ൫ܺଶ ≥ ܺ௦ଶ ൯ Sendo que ݍ = (ݎ − 1) ∗ (ݏ − 1) representa o número de graus de liberdade. Se para α fixado, obtemos ܲ ≤ ߙ, rejeitamos a hipótese H de independência.
Compartilhar