Baixe o app para aproveitar ainda mais
Prévia do material em texto
FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS ADAPTAÇÃO DE ESTATISTICA II Orientador: Edson Gimenez Acadêmico: Gabrielle Cavalcante Palmeira - 17741432 Curso Acadêmico: Administração Salto/2019 CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 2 Sumário 1. Noções sobre Probabilidade .................................................................................................... 3 1.1 Definições e Conceitos Fundamentais ........................................................................... 3 1.1.1 Experimento aleatório e ponto amostral ....................................................................... 3 1.1.2 Espaço amostral ............................................................................................................... 4 1.2 Probabilidade de um evento ............................................................................................ 4 1.3 Probabilidade Condicional ............................................................................................... 5 2. Distribuição Binomial ................................................................................................................. 5 2.1 Distribuição de Probabilidade .......................................................................................... 5 2.1.1 Variáveis aleatórias .......................................................................................................... 6 2.1.3 Variáveis aleatórias contínuas ....................................................................................... 7 2.2 Distribuição Binomial ........................................................................................................ 7 2.3 Curva Normal – Interpretação do Desvio ...................................................................... 8 3. Distribuição Normal – Estimativas ......................................................................................... 10 3.1 Distribuição Normal ............................................................................................................... 10 3.2 Intervalos de Confiança ........................................................................................................ 11 3.2.1 Qual a relevância de um Intervalo de Confiança ...................................................... 12 3.2.2 Como interpretar um Intervalo de Confiança ............................................................. 12 4. Testes Estatísticos ................................................................................................................... 14 4.1 Distribuição T ......................................................................................................................... 14 4.1.1 Contextualizando uma aplicação da ANOVA ............................................................ 15 4.1.2 A Análise de Variância .................................................................................................. 16 4.1.3 Quais são os resultados gerados pela análise de variância ................................... 18 4.1.4 Como interpretar os resultados da ANOVA ............................................................... 19 4.2 Teste Quiquadrado .................................................................................................................... 19 4.2.1 Teste do Quiquadrado para uma amostra ................................................................. 19 4.2.2 Condições para a execução do teste .......................................................................... 19 4.2.3 Procedimento para a execução do teste .................................................................... 20 Exemplo ..................................................................................................................................... 20 Referências ....................................................................................................................................... 22 CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 3 1. Noções sobre Probabilidade 1.1 Definições e Conceitos Fundamentais As definições básicas de probabilidade são: experimento aleatório, ponto amostral, espaço amostral, evento e o cálculo da probabilidade. Probabilidade é o estudo das chances de obtenção de cada resultado de um experimento aleatório. A essas chances são atribuídos os números reais do intervalo entre 0 e 1. Resultados mais próximos de 1 têm mais chances de ocorrer. Além disso, a probabilidade também pode ser apresentada na forma percentual. 1.1.1 Experimento aleatório e ponto amostral Um experimento aleatório pode ser repetido inúmeras vezes e nas mesmas condições e, mesmo assim, apresenta resultados diferentes. Cada um desses resultados possíveis é chamado de ponto amostral. São exemplos de experimentos aleatórios: a. Cara ou coroa Lançar uma moeda e observar se a face voltada para cima é cara ou coroa é um exemplo de experimento aleatório. Se a moeda não for viciada e for lançada sempre nas mesmas condições, poderemos ter como resultado tanto cara quanto coroa. b. Lançamento de um dado Lançar um dado e observar qual é o número da face superior também é um experimento aleatório. Esse número pode ser 1, 2, 3, 4, 5 ou 6 e cada um desses resultados apresenta a mesma chance de ocorrer. Em cada lançamento, o resultado pode ser igual ao anterior ou diferente dele. Observe que, no lançamento da moeda, as chances de repetir o resultado anterior são muito maiores. c. Retirar uma carta aleatória de um baralho Cada carta tem a mesma chance de ocorrência cada vez que o experimento é realizado, por isso, esse é também um experimento aleatório. https://mundoeducacao.bol.uol.com.br/matematica/chances-um-evento-acontecer.htm https://mundoeducacao.bol.uol.com.br/matematica/experimento-aleatorio-espaco-amostral.htm https://mundoeducacao.bol.uol.com.br/matematica/conjunto-dos-numeros-reais.htm https://mundoeducacao.bol.uol.com.br/matematica/porcentagem.htm CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 4 1.1.2 Espaço amostral O espaço amostral (Ω) é o conjunto formado por todos os resultados possíveis de um experimento aleatório. Em outras palavras, é o conjunto formado por todos os pontos amostrais de um experimento. Veja exemplos: a. O espaço amostral do experimento “cara ou coroa” é o conjunto S = {Cara, Coroa}. Os pontos amostrais desse experimento são os mesmos elementos desse conjunto. b. O espaço amostral do experimento “lançamento de um dado” é o conjunto S = {1, 2, 3, 4, 5, 6}. Os pontos amostrais desse experimento são 1, 2, 3, 4, 5 e 6. O espaço amostral também é chamado de Universo e pode ser representado pelas outras notações usadas nos conjuntos. Além disso, todas as operações entre conjuntos valem também para espaços amostrais. O número de elementos do espaço amostral, número de pontos amostrais do espaço amostral ou número de casos possíveis em um espaço amostral é representado da seguinte maneira: n(Ω). 1.2 Probabilidade de um evento Um evento é qualquer subconjunto de um espaço amostral. Ele pode conter nenhum elemento (conjunto vazio) ou todos os elementos de um espaço amostral. O número de elementos do evento é representado da seguinte maneira: n(E), sendo E o evento em questão. São exemplos de eventos: a. Sair cara em um lançamento de uma moeda O evento é sair cara e possui um único elemento. A representação dos eventos também é feita com notações de conjuntos: E = {cara} O seu número de elementos é n(E) = 1. b. Sair um número par no lançamento de um dado. O evento é sair um número par: E = {2, 4, 6} https://mundoeducacao.bol.uol.com.br/matematica/operacoes-entre-conjuntos.htm https://mundoeducacao.bol.uol.com.br/matematica/operacoes-entre-conjuntos.htm CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 5 1.3 Probabilidade Condicional Probabilidadecondicional refere-se à probabilidade de um evento ocorrer com base em um evento anterior. Evidentemente, esses dois eventos precisam ser conjuntos não vazios pertencentes a um espaço amostral finito. Em um lançamento simultâneo de dois dados, por exemplo, obtêm-se números em suas faces superiores. Qual é a probabilidade de que a soma desses números seja 8, desde que ambos os resultados sejam ímpares? A probabilidade de a soma desses números ser 8 está condicionada a resultados ímpares nos dois dados. Logo, lançamentos que apresentam um ou dois números pares na face superior podem ser descartados e, por isso, há uma redução no espaço amostral. O novo espaço amostral é composto pelos pares: {1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5} Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de que se obtenha soma 8 no lançamento de dois dados, dado que os resultados obtidos são ambos ímpares, é de: 2 9 Fórmula da probabilidade condicional Seja K um espaço amostral que contém os eventos A e B não vazios. A probabilidade de A acontecer, dado que B já aconteceu, é representada por P(A|B) e é calculada pela seguinte expressão: P(A|B) = P(A∩B) P(B) Caso seja necessário calcular a probabilidade da intersecção entre dois eventos, pode-se utilizar a seguinte expressão: P(A∩B) = P(A|B) ·P(B) 2. Distribuição Binomial 2.1 Distribuição de Probabilidade A distribuição de frequência de uma amostra é uma estimativa da distribuição de probabilidade da população correspondente. Se o tamanho da https://mundoeducacao.bol.uol.com.br/matematica/uniao-dois-eventos.htm https://mundoeducacao.bol.uol.com.br/matematica/experimento-aleatorio-espaco-amostral.htm CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 6 amostra for grande, espera-se que a distribuição de frequências da amostra tenha uma boa aproximação da distribuição de probabilidade da população. No estudo de pesquisas empíricas e análises de situações reais, a Estatística Descritiva (tabelas de frequências, média, moda, mediana, desvio padrão, etc) são bastante úteis. Porém, no estudo de uma população, as distribuições de probabilidades, como veremos mais adiante, são preferidas, pois possibilitam a construção de modelos matemáticos que nos auxiliam na compreensão dos fenômenos do mundo real. 2.1.1 Variáveis aleatórias O conjunto de todos os possíveis resultados de um experimento aleatório é chamado de espaço amostral. Os elementos desse conjunto podem ser numéricos ou não. Por exemplo, o número de filhos de um casal é um exemplo de conjunto numérico. Porém, o grau de escolaridade de um indivíduo é algo não numérico. Dessa forma, em muitas vezes, para podermos trabalhar probabilisticamente com uma variável não numérica, atribuímos valores para cada elemento do espaço amostral. O resultado de um experimento de probabilidade geralmente é uma contagem ou uma medida. Quando isso ocorre, o resultado é chamado de variável aleatória. Definição: uma variável aleatória X representa um valor numérico associado a cada resultado de um experimento de probabilidade. A palavra aleatória indica que os valores assumidos por X são obtidos ao acaso. Notação: geralmente, as variáveis aleatórias são representadas por letras maiúsculas (X), enquanto que os valores assumidos por essas variáveis aleatórias são representados por letras minúsculas (x). Dessa forma, se escrevermos X=x queremos dizer que a variável aleatória X assume um valor numérico igual a x. As variáveis aleatórias podem ser de dois tipos: discretas ou contínuas. 2.1.2 Variáveis aleatórias discretas Uma variável aleatória é discreta se ela assume um número finito de valores ou assume um número infinito de valores numeráveis (contáveis). Podemos dizer que uma variável é discreta quando seus valores puderem ser listados. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 7 Por exemplo: o número de ligações recebidas por dia em um escritório pode ser um valor igual a 0, 1, 2, 3, 4, ... Assim, definimos a variável aleatória X: X: número de ligações recebidas pelo escritório. Os valores que essa variável pode assumir são x=0, 1, 2, 3, ... Dessa forma, se escrevermos X=3 estamos dizendo que “o número de ligações recebidas pelo escritório (X) é igual a 3 ligações (x)”. 2.1.3 Variáveis aleatórias contínuas Uma variável aleatória é contínua se ela possui um número incontável de possíveis resultados. Ou seja, uma variável é dita contínua quando os valores que ela pode assumir puderem ser representados como um intervalo na reta dos números reais. Neste caso, os valores assumidos por uma variável contínua, não podem ser listados, visto que são infinitos os possíveis valores dessa variável. Por exemplo: consideremos o tempo de duração de uma ligação recebida em minutos (incluindo frações de minutos). Neste caso, podemos definir uma variável aleatória Y da seguinte forma: Y: tempo de duração de uma ligação em minutos. Perceba que os valores de Y podem assumir qualquer valor em um intervalo real. Suponhamos, para facilitar, que o tempo máximo de uma ligação seja de 120 minutos. Neste caso, os valores y pertencem ao intervalo [0, 120]. 2.2 Distribuição Binomial Para construir o modelo binomial vamos introduzir uma sequência de ensaios de Bernoulli. Tal sequência é definida por meio das seguintes condições: Em cada ensaio considera-se somente a ocorrência ou não-ocorrência de um certo evento que será denominado sucesso (S) e cuja não-ocorrência será denominada falha (F). Os ensaios são independentes. A probabilidade de sucesso, que denotaremos por p é a mesma para cada ensaio. A probabilidade de falha será denotada por 1-p. Para um experimento que consiste na realização de ensaios independentes de Bernoulli, o espaço amostral pode ser considerado como o conjunto de n-uplas, em que cada posição há um sucesso (S) ou uma falha (F). CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 8 A probabilidade de um ponto amostral com sucessos nos primeiros ensaios e falhas nos ensaios seguintes é Note que esta é a probabilidade de qualquer ponto com sucessos e falhas. O número de pontos do espaço amostral que satisfaz essa condição é igual ao número de maneiras com que podemos escolher ensaios para a ocorrência de sucesso dentre o total de ensaios, pois nos restantes deverão ocorrer falhas. Este número é igual ao número de combinações de elementos tomados a , ou seja, Ou seja, para : 2.3 Curva Normal – Interpretação do Desvio Uma distribuição estatística é uma função que define uma curva, e a área sob essa curva determina a probabilidade de ocorrer o evento por ela correlacionado. A distribuição normal é a mais importante dentre as distribuições estatísticas. Também conhecida como distribuição gaussiana, é uma curva simétrica em torno do seu ponto médio, apresentando assim seu famoso formato de sino. A curva de distribuição normal representa o comportamento de diversos processos nas empresas e muitos fenômenos comuns, como por exemplo, altura ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o tempo que um grupo de estudantes gasta para realizar uma prova. A distribuição normal pode ser usada para aproximar distribuições discretas de probabilidade, como por exemplo a distribuição binomial. Além disso, a distribuição normal serve também como base para a inferência estatística clássica. Nela, a média, mediana e moda dos dados possuem o mesmo valor. Conseguimos desenhar uma curva de distribuição normal tendo apenas dois parâmetros: média e desvio padrão. Considerando a probabilidade de CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 9 ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisqueré igual à área compreendida entre esses dois pontos. O ponto mais alto na curva, representa o valor com a maior moda do processo, ou seja, o valor que mais aparece na base de dados. Esse é representado na curva pelo corte central deste diagrama. Os outros cortes verticais, representam o desvio padrão em relação à média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação à média. Outro detalhe importante e conhecido da curva de distribuição normal é que cada faixa de valores representa uma certa probabilidade de ocorrência. Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegar a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de possibilidade de ocorrência. Por fim, se pegarmos a faixa mais ampla dessa distribuição, ou seja, mais ou menos 3 sigmas. Essa faixa já representa 99,74% dos dados. Essa região, chamamos de faixa natural de variação do processo. A estatística entende que um processo possui uma certa variabilidade, ou seja, trabalha dentro de uma faixa de valores, com determinada variação. Se esse processo, é um processo estável, significa que a variação desse processo vai acontecer dentro dessa faixa de valores. Se tiver algum problema ou perturbação maior no processo, pode ser que ele produza um resultado que não é o esperado, ou que não era provável, um resultado muito acima ou muito abaixo do normal. Esse resultado seria um ponto fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora da curva. Um ponto cuja a probabilidade é tão baixa de acontecer que o denominamos de outlier. Com esse conceito de distribuição normal contextualizado para uma empresa ou processo, é possível comparar e entender, que quando se tem uma base de dados representada pela curva de Gauss compreendida entre uma faixa de mais ou menos 3 sigmas, esse processo é considerado estável. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 10 3. Distribuição Normal – Estimativas 3.1 Distribuição Normal A distribuição normal é a mais importante distribuição estatística, considerando a questão prática e teórica. Este tipo de distribuição se apresenta em formato de sino, uni modal, simétrica em relação a sua média. Considerando a probabilidade de ocorrência, a área sob sua curva soma 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos. 68,26% => 1 desvio 95,44% => 2 desvios 99,73% => 3 desvios Na figura acima, tem as barras na cor marrom representando os desvios padrões. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão, temos 68,26% das observações contidas. A dois desvios padrões, possuímos 95,44% dos dados compreendidos e finalmente a três desvios, temos 99,73%. Podemos concluir que quanto maior a variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor que buscamos embaixo da normal. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 11 Propriedade 1 f(x) é simétrica em relação à origem, x = média = 0. Propriedade 2 f(x) possui um máximo para z=0, e nesse caso sua ordenada vale 0,39. Propriedade3 f(x) tende a zero quando x tende para + infinito ou - infinito. Propriedade 4 f(x) tem dois pontos de inflexão cujas abscissas valem média + DP e média - DP, ou quando z tem dois pontos de inflexão cujas abscissas valem +1 e -1. Para se obter a probabilidade sob a curva normal, devemos utilizar a tabela de faixa central. 3.2 Intervalos de Confiança É uma estimativa de um intervalo utilizado na estatística, que contém um parâmetro populacional. Esse parâmetro de população desconhecido é encontrado através de um modelo de amostra calculado a partir dos dados recolhidos. Exemplo: a média de uma amostra recolhida x̅ pode ou não coincidir com a verdadeira média populacional μ. Para isso, é possível considerar um intervalo de médias amostrais onde está média populacional possa estar contida. Quanto maior este intervalo, maior a probabilidade de isso ocorrer. O intervalo de confiança é expresso em porcentagem, denominadas por nível de confiança, sendo 90%, 95% e 99% as mais indicadas. Na imagem abaixo, por exemplo, temos um intervalo de confiança de 90% entre seus limites superior e inferior (a e -a). https://www.somatematica.com.br/estat/normal.php https://www.somatematica.com.br/estat/normal.php CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 12 Exemplo de Intervalo de Confiança de 90% entre seus limites superior (a) e inferior (-a). O Intervalo de Confiança é um dos conceitos mais importantes dentro dos testes de hipóteses na estatística, por ser utilizado como uma medida de incerteza. O termo foi introduzido pelo matemático e estatístico polonês Jerzy Neyman em 1937. 3.2.1 Qual a relevância de um Intervalo de Confiança O intervalo de confiança é importante para indicar a margem de incerteza (ou imprecisão) frente a um cálculo efetuado. Esse cálculo usa a amostra do estudo para estimar o tamanho real do resultado na população de origem. O cálculo de um intervalo de confiança é uma estratégia que considera a amostragem de erro. A dimensão do resultado do seu estudo e seu intervalo de confiança caracterizam os valores presumíveis para a população original. Quanto mais estreito for o intervalo de confiança, maior é a probabilidade de a porcentagem da população de estudo representar o número real da população de origem dando maior certeza quanto ao resultado do objeto de estudo. 3.2.2 Como interpretar um Intervalo de Confiança A interpretação correta do intervalo de confiança é provavelmente o aspecto mais desafiador desse conceito estatístico. Um exemplo da interpretação mais comum do conceito é a seguinte: CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 13 Existe uma probabilidade de 95% de que, no futuro, o verdadeiro valor do parâmetro da população (por exemplo, média) caia no intervalo X (limite inferior) e Y (limite superior). Assim, interpreta-se o intervalo de confiança da seguinte maneira: é 95% confiante de que o intervalo entre X (limite inferior) e Y (limite superior) contém o verdadeiro valor do parâmetro populacional. Seria totalmente incorreto declarar que: há uma probabilidade de 95% de que o intervalo entre X (limite inferior) e Y (limite superior) contenha o valor real do parâmetro populacional. A afirmação acima é o equívoco mais comum sobre o intervalo de confiança. Depois que o intervalo estatístico é calculado, ele pode conter apenas o parâmetro da população ou não. No entanto, os intervalos podem variar entre as amostras, enquanto o parâmetro da população verdadeira é o mesmo, independentemente da amostra. Portanto, a declaração de probabilidade relativa ao intervalo de confiança pode ser feita somente no caso em que os intervalos de confiança são recalculados para o número de amostras. 3.3 Estimativas de Proporções Proporção amostral de uma categoria (ou classe) é a frequência relativa com que essa categoria se observa na amostra. Proporção populacional de uma categoria é a frequência relativa com que essa categoria se observa na população. A proporção populacional e amostral representa-se, respetivamente, por p e pˆp^. Se representarmos por N e n, respetivamente a dimensão da população e a dimensão da amostra, e por x e x’, respetivamente, o número elementos da população ou da amostra que possuem a característica em estudo, então, p=xNepˆ=x′N.p=xNep^=x′N. Suponha que numa escola com 1154 alunos, 675 são do “sexo feminino”. Então a proporção populacional de alunos do “sexo feminino” é 675/1154≈0,58. https://wikiciencias.casadasciencias.org/wiki/index.php/Frequ%C3%AAncia_relativahttps://wikiciencias.casadasciencias.org/wiki/index.php/Amostra https://wikiciencias.casadasciencias.org/wiki/index.php/Popula%C3%A7%C3%A3o_(Estat%C3%ADstica) https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_popula%C3%A7%C3%A3o https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_popula%C3%A7%C3%A3o https://wikiciencias.casadasciencias.org/wiki/index.php/Dimens%C3%A3o_da_amostra CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 14 Também se pode dizer que, nesta escola, a probabilidade de selecionado um aluno ao acaso, ele ser do “sexo feminino”, é aproximadamente 0,58. Se selecionarmos, ao acaso, 100 alunos da escola e se se verificar que 61 são raparigas, então a proporção amostral com que se verifica a categoria “sexo feminino” é 0,61. Este valor é uma estimativa do parâmetro proporção populacional da categoria “sexo feminino”. Se se selecionar outra amostra de 100 alunos, o número de raparigas nos alunos selecionados não é necessariamente 61, pelo que obteremos outra estimativa, não necessariamente igual à primeira. Costuma-se designar por um “sucesso” sempre que se observa a característica em estudo sobre um elemento selecionado para a amostra. No exemplo anterior, um sucesso é um aluno selecionado ser do “sexo feminino”. Se representarmos por X a variável aleatória que representa o número de sucessos numa amostra de dimensão n, então a proporção amostral pˆ=Xnp^=Xn É um estimador centrado e consistente (ver estatística) do parâmetro p. 4. Testes Estatísticos 4.1 Distribuição T A distribuição t de Student é uma distribuição de probabilidade estatística, publicada por um autor que se chamou de Student, pseudônimo de William Sealy Gosset, que não podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cervejaria Guinness.[1][2] A distribuição t é uma distribuição de probabilidade teórica. É simétrica, campaniforme, e semelhante à curva normal padrão, porém com caudas mais largas, ou seja, uma simulação da t de Student pode gerar valores mais extremos que uma simulação da normal. O único parâmetro v que a define e caracteriza a sua forma é o número de graus de liberdade. Quanto maior for esse parâmetro, mais próxima da normal ela será. Suponha Z, uma variável aleatória de distribuição normal padrão com média 0 e variância 1, e V, uma variável aleatória com distribuição Chi-quadrado https://wikiciencias.casadasciencias.org/wiki/index.php/Par%C3%A2metro_(Estat%C3%ADstica) https://wikiciencias.casadasciencias.org/wiki/index.php/Vari%C3%A1vel_aleat%C3%B3ria https://wikiciencias.casadasciencias.org/wiki/index.php/Estat%C3%ADstica https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o https://pt.wikipedia.org/wiki/William_Sealy_Gosset https://pt.wikipedia.org/wiki/Guinness https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-1 https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-2 https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_normal https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_normal CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 15 com ν graus de liberdade. Se Z e V são independentes, então a distribuição da variável aleatória t será[3]: Essa é a distribuição t de Student com ν graus de liberdade. A função densidade de probabilidade é: em que Γ é a função gama. Usando-se a função beta B, a função densidade de probabilidade pode ser escrita como: A distribuição t de Student aparece naturalmente no problema de se determinar a média de uma população (que segue a distribuição normal) a partir de uma amostra. Neste problema, não se sabe qual é a média ou o desvio padrão da população, mas ela deve ser normal. Supondo que o tamanho da amostra n seja muito menor que o tamanho da população, temos que a amostra é dada por n variáveis aleatórias normais independentes X1, ..., Xn, cuja média é o melhor estimador para a média da população. Considerando como a variância amostral, temos o seguinte resultado: A variável aleatória t dada por: ou : segue uma distribuição t de Student com graus de liberdade. 4.1 Analise de Variação A ANOVA ou Análise de Variância é um procedimento usado para comparar a distribuição de três ou mais grupos em amostras independentes. A análise de variância é também uma forma de resumir um modelo de regressão linear através da decomposição da soma dos quadrados para cada fonte de variação no modelo e, utilizando o teste F, testar a hipótese de que qualquer fonte de variação no modelo é igual a zero. 4.1.1 Contextualizando uma aplicação da ANOVA Suponha um curso preparatório para o ENEM que tenha em seu corpo docente três professores de matemática, que são responsáveis por diferentes turmas de https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student#cite_note-3 https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_densidade_de_probabilidade https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_gama https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_beta CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 16 alunos. A direção da escola suspeita que a variação do desempenho dos alunos nas provas de matemática do ENEM pode ser explicada pelo trabalho desenvolvido pelos seus professores. Sendo assim, a direção resolveu verificar as notas na prova de matemática dos alunos de cada professor e calculou a média das notas de cada turma. Mas será que essa informação é suficiente para afirmar que o desempenho dos alunos de cada professor é realmente diferente? E se um dos professores tiver em sua turma um aluno que não se preparou e errou quase todas as questões? Esse aluno não seria responsável por ter diminuído a média do grupo de alunos desse professor? Para verificar então se realmente o desempenho dos alunos variou de acordo com o professor, se faz necessário a utilização de teste estatístico, que além de considerar a média das notas, leva também em conta a variação das notas dentro de cada turma. 4.1.2 A Análise de Variância Um dos objetivos da aplicação da ANOVA é o de realizar teste estatístico para verificar se há diferença entre distribuição de uma medida entre três ou mais grupos. Em nosso exemplo, podemos definir as hipóteses do teste como: • H0: Não existe diferença entre o desempenho das notas dos alunos de cada professor. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 17 • H1: Há pelo menos um professor com alunos com desempenho diferente. Caso os três grupos de alunos apresentem mesma variabilidade e mesma média de desempenho, suas distribuições tendem a se sobrepor, confirmando a hipótese de que não existe diferença entre o desempenho das notas dos alunos de cada professor. Caso contrário, ou seja, quando os grupos apresentam mesma variabilidade interna e médias de desempenho diferentes, as distribuições de distanciam quanto mais as médias de desempenho se diferenciam. O modelo ANOVA e seus pressupostos Para aplicação da análise de variância, são necessárias algumas suposições, sendo elas: 1. As observações são independentes, ou seja, cada elemento amostral (aluno) deve ser independente; 2. Os grupos comparados apresentam a mesma variância; 3. Os erros são independentes e provenientes de uma distribuição normal com média igual a zero e variância constante. Cabe ressaltar que os grupos de alunos de cada professor podem ser vistos como três níveis de um mesmo fator, sendo que o objetivo é saber se o fator professor exerce alguma influência na variação do desempenho das notas de matemática. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 18 4.1.3 Quais são os resultados gerados pela análise de variância As informações geradas na análise de variância estão resumidas na tabela abaixo. Nela são apresentados os graus de liberdade, a soma de quadrados, o quadrado médio, a estatística F e o valor-p. Análisede Variância das Notas dos Alunos por Turma Fonte de Variação Tratamentos Graus de Liberdade Soma de Quadrados Quadrado Médio Estatística F Valor P Resíduos 2 56.806 28.403 5,25 0,010 Total 33 178.783 5.418 Os graus de liberdade são calculados com base no número de professores (grupos) e no número total de alunos. A soma de quadrados mede a variação dos dados. A soma de quadrados total mede a variação total nos dados, a soma de quadrados dos tratamentos mede a variação entre os professores de cada turma e a soma dos quadrados dos resíduos mede a variação dentro de cada turma, ou seja, mede a variação dos alunos de cada professor. O quadrado médio é a razão entre a soma de quadrados e os graus de liberdade e a estatística F, pode ser encontrada na tabela de distribuição F de Fisher- Snedecor. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 19 4.1.4 Como interpretar os resultados da ANOVA Tomando como base a tabela anterior, pode-se concluir que existe pelo menos dois professores com alunos com desempenho significativamente diferentes ao avaliar o valor-p = 0,010 (menor que o nível de significância estabelecido de 0,05). A conclusão da ANOVA pode ser feita também com base na Estatística F. A estatística F tem distribuição F de Fisher-Snedecor com k-1 e n-k graus de liberdade, onde k é o número de grupos (k = 3) e n é o número de observações (n = 36). Neste caso fictício, obteríamos F ≅ 3,32 e como a Estatística F (5,25) foi maior que o F tabelado (3,32), conclui-se que existe pelo menos dois professores com alunos com desempenho significativamente diferentes. 4.2 Teste Quiquadrado Este teste objetiva verificar se a frequência absoluta observada de uma variável é significativamente diferente da distribuição de frequência absoluta esperada. 4.2.1 Teste do Quiquadrado para uma amostra Aplica-se quando se quer estudar a dependência entre duas variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de contingência. 4.2.2 Condições para a execução do teste Exclusivamente para variáveis nominais e ordinais; Observações independentes; Não se aplica se 20% das observações forem inferiores a 5Não pode haver frequências inferiores a 1; Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agrupar os dados segundo um critério em específico. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 20 4.2.3 Procedimento para a execução do teste 1. Determinar H0. Será a negativa da existência de diferenças entre a distribuição de frequência observada e a esperada; 2. Estabelecer o nível de significância (µ ); 3. Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), sendo K – 1 (K = número de categorias). Encontrar portanto, o valor do Qui-quadrado tabelado; 4. Calcular o Qui Quadrado, através da fórmula: Sendo o Quiquadrado calculado, maior do que o tabelado, rejeita-se H0 em prol de H1. Exemplo Um vendedor trabalhou comercializando um produto em sete bairros residenciais de uma mesma cidade em um mesmo período do ano. Seu gerente decidiu verificar se o desempenho do vendedor oscilava em virtude do bairro trabalhado, ou seja, se as diferenças eram significativas nos bairros trabalhados. A partir deste estudo o gerente poderia então elaborar uma estratégia comercial para cada bairro ou manter uma para todos. Bairro 1 2 3 4 5 Total Valores Observados 9 11 25 20 15 80 Valores Esperados 16 16 16 16 16 80 H0: não há diferenças significativas entre os bairros CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 21 H1: as diferenças observadas para os bairros 3 e 4 são significativamente diferentes para melhor em relação aos demais bairros. µ = 0,05 g.l = 5 – 1 = 4, onde Qui quadrado tabelado é igual a 9,49. Χ2 = (9-16)2 + (11 – 16) 2 + (25-16) 2 + (20 – 16) 2 + (15 – 16) 2/16 Χ2 = 72 + 52 +92 + 42 + 12= 172/16 = 10,75 Conclui-se que o Qui quadrado calculado (10,75) é maior do que o tabelado (9,49), rejeita-se H0 em prol de H1. Portanto há diferença significativa, ao nível de 0,05, para os bairros 3 e 4. Face ao cálculo o gerente deve elaborar uma estratégia comercial para cada bairro. CENTRO UNIVERSITÁRIO NOSSA SENHORA DO PATROCINIO 22 Referências https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas- probabilidade.htm https://mundoeducacao.bol.uol.com.br/matematica/probabilidade- condicional.htm https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3% A3o_de_probabilidades http://professorguru.com.br/estatistica/distribuicoes-de- probabilidade/distribuicoes--probabilidades-esperanca-.html http://www.portalaction.com.br/probabilidades/51-distribuicao-binomial https://www.somatematica.com.br/estat/basica/normal.php https://www.voitto.com.br/blog/artigo/distribuicao-normal https://www.significados.com.br/intervalo-de-confianca/ https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3% A3o_(Estat%C3%ADstica) https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de- variancia-anova/ https://www.somatematica.com.br/estat/ap24.php https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas-probabilidade.htm https://mundoeducacao.bol.uol.com.br/matematica/definicoes-basicas-probabilidade.htm https://mundoeducacao.bol.uol.com.br/matematica/probabilidade-condicional.htm https://mundoeducacao.bol.uol.com.br/matematica/probabilidade-condicional.htm https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3%A3o_de_probabilidades https://wikiciencias.casadasciencias.org/wiki/index.php/Distribui%C3%A7%C3%A3o_de_probabilidades http://professorguru.com.br/estatistica/distribuicoes-de-probabilidade/distribuicoes--probabilidades-esperanca-.html http://professorguru.com.br/estatistica/distribuicoes-de-probabilidade/distribuicoes--probabilidades-esperanca-.html http://www.portalaction.com.br/probabilidades/51-distribuicao-binomial https://www.somatematica.com.br/estat/basica/normal.php https://www.voitto.com.br/blog/artigo/distribuicao-normal https://www.significados.com.br/intervalo-de-confianca/ https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3%A3o_(Estat%C3%ADstica) https://wikiciencias.casadasciencias.org/wiki/index.php/Propor%C3%A7%C3%A3o_(Estat%C3%ADstica) https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_t_de_Student http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de-variancia-anova/ http://www.abgconsultoria.com.br/blog/como-interpretar-uma-analise-de-variancia-anova/ https://www.somatematica.com.br/estat/ap24.php
Compartilhar