Baixe o app para aproveitar ainda mais
Prévia do material em texto
Sandra-CET060-1 CET060 – MÉTODOS ESTATÍSTICOS 3ª UNIDADE – INTRODUÇÃO A INFERÊNCIA ESTATÍSTICA Revisado pelo monitor Gabriel Pereira da Conceição (2013.2) UNIVERSIDADE FEDERAL DO RECÔNCAVO DA BAHIA CETEC – CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS Sandra-CET060-2 I – Noções de amostragem O que é amostragem A amostragem é um campo da estatística bastante sofisticado que estuda técnicas de planejamento de pesquisa para possibilitar inferências sobre um universo a partir do estudo de uma pequena parte de seus componentes, uma amostra (subconjunto de uma população). Se a população em estudo for muito pequena, todos os indivíduos devem ser utilizados para a medição das características que se deseja conhecer sobre a mesma, nesse caso têm-se os valores dos parâmetros. Agora, se a população em estudo for grande, na maioria das vezes faz-se necessário retirar uma amostra representativa através das técnicas de amostragem. Esquemas amostrais Por esquema amostral entende-se a dupla: sorteio e métodos de estimação dos parâmetros, geralmente médias e totais, e de modo que se possam obter suas variâncias. Os principais esquemas amostrais são: amostragem aleatória simples, sistemática, estratificada e por conglomerados. Normalmente é usada uma combinação destes esquemas básicos. 1. Amostragem Aleatória Simples Neste tipo de amostra considera-se que cada componente da população estudada tem a mesma chance de ser escolhido para compor a amostra e a técnica que garante esta igual probabilidade é a seleção aleatória de indivíduos, por exemplo, através de sorteio. O sorteio dos elementos da amostra é feito geralmente de uma lista com todos os elementos da população, e pode-se usar a tabela de números aleatórios. Sandra-CET060-3 Exemplo de amostra aleatória simples 1) Selecionar uma amostra para avaliação de características do pimentão em estufas. 2) Selecionar uma amostra de camarão-vermelho para avaliar o comprimento total. A fórmula para estimar a proporção, usada é: )1()()1( )1()( 2 2/1 2 2 2/1 PPzNd NPPz n −+− − = − − α α Onde: P - é o estimador da proporção de elementos da população que possuem determinada característica de interesse; d - representa a precisão ou distância de P, em ambas as direções, do verdadeiro valor populacional P; z 1-α/2 – designa o percentil da distribuição gaussiana a que corresponde o nível de confiança 1-α; N – é a quantidade de elementos da população. Exemplo: Em um município existem 2000 domicílios. Para avaliar a proporção de domicílios que têm rede de esgoto deseja-se selecionar uma amostra com precisão de 3% e um nível de significância de 5%. Sabendo-se que a proporção de domicílios nesta região com rede de esgoto é de 35%, qual a amostra para este tipo de estudo? n = 654 A fórmula para estimar a média: 2 22 2/1 )( d z n σα− = Onde: σ 2 - é a variância da população que possuem determinada característica de interesse; Sandra-CET060-4 d - representa a precisão ou distância de X, em ambas as direções, do verdadeiro valor populacional µ; z 1-α/2 – designa o percentil da distribuição gausiana a que corresponde o nível de confiança 1-α. 2. Amostragem Aleatória Estratificada Na amostragem estratificada a população é dividida em estratos e em seguida é selecionada uma amostra aleatória de cada estrato. Esta estratégia geralmente é aplicada quando o evento estudado numa população tem características distintas para diferentes categorias que dividem esta população. Muitas vezes, deseja-se estimar os parâmetros de interesse relativos a subgrupos homogêneos da população, como por exemplo, peixes estocados em caixas de acordo com categorias de tamanho. O que se deseja na amostragem estratificada é obter estratos internamente homogêneos, de modo que as estimativas desses estratos sejam representativas dos mesmos. O fato dos estratos serem homogêneos significa que a variância interna é mínima e a variância entre os estratos é máxima. A amostragem estratificada faz com que ao se ponderar as estimativas vindas de cada estrato em uma estimativa global, a variabilidade final seja menor do que se fosse usada a amostragem aleatória simples. O dimensionamento das sub-amostras, ou alocação dos elementos, pode ser de maneira balanceada (mesmo número de elementos em cada estrato) ou proporcional (número de elementos no estrato é proporcional à sua contribuição no total populacional). A fórmula para obtenção do tamanho amostral total é: ∑ ∑ = − = − −+ − = L h hhh L h hhhh PPNzdN wPPNz n 1 2 2/1 22 1 22 2/1 )]1([ ]/)1([ α α onde: N é o número de elementos da população Sandra-CET060-5 L é o número total de estratos ( L = 1,2, ..., h) hP é a proporção de indivíduos no estrato h que possui a característica que se quer estudar NNw hh /= é a fração de observações alocadas no estrato h Nh é o número de elementos do estrato h d é a precisão, que é a distância em ambas as direções do verdadeiro valor populacional. 2/1 α−z é o percentil da distribuição normal que corresponde a nível de confiança 1 - α. Exemplo: Um estudo para avaliar proporção de domicílios com piso adequado foi realizado em zonas rurais de três municípios da Bahia. No município A existem 350 domicílios, no B existem 500 domicílios e no município C existem 1000 domicílios. A proporção de domicílios com piso adequado nestas regiões é de 10%, 15% e 20% respectivamente. Calcule uma amostra com precisão de 3% e nível de confiança de 5%. Municípios Nh wh Ph Nh Ph (1 - Ph) N2h Ph (1 - Ph)/ wh A 350 (350/1850)=0.19 0.10 31.5 58026.3 B 500 (500/1850)=0.27 0.15 63.8 118055.6 C 1000 (1000/1850)=0.54 0.20 160.0 296296.3 Total 1850 1.00 - 255.3 472378.2 Substituindo os valores encontrados na fórmula temos que n ≈ 447. Em cada município, por alocação proporcional, temos: nA= 85, nB= 121 e nC= 241 II. Noções de Inferência Estatística 2.1. Introdução O objetivo principal da inferência estatística é fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra. Na inferência estatística a incerteza está sempre presente. No entanto, se o experimento foi feito de acordo com certos princípios, essa incerteza pode ser medida. Uma função da estatística é fornecer um conjunto de técnicas para fazer inferências e medir o grau de incerteza destas inferências. Sandra-CET060-6 A incerteza é medida em termos de probabilidades. 2.2. Conceitos importantes População: é o conjunto de elementos que têm pelo menos uma característica comum observável. Amostra: é um subconjunto de elementos extraídos de uma população. Parâmetro: qualquer valor calculado com base em todos os elementos da população. Estimador: uma estatística destinada a estimar um parâmetro populacional. Estimativa: é o valor numérico do estimador com base nas observações amostrais. Símbolos mais comuns Estimador Parâmetro Média X µ Variância s2 2σ Proporções pˆ P 2.3. Erros amostrais e não amostrais O uso de um levantamento amostral introduz um tipo de erro, que pode se resumido na diferença entre o valor de certa característica na amostra e o parâmetro de interesse na população. Esta diferença pode ocorrer apenas devido à particular amostra selecionada, ou então devido a fatores externos ao plano amostral. Quando o erro é devido à amostraselecionada é chamado de erro amostral e quando é devido a fatores independentes do plano amostral (erros de medida, digitação, etc) é chamado de erro não amostral. Considera-se um erro amostral aquele desvio que aparece porque o pesquisador não levantou a população toda. Cada amostra possível de um plano acarreta em um desvio. Sandra-CET060-7 2.4. Distribuições Amostrais Diferentes amostras extraídas da população irão originar valores distintos para a estatística considerada. Por este motivo, dizemos que as estatísticas são variáveis aleatórias, já que seu valor não pode ser predito com certeza antes da amostra ter sido extraída. A distribuição de probabilidade de uma estatística quando consideramos todas as amostras possíveis de tamanho n é denominada de distribuição amostral. 2.4.1. Distribuição Amostral da Média A distribuição amostral das médias X , de amostras casuais simples de tamanho n, extraída de uma população que tem média µ e desvio padrão σ, tem as seguintes características: E( X ) = µ V( X ) = σ2/n Caso a população tenha distribuição Normal com média µ e desvio padrão σ, a distribuição amostral das médias X , é Normal com média µ e desvio padrão σ/ n . A distribuição amostral das médias X , de amostras casuais simples de tamanho n extraída de uma população não Normal, com média µ e desvio padrão σ, é aproximadamente normal com média µ e desvio padrão σ/ n , quando n é suficientemente grande. Este resultado é uma aplicação de um importante teorema de probabilidade, chamado Teorema Central do Limite. Para a utilização deste resultado, é usual considerar que o tamanho n da amostra é suficientemente grande quando n é superior a 30. Sandra-CET060-8 2.4.2. Distribuição Amostral da Proporção Considere que a proporção de elementos numa população com determinada característica é p. Defina como pˆ a proporção de elementos portadores da característica na amostra, isto é, X n X n i === ∑ 1n n S pˆ . Utilizando o Teorema Central do Limite, tem-se que a distribuição amostral de pˆ é aproximadamente − n p)p(1p,N , quando n é suficientemente grande. 2.5. Estimação Pontual O objetivo da estimação pontual é encontrar um valor numérico único que esteja bastante próximo do verdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo. ESTIMADORES PONTUAIS DOS PRINCIPAIS PARÂMETROS POPULACIONAIS Parâmetro Estimador Média (µ) ∑ = = n 1i iX n 1X Variância (σ2) ( )∑ = − − = n 1i 2 i 2 XX 1n 1 s Desvio padrão ( )∑ = − − = n 1i 2 i XX1n 1 s Proporção (p) n Xpˆ = onde X = número de elementos da amostra que possuem a Sandra-CET060-9 característica n = tamanho da amostra 2.6. Estimação Intervalar Procura determinar um intervalo que abranja o valor do parâmetro populacional, com certa margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo quando afirmamos que o intervalo encontrado abrange o verdadeiro valor do parâmetro. Grau de confiança é a probabilidade do intervalo de confiança conter o verdadeiro valor do parâmetro. É também chamado de nível de confiança e geralmente expresso em porcentagem. Suponha que o parâmetro de interesse é θ, desejamos obter um intervalo com limite inferior I e limite superior S tal que P(I < θ < S) = 1 - α, onde α (nível de significância) é um valor pequeno, ou seja 1-α é próximo de 1. Os limites deste intervalo são variáveis aleatórias pois dependem da amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1-αααα(××××100)% confiança para o parâmetro θ. A precisão com que se conhece θ depende da amplitude deste intervalo dada por S – I. Quanto menor esta amplitude melhor determinado estará o parâmetro. Para esclarecer o conceito de intervalo de confiança, suponha que desejamos um intervalo de confiança de 90% para estimar a média de uma população, uma pessoa pode retirar uma amostra que dê um intervalo entre 48,5 e 51,5. Por outro lado, uma segunda pessoa, baseada em outra amostra retirada da mesma população, calculou o intervalo entre 47,9 e 52,9, aparentemente gerando uma dúvida sobre qual dos intervalos contém o verdadeiro valor da média. Ocorre que se 100 desses intervalos fossem calculados a partir de 100 amostras diferentes, deve-se esperar que em torno de 90 desses intervalos contenham o valor da verdadeira média, embora não se saiba quais são estes intervalos, uma vez que a média é desconhecida. Sandra-CET060-10 Então, em intervalos de 95% confiança ⇒ o verdadeiro valor do parâmetro estará contido em aproximadamente 95% dos intervalos. Na prática trabalhamos em geral com apenas uma amostra e obtemos um único intervalo. Temos, portanto, 95% de confiança que este intervalo seja um dos que cobrem o verdadeiro valor do parâmetro. 2.6.1. Intervalo de Confiança para a Média de uma População A média é uma importante característica da população. Vejamos como obter intervalos de confiança para este parâmetro populacional. Temos que distinguir algumas situações que podem surgir na prática: 1. Amostras pequenas (n < 30) � População Normal � População não Normal 2. Amostras grandes (n ≥ 30) Para pequenas amostras os procedimentos estatísticos de inferência paramétrica exigem que se verifique a normalidade da população e outras distribuições de probabilidade (por exemplo a distribuição de Student) devem ser estudadas a fim de utilizar os procedimentos adequados. Além disso, se a normalidade não for aceitável, no caso de amostras pequenas, devemos utilizar procedimentos alternativos de inferência não paramétrica. Para amostras suficientemente grandes os procedimentos simplificam bastante e mesmo sem conhecermos a distribuição da população, as inferências podem ser feitas com base na distribuição Normal mesmo que a população não seja Normal. • Amostras pequenas 1) População Normal, 202 σσ = (conhecido) Sandra-CET060-11 Esta situação é um tanto quanto rara na prática, pois, embora a hipótese de normalidade seja razoável em muitos casos, dificilmente se conhece a variância de uma população quando sua média é desconhecida. Algumas vezes o conhecimento 2σ �pode provir de dados históricos sobre a população de interesse ou de resultados obtidos em estudos similares ao que está sendo realizado. Neste caso o Intervalo de Confiança de 1-α(×100)% para � µ é dado por: +− n zX n zX oo σσ αα 22 , Notação: chamaremos 2αz , o valor da Dist. N (0,1), tal que αααα −= <<−= < 1 222 zZzPzZP Ilustração do nível de confiança de 95% 0 0,95 0,0250,025 Distribuição Normal (0,1) -1,96 1,96 Exemplo: O volume de dejetos de suínos provoca um grande impacto ambiental, o desvio-padrão do volume de dejetos nos rios/córregos do Brasil é de 0,04 mil m3. Em uma amostra de 15 rios/córregos apresentou volume médio de dejetos de 0,12 mil m3. Encontre um intervalo com 90% de confiança para o volume médio de dejetos. Resp: [0,103; 0,137] mil m3 Sandra-CET060-12 1) População Normal, σσσσ 2 desconhecido Neste caso, precisamos usar o desvio padrão amostral (S) para estimar σ, e o intervalo de confiança ficará alterado pois, em lugar dos limites da Normal Padrão (za/2), utilizaremos os limites de uma outra distribuição chamada de distribuição de Student com n-1 graus de liberdade. A distribuiçãode Student é contínua e simétrica com média igual a zero. Sua aparência é bastante parecida com a distribuição Normal Padrão. A qualificação “com n-1 graus de liberdade” é necessária, porque para cada valor diferente do tamanho da amostra n existe uma distribuição de Student específica. O número de graus de liberdade (gl) é o parâmetro da distribuição de Student. Notação: ααα −= <<− −− 1 1, 2 1, 2 nn tTtP Assim como a distribuição Normal padrão a distribuição de Student também é tabelada. As tabelas fornecem valores de 2/αt �para vários graus de liberdade. Neste caso o Intervalo de Confiança para a média µ é dado por +− −− n s tX n s tX nn 1, 2 1, 2 ; αα Exemplo: Uma amostra de 10 bacias hidrográficas brasileiras apresentou vazão média de 5225 m3/s com desvio-padrão de 2850 m3/s. Encontre um intervalo com 97,5% de confiança para a vazão média das bacias hidrográficas brasileiras. Resp: [2682,6; 7767,4] • Amostras Grandes - População Normal ou não Normal Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuição da população, os limites do Intervalo de Confiança para a média (µ) poderão ser calculados com base Sandra-CET060-13 na distribuição Normal padrão. Da mesma forma podemos utilizar o desvio padrão amostral s no lugar de σ (desvio-padrão populacional). Neste caso o Intervalo de Confiança para a média µ é dado por: +− n s zX n s zX 22 ; αα 2.6.2. Intervalo de Confiança para uma Proporção Populacional Em muitas situações pode ser de interesse construir um intervalo de confiança para a proporção de elementos da população que possuem alguma característica de interesse (p). Seja X o no de elementos de uma amostra de tamanho n que apresenta a característica de interesse. Já vimos que um estimador de p é: n Xpˆ = Se o tamanho da amostra for suficientemente grande, é possível construir um intervalo de (1-α)×100% de confiança para p, baseado na distribuição Normal. O Intervalo de Confiança para a proporção populacional p é dado por: − + − − αα n )pˆ1(pˆ zpˆ; n )pˆ1(pˆ zpˆ 22 . Exemplo1: Uma amostra de 250 reservatórios apresentou 55 com qualidade de água imprópria para abastecimento público. Encontre um intervalo com 99% de confiança para a proporção de reservatório com qualidade inadequada da água. Resp: [0,15; 0,29] 2.7. Noções de Testes de Hipóteses Outro tipo de problema da Inferência Estatística é o de testar se uma conjectura sobre determinada característica de uma ou mais populações é, ou não, apoiada pela evidência obtida de dados amostrais. Sandra-CET060-14 Uma hipótese estatística é uma afirmação sobre uma população, frequentemente sobre algum parâmetro de uma população. Conjectura → hipótese estatística Regra de decisão → teste de hipóteses 2.7.1. Hipótese nula e hipótese alternativa Em geral devemos decidir entre duas hipóteses. Denominaremos essas hipóteses de H0 → hipótese nula (hipótese que será testada) H1 → hipótese alternativa (hipótese que será aceita caso a nula seja rejeitada) A decisão de rejeitar H0 é equivalente à opinião “H0 é falsa”. A decisão de aceitar H0 não é equivalente à opinião “H0 é verdadeira”. Neste caso a opinião adequada é a de que os dados não contêm evidência suficientemente forte contra H0. 2.7.2. Erro tipo I e Erro tipo II Qualquer que seja a decisão tomada em um teste de hipóteses, está sujeito a cometer erros, devido à presença da incerteza. Conclusão Situação da população do teste H0 verdadeira H0 falsa Não rejeitar H0 Correto Erro tipo II Rejeitar H0 Erro tipo I Correto Designaremos α�= P(Erro tipo I) e β�= P(Erro tipo II) É fundamental que, em cada caso, se saiba qual são os erros possíveis e que se decida a priori qual é o mais sério. Não é possível controlar ambos os erros ao mesmo tempo. Quando diminuímos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e vice-versa. Sandra-CET060-15 2.7.3. Nível de significância O valor de α �é fixado pelo pesquisador. Esta probabilidade recebe o nome de nível de significância do teste. Usualmente, esses valores são fixados em 5%, 1% ou 0,1%. Como a probabilidade do erro tipo I (α) é fixada, este deve ser o tipo de erro mais grave, assim podemos decidir qual será a hipótese nula. 2.7.4. Procedimento para se efetuar um teste de hipótese 1º - Enunciar as hipóteses; 2º - Fixar o limite de erro α e identificar a variável do teste; 3º - Determinar a região crítica em função da variável tabelada; 4º - Calcular o valor da variável do teste, obtido na amostra; 5º - Aceitar ou rejeitar a hipótese nula de acordo com a estimativa obtida no item 4º, em comparação com a região crítica estabelecida no 3º passo. 2.7.5. Alguns tipos de testes A) Testes de Hipóteses para Média Populacional (µ) A média de uma população é uma de suas características mais importantes e freqüentemente temos que tomar decisões a seu respeito. Vamos denotar um valor fixo qualquer por µ0. A estatística de teste é: Consideremos as diversas hipóteses que podem ocorrer num teste de hipóteses para médias: Hipóteses unilaterais� Η0) µ ≤ µ0 (ou µ = µ0) versus H1) µ > µ0 Η0) µ ≥ µ0 (ou µ = µ0 ) versus H1) µ < µ0 Sandra-CET060-16 Hipótese Bilateral Η0) µ = µ0 versus H1) µ ≠ µ0 • População Normal, σσσσ 2 conhecido Como vimos em Intervalo de Confiança quando a variância ou desvio-padrão populacional (σ) é conhecido utilizaremos a distribuição normal para encontrar a região crítica do teste ou calcular o p- valor. A estatística de teste é: n μx 0 σ − =calZ Exemplo: O volume médio de resíduos sólidos orgânicos depositados em minicomposteira de PVC cilíndrica é de 33,5 kg. Uma amostra de 30 minicomposteiras apresentou volume médio de resíduos sólidos orgânicos de 35,2 kg com desvio-padrão de 1,5 kg. Teste ao nível de 2% de significância a hipótese que o volume de resíduos que a minicomposteira comporta é superior. Η0) µ = 33,5 versus H1) µ > 33,5 21,6 30 5,1 5,332,35 = − =calZ Ztab = 2,05 Rejeitamos H0 ao nível de 2% de significância. • População Normal, σσσσ 2 desconhecido Neste caso, como vimos em Intervalo de Confiança precisamos usar o desvio-padrão amostral s para estimar σ, e utilizaremos a distribuição de Student para encontrar a região crítica do teste ou calcular o p-valor. A estatística de teste é: n s μx 0− =T Sandra-CET060-17 Exemplo: A capacidade média de gerar energia elétrica das principais hidrelétricas do Brasil é de 2720 MW. Uma amostra de 12 hidrelétricas apresentou capacidade média de gerar energia elétrica de 2150 MW com desvio-padrão de 850 MW. Teste a hipótese de que a capacidade média é diferente, ao nível de 5% de significância. 32,2 12 850 27202150 −= − =calT Ttab = 2,201 rejeitamos H0 B) Teste de hipóteses para proporções Usaremos este tipo de teste quando temos uma população e uma hipótese sobre a proporção de indivíduos portadores de certa característica. Para grandes amostras, se p é a proporção populacional e p0 um valor fixo, a estatística de teste é: Z = n qp ppˆ 00 0− Onde q0 = 1- p0. Hipóteses unilaterais: Η0) p ≤ p0 ( p =p0) versus H1) p > p0. Η0) p ≥ p0 (p=p0) versus H1) p < p0. Hipótese bilateral: Η0) p = p0 versus H1) p ≠ p0. Vamos considerar os seguintes testes: Exemplo: A proporção de nascidos vivos que sobrevivem até 60 anos é de 0,6 em uma determinada região. Em 1000 nascimentos amostrados aleatoriamente, verificou-se que 530 sobreviveram até 60 anos. Teste esta hipótese ao nível de 5% de significância. Sandra-CET060-18 Hipóteses a serem testadas H0) p = 0,60 vs H1) p ≠ 0,60 pˆ = 53,0 1000 530 = Como α= 5%, zα/2 = -1,96 e - zα/2 = -1,96 e 96,152,4 1000 40,060,0 60,053,0 n qp ppˆ 00 0 −<−≅ × − = − logo rejeitamos H0 ao nível de 5% e concluímos que há evidências de que a proporção de nascidos vivos que sobrevivem até 60 anos é diferente de 0,60. C) Teste para comparação de duas médias populacionais (com variâncias conhecidas) Hipóteses: Ho : µo= µ1 H1 : µo ≠ µ1 H1 : µo < µ1 H1 : µo > µ1 Quando as variâncias populacionais são conhecidas usamos a distribuição normal. A estatística de teste é dada por: ( ) ( ) 2 2 2 1 2 1 2121 nn XXZ σσ µµ + −−− = Exemplo: Um estudo comparativo do tempo de vida médio de indivíduos após ter sido detectado o vírus Y no organismo foi realizado entre homens e mulheres, para os quais temos as seguintes distribuições, N (3,2 ; 0,64) e N (3,7 ; 0,81). Desejamos saber se o tempo de vida médio de indivíduos com este tipo de doença é o mesmo entre homens e mulheres. Para isto, estudou-se uma amostra de 50 homens e 50 mulheres, obtendo-se um tempo médio 3,0 e 3,5 anos, respectivamente. α = 5%. Ho : µH= µM H1 : µH ≠ µM Sandra-CET060-19 ( ) ( ) 7116,2 034,0 5,0 2 2 2 1 2 1 2121 −= − = + −−− = nn XXZ σσ µµ Z tab = 1,96 Rejeitamos Ho ao nível de 5% de significância. D) Teste para comparação de duas médias populacionais (com variâncias desconhecidas) Quando as variâncias populacionais são desconhecidas temos que estimá-las. A estatística de teste é dada por: ( ) ( ) 21 2121 11 nn s XXT c + −−− = µµ Onde ( ) ( ) 2 11 21 2 22 2 112 −+ −+− = nn snsn sc Exemplo: Uma amostra de 5 usinas hidrelétricas da região A apresentou potência média de 4800 MW com desvio-padrão de 2150 MW. Outra amostra de 6 usinas da região B apresentou potência média de 3600 MW com desvio-padrão de 1600 MW. Teste, ao nível de 1% de significância se existe diferença entre a potência das usinas das duas regiões. Tcal = 1,01 Ttab = 3,25 Não rejeitamos H0 E) Teste para comparação de mais de duas médias Análise da variância (Diferença entre k médias) Vimos o processo para testar a hipótese de igualdade das médias de duas populações. Agora veremos um procedimento para testar a igualdade das médias de três ou mais populações, baseado na análise de variâncias amostrais. Ex1: verificar se há diferença na eficácia de três tipos de adubos; Ex2: se há diferença na quilometragem obtida com cinco tipos de gasolina. Sandra-CET060-20 Há três suposições básicas que devem ser satisfeitas para que se possa aplicar a análise de variância. 1. As amostras devem ser aleatórias e independentes. 2. As amostras devem ser extraídas de populações normais. 3. As populações devem ter variâncias iguais. A estatística de teste utilizada é a F ou razão de variâncias: sQM QMTratFcal Re= Onde : stratamentodosmédioquadrado k XxnQMTrat jj → − − = ∑ 1 )( 2 ( ) resíduosdosmédioquadrado kn xx sQM k j j k j n i jij j → − − = ∑ ∑∑ 2 Re Distribuição amostral da F 1 - α Graus de liberdade do numerador : k – 1 Graus de liberdade do denominador : (n – k) Rejeitamos H0 se Fcal > Ftab [(k-1);(n-k)] geralmédia n x X k j n i ij j →= ∑∑ jtratamentodomédia n x x j n i i j j →= ∑ Sandra-CET060-21 Exemplo- O resultado das vendas efetuadas por 3 vendedores durante certo período é dado a seguir. Deseja-se saber, ao nível de 5%, se há diferença de eficiência entre os vendedores. Vendedores A B D 29 27 12 27 27 10 31 30 09 29 28 4 32 29 29 30 26 18 333,15)( 667,29 2 =− = ∑ An i Ai A xx x 833,10)( 833,27 2 =− = ∑ Bn i Bi B xx x 343,385)( 667,13 2 =− = ∑ Bn i Di D xx x :0H 04321 ==== µµµµ diferemédiasdasumamenospeloH :1 ( ) 68,315;205,0 =F 056,460 1 )( 2 = − − = ∑ k XxnQMTrat jj ( ) 434,27Re 2 = − − = ∑ ∑∑ k j j k j n i jij kn xx sQM j 77,16 Re == sQM QMTratFcal Ftab = 3,68 Rejeitamos H0 porque Fcal > Ftab [2;15]. O que significa que pelo menos uma das médias difere significantemente das outras. 722,23== ∑∑ n x X k j n i ij j Sandra-CET060-22 2.8. Ajustamento estatístico O objetivo do ajustamento estatístico é ajustar uma função matemática às observações de algum fenômeno. Ajustar modelos matemáticos a fenômenos reais é uma das etapas para o estudo de séries temporais e de regressão linear. Entretanto, devemos ter mente que ao tentarmos explicar a realidade através de uma função matemática estamos idealizando um fenômeno, portanto para analisá-lo é necessário que tenhamos claras as limitações do modelo e se este é o mais adequado para explicar o que se quer conhecer. Seja )(XfY = o modelo matemático que queremos encontrar para explicar a relação funcional entre as duas variáveis Y e X. 1. O Método dos Mínimos Quadrados Existem várias maneiras de encontrarmos a função matemática que exprime a relação funcional entre duas variáveis. Aqui veremos apenas uma noção sobre o método chamado de mínimos quadrados. Este método consiste em minimizar a soma dos quadrados dos desvios (ou diferenças) entre o valor observado da variável Y e seu valor estimado pela função matemática. Vejamos graficamente o que o método significa. Seja )(XfY = , por exemplo, uma função linear Y = a + b.X e seja uma observação i qualquer da variável Y: Yi = valor observado dessa variável; e iYˆ = valor estimado dessa variável Sandra-CET060-23 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Va riá ve l Y Variável X Y^= a + b.x Y3 Y^3 Y3 - Y 3^ = = desvio Podemos escrever o desvio, para uma particular observação i, como Desvio i = ii YY ˆ− e a função linear para a mesma observação i como ii XbaY .ˆ += . Assim, podemos expressar matematicamente a soma mínima dos desvios ao quadrado para os valores observados e os valores estimados pela função da variável Y como a seguir, sendo S essa soma: ( ) mínimaYYS n i ii =−=∑ = 2 1 ˆ 2. Ajustamento de Alguns Modelos pelo Método dos Mínimos Quadrados 2.1. A função linear Dados n pares de valores de duas variáveis, Xi, Yi (i = 1,2, ..., n), se admitirmos que Y é função linear de X, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é: Yi = α + βXi + ei onde: α : é o coeficiente linear da reta, também conhecido como termo constante da equação de regressão;β : é o coeficiente angular da reta, também denominado coeficiente de regressão. Sandra-CET060-24 Pressupostos do modelo de regressão linear simples: I) A relação entre X e Y é linear II) Os valores de X são fixos, isto é, X não é uma variável aleatória III) A média do erro é nula, isto é, E(ei ) = 0 IV) A variância do erro é sempre σ2 V) O erro de uma observação é não correlacionado com o erro em outra observação, isto é, E(ei, ej) = 0, ∀ i ≠ j VI) Os erros têm distribuição normal , ei ~N (0, σ2). Se )(XfY = é uma função linear Y = a + b.X, a soma S dada anteriormente pode ser expressa, substituindo o valor estimado da observação Yi pela sua expressão linear: ( ) [ ] [ ]∑∑∑ === −−=+−=−= n i ii n i ii n i ii XbaYXbaYYYS 1 2 1 2 2 1 .).(ˆ No último membro da expressão, as observações relativas às variáveis X e Y são conhecidas. Para encontrarmos essa soma precisamos determinar os parâmetros a e b da função linear sob a hipótese de soma mínima. Para que a soma S seja mínima duas condições têm que ser satisfeitas: i) A derivada primeira de S ser igual a zero - mas como S depende de a e b então devemos derivá-la em relação a esses dois parâmetros e impor que essas derivadas sejam iguais a zero, isto é, 0= ∂ ∂ a S e 0= ∂ ∂ b S . Temos: 0).(2)1).(.(.2∑ ∑ =−−−=−−−=∂ ∂ iiii XbaYXbaY a S [ ] 0).(.2)).(.(.2∑ ∑ =−−−=−−−=∂ ∂ iiiiii XbaYXXXbaYb S Com as derivadas acima igualadas a zero chegamos a um sistema de duas equações com duas incógnitas, sendo, portanto, o sistema possível e determinado. Temos: [ ] =−−− =−−− ∑ ∑ i iii i i i XbaYX XbaY (II) 0).(.2 (I) 0).(.2 Sandra-CET060-25 ii) A derivada segunda de S ser maior do que zero, para os dois parâmetros da função linear. Temos, então: 02)1(.2 1 2 2 >=−−= ∂ ∂ ∑ = n a S n i ( ) in i i n i i XXX b S seja quequalquer para 02.2 1 2 1 2 2 2 >=−−= ∂ ∂ ∑∑ == Com estes resultados vimos que igualando as derivadas primeiras a zero encontraremos os valores dos parâmetros a e b que minimizam a soma S. Arrumando as equações (I) e (II) chegamos ao sistema de equações conhecido como as Equações Normais para a determinação dos parâmetros da função linear pelo método dos mínimos quadrados: += += ∑ ∑∑ ∑∑ i i i i iii i i i i XbXaYX XbanY (IV) .. (III) .. 2 Para encontrarmos o valor do parâmetro a, dividimos a equação (III) por n e sua expressão matemática é dada por (V) . . XbYaXbaY −=⇒+= onde YX e representam, respectivamente, as médias aritméticas de X e Y. Substituindo (V) em (IV), encontramos a expressão para o parâmetro b: n X X n YX YX b i i i i i i i i i ii 2 2 . − − = ∑ ∑ ∑ ∑∑ O denominador da expressão acima corresponde à soma do quadrado dos desvios para a variável X, isto é, ( )∑ − i i XX 2 que chamaremos de SXX, e o numerador à soma do produto dos desvios de X e Y, ou seja, ( )( ) XY i ii SYYXX =−−∑ . Assim b pode ser expresso por XX XY S Sb = . Sandra-CET060-26 Resumindo, para determinarmos a função linear que minimiza as diferenças entre os valores observados de Y e seus valores estimados por essa função: • A função linear: XbaY .ˆ += • O parâmetro a: XbYa . −= • O parâmetro b: XX XY S Sb = Observações: a) A reta de mínimos quadrados passa pelo ponto ( )YX ; . b) Se o coeficiente angular da reta b = 0 indica que Y não depende de X, ou seja, não existe uma relação linear entre as duas variáveis. c) Se mudarmos a origem da variável X para a sua média X , o sistema de equações reduz-se, tornando mais simples os cálculos (isto é útil quando não for possível elaborar o ajustamento eletronicamente). Fazendo 0 i '' =⇒−= ∑ iii xXXx , a última expressão indica que a soma dos desvios da variável X em relação a sua média aritmética é igual a zero e a expressão para o cálculo dos parâmetros da função linear ficam reduzidos a Ya = e ∑ ∑ = i i i ii x Yx b 2' ' . . Exemplo: A tabela a seguir discrimina a produção agrícola anual e a correspondente área plantada para os estabelecimentos agrícolas do município W que produzem feijão. Calcular os parâmetros da função linear que expressa a relação funcional entre as duas variáveis observadas; Produção (em mil toneladas) 59 65 76 74 68 98 85 Área plantada (em hectares) 64 82 85 62 50 109 78 Resolução: Sandra-CET060-27 Se admitirmos que a produção Y depende da área plantada X, ou seja, X é a variável independente e Y a variável dependente, e se vamos exprimir essa relação por uma função linear, podemos escrever que )(XfY = ⇒ XbaY .ˆ += Observação Produção Y Área X XY X2 1 59 64 3776 4096 2 65 82 5330 6724 3 76 85 6460 7225 4 74 62 4588 3844 5 68 50 3400 2500 6 98 109 10682 11881 7 85 78 6630 6084 Total 525 530 40866 42354 501,0 7 53042354 7 52553040866 2 = − × − == XX XY S Sb 07,37 7 530501,0 7 525 . =−=−= XbYa O modelo linear que exprime a relação entre a produção de feijão e a área plantada no município W é dada por XY .501,007,37ˆ += . 1101009080706050 100 90 80 70 60 Área plantada (em ha) Pr od uç ão (em t) Legenda observada Produção estimada Produção Y Y^ 2.2. Função geométrica ou potência Sandra-CET060-28 Seja Y = f(X) uma função geométrica ou potência da forma bXaY .= . Conhecendo os valores dos parâmetros a e b a função está perfeitamente definida. Para encontrarmos os parâmetros pelo método dos mínimos quadrados basta fazermos uma transformação logarítmica nas observações, com a seguir: XbaXaYXaY bb log.log).log(log . +==⇒= Fazendo log Y = y; log a = A e log X = x, podemos escrever a função geométrica da seguinte forma y = A + b.x, ou seja, na forma da função linear. Os valores dos parâmetros A e b são determinados pelas equações normais da função linear e, a seguir, para encontrarmos o valor do parâmetro a da função geométrica basta calcularmos o antilogarítmo de A. Exemplos gráficos de uma função geométrica 0 0 Variável X Y = f(X ) Função geométrica Parâmetro b > 1 0 Variável X Y = f(X ) Função geométrica Parâmetro 0 < b < 1 Exemplo: Com os dados da tabela abaixo determinar a equação de regressão XY βα= e o poder explicativo. MESES VENDAS GASTOS COM PROPAGANDA J 20 2 F 28 4 M 35 6 A 48 8 M 54 10 J 58 12 Sandra-CET060-29 J 60 14 A 61 16 S 60 18 O 62 20 Total 486 110 ∑ == 03588,22ln Xx , ∑ == 23061,38lnYy , xy = 86,7919 x2 = 53,39394 , y2 = 147,56372 b = 0,5268 ln a = 2,66221 exp (ln a) = 14,3279 5268,032279,14 XY = ) 2.3. Função exponencial Seja é uma função exponencial da forma . XbaY = . A função está perfeitamente definida quando são conhecidos os parâmetros a e b. Para encontrarmos os parâmetros pelo método dos mínimos quadrados podemos, também, fazermos uma transformação logarítmica nas observações, com a seguir: bXabaYbaYXX log.log).log(log . +==⇒= Fazendo log Y = y; log a = A e log b = B, podemos escrever a função exponencial na forma linear y = A + B.X. Para acharmos os valores dos parâmetros a e b da função exponencial basta calcularmos seus antilogarítmos. Exemplos gráficos de uma funções exponenciais Sandra-CET060-30 0 0 Variável X Y = f(X ) Função exponencial Parâmetro b >1 0 0.00 Varável X Y = f(X ) Função exponencial Parâmetro 0 < b < 1 Exemplo: A tabela a seguir reflete a evolução do índice de preços no Brasil, no período de 1958 a 1967. ANOS I.G.P. 1958 229 1959 316 1960 407 1961 559 1962 848 1963 1473 1964 2811 1965 4416 1966 6125 1967 7946 Ajustar uma função potência aos dados. βα XY = 09427,31ln == Yy 3852 =X , 21663,186=Xy , 52273,992 =y ln b = 0,18422 , ln a = 2,09622 a = exp (ln a) = 8,1354 , b = exp (ln b) = 1,2023 XY )2023,1(1354,8=) II. Análise de Correlação Linear Simples O coeficiente de correlação (r) mede a quantidade de dispersão em torno da equação linear ajustada através do método dos mínimos quadrados, ou o grau de relação das variáveis na amostra. Sandra-CET060-31 Em geral, a letra r é usada para representar este coeficiente. Valores de r variam de –1.0 a +1.0. Um r próximo a +1 corresponde a um diagrama de dispersão em que os pontos caem em torno de linha reta com inclinação positiva, e um r próximo a –1 corresponde a um diagrama em que os pontos caem em torno de uma linha reta com inclinação negativa. Um r próximo a 0 corresponde a um conjunto de pontos que não mostram nenhuma tendência, nem crescente, nem decrescente. O coeficiente de correlação, também chamado de Coeficiente de Correlação de Pearson, é calculado por: − − − = ∑∑∑∑ ∑∑∑ ==== === 2 n 1i i n 1i 2 i 2 n 1i i n 1i 2 i n 1i i n 1i i n 1i ii yyxx yxyx r nn n onde xi e yi são os valores observados de X e Y, respectivamente; i=1,2,...,n e n é o número de observações para cada variável. yx e são as médias de X e Y respectivamente. Exemplo : Os somatórios abaixo são referentes as 35 medidas da tensão na rede elétrica (Volts) e variação no corte das Gavetas(mm) de legumes do refrigerador produzido pela indústria. Calcular o coeficiente de correlação linear para os dados. Dados para o Cálculo do Coeficiente de Correlação para o exemplo 1 i=1,...35 Σ x Σ y Σ x2 Σ y2 Σ xy Total 7657,6 595,3 1675792 10178,11 130103,4 ( ) ( ) ( ) − − = 22 3,595 35 111,101786,7657 35 1 -1675792 595,3x 6,7657 35 14,130103 r = -0,9764 Sandra-CET060-32 Bibliografia Hoffmann, R. & Vieira, S., Análise de Regressão – Uma Introdução à Econometria Magalhães, M.N. & Lima, A.C.P. , Noções de Probabilidade e Estatística Silva, G & Castro, R. Material de aula de Mat025(UFBA) Spiegel, M.R., Probabilidade e Estatística Terezinha, L., Material de aula de Mat193(UFBA) III LISTA DE EXERCÍCIOS 1) Obter limites de confiança de 90% para o número de reclamações de acidentes que serão pagos por uma seguradora durante o próximo ano, se a experiência deste ano mostrou que houve 7% de tais reclamações, e a seguradora tem 7 000 apólices. Resp: [ 455 ; 525 ] 2) Uma amostra de 10 pés de milho de uma lavoura apresentou altura média de 215cm com desvio- padrão de 12cm. Encontre um intervalo com 90% de confiança para a altura média dos pés de milho dessa lavoura. Resp: [208,04 ; 221,96] 3) O peso médio de macacos-aranha da Amazônia é de 31kg. Uma amostra de 30 macacos apresentou peso médio de 28kg com desvio-padrão de 1,5kg. a)Teste, ao nível de 5% de significância, a hipótese que o peso dos macacos continua o mesmo. Sandra-CET060-33 b)Teste, ao nível de 1% de significância, a hipótese que o peso dos macacos é superior. Resp: Tcal-10,95 4) O desvio-padrão dos pesos dos bezerros da fazenda A é de 2,3kg e da fazenda B é de 2,8kg. Uma amostra de 15 bezerros da fazenda A apresentou peso médio de 59,5kg, e uma amostra de 20 bezerros da fazenda B apresentou peso médio de 61,3kg. Teste ao nível de 5% a hipótese que os pesos dos bezerros nas duas fazendas são iguais. Resp: -2,086 O nível de confiança da hipótese nula é aceita. 5) Para os tempos de reação de 20 motoristas, encontrou-se uma média de 0,83 segundos e um desvio- padrão de 0,20 segundos. Determine um intervalo de 95% de confiança para o tempo médio de reação de todos os motoristas. Resp:[0,74; 0,92] 6) O tempo médio de reação de motoristas é de 0,83 segundos com um desvio-padrão de 0,20 segundos. Para avaliar se este tempo de reação diminuiu uma amostra de 30 motoristas apresentou tempo médio de reação de 0,78 segundos. Teste a hipótese ao nível de 2% de significância. Resp:-1,369 7) Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI médio foi 108.08, e o desvio padrão foi 14.38. Calcule um intervalo de confiança de 95% para o QI médio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados. Resp:[105,98; 110,17] 8) Medidas do batimento cardíaco de uma amostra de 10 estudantes do sexo masculino indicaram média 7,68 e desvio padrão 8,67 batidas/minuto. Queremos estimar um intervalo de 95% de confiança para a média populacional. Resp:[1,48; 13,88] 9) Duas máquinas A e B são usadas para empacotar pó de café e ambas empacotam com um desvio- padrão de 10 g. Porém suspeita-se que elas tem médias diferentes e para verificar isto uma amostra com 20 pacotes da máquina A forneceu uma média de 502,74 g e uma amostra de 15 pacotes da máquina B forneceu uma média de 490,60 g. Teste a hipótese ao nível de 4% de significância. Resp: 3,55 Rejeita Ho 10) Estamos desconfiados de que a média das receitas municipais per capta das cidades pequenas (até 20000 habitantes) é maior do que a das receitas do estado que é de 1229 unidades. Para comprovar ou não esta hipótese foram sorteadas dez pequenas cidades com as seguintes receitas: 1230; 682; 576; 2093; 2621; 1045; 1439; 717; 1838; 1359. Resp: Tcal = 0,62 Aceita Ho 11) Para avaliar diversas características físicas e comportamentais de ursos polares amostras de 15 ursos machos e 10 fêmeas foram obtidas. Alguns pesquisadores acreditam que os macho são mais Sandra-CET060-34 pesados que as fêmeas. Os pesos médios obtidas das amostras foram 214 kg (desvio=12) e 145 (desvio=10) para machos e fêmeas, respectivamente. Teste a hipótese ao nível de 10% de significância. Resp: Tcal = 1,714, Rejeita Ho 12) O governo alega que no máximo 15% das famílias de certa área recebem renda inferior ao nível considerado como de pobreza. Numa amostra aleatória de 60 famílias, encontraram-se 12 em tais condições. Será que esse percentual aumentou? (Use α = 10%). Resp : Aceita Ho z cal = 1,0846 13) Um senador afirma que no máximo 20% dos eleitores de seu estado são favoráveis a um projeto em estudo pelo governo. Numa amostra aleatória de 100 eleitores, 11 são favoráveis ao projeto. Teste a afirmação do senador ao nível de 1%. z cal = -2,25 Aceita Ho 14) Um experimento é realizado para determinar a deficiência de solo, resultante de diferentes quantidades de resíduos decascalho deixado depois do corte de árvores numa floresta. Os tratamentos usados foram: nenhum resíduo; 2000 unidades de volume de cascalho; 3000 unidades de volume de cascalho. Teste ao nível de 5% de significância se há diferença entre os tratamentos. Tratamento 1: 52,1 38,1 29,1 48,1 63,1 Tratamento 2: 63,1 82,1 35,1 03,1 30,2 45,1 Tratamento 3: 56,2 32,3 76,2 63,2 12,2 78,2 Resp: Rejeita Ho F cal = 20,84 15) Os dados abaixo são referentes a eficiência de três tipos de detergentes. Teste, ao nível de 95% de significância, se há diferença entre os detergentes. Det A 77 81 71 76 80 Det B 72 58 74 66 70 Det C 76 85 82 80 77 Resp: Fcal = 8,48 , rejeitamos Ho ao nível de 5%. 16) Verifique, ao nível de 5% de significância, se existe diferença entre o ganho médio de peso(g) dos tipos de bagres relacionados abaixo. Americano 95 89 92 95 96 92 Jundiá albino 95 94 95 98 97 - Jundiá cinza 92 95 93 94 89 96 Resp: não rejeita Ho ao nível de 5%. Fcal= 2,214 17) A tabela a seguir discrimina a produção agrícola anual e a correspondente área plantada para os estabelecimentos agrícolas do município W que produzem feijão. Calcular os parâmetros da função Sandra-CET060-35 linear que expressa a relação funcional entre as duas variáveis observadas e determine o coeficiente de explicação. Teste a hipótese de que a variável independente influencia realmente a variável dependente, ao nível de 5% de significância. Produção (em mil toneladas) 59 65 76 74 68 98 85 Área plantada(em hectares) 64 82 85 62 50 109 78 Resp: b = 0,501 ; a = 37,03 ; R2 = 54% 18) Determine uma equação linear para os dados abaixo e o coeficiente de determinação: Renda anual (US$ 1000) 20 25 26 18 16 17 32 13 38 40 42 Montante de seguro 10 12 15 10 15 20 30 5 40 50 40 Resp: a = -12,01 ; b = 1,32 ; R2 = 83,15% 19) Exemplo : Dez alunos foram submetidos a um teste de matemática e um de estatística, obtendo as seguintes notas : Alunos A B C D E F G H I J Matemática 6 5 9 10 3 4 8 7 6 2 Estatística 7 6 10 9 2 3 9 5 6 3 Determine o coeficiente de correlação entre as notas das duas matérias. Resp: r = 0,91 ( forte relação positiva entre as notas de estatística e as de matemática) 20) Para os dados da questão 1 (produção agrícola) ajuste uma função potência . Resp: b = 0,4442 ; ln a = 1,04014 21) Considere a amostra de 10 pares de valores: Var. Indep. -2 -2 -1 -1 0 0 1 1 2 2 Var. Dep. 0 0 2 3 4 4 5 6 8 8 Admitindo que as variáveis estão relacionada segundo um modelo linear: a) determine as estimativas dos parâmetros da regressão linear; b) Teste a hipótese de que o coeficiente de inclinação é diferente de zero, ao nível de 1%. c)Calcule o coeficiente de terminação. Resp: a) a = 4; b = 1,9 - b) Fcal = 320,89 (rejeita Ho) - c) R2 = 97,6% 22) Admitindo que as variáveis abaixo estão relacionadas conforme uma função potência, determine o modelo com base nos dados. Var. Dep. 1 10 1000 1000 100 1000 Sandra-CET060-36 Var. Indep. 1 1 100 100 10000 10000 Resp: b = 0,5 ; ln a = 2,303 23) Seja Y uma grandeza econômica qualquer e seja X o tempo, em anos consecutivos. Determine uma função exponencial para essas variáveis sabendo que X começa da origem e que Y assume os valores 4, 4, 32, 64, e 32. Faça a análise de variância da regressão. Resp: ln a = 2,773 ; ln b = 0,693; Fcal = 7,5 24) O quadro abaixo relaciona os preços médios das ações e títulos divulgados pela bolsa de Nova York em 10 anos consecutivos. a) Determine o coeficiente de correlação para os dados. b) Teste a hipótese de que o coeficiente de correlação é diferente de zero, ao nível de 1%. Preço médio da ações 35,22 39,87 41,85 43,23 40,06 53,29 54,14 49,12 40,71 55,15 Preço médio de títulos 102,43 100,93 97,43 97,81 98,32 100,07 97,08 91,59 94,85 94,65 Resp: r = -0,4614 25)Ajuste um modelo exponencial para os dados abaixo. Var. independente 10 12 14 16 18 Var. dependente 2,0 8,2 31,0 130,0 510,0 A = 1,98 b=0,69 26) Encontre o coeficiente de determinação para o modelo da questão 9, e o coeficientes de determinação para uma função potência (com os mesmos dados), e compare os resultados. Qual a sua conclusão?. Sandra-CET060-37 P(0 ≤ Z ≤ zc) UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA DISCIPLINA: EST0034 - PROBABILIDADE III TABELA - Distribuição Normal Padrão Z~N(0,1) zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 *0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 *0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,10 ou + 0,4999 * Use esses valores comuns resultantes de interpolação: Escore z Área 1,645 0,4500 2,575 0,4950 Sandra-CET060-38 Sandra-CET060-39 Distribuiçãode Fisher α=0,05 graus de liberdade do numerador ϕ1 ϕ2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 24 30 40 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,4 245,9 246,5 247,3 248,0 249,1 250,1 251,1 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,42 19,43 19,43 19,44 19,45 19,45 19,46 19,47 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,72 8,70 8,69 8,67 8,66 8,64 8,62 8,59 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,87 5,86 5,84 5,82 5,80 5,77 5,75 5,72 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,64 4,62 4,60 4,58 4,56 4,53 4,50 4,46 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,96 3,94 3,92 3,90 3,87 3,84 3,81 3,77 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,53 3,51 3,49 3,47 3,44 3,41 3,38 3,34 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,24 3,22 3,20 3,17 3,15 3,12 3,08 3,04 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,03 3,01 2,99 2,96 2,94 2,90 2,86 2,83 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,87 2,85 2,83 2,80 2,77 2,74 2,70 2,66 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,74 2,72 2,70 2,67 2,65 2,61 2,57 2,53 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,64 2,62 2,60 2,57 2,54 2,51 2,47 2,43 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,55 2,53 2,52 2,48 2,46 2,42 2,38 2,34 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,48 2,46 2,44 2,41 2,39 2,35 2,31 2,27 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,42 2,40 2,39 2,35 2,33 2,29 2,25 2,20 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,37 2,35 2,33 2,30 2,28 2,24 2,19 2,15 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,34 2,31 2,29 2,26 2,23 2,19 2,15 2,10 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,29 2,27 2,25 2,22 2,19 2,15 2,11 2,06 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,26 2,23 2,22 2,18 2,16 2,11 2,07 2,03 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,22 2,20 2,18 2,15 2,12 2,08 2,04 1,99 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,20 2,18 2,16 2,12 2,10 2,05 2,01 1,96 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,17 2,15 2,13 2,10 2,07 2,03 1,98 1,94 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,15 2,13 2,11 2,08 2,05 2,01 1,96 1,91 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,13 2,11 2,09 2,05 2,03 1,98 1,94 1,89 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,11 2,09 2,07 2,04 2,01 1,96 1,92 1,87 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,09 2,07 2,05 2,02 1,99 1,95 1,90 1,85 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,08 2,06 2,04 2,00 1,97 1,93 1,88 1,84 28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,06 2,04 2,02 1,99 1,96 1,91 1,87 1,82 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,05 2,03 2,01 1,97 1,94 1,90 1,85 1,81 G r a u s d e l i b e r d a d e p a r a o d e n o m i n a d o r 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,04 2,01 1,99 1,96 1,93 1,89 1,84 1,79 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,95 1,92 1,90 1,87 1,84 1,79 1,74 1,69 Sandra-CET060-40
Compartilhar