Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Inferencial Organização: Professor Paulo R. A. Nacaratti Mestre em Engenharia de Sistemas e Computação (UFRJ) Especialista em Estatística (UFLA) Bacharel em Matemática (UFF) Belo Horizonte Sumário 5. Probabilidade. ............................................................................................................................. 1 5.1. Definições. ............................................................................................................................ 1 5.2. Abordagens da Probabilidade. ........................................................................................... 2 5.2.1. Aproximação da Probabilidade por Frequência Relativa. ............................................. 2 5.2.2. Abordagem Clássica da Probabilidade........................................................................... 2 5.2.3. Probabilidades Subjetivas. ............................................................................................... 3 5.3. Regra da Adição. ................................................................................................................. 4 5.4. Eventos Complementares. .................................................................................................. 5 5.5. Regra da Multiplicação. ....................................................................................................... 6 5.6. Teorema de Bayes............................................................................................................... 8 6. Distribuições de Probabilidade. ................................................................................................. 9 6.1. Distribuição de probabilidades............................................................................................ 9 6.2. Média, Variância e Desvio Padrão. .................................................................................... 9 6.3. Distribuição de Probabilidade Binomial. ...........................................................................10 6.3.1. Média, Variância e Desvio padrão. ................................................................................11 6.4. Distribuição de Probabilidade de Poisson. .......................................................................11 6.4.1. Parâmetros da Distribuição de Poisson.........................................................................12 Exercícios .......................................................................................................................................13 7. Distribuição de Probabilidade Normal ......................................................................................16 7.1. Características da distribuição normal (Vieira, 2008). .....................................................18 7.2. Distribuição Normal Padrão ...............................................................................................18 7.3. Curva de Densidade ...........................................................................................................18 7.4. Determinação de valores de probabilidades ....................................................................19 7.5. Exercícios de fixação ..........................................................................................................19 8. Teste de Hipótese ......................................................................................................................20 8.1. Regra do Evento Raro para Inferência Estatística ...........................................................20 8.2. Componentes de um Teste de Hipótese. .........................................................................21 8.3. Teste bilateral e unilateral ..................................................................................................23 8.4. Métodos de teste. ...............................................................................................................25 8.4.1. Método Tradicional ou Clássico. ................................................................................25 8.4.2. Método do Valor P. ......................................................................................................25 8.4.3. Intervalo de Confiança. ...............................................................................................25 8.5. Inferência a partir de uma amostra. ..................................................................................26 8.5.1. Teste de uma afirmação sobre a média de uma população. ...................................26 8.5.2. Teste de uma afirmação sobre uma Proporção Populacional p. .............................30 Exercícios. ......................................................................................................................................32 Tabelas ...........................................................................................................................................44 9. Correlação Linear. .....................................................................................................................46 9.1. Propriedades do Coeficiente de Correlação. ...................................................................49 9.2. Tipos de Correlação. ..........................................................................................................50 Exercícios. ......................................................................................................................................50 10. Regressão Linear.....................................................................................................................54 Exercícios .......................................................................................................................................57 Referências .....................................................................................................................................62 Estatística Inferencial - 1 5. Probabilidade. O estudo das probabilidades lida com experimentos que produzem resultados, como por exemplo, jogar um dado, jogar uma moeda ou responder a um teste de questões de múltipla escolha (Triola, 2008). 5.1. Definições. Conforme Silva (1999) denomina-se experimento ao fenômeno que se tem interesse em observar, e cada realização dele é uma experiência. O experimento aleatório é um experimento que pode gerar diferentes resultados, mesmo repetido sob as mesmas condições em qualquer ocasião. Assim, um experimento aleatório é “qualquer processo de observação que pode ser repetido à vontade em condições análogas, com a condição de que o resultado não possa ser previsto antes de cada uma de suas repetições” (Silva, 1999). Um espaço amostral, representado pela letra S, é o conjunto de todos os resultados possíveis de um experimento. Evento simples é um elemento do espaço amostral de um experimento aleatório. Evento composto envolve vários resultados de um experimento aleatório. Eventos mutuamente excludentes são aqueles em que a ocorrência de um evento impede a ocorrência de outro. Não podem ocorrer ao mesmo tempo. O Complemento de um evento A, representado por A consiste nos resultados do espaço amostral que não fazem parte do evento A. Eventos independentes são aqueles em que a ocorrência de um deles não tem influência na ocorrência do outro Exemplo: Considere o seguinte experimento: lançar um dado uma vez e observe o número que aparece na face voltada para cima. O espaço amostral S será formado pelos seis números possíveis. S = {1, 2, 3, 4, 5, 6} Seja A o evento “ocorrer um número par”, então A = {2, 4, 6}. Seja B o evento “ocorrer um número ímpar”, então B = {1, 3, 5}. Observe que A e B são eventos mutuamente excludentes. Estatística Inferencial - 2 Seja C o evento “ocorrer número primo”, então C = {2, 3, 5}. Ocomplemento de C pode ser definido como “não ocorrer número primo” e representa-se por 6,4,1C Também se diz que esses eventos são complementares. Os eventos A e B também são independentes, pois a ocorrência de um deles não influencia a ocorrência do outro. Os eventos compostos serão estudados mais adiante. O cálculo das probabilidades determina um valor numérico que indica a possibilidade de ocorrência de determinado acontecimento e assim facilitar a tomada de decisão relacionada a esse acontecimento. Na prática não interessa o estudo de todo o espaço amostral S, mas apenas de um elemento ou de um subconjunto de elementos de S (Silva, 1999). 5.2. Abordagens da Probabilidade. Notação para probabilidades: se A é um evento de um espaço amostral S, então P(A) representa a probabilidade de ocorrência de A. Segundo Triola (2008) há diferentes maneiras de se definir a probabilidade de um evento e apresenta três abordagens: aproximação por frequência relativa, abordagem clássica e probabilidade subjetiva. 5.2.1. Aproximação da Probabilidade por Frequência Relativa. Observe um experimento e conte o número de vezes que o evento A ocorre. A estimativa de P(A) é calculada por: reptido foi oexperiment o que vezes de número Aocorreu que vezes de número )(AP Exemplo: Suponha que se deseja calcular a probabilidade de se jogar uma tachinha e ela cair de ponta para cima. Deve-se repetir o procedimento de jogar a tachinha muitas vezes e achar a razão definida acima. 5.2.2. Abordagem Clássica da Probabilidade. Esta abordagem requer resultados igualmente prováveis. Estatística Inferencial - 3 Suponha um determinado experimento com n diferentes eventos simples e que cada um desses eventos tenha igual chance de ocorrer. Se o evento A pode ocorrer em s dessas n maneiras, então P(A) é calculada por: n s AP simples eventos diferentes de número ocorrer pode A que em maneiras de número )( Exemplo: Suponha que se deseja calcular a probabilidade de sair o número 5, P(5), ao se jogar um dado balanceado. 5.2.3. Probabilidades Subjetivas. A estimativa da probabilidade de ocorrência de um evento A é calculada com base no conhecimento de circunstâncias relevantes. Exemplo: Os meteorologistas usam seus conhecimentos de especialistas em condições do tempo para calcular uma estimativa da probabilidade de chover amanhã. Lei dos Grandes Números. À medida que um experimento é repetido várias vezes, a probabilidade dada pela frequência relativa de um evento tende a se aproximar da verdadeira probabilidade. A lei dos grandes números está relacionada com a abordagem de aproximação por frequência relativa. A aproximação por frequência relativa tende a ficar melhor com mais observações (um número maior de observações), isto é, uma estimativa de probabilidade com poucas tentativas pode ser muito menos precisa, do que uma estimativa com um número muito grande de tentativas. Resumindo: quanto maior o número de tentativas, a estimativa tende a ser mais precisa. Discuta em grupo uma pesquisa eleitoral. Uma dificuldade encontrada para a abordagem clássica é a complexidade dos eventos a serem estudados tornando a sua aplicação impraticável. Estatística Inferencial - 4 Propriedades: 1. Para qualquer evento A, a probabilidade de A é um número entre 0 e 1, isto é, 0 ≤ P(A) ≤ 1. 2. A probabilidade de um evento impossível é igual a 0. 3. A probabilidade de um evento cuja ocorrência é certa é igual a 1. Meyer (2000) apresenta a seguinte definição: Seja S um espaço amostral associado a um experimento. A cada evento A associaremos um número real representado por P(A) e denominado probabilidade de A, que satisfaça às seguintes propriedades: 1. 0 ≤ P(A) ≤ 1. 2. P(S) = 1 3. Se A e B forem eventos mutuamente excludentes, )()()( BPAPBAP . 4. Se A1, A2, ..., An, ... forem dois a dois, eventos mutuamente excludentes, então, ...)(...)()()( 211 nii APAPAPAP 5.3. Regra da Adição. Permite calcular a probabilidade de que ocorra o evento A ou o evento B (ou que ambos ocorram) – P(A ou B) – como um único resultado de um experimento. Para calcular essa probabilidade devemos contar o número total de maneiras que o evento A pode ocorrer e de maneiras que o evento B pode ocorrer, mas não se pode contar qualquer resultado mais de uma vez. A palavra chave para lembrar é “ou”. Considere o ou inclusivo para os cálculos, que indica a ocorrência de “ou um ou outro ou ambos”. Assim, podemos associar o “ou” com adição. Regra da Adição: P(A ou B) = P(A) + P(B) – P(A e B) P(A e B) representa a probabilidade de A e B ocorrerem ao mesmo tempo como resultado de uma prova do experimento. Observação: evite o uso cego de fórmulas, é sempre melhor entender a regra. Estatística Inferencial - 5 Exemplo (Silva, 1999): Um grupo de 15 elementos apresenta a seguinte composição: Homens Mulheres Menores 5 3 Adultos 5 2 Um elemento é escolhido ao acaso (por sorteio). Pergunta-se: Qual a probabilidade de ser menor ou mulher? Usando a abordagem de aproximação da probabilidade por frequência relativa: P(menor) = 8/15, P(mulher) = 5/15 e P(menor e mulher) = 3/15 Aplicando a regra da adição: P(menor ou mulher) = 8/15 + 5/15 – 3/15 = (8 + 5 – 3)/15 = 10/15 = 2/3. Existem outras maneiras de contar os indivíduos que são menores ou mulheres, mas tome cuidado para não contar duas vezes o mesmo. Veja uma delas: Na linha de menores contamos 8 indivíduos, na coluna de mulheres contamos 5 indivíduos e somando encontramos 13, mas 3 indivíduos foram contados duas vezes (na linha menor e coluna mulher). A subtração desses 3 indivíduos corrige a contagem dupla, assim temos 13 – 3 = 10 indivíduos e a probabilidade procurada é P(menor ou mulher) = 10/15 = 2/3. Quando dois eventos são mutuamente excludentes temos que P(A ou B) = P(A) + P(B) 5.4. Eventos Complementares. Considere o evento A e o seu complemento A . Usando a regra da adição 1)()()( APAPAouAP Então a regra para eventos completares é )(1)( )(1)( 1)()( APAP APAP APAP Estatística Inferencial - 6 Considere o exemplo da seção anterior para calcular a probabilidade de sortear um homem entre os 15 indivíduos. Então o evento A = {sortear um homem} P(sortear homem) = P(A) = 10/15 = 2/3 Agora vamos calcular a probabilidade de sortear uma mulher. P(sortear mulher) = 5/15 = 1/3 Podemos entender o evento sortear uma mulher como o complemento de sortear um homem, ou seja, de sortear um indivíduo que não é homem. Assim, um evento é o complemento do outro e A = {não sortear homem} = {sortear mulher} P( A ) = 1 – P(A) = 1 – P(A) = 1 – 2/3 = 1/3 = P(sortear mulher) 5.5. Regra da Multiplicação. Envolve a multiplicação da probabilidade de um evento A pela probabilidade de um evento B, onde a probabilidade do evento B é ajustada por causa do resultado do evento A. P(A e B) =P(evento A ocorrer na primeira prova e o evento B ocorrer na segunda prova). Nessa seção associaremos a palavra “e” com a multiplicação. Então a regra da multiplicação pode ser enunciada da seguinte maneira: “Ao calcular a probabilidade de ocorrência de um evento A em um prova e do evento B na prova seguinte, multiplique a probabilidade do evento A pela probabilidade do evento B, mas certifique-se de que a probabilidade do evento B leva em conta a ocorrência prévia do evento A” (Triola, 2008). Para melhor entender a regra da multiplicação, vamos estudar como se calcula probabilidade condicional. Notação para probabilidade condicional: P(B|A). P(B|A) representa a probabilidade de o evento B ocorrer depois que se admite que o evento A ocorreu. Podemos ler P(B|A) como a probabilidade de ocorrência de B depois que o evento A ocorreu ou probabilidade de ocorrência de B dado A. Sabemos que dois eventos A e B são independentes se a ocorrência de um delesnão tem influência na ocorrência do outro. Assim se A e B não são Estatística Inferencial - 7 independentes eles são dependentes e a ocorrência de um evento afeta a probabilidade de ocorrência do outro. Regra da Multiplicação: P(A e B) = P(A)·P(B|A) A regra da multiplicação também pode ser apresentada da seguinte maneira: P(A e B) = P(A)·P(B|A), se A e B não são eventos independentes. P(A e B) = P(A)·P(B), se A e B são eventos independentes Em consequência da regra da multiplicação, podemos calculara a probabilidade condicional pela fórmula: P(B|A) = P(A e B)/P(A). )( )( )|( AP BeAP ABP Exemplo: Suponha as seguintes questões de um teste: Questão 1. Classifique a afirmativa como verdadeira ou falsa. Belo Horizonte é a capital do estado de Minas Gerais. Questão 2. A capital do Brasil é a) Brasília b) Buenos Aires c) Rio de Janeiro d) Salvador e) São Paulo Qual a probabilidade de acertar as duas questões “chutando” as respostas? Podemos considerar os “chutes” como eventos independentes, assim: Probabilidade de acertar a questão 1 é ½. Probabilidade de acertar a questão 2 é 1/5. Aplicando a regra da multiplicação: P(acertar as duas questões) = 1,0 10 1 5 1 2 1 Estatística Inferencial - 8 Exemplo: Suponha que duas cartas são retiradas de um baralho bem embaralhado. Determine a probabilidade de que a primeira carta retirada seja um rei e a segunda seja uma dama. Considere que a primeira carta não foi reposta antes da retirada da segunda carta. Nesse exemplo as retiradas das cartas não são consideradas eventos independentes, pois ao se retirar um rei o baralho fica com uma carta a menos e isto influencia na probabilidade de se retirar uma dama logo em seguida. Assim: Probabilidade de que a primeira carta seja um rei: P(rei) = 4/52. Para a segunda retirada precisamos supor que a primeira carta retirada foi um rei e como a carta não foi reposta, o baralho ficou com uma carta a menos. Logo: Probabilidade de que a segunda carta seja uma dama dado que a primeira carta retirada foi um rei: P(dama|rei) = 4/51. P(rei e dama) = 006,0 51 4 52 4 5.6. Teorema de Bayes Teorema desenvolvido para determinação de probabilidades de eventos pela incorporação de informação sobre eventos subsequentes. Teorema de Bayes. A probabilidade de um evento A, dado que o evento B ocorreu depois, é )]|()([)]|()([ )|()( )|( ABPAPABPAP ABPAP BAP Exemplo (Martins, 2002): Suponha que 60% dos chips de computador de uma companhia sejam produzidos pela fábrica A e 40% por outra fábrica ( A ).Para um chip escolhido aleatoriamente, a probabilidade de ser o fabricante A é 0,60. Suponha que um chip apresente defeito, e que as taxas de defeito nas duas fábricas sejam de 35% para A e 25% para A . Qual a probabilidade de que o chip defeituoso seja da fábrica A? Evento A: fabricado pela fábrica A. Evento B: apresenta defeito. Estatística Inferencial - 9 677,0 31,0 21,0 1,021,0 21,0 25,040,035,060,0 35,060,0 )|( BAP 6. Distribuições de Probabilidade. Definições. Variável Aleatória: É uma variável que tem um valor numérico único (determinado aleatoriamente) para cada resultado de um experimento. Exemplos de variáveis aleatórias: x = número de alunos que não compareceram à aula de estatística hoje. x = altura de um adulto do sexo masculino selecionado aleatoriamente. A palavra aleatória indica que em geral só se conhece o valor depois da realização do experimento. Variável aleatória discreta: admite um número finito de valores ou tem uma quantidade enumerável de valores. Seus valores podem ser associados à processos de contagens. Variável aleatória contínua: admite um número infinito de valores, e esses valores podem ser associados a mensurações em uma escala contínua, de tal forma que não haja lacunas ou interrupções. 6.1. Distribuição de probabilidades. Uma distribuição de probabilidades dá a probabilidade de cada valor de uma variável aleatória. Condições para uma Distribuição de Probabilidades. 1. 1)(xP , para todos os valores possíveis de x. 2. 1)(0 xP , para todo x. 6.2. Média, Variância e Desvio Padrão. Média de uma distribuição de probabilidades: )(xPx . Variância para uma distribuição de probabilidades: )(22 xPx . Variância para uma distribuição de probabilidades: 222 )( xPx . Estatística Inferencial - 10 Desvio padrão para uma distribuição de probabilidades: 22 )( xPx . Valor Esperado: O valore esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados. Valor Esperado = )(xPxE 6.3. Distribuição de Probabilidade Binomial. Uma distribuição de probabilidade binomial resulta de um experimento que satisfaz os seguintes requisitos: 1. O experimento tem um número fixo de tentativas. 2. As tentativas têm que ser independentes. (O resultado de qualquer tentativa individual não afeta as probabilidades nas outras tentativas). 3. Cada tentativa deve ter todos os resultados classificados em duas categorias (em geral chamadas de sucesso e fracasso). 4. A probabilidade de um sucesso permanece constante em todas as tentativas. É uma distribuição de probabilidade discreta. Notação. S e F (sucesso e fracasso) representam duas categorias possíveis de todos os resultados. P(S) = p = probabilidade de sucesso em uma das n tentativas. P(F) = q = 1 – p = probabilidade de fracasso em uma das n tentativas. n representa o número fixo de tentativas. x representa o número específico de sucessos em n tentativas de modo que x pode ser qualquer número entre 0 e n inclusive. P(x) representa a probabilidade de se obterem exatamente x sucessos em n tentativas. xnx qp xxn n xP !)!( ! )( para x = 0, 1, 2, ..., n. Estatística Inferencial - 11 Exemplo: A probabilidade de um menino ser daltônico é 8%. Qual é a probabilidade de serem daltônicos todos os 4 meninos que apresentaram, em determinado dia, para um exame oftalmológico? Temos que p = 0,08, q = 1 – 0,08 = 0,92, n = 4 e x = 4. %004,000004,092,008,0 !4)!44( !4 )4( 04 xP Distribuição de probabilidades. x P(x) P(x) ac 0 0,71639 0,71639 1 0,24918 0,96557 2 0,03250 0,99807 3 0,00188 0,99996 4 0,00004 1,00000 6.3.1. Média, Variância e Desvio padrão. Média: np Variância: npq2 Desvio padrão: npq No exemplo anterior temos que: Média - 32,008,04 Variância - 2944,092,008,042 Desvio padrão - 5426,02944,0 6.4. Distribuição de Probabilidade de Poisson. É uma distribuição de probabilidade discreta que se aplica a ocorrências de eventos ao longo de intervalos especificados. A variável aleatória x é o número de ocorrências do evento no intervalo. Pode ser um intervalo de tempo, distância, área, volume ou unidades similares. A probabilidade de ocorrência do evento x vezes em um intervalo é dada por ! )( x e xP x , onde e 2,71828. Estatística Inferencial - 12 Requisitos para a Distribuição de Poisson: 1. A variável aleatória x é o número de ocorrências de um evento ao longo de algum intervalo. 2. As ocorrências devem ser aleatórias. 3. As ocorrências devem ser independentes umas das outras. 4. As ocorrências devem ser uniformemente distribuídas sobre o intervalo em uso. 6.4.1. Parâmetros da Distribuição de Poisson. A média é . A variância é . O desvio padrão é Exemplo: Para analisar os impactos das bombas V-1 na Segunda Guerra Mundial, o sul de Londres foi subdividido em 576 regiões, cada uma com uma área de 0,25 km2. Um total de 535 bombas caiu na área combinada das 576 regiões. a) Se uma região é selecionada aleatoriamente, ache a probabilidade de ela ter sido bombardeada exatamente duas vezes. b) Com base na probabilidade encontrada na parte (a), quantas das576 regiões espera-se que sejam atingidas exatamente duas vezes? Aplica-se a distribuição de Poisson porque estamos estudando as ocorrências de um evento (impacto de bombas) sobre algum intervalo (uma região com área de 0,25 km2). O número médio de impactos por região é 929,0 576 535 regiões de número bombas de impactos de número 170,0 !2 71828,2929,0 )2( 929,02 xP Como P(x=2) = 0,170, espera-se que, entre as 576 regiões, o número das que são atingidas exatamente duas vezes seja 576 0,170 = 97,9. Estatística Inferencial - 13 Exercícios 1) (F.C. Chagas/BACEN/2006) A probabilidade de um associado de um clube pagar sua mensalidade com atraso é de 5%. Entre 5 associados escolhidos aleatoriamente, a probabilidade de pelo menos um pagar sua mensalidade sem atraso é: a) 1 – (0,95)5 b) (0,95)5 c) 4,75 (0,95)5 d) 5 (0,95)5 e) 1 – (0,05)5 2) (FGV/ICMS/RJ/2007) Um candidato se submete a uma prova contendo três questões de múltipla escolha precisando acertar pelo menos duas para ser aprovado. Cada questão apresenta cinco alternativas, mas apenas uma é correta. Se o candidato não se preparou e decide responder cada questão ao acaso, a probabilidade de ser aprovado no concurso é igual a: a) 0,104 b) 0,040 c) 0,096 d) 0,008 e) 0,200 3) (ESAF/Analista Orçamento/MARE/1999) São lançadas 4 moedas distintas e não viciadas. Qual é a probabilidade de resultar exatamente 2 caras e 2 coroas? a) 25% b) 37,5% c) 42% d) 44,5% e) 50% Estatística Inferencial - 14 4) (ESAF/AFTN/1998) Em uma cidade, 10% das pessoas possuem carro importado. Dez pessoas dessa cidade são selecionadas ao acaso. A probabilidade de que exatamente 7 das pessoas selecionadas possuam carro importado é: a) (0,1)7 (0,9)3 b) (0,1)3 (0,9)7 c) 120 (0,1)7 (0,9)3 d) 120 (0,1) (0,9)7 e) 120 (0,1)7 (0,9) 5) (ESAF/BACEN/2001) Um fabricante de discos rígidos sabe que 2% dos discos produzidos falham durante o período de garantia. Assinale a opção que dá a probabilidade de que pelo menos um disco falhe numa amostra aleatória de 10 discos tomados da linha de produção. a) (0,98)10 – (0,02)10 b) (0,02)10 c) 1 – (0,98)10 d) 1 – (0,02)10 e) (0,98)10 6) (F.C. Chagas/MPU/2007) O número de pacientes atendidos por um clínico geral segue uma distribuição de Poisson com taxa média de 4 pacientes por hora. A probabilidade de que pelo menos um paciente consulte o clínico geral em um período de 15 minutos é: a) 1 – e-1 b) 1 – e4 c) e-4 d) e4 e) e-1 Estatística Inferencial - 15 7) (F.C. Chagas/SEFAZ/RJ/2009) O número de pessoas que chega ao guichê de uma repartição pública para autuação de processos apresente uma distribuição de Poisson a uma taxa de duas pessoas por minuto. A probabilidade de que nos próximos 2 minutos chegue pelo menos uma pessoa neste guichê é a) (e4 – 1)e-4 b) 4e-4 c) (e4 – 4)e-4 d) 2(e2 – 1)e-2 e) (e2 – 2)e-2 8) (ESAF/RFB/AUDITOR/2009) O número de petroleiros que chegam a uma refinaria ocorre segundo uma distribuição de Poisson, com média de dois petroleiros por dia. Desse modo, a probabilidade de a refinaria receber no máximo três petroleiros em dois dias é igual a: a) (32/73)e-4 b) (3/71)e4 c) (71/3)e-4 d) (71/3)e-2 e) (32/3)e-2 9) (FCC/Analista/TRT 8ª. região/2010) Um setor de um órgão público recebe em média 96 mensagens de faz em 8 horas de funcionamento. Suponha que a variável aleatória X = número de mensagens recebidas por esse setor, por faz, tenha distribuição de Poisson. A probabilidade de que, em um período de 10 minutos, o setor receba pelo menos uma chamada é a) e-2 b) 1 – e-2 c) 1 – e-4 d) e-4 e) 1 -2e-4 Estatística Inferencial - 16 10) (ESAF/RFB/AUDITOR/2009) Em um experimento binomial com três provas, a probabilidade de ocorrerem dois sucessos é doze vezes a probabilidade de ocorrerem três sucessos. Desse modo, as probabilidades de sucesso e fracasso são, em percentuais, respectivamente, iguais a: a) 80% e 20% b) 30% e 70% c) 60% e 40% d) 20% e 80% e) 25% e 75% Gabarito 1 2 3 4 5 6 7 8 9 10 E A B C C A A C B D 7. Distribuição de Probabilidade Normal 140120100806040 0,030 0,025 0,020 0,015 0,010 0,005 0,000 X D e n si d a d e Distribuição Normal Média=89; DesvPad=15 Estatística Inferencial - 17 Definição (Triola, 2008): Se uma variável aleatória contínua tem uma distribuição com um gráfico simétrico e em forma de sino, conforme a figura abaixo e que pode ser descrito pela equação 2 2 2 1 x e y Dizemos que ela tem uma distribuição normal. Apesar da complexidade da fórmula, ela não será usada. 140120100806040 0,030 0,025 0,020 0,015 0,010 0,005 0,000 X D e n si d a d e Distribuição Normal Média=89; DesvPad=15 Estatística Inferencial - 18 7.1. Características da distribuição normal (Vieira, 2008). a) A média, a mediana e a moda coincidem e estão no centro da distribuição; b) O gráfico da distribuição normal é uma curva em forma de sino e simétrica em torno da média; e c) Como a curva é simétrica em torno da média, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média. Observação: Resolver o exercício 5 para estudar outras características/propriedades da distribuição normal. 7.2. Distribuição Normal Padrão A distribuição normal padrão é uma distribuição de probabilidade normal que: a) Tem a curva em forma de sino; b) Tem média igual a 0; e c) Tem desvio padrão igual a 1. A distribuição normal padrão também é chamada de distribuição normal reduzida. 7.3. Curva de Densidade Uma curva de densidade é um gráfico de uma distribuição de probabilidade contínua. Ela deve satisfazer as seguintes propriedades: 1. A área total sob a curva tem que ser igual a 1. 2. Cada ponto da curva tem que ter uma altura vertical maior ou igual a 0. Como a área total sob a curva é igual 1, existe uma correspondência entre a área e a probabilidade. Então o calcular a área sob a curva é equivalente a calcular probabilidade. Importante: A área total da curva de densidade da distribuição normal padrão é igual a 1. Estatística Inferencial - 19 7.4. Determinação de valores de probabilidades Este cálculo se faz com os valores de dados de Escores z. A transformação de uma variável aleatória x que tem distribuição normal com média e desvio padrão , em uma variável com distribuição normal padronizada de média 0 e desvio padrão 1 é feita pela fórmula x z Usar a tabela 1 para fazer os cálculos. 7.5. Exercícios de fixação 1) Calcule as seguintes probabilidades de uma distribuição normal padrão. a) P(0 < z < 1,96) b) P(z > 1,96) c) P(1,96 < z < 1,96) d) P(z < 1,96) e) P(1,64 < z < 0) f) P(z < 1,64) g) P(z < 1,65) h) P(z > 1,64) i) P(z > 1,65) j) P(1,64 < z < 1,64) k) P(1,65 < z < 1,65) l) P(2,57 < z < 2,57) m) P(2,58 < z < 2,58) n) P(z > 2,57) o) P(z > 2,58) 2) Suponha os escores z distribuídos normalmente com média 0 e desvio padrão 1. a) Se P(0 < z < a) = 0,3413, determine a. b) Se P(b < z < b) = 0,3400, determine b. c) Se P(z > c) = 0,0113, determine c. d) Se P(z < d) = 0,3632, determine d. 3) (Vieira, 2008) Em homens, a quantidade de hemoglobina por 100ml de sangue é uma variável aleatória com distribuição normal de média = 16g e desvio padrão = 1g. Calcule a probabilidade de um homem apresentar a) de 16 a 18 g de hemoglobina por 100ml de sangue. b) mais de 18 g de hemoglobina por 100ml de sangue. Estatística Inferencial - 20 4) (Vieira, 2008) Suponha que a pressão sanguínea sistólica de indivíduos com idade entre 15 e 25 anos é uma variável aleatória com distribuição aproximadamente normal de média = 120 mmHg e desvio padrão = 8 mmHg. Calcule a probabilidadede um indivíduo dessa faixa etária apresentar pressão: a) entre 110 e 130 mmHg. b) maior que 130 mmHg 5) Propriedades da distribuição normal. Suponha uma variável aleatória x com distribuição normal de média = 100 e desvio padrão = 10. Calcule a probabilidade de um valor de x pertencer ao intervalo a) ( - , + ). b) ( - 2, + 2). c) ( - 3, + 3). 6) O que se pode concluir a partir da análise das respostas do exercício anterior? 8. Teste de Hipótese Definição (Triola, 2008) Em estatística, uma hipótese é uma afirmativa sobre uma propriedade da população. Um teste de hipótese (ou teste de significância) é um procedimento padrão para se testar uma afirmativa sobre uma propriedade da população. 8.1. Regra do Evento Raro para Inferência Estatística Se, sob uma dada hipótese, a probabilidade de um evento particular observado for muito pequena, concluímos que a hipótese provavelmente não é correta. Seguindo essa regra, é possível testar uma afirmativa analisando dados amostrais. O teste é uma tentativa de distinguir resultados que podem facilmente ocorrer por acaso dos resultados que são altamente improváveis de ocorrer por Estatística Inferencial - 21 acaso. A ocorrência de um resultado considerado altamente improvável pode ser explicada pela ocorrência de um evento raro, ou que a hipótese não é verdadeira. Para entender melhor a Regra do Evento Raro vamos analisar o seguinte exemplo (Triola, 2008): As indústrias ProCareLtda. forneceram um produto chamado “Gender Choice” (“Escolha de Sexo”) que, de acordo com a propaganda, aumentaria a chance de um casal ter uma menina em até 80%. Suponha a realização de uma pesquisa com 100 casais que desejavam ter uma menina e que usaram o Gender Choice. Supondo que o produto não tenha efeito, analise os seguintes resultados do experimento: a) dos 100 bebês que nasceram, 52 eram meninas. b) dos 100 bebês que nasceram, 97 eram meninas. Para uma análise sem qualquer método estatístico, é de se esperar o nascimento de cerca de 50 meninas (metade do total). A letra (a) apresenta um resultado muito perto do esperado e não permite concluir que o produto seja eficaz e pode facilmente ocorrer por acaso. Assim, não há evidência suficiente para concluir pela eficácia do produto. O resultado da letra (b), 97 meninas em 100 nascimentos, é um resultado difícil de ocorrer por acaso. Isso pode ser explicado pela ocorrência por acaso de um evento raro ou que o produto é eficaz. Observe que só é possível concluir que o produto é eficaz em consequência de um resultado muito diferente do que em geral se espera. 8.2. Componentes de um Teste de Hipótese. A Hipótese de nulidade, ou hipótese nula, (representada por H0) é uma afirmativa de que o valor de um parâmetro populacional (proporção, media ou desvio padrão) é igual a algum valor específico. Exemplos: H0: p = 0,5 H0: = 37ºC H0: = 15 cm Um teste de hipótese testa a hipótese de nulidade. A suposição inicial é de que H0 seja verdadeira e o teste da hipótese permite concluir que não é possível Estatística Inferencial - 22 rejeitar essa suposição (não rejeitar H0) ou que é possível rejeitar essa suposição (rejeitar H0). Dica: Para facilitar o entendimento, vamos considerar as associações do quadro seguinte. Conclusão do teste Indica que a afirmativa é não rejeitar H0 verdadeira rejeitar H0 falsa A hipótese alternativa (representada por H1 ou Ha ou HA) é uma afirmativa de que o parâmetro tem um valor diferente da hipótese de nulidade. Exemplos: H1: < 37ºC H1: > 37ºC H1: ≠ 37ºC A hipótese alternativa é considerada válida quando se rejeita a hipótese de nulidade. A estatística de teste é uma estatística amostral, ou um valor calculado baseando-se em dados amostrais. Esse valor é usado para tomar uma decisão sobre a rejeição de H0. A região crítica (ou região de rejeição) é o conjunto de valores da estatística de teste que indicam que H0 deve ser rejeitada. Um valor crítico é qualquer valor que separa a região crítica (ou região de rejeição) dos valores de estatística de teste que não levam à rejeição de H0. Ao testarmos H0 chegamos a uma conclusão: rejeitar ou não rejeitar a hipótese. Essa conclusão pode estar certa ou errada (mesmo fazendo tudo corretamente). Há dois tipos de erro que se pode cometer. Comete-se o Erro tipo I quando se rejeita uma H0 que é verdadeira. A probabilidade de se cometer o erro tipo I é representada por (alfa) e recebe o nome de nível de significância. O Erro tipo II acontece ao deixar de rejeitar H0 Estatística Inferencial - 23 quando ela é falsa. A probabilidade de se cometer o erro tipo II é representada por (beta). Estado verdadeiro da natureza H0 é verdadeira H0 é falsa Decisão (baseada no teste) Rejeitar H0 Erro tipo I () Decisão correta Não Rejeitar H0 Decisão correta Erro tipo II () (alfa) = probabilidade de um erro tipo I (rejeitar uma H0 verdadeira). (beta) = probabilidade de um erro tipo II (não rejeitar uma H0 falsa). 8.3. Teste bilateral e unilateral Os valores críticos delimitam regiões extremas em uma distribuição. Essas regiões são chamadas de caudas. Em um teste bilateral a região crítica encontra-se situada nas duas regiões extremas (caudas). Nesses testes, o nível de significância é dividido igualmente entre as duas caudas que formam a região crítica. Estatística Inferencial - 24 Os testes unilaterais podem ser esquerdos ou direitos. Teste Região crítica Unilateral esquerdo Região extrema esquerda sob a curva. Unilateral direito Região extrema direita sob a curva. O quadro a seguir resume os testes bilaterais e unilaterais. Região Crítica Teste Formada pelas duas regiões extremas. Bilateral. Sinal de H1: ≠ O nível de significância é dividido igualmente entre as duas caudas que formam a região crítica. Região extrema esquerda. Unilateral esquerdo. Sinal de H1: < O nível de significância encontra-se inteiramente na extremidade esquerda sob a curva. Região extrema direita. Unilateral direito. Sinal de H1: > O nível de significância encontra-se inteiramente na extremidade direita sob a curva. Assim podemos concluir que em um teste unilateral a região crítica não fica dividida em duas caudas, pois a região crítica está localizada em apenas um extremo da curva. O mesmo acontece com o nível de significância . Estatística Inferencial - 25 8.4. Métodos de teste. O procedimento padrão de um teste de hipótese requer que se teste sempre a hipótese de nulidade e as decisões possíveis são: 1. Rejeitar H0. 2. Deixar de rejeitar H0. A decisão é tomada usando-se o método tradicional (ou método clássico) de teste de hipótese, o método do valor p ou por intervalo de confiança. 8.4.1. Método Tradicional ou Clássico. Nesse método calcula-se uma estatística amostral importante (como a média aritmética) que deve ser convertida em uma estatística de teste, que é comparada com um valor crítico. Critério de decisão: 1. Rejeitar H0 se a estatística de teste for um valor da região crítica. 2. Deixar de rejeitar H0 se a estatística de teste não for um valor da região crítica. 8.4.2. Método do Valor P. O valor P (ou valor p ou valor de probabilidade) é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, supondo que a hipótese de nulidade é verdadeira. O valo P é calculado a partir de dados amostrais. Critério de decisão: 1. Rejeitar H0 se o valor P é no máximo igual ao nível de significância . 2. Não Rejeitar H0 se o valor P é maior do que o nível de significância . Observação: Valor P Interpretação Menor que 0,01 Elevada significância estatística. 0,01 a 0,05 Estatisticamente significante. 8.4.3. Intervalo de Confiança. Definição: Um intervalode confiança (ou estimativa intervalar) de um parâmetro populacional é um intervalo de valores que tem probabilidade de conter o verdadeiro valor da população (Triola, 2008). Estatística Inferencial - 26 Definição: O grau de confiança é a probabilidade 1 – (em geral expressa como valor percentual) de que o intervalo de confiança contenha o verdadeiro valor do parâmetro populacional. Também é chamado de nível de confiança ou coeficiente de confiança. Construção de um intervalo de confiança para a Média Populacional (considerando amostras grandes – n > 30). ExEx Onde: n zE 2/ é a margem de erro da estimativa. z/2 é o valor crítico (distribuição normal). é o desvio padrão populacional (se esse valor for desconhecido, é só usar o desvio padrão amostral s). n é o número de elementos da amostra ou tamanho da amostra. Critério de decisão: Devemos rejeitar uma afirmativa de que o parâmetro populacional seja um valor que não pertença ao intervalo de confiança. 8.5. Inferência a partir de uma amostra. 8.5.1. Teste de uma afirmação sobre a média de uma população. 1º. Caso: Amostras grandes (n > 30). Suponha um experimento realizado para verificar se a temperatura média do corpo de adultos sadios é de 37ºC. O experimento foi realizado com 106 pessoas (n = 106), a média amostral foi 36,78ºC, o desvio padrão amostral foi de 0,62 e um nível de significância de 0,05 ( = 0,05 = 5%). Hipóteses: H0: = 37º H1: ≠ 37º O teste é um teste bilateral. Estatística Inferencial - 27 Método tradicional ou clássico. Estatística de teste para afirmações sobre quando n > 30. n x z Cálculo da estatística de teste: 65,3 106 62,0 3778,36 n x z Tabela de valores críticos (amostras grandes e distribuição normal) Nível de significância Grau de confiança Valores críticos 0,10 90% 1,645 0,05 95% 1,96 0,01 99% 2,575 Como = 0,05 e o teste é bilateral, os valores críticos são: 1,96 e 1,96. Como – 3,65 < – 1,96, a estatística de teste z é um valor da região crítica e rejeitamos H0. Isso significa dizer que concluímos que há evidência suficiente para rejeitar a afirmação que a temperatura média do corpo de um adulto sadio é de 37ºC. Método do Valor P. O Valor P pode ser estimado pela tabela de Distribuição Normal Reduzida. Pela tabela p < 0,0005, como p < 0,05 e pelo critério de decisão, podemos rejeitar H0. Intervalo de Confiança. Para esse experimento devemos construir um intervalo com um grau de confiança de 0,95 (95%), pois foi informado que = 0,05. Logo o valor crítico será de 1,96. Estatística Inferencial - 28 Erro da estimativa: 12,0 106 62,0 96,12/ n zE Intervalo: 36,78 – 0,12 < < 36,78 + 0,12 36,66 < < 36,9 (36,66; 36,9) Como o valor de 37ºC não pertence ao intervalo construído e, pelo critério de decisão, rejeita-se H0. 2º. Caso: Amostras pequenas (n ≤ 30). Se as amostras forem pequenas, usamos a distribuição t de Student. Suponha um experimento realizado para verificar se a temperatura média do corpo de adultos sadios é de 37ºC. O experimento foi realizado com 20 pessoas (n = 20), a média amostral foi 36,78ºC, o desvio padrão amostral foi de 0,62 e um nível de significância de 0,05 ( = 0,05 = 5%). Hipóteses: H0: = 37º H1: ≠ 37º O teste é um teste bilateral. Método tradicional ou clássico. Estatística de teste para afirmações sobre quando n ≤ 30 e é desconhecido. n s x t Valores P e valores críticos: Consultar a Tabela 2 e use gl = n – 1 como número de graus de liberdade. Estatística Inferencial - 29 Definição: O número de graus de liberdade (gl) para um conjunto de dados amostrais é o número de valores amostrais que podem variar depois que certas restrições tiverem sido impostas aos dados amostrais. Cálculo da estatística de teste: 59,1 20 62,0 3778,36 n s x t Valor crítico: consultar tabela 2 Teste bilateral, com = 0,05 e com gl = 20 – 1 = 19. Valor crítico = 2,09 (na realidade – 2,09 e 2,09). Conforme o critério de decisão, devemos deixar de rejeitar H0, pois a estatística de teste não é um valor da região de rejeição. Intervalo de Confiança. Construção de um intervalo de confiança para a Média Populacional ExEx Onde: n s tE 2/ é a margem de erro da estimativa. t/2 é o valor crítico com gl = n – 1. s é o desvio padrão amostral. n é o número de elementos da amostra ou tamanho da amostra. Erro da estimativa: 29,0 20 62,0 09,22/ n s tE Intervalo: 36,78 – 0,29 < < 36,78 + 0,29 36,49 < < 37,07 (36,49; 37,07) Estatística Inferencial - 30 Como o valor de 37ºC pertence ao intervalo construído e, pelo critério de decisão, não se rejeita H0 (deixar de rejeitar H0). 8.5.2. Teste de uma afirmação sobre uma Proporção Populacional p. Os métodos estudados nessa seção podem ser aplicados às proporções populacionais, para testes de afirmativas sobre probabilidades ou sobre equivalentes decimais de porcentagens. Também será usada a distribuição normal como aproximação da distribuição binomial Método tradicional ou clássico. Estatística de teste para o Teste de uma Afirmativa sobre uma Proporção. n pq pp z ˆ Valores P e valores críticos: Use a distribuição normal padrão (Tabela 1). Onde: n é o tamanho da amostra ou número de tentativas. n x p ˆ é a proporção amostral. p é proporção populacional (usada em H0). q = 1 – p Exemplo (Triola, 2008): Encontrando emprego por meio de uma Rede de Amigos. Uma pesquisa indicou que entre 703 trabalhadores selecionados aleatoriamente, 61% obtiveram seus empregos por meio de rede de amigos. Use os dados amostrais com nível de significância de 0,05 para testar a afirmativa de que a maioria dos trabalhadores (mais de 50%) obtém seus empregos através de rede de amigos. Hipóteses: H0: p = 0,5. H1: p > 0,5. Estatística Inferencial - 31 Teste unilateral à direita. Cálculo da estatística de teste: 83,5 703 )5,0)(5,0( 5,061,0ˆ n pq pp z Valor crítico = 1,645. Como a estatística de teste é um valor pertencente a região crítica (ou de rejeição), rejeitamos H0. E o que isto quer dizer? Que há evidência amostral suficiente para apoiar a afirmativa de que a maioria dos trabalhadores obtém seus empregos através de uma rede de amigos. Método do Valor P. O Valor P pode ser estimado pela tabela de Distribuição Normal Reduzida. Pela tabela p < 0,0005, como p < 0,05 e pelo critério de decisão, podemos rejeitar H0. Intervalo de Confiança. Como o teste é unilateral use como grau de confiança 1 – 2. Intervalo de Confiança para a Proporção Populacional p EppEp ˆˆ Onde n qp zE ˆˆ 2/ . Nesse problema vamos construir um intervalo de confiança de 90%. 03,0 703 )39,0)(61,0( 645,1 ˆˆ 2/ n qp zE Intervalo: 0,61 – 0,03 < p < 0,61 + 0,03 0,58 < p < 0,64 Estatística Inferencial - 32 Como o valor testado (p = 0,5) não se encontra no intervalo de confiança, rejeita-se H0. E isto quer dizer que há evidência amostral suficiente para apoiar a afirmativa de que a maioria dos trabalhadores obtém seus empregos através de uma rede de amigos. Exercícios. 1) (ESAF/AFPS/2002) O atributo X tem distribuição normal com média 2 e variância 4. Assinale a opção que dá o valor do terceiro quartil de X, sabendo-se que o terceiro quartil da normal padrão é de 0,6745. a) 3,3490 b) 0,6745 c) 2,6745 d) 2,3373 e) 2,7500 2) (ESAF/AFPS/2002) A média e o desvio padrão obtidos num lote de produção de 100 peças mecânicas são respectivamente de 16kg e 40g. Uma peça particular deste lote pesa 18kg. Assinale a opção que dá o valor padronizado do peso dessa peça. a) – 50 b) 0,05 c) 50 d) – 0,05 e) 0,02 3) (ESAF/SEFAZ/SP/2009) Seja Z uma variávelaleatória normal padrão. Dados os valores de z e de P(Z < z) a seguir, obtenha o valor mais próximo de P( 2,58 < Z < 1,96) Z 1,96 2,17 2,33 2,41 2,58 P(Z < z) 0,975 0,985 0,99 0,992 0,995 a) 0,99 b) 0,97 c) 0,98 d) 0,985 e) 0,95 Estatística Inferencial - 33 4) (F.C. Chagas/TRF 2ª.R/2007) Instruções: para resolver esta questão utilize, dentre as informações dadas, as que julgar apropriadas. Se Z tem distribuição normal padrão, então: P(Z> 2) = 0,0223, P(Z < 1,64) = 0,945, P(0 < Z < 1,5) = 0,433, P(Z < 1,34) = 0,91. O padrão de qualidade recomenda que os pontos impressos por uma impressora estejam entre 3,6 e 4,4 mm. Uma impressora imprime pontos com diâmetro X, onde X é aproximadamente normal com média 4 mm e desvio padrão . Se a probabilidade do diâmetro de um ponto da impressora estar dentro do padrão de qualidade é de 95,4%, o valor de em mm é igual a: a) 0,54 b) 0,35 c) 0,29 d) 0,22 e) 0,20 5) (ESAF/CGU/2008) Em determinadas circunstâncias, uma variável aleatória binomial pode ser bem aproximada por uma variável aleatória normal. Seja X uma variável aleatória binomial com n = 400 e p = 1/2. Calcule o valor mais próximo de P(181 < X < 219) usando a aproximação da variável binomial pela normal, dado que (1,96) = 0,975, (2,17) = 0,985, (2,33) = 0,99, (2,58) = 0,995, onde (z) é a função de distribuição de uma variável aleatória normal padrão Z. a) 0,95 b) 0,97 c) 0,98 d) 0,984 e) 0,99 6) (F.C. Chagas/TER/PI/2009) Sabe-se que, num município, impostos sobre imóveis, X, pagos por contribuintes, têm distribuição Normal com média e desvio padrão . Sabe-se que 30% dos impostos pagos são inferiores a R$ 1.200,00 e que 10% são superiores a R$ 3.000,00. O valor de e o valor do terceiro quartil da variável X, são dados em reais, respectivamente por: Se Z tem distribuição normal padrão, então: P(Z > 1,28) = 0,10, P(Z > 0,67) = 0,25 , P(0 < Z < 1,5) = 0,43, P(0 < Z < 0,52) = 0,20 Estatística Inferencial - 34 a) 1.670 e 2.300 b) 1.680 e 2.390 c) 1.700 e 2.420 d) 1.720 e 2.400 e) 1.720 e 2.390 7) (FCC/SEFAZ/SP/2010) Instruções: Para resolver a questão utilize as informações abaixo referentes à distribuição normal padrão Z: z 1,00 1,25 1,50 1,75 2,00 2,25 P(0 < Z < z) 0,34 0,39 0,43 0,46 0,48 0,49 : Os salários dos empregados de uma determinada categoria profissional apresentam uma distribuição normal com média igual a R$ 1.200 e desvio padrão igual a R$ 160. A proporção dos empregados com salários superiores a R$ 1.000 e inferiores a R$ 1.520 é: a) 98% b) 96% c) 92% d) 89% e) 87% 8) (FCC/Analista/TRT 8ª. região/2010) Instruções: Para resolver a questão utilize as informações abaixo referentes à distribuição normal padrão Z: z 1,00 1,25 1,50 1,75 2,00 2,25 P(0 < Z < z) 0,34 0,39 0,43 0,46 0,48 0,49 A distribuição das medidas de cabos fabricados por uma indústria é considerada normal. Sabe-se que 7% dos cabos medem no máximo 2,4 metros e apenas 2% medem no mínimo 16,4 metros. A média das medidas destes cabos é igual a: a) 9,4 metros b) 8,4 metros c) 8,2 metros d) 8,0 metros e) 7,8 metros Estatística Inferencial - 35 9) (FCC/AFTE/RO/2010) Os valores dos salários dos empregados de determinado ramo de atividade apresentam uma distribuição normal com média R$ 2.000 e variância igual a 62.500 (R$)2. Considere os valores das probabilidades P(0 ≤ Z ≤ z) para a distribuição normal padrão: z 0,25 0,52 0,84 1,28 P(0 < Z < z) 0,10 0,20 0,30 0,40 Então a porcentagem dos empregados que ganham salários inferiores a R$ 1.790 ou salários superiores a R$ 2.320 é igual a: a) 30% b) 40% c) 50% d) 60% e) 70% 10) (F. C. Chagas/BACEN/2006) As empresas de um determinado setor têm situação líquida bem descrita por uma distribuição normal, com média igual 2,5 milhões de reais e desvio padrão de 2 milhões de reais. Selecionando uma empresa aleatoriamente deste setor, a probabilidade dela apresentar uma situação líquida negativa ou nula é de: a) 11% b) 16% c) 23% d) 39% e) 50% Estatística Inferencial - 36 11) (FCC – ANS 2007) O índice de massa corpórea é calculado dividindo o peso da pessoa pelo quadrado de sua altura. Para a população de homens de meia idade que mais tarde desenvolvem a doença de diabetes, a distribuição dos índices básicos de massa corpórea é aproximadamente normal com média e desvio padrão desconhecidos. Para uma amostra de 25 homens selecionados desse grupo, observou-se um índice médio de 25,2 kg/m2 com desvio padrão s = 2,5 kg/m2. Um intervalo de confiança de 95% para a média da população é dado por: a) 25,2 2,15 b) 25,2 1,56 c) 25,2 1,03 d) 25,2 0,86 e) 25,2 0,68 12) (ESAF – CGU 2008) Construa um intervalo de 95% de confiança para a média de uma população normal a partir dos dados de uma amostra aleatória simples de tamanho 64 desta população, que forneceu uma média de 48 e um desvio padrão amostral de 16, considerando que (1,96) = 0,975, onde (z) é a função de distribuição de uma variável aleatória normal padrão Z. a) 44,08 a 51,92 b) 41,78 a 54,22 c) 38,20 a 57,80 d) 35,67 a 60,43 e) 32,15 a 63,85 Estatística Inferencial - 37 13) (FCC – Bacen 2006) A distribuição dos valores dos aluguéis dos imóveis em uma certa localidade é bem representada por uma curva normal com desvio padrão populacional de R$ 200,00. Por meio de uma amostra aleatória de 100 imóveis neste local, determinou-se um intervalo de confiança para a média destes valores, com um determinado nível de confiança, como sendo [R$ 540,00; R$ 660,00]. A mesma média amostral foi obtida com um outro tamanho de amostra, com o mesmo nível de confiança anterior, sendo o novo intervalo [R$ 560,00; R$ 640,00]. O tamanho da amostra considerada no segundo caso foi de: a) 225 b) 256 c) 324 d) 400 e) 625 14) (FGV/Fiscal de Rendas/RJ/2010) Para testar H0: ≤ 10 contra H1: > 10, sendo a média de uma variável populacional suposta normalmente distribuída com variância igual a 100, uma amostra de tamanho 25 foi obtida e resultou num valor da média amostral igual a 15,75. Ao nível de significância de 5%, o valor-p (nível crítico) correspondente e a decisão a ser tomada são respectivamente: a) 0,102 e não rejeitar H0. b) 0,01 e rejeitar H0. c) 0,058 e não rejeitar H0. d) 0,002 e rejeitar H0. e) 0,154 e não rejeitar H0. 15) (BACEN/1994) Um teste de hipóteses foi aplicado e, ao nível de significância de 5%, rejeitou-se H0. O que acontecerá se forem adotados os níveis de significância de 1% e de 10% respectivamente. a) Aceitará a 1% e rejeitará a 10%. b) Nada se pode afirmar em ambos os casos. c) Nada se pode afirmar quanto ao de 1% e rejeitará H0 a 10%. d) Rejeitará H0 a 1% e nada se pode afirmar quanto ao de 10%. e) Rejeitará H0 em ambos os casos. Estatística Inferencial - 38 16) (FGV/Fiscal de Rendas/MS/2006) Um teste de hipótese apresentou p- valor igual a 0,03. Portanto, nos níveis de significância de 1% e 5%, respectivamente, a hipótese nula: a) Deve ser aceita e aceita. b) Deve ser aceita e rejeitada. c) Deve ser rejeitada e aceita. d) Deve ser rejeitada e rejeitada. e) Pode ou não ser rejeitada. 17) (F.C. Chagas/Analista/SP/2008) O custo mensal de manutenção C de um aparelho é uma variável aleatória normalmente distribuída com variância populacional igual a 900 (R$)2. Para testar a hipótese nula H0: = 175 contra a alternativa H1: ≠ 175 será usada uma amostra de 36 aparelhos. Fixando-se o nível de significância () em 5% e sabendo que na distribuição normal padrão (Z) a probabilidade P(Z > 2) = 2,5% rejeita-se H0 caso a média da amostra seja: a) inferior a R$ 167. b) Superior a R$ 167 e inferior a R$ 187. c) Igual a R$ 184. d) Superior a R$ 115 e inferior a R$ 235. e) Inferior a R$ 165 e superiora R$ 185. 18) (FGV/AFRE/AP/2010) Para testar a hipótese de que uma média populacional distribuída com variância igual a 64 é maior do que 200, uma amostra de tamanho 100 será observada. Ao nível de significância de 5%, o critério de decisão usual estabelece que a hipótese nula de que = 200 deve ser rejeitada se o valor observado da média amostral for: Dados: se Z tem distribuição normal padrão: P[0 < Z < 0,45] = 1,64; P[0 < Z < 0,475] = 1,96; P[0 < Z < 0,49] = 2,33. a) maior do que 201,312 b) menor do que 198,788 c) maior do que 204,860 d) menor do que 196,348 e) maior do que 210,346 Estatística Inferencial - 39 19) (FCC/Analista/TRT 9ª. região/2010) Uma amostra aleatória com 16 elementos é extraída de uma população normal de tamanho infinito com média e desvio padrão desconhecido. O valor da média amostral e o valor da variância amostral foram iguais a M e 625, respectivamente. Deseja-se testar a hipótese H0: = 90 (hipótese nula) contra a H1: > 90 (hipótese alternativa) com base nos resultados apresentados pela amostra, ao nível de significância de 5%. Utilizou-se para o teste a distribuição t de Student, considerando t0,05 o quantil da distribuição t de Student para o teste unicaudal tal que P(t > t0,05) = 5%. Dados: Graus de liberdade t0,05 12 2,18 13 2,16 14 2,15 15 2,13 16 2,12 17 2,11 Sabendo-se que H0 não foi rejeitada, então o valor de M foi, no máximo, a) 103,3125 b) 103,4750 c) 103,5000 d) 103,6250 e) 103,6500 Estatística Inferencial - 40 20) (FCC/Analista/TRT 8ª. região/2010) Uma população consiste em um conjunto de medidas de um cabo. Uma amostra de tamanho 16 é selecionada desta população considerada de tamanho infinito e normalmente distribuída. A média e a variância desta amostra apresentaram os valores de 21,5 m e 9 m2, respectivamente. Como a variância populacional é desconhecida, utilizou-se o teste t de Student para concluir se a média da população () é diferente de 20 m, a um determinado nível de significância. Foram formuladas as hipóteses H0: = 20 m (hipótese nula) contra H1: ≠ 20 m (hipótese alternativa). O valor da estatística tc (t calculado) a ser comparado com o t tabelado é: a) 8,0 b) 6,0 c) 3,0 d) 2,0 e) 1,5 21) ESAF/AFPS/2002) Um atributo X tem distribuição aproximadamente normal com média e variância 2. A partir de uma amostra aleatória de tamanho 16 da população definida por X, deseja-se testar a hipótese H0: = 22 contra a alternativa Ha: ≠ 22. Para esse fim calcula-se a média amostral 30x e a variância amostral s2 = 100. Assinale a opção que corresponde à probabilidade de significância (p-valor) do teste. a) 2P{T > 3,2} onde T tem distribuição de Student com 15 graus de liberdade. b) P{|Z| > 3,2} onde Z tem distribuição normal padrão. c) P{Z < 2,2} onde Z tem distribuição normal padrão. d) P{T < 3,2} onde T tem distribuição de Student com 15 graus de liberdade. e) P{|T| > 2,2} onde T tem distribuição de Student com 15 graus de liberdade. Estatística Inferencial - 41 22) (ESAF/AFRE/2005) Um fabricante afirma que pelo menos 95% dos equipamentos que fornece à indústria encontram-se dentro de suas especificações. Uma amostra de 200 itens escolhidos ao acaso revelou 10 itens fora de especificação. Assinale a opção que corresponde ao valor probabilístico (p-valor) do teste de H: 0,95 contra A: ≤ 0,95, sendo a proporção populacional de itens dentro de especificação. a) 0,5000 b) 0,050 c) 0,025 d) 0,010 e) 0,100 23) (ESAF/MPU/2004) Considere o teste de hipótese H: = 100 contra alternativa A: ≠ 100 em uma amostra normal com média e variância 2. O valor da estatística de teste t com distribuição de Student sob a hipótese H: = 100 é de – 1,7864 e sabe-se que P( t 1,7864) = 0,0446. Suponha que a probabilidade de erro do tipo I esteja sendo controlada em 5%. Assinale a resposta correta. a) Como o valor probabilístico do teste é 0,0446 conclua H: = 100. b) Como o valor probabilístico do teste é 0,0446 conclua A: ≠ 100. c) Como o valor probabilístico do teste é 0,0892 não há evidência para rejeitar H: = 100. d) Como o valor probabilístico do teste é 0,0223 conclua A: ≠ 100. e) Não se pode tirar nenhuma conclusão, pois, o tamanho da amostra, a média amostral e o desvio padrão amostral não foram dados. Estatística Inferencial - 42 24) (ESAF/CGU/2008) Um fabricante divulga que a característica principal de seu produto tem uma média de 1000 unidades. Um pesquisador, duvidando desta afirmação, encontrou uma característica média de 935 e desvio padrão-amostral de 130 examinando uma amostra aleatória simples de tamanho 9 destes produtos. Calcule o valor mais próximo da estatística t para testar a hipótese nula de que a média da característica principal do produto é 1000, admitindo que a característica tenha uma distribuição normal. a) – 1,5 b) – 1,78 c) – 1,89 d) – 1,96 e) – 2,115 25) (CESGRANRIO – Bacen 2009) Em um estudo sobre a economia informal de uma cidade, deseja-se determinar uma amostra para estimar o rendimento médio dessa população, com um grau de confiança de 95% de que a média da amostra aleatória extraída não difira de mais de R$ 50,00 da média do rendimento dessa população, cujo desvio padrão é R$ 400,00. Sabendo-se que: ]1,0[~ Nz e que 96,1 0 .4750,0)( dzzf Onde f(z) é a função de densidade de probabilidade de z, pode-se concluir que o número de pessoas da amostra será: a) 321 b) 308 c) 296 d) 271 e) 246 Observação: o número de elementos da amostra é dado por: 2 2/ E z n Onde E é a margem de erro desejada. Estatística Inferencial - 43 Gabarito 1 2 3 4 5 6 7 8 9 10 A C B E A E E B A A 11 12 13 14 15 16 17 18 19 20 C A A D C B E A A D 21 22 23 24 25 A A C A E Estatística Inferencial - 44 Tabelas Tabela 1: Distribuição Normal Reduzida P(0 < Z < z) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,49250,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 Estatística Inferencial - 45 Tabela 2: Tabela dos valores de t, segundo os graus de liberdade e o valor de α. (teste bilateral) α Graus de liberdade 10% 5% 1% 1 6,31 12,71 63,66 2 2,92 4,30 9,92 3 2,35 3,18 5,84 4 2,13 2,78 4,60 5 2,02 2,57 4,03 6 1,94 2,45 3,71 7 1,89 2,36 3,50 8 1,86 2,31 3,36 9 1,83 2,26 3,25 10 1,81 2,23 3,17 11 1,80 2,20 3,11 12 1,78 2,18 3,05 13 1,77 2,16 3,01 14 1,76 2,14 2,98 15 1,75 2,13 2,95 16 1,75 2,12 2,92 17 1,74 2,11 2,90 18 1,73 2,10 2,88 19 1,73 2,09 2,86 20 1,72 2,09 2,85 21 1,72 2,08 2,83 22 1,72 2,07 2,82 23 1,71 2,07 2,81 24 1,71 2,06 2,80 25 1,71 2,06 2,79 26 1,71 2,06 2,78 27 1,70 2,05 2,77 28 1,70 2,05 2,76 29 1,70 2,05 2,76 30 1,70 2,04 2,75 40 1,68 2,02 2,70 60 1,67 2,00 2,66 120 1,66 1,98 2,62 acima 1,64 1,96 2,58 Estatística Inferencial - 46 9. Correlação Linear. Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra (Triola, 2008). O coeficiente de correlação linear r mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra. Também é conhecido como como coeficiente de correlação de Pearson. Fórmulas para o cálculo do coeficiente de correlação linear. Fórmula 1: 2222 yynxxn yxxyn r Notação: n – representa o número de pares de dados. x – denota a soma de todos os valores de x. x2 – primeiro elevar os valores de x ao quadrado e em seguida somar os resultados. (x)2 – primeiro somar os valores de x e elevar o resultado ao quadrado. Cuidado para não confundir com x2. xy – primeiro multiplicar cada valor de x pelo valor correspondente de y e somar esses produtos. r – representa o coeficiente de correlação linear para uma amostra. (rô) – representa o coeficiente de correlação linear para uma população. Fórmula 2: n i n i ii n i ii YYXX YYXX r 1 1 22 1 Estatística Inferencial - 47 Exemplo de cálculo: Suponha a seguinte tabela com valores de x e y para calcular o coeficiente de correlação linear. x y 8 6 10 9 9 11 7 8 11 11 Observe a próxima tabela com cálculos intermediários. x y xy x2 y2 8 6 48 64 36 10 9 90 100 81 9 10 90 81 100 7 8 56 49 64 11 11 121 121 121 45 44 405 415 402 Substituindo na fórmula: 739795,0 444025454155 44454055 222222 yynxxn yxxyn r Em geral, arredonda-se o valor para três casas decimais, logo r = 0,740. Os diagramas de dispersão são muito utilizados nos estudos de correlação (ver figura). Estatística Inferencial - 48 Exemplos de diagramas de dispersão (fonte: Triola, 2008). Correlação positiva entre x e y. Correlação negativa entre x e y. Não há correlação entre x e y. 0 2 4 6 8 10 12 0 5 10 15 Estatística Inferencial - 49 Correlação não linear entre x e y. 9.1. Propriedades do Coeficiente de Correlação. 1) É um valor entre – 1 e 1: –1 ≤ r ≤ 1. 2) O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente (de quilogramas para libras por exemplo). 3) O valor de r não é afetado pela escolha de x ou y. Permutando os valores de x e y, não altera o valor de r. 4) O coeficiente de correlação r mede a intensidade, ou grau, de um relacionamento linear. Não serve para medir a intensidade de um relacionamento não linear. 5) A correlação não se altera por operações de soma, subtração, multiplicação e divisão. 6) Suponha que X e Y seja duas variáveis aleatórias e que Y = AX + B, onde A e B são constantes. Então r2 = 1. Se A > 0, r = +1; se A < 0, r = 1. 7) Se rXY for o coeficiente de correlação entre X e Y, e se V = AX + B e W = CY + D, onde A, B, C e D são constantes, então rVW = (AC/|AC|)rXY. (com A ≠ 0 e C ≠ 0). Estatística Inferencial - 50 9.2. Tipos de Correlação. Correlação Positiva: Nesse caso temos r > 0 ou > 0. Indica que y tende a crescer com o crescimento de x (variam no mesmo sentido). Correlação Negativa: Nesse caso temos r < 0 ou < 0. Indica que y tende a decrescer com valores crescentes de x (variam em sentidos contrários). Se r = 0 ou = 0, as variáveis não estão correlacionadas linearmente. Se as variáveis não estão correlacionadas, nada se pode afirmar sobre o comportamento conjunto dessas variáveis. Importante: a correlação mede o grau de relacionamento entre duas variáveis, porém, não indica se uma é causa ou consequência da outra. Exercícios. 1) (ESAF/AFRF/1996) Considere a seguinte tabela que apresenta valores referentes às variáveis x e y, porventura relacionadas x y x2 y2 xy 1 5 1 25 5 2 7 4 49 14 3 12 9 144 36 4 13 16 169 52 5 18 25 324 90 6 20 36 400 120 Total 21 75 91 1111 317 Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e y. a) 0,903 b) 0,926 c) 0,947 d) 0,962 e) 0,989 Estatística Inferencial - 51 2) (VUNESP/BACEN1998) Duas variáveis aleatórias X e Y têm coeficiente de correlação linear igual a 0,8. O coeficiente de correlação linear entre as variáveis 2X e 3Y é: a) 0,80 b) 0,53 c) 0,27 d) 0,32 e) 0,40 3) (ESAF/AFRF/2005) Para uma amostra de dez casais residentes em um mesmo bairro, registraram-se os seguintes salários mensais em salários mínimos): Identificação do casal 1 2 3 4 5 6 7 8 9 10 Salário do marido (Y) 30 25 18 15 20 20 21 20 25 27 Salário da esposa (X) 20 25 12 10 10 10 18 15 18 23 Sabe-se que: 221 10 1 i iY ; 5069 10 1 2 i iY ; 3940 10 1 i iiYX ; 171 10 1 i iX ; 3171 10 1 2 i iX Assinale a opção cujo valor corresponda à correlação entre os salários dos homens e os salários das mulheres. a) 0,72 b) 0,75 c) 0,68 d) 0,81 e) 0,78 4) (CESGRANRIO/BACEN/1994) O coeficiente de correlação linear entre X e Y é r. Se Y = 4 – 2X, então: a) r =1 b) 0 < r < 1 c) r = 0 d) 1 < r < 0 e) r = 1 Estatística Inferencial - 52 5) (ESAF/IBGE/1999) Se X é uma variável e Y = 5 – 2X, então o coeficiente de correlação linear entre X e Y é igual a: a) 2,5 b) 1,0 c) 0 d) 0,4 e) 1,0 6) (ESAF/TRF/2006) O coeficiente de correlação entre duas variáveis Y e X é igual a + 0,80. Considere, agora a variável Z definida como: Z = 0,2 – 0,5X. O coeficiente de correlação entre as variáveis Z e X, e o coeficiente de correlação entre as variáveis Z e Y serão iguais, respectivamente, a: a) 1,0; 0,8 b) +1,0; +0,8 c) 0,5; 0,8 d) 0,5; +0,8 e) 0,2; 0,4 7) (ESAF/TRF/2006) Para 5 pares de observações das variáveis X e Y obteve-se os seguintes resultados: X = Y = 15 X2 = Y2= 55 XY = 39 Sabendo-se que esses 5 pares de observações constituem a totalidade da distribuição conjunta populacional dessas duas variáveis, o valor do coeficiente de correlação entre X e Y é igual a: a) + 1,000 b) + 0,709 c) 0,390 d) 0,975 e) 0,600 Estatística Inferencial - 53 8) (CESGRANRIO/Analista/MP/RO/2005) Analise as afirmativas a seguir, a respeito do coeficientede correlação linear de Pearson entre duas variáveis positivas X e Y: I. É positivo; II. Não se altera quando adicionarmos uma constante positiva aos valores de X; III. Não se altera quando multiplicamos por uma constante positiva os valores de X. Está(ão) correta(s) a(s) afirmativas(s): a) II somente. b) I e II somente. c) I e III somente. d) II e III somente. e) I, II e III 9) (ESAF/ACE/1998) Uma empresa tem interesse em estudar o efeito dos gastos com propaganda X no volume de vendas Y. Tais dados representam pares de observações (Xi, Yi) ao longo de 10 meses escolhidos ao acaso. Mês 1 2 3 4 5 6 7 8 9 10 X 1,2 0,8 1,0 1,3 0,7 0,8 1,0 0,6 0,9 1,1 Y 101 92 110 120 90 82 93 75 91 105 Calcularam-se as quantidades seguintes: Xi = 9,4; Yi = 959; (Xi – Mx)2 = 0,444; (Yi – My)2= 1600,9; (Xi – Mx)(Yi – My) = 23,34 Nessas expressões Mx representa a média aritmética dos valores Xi e My a média aritmética dos valores Yi. Assinale a opção que corresponde ao quadrado do coeficiente de correlação amostral entre os valores observados e preditos da variável Y. a) 0,912 b) 0,801 c) 0,766 d) 0,654 e) 0,680 Estatística Inferencial - 54 10) (FCC/Analista Judiciário/TRF/2001) Sejam X e Y variáveis aleatórias com coeficiente de correlação . Se 3 2 X Z e W = Y + 2, os coeficientes de correlação de Z e W e de W e Y são dados, respectivamente, por: a) /2 e 1 b) /2 e 1 c) e 1 d) e 1 e) e 1 Gabarito 1 2 3 4 5 6 7 8 9 10 E A B E E A E D C C 10. Regressão Linear O objetivo da correlação linear é medir o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra. Agora vamos descrever a relação determinando a equação da reta que representa a relação entre essas variáveis. Essa reta é chamada reta de regressão. Definição: Dada uma coleção de dados amostrais emparelhados, a equação de regressão xbby 10ˆ descreve a relação entre as duas variáveis. A equação de regressão expressa a relação entre x (variável independente ou variável preditora) e ŷ (variável dependente ou variável resposta) Notação para a equação de regressão Parâmetro Populacional Estatística Amostral Intercepto y da equação de regressão b0 Coeficiente angular da equação de regressão b1 Equação da reta de regressão y = + x xbby 10ˆ Estatística Inferencial - 55 Fórmulas: 22 2 0 xxn xyxxy b intercepta y. 221 xxn yxxyn b coeficiente angular. Exemplo: Determine a equação de regressão para os dados apresentados. x 1 2 4 5 y 4 24 8 32 x y x2 xy 1 4 1 4 2 24 4 48 4 8 16 32 5 32 25 160 12 68 46 244 5 12464 244124668 222 2 0 xxn xyxxy b 4 12464 68122444 222 1 xxn yxxyn b Equação de regressão: xy 45ˆ . Também é possível determinar a equação de regressão calculando b1 pela fórmula acima e considerar que xbby 10 e assim calcular xbyb 10 . No exemplo acima, temos que 17 4 68 y e 3 4 12 x , logo: b0 = 17 – 4(3) = 17 – 12 = 5 O gráfico da equação de regressão é chamado de reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados). A reta de regressão é a que melhor se ajusta aos pontos amostrais. Estatística Inferencial - 56 Com a equação de regressão, podemos ver o efeito sobre uma das variáveis, quando a outra sofre uma variação. Definição: A variação marginal de uma variável é o quanto ela varia quando a outra variável sofre uma variação de exatamente uma unidade. O coeficiente angular b1 na equação de regressão representa a variação marginal resultante quando x varia de uma unidade. Observe o quadro abaixo Equação de Regressão: xy 45ˆ x y (previsto) Variação de uma unidade da variável x 0 5 Variação marginal = 4 (valor do coeficiente angular da reta de regressão). 1 9 2 13 3 17 4 21 5 25 y = 4x + 5 0 5 10 15 20 25 30 35 0 2 4 6 y x Reta de Regressão y Previsto(a) y Linear (Previsto(a) y) Estatística Inferencial - 57 Observações: 1) Se não há correlação linear significativa, o melhor valor predito de y é a sua média y , não use a equação de regressão para fazer predições. 2) Se há correlação linear significativa, obtém-se o melhor valor predito de y substituindo-se o valor de x na equação de regressão. 3) Ao aplicar a equação de regressão para predições, mantenha-se dentro do âmbito dos dados amostrais (dentro do intervalo de variação dos dados amostrais). 4) Uma equação de regressão baseada em dados passados não é necessariamente válida hoje. 5) Não devemos fazer predições sobre uma população diferente daquela de onde provêm os dados amostrais. Exercícios 1) (FCC/Analista/TRT 8ª. região/2010) Considere o modelo yt = + t + t, t = 1, 2, 3, ..., em que t representa a t-ésima observação, e são parâmetros desconhecidos e t o erro aleatório com as hipóteses consideradas para a regressão linear simples. As estimativas de e foram obtidas a partir do método dos mínimos quadrados por meio das 10 primeiras observações, utilizando-se as seguintes informações: 10 1 55 t t , 10 1 2 385 t t , 10 1 48 t ty , 10 1 2 4,294 t ty e 10 1 330 t tty Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão de y para t = 12 é: a) 8,4 b) 8,8 c) 9,0 d) 9,6 e) 10,0 Estatística Inferencial - 58 2) (FCC/AFPS/2002) Para o modelo de regressão linear y = + x + onde y é a variável resposta, x a variável independente, e são parâmetros desconhecidos e é uma componente de erro aleatório com média zero. Assinale a opção que corresponde à interpretação do parâmetro . a) É o valor predito de y, dado que x = 0, desde que o valor de x seja compatível com o conjunto de observações da variável x. b) Mede a variação esperada em y por unidade de variação da variável x. c) É o valor esperado de y, quando se padroniza a variável x. d) Mede a variação da reta de regressão. e) Mede o coeficiente angular da reta de regressão. 3) (ESAF/AFPS/2002) Uma empresa presta serviços de manutenção de eletrodomésticos em domicílio. Para cada um de 18 atendimentos coletou o tempo gasto em minutos (y) com a manutenção e o número de máquinas servidas (x). Postula-se que o modelo linear yi = = + xi + i seja adequado, onde e são parâmetros desconhecidos e i são componentes de erro não correlacionados, com média nula e variância 2 desconhecida. As estimativas de mínimos quadrados dos parâmetros do modelo linear 10ˆ , 2ˆ e 4ˆ 2 . A estimativa do aumento esperado de tempo por máquina adicional servida por chama é de: a) 2 minutos b) 10 minutos c) 12 minutos d) 5 minutos e) 6 minutos Estatística Inferencial - 59 4) (ESAF/BACEN/2001) A Cia. Delta presta serviço de manutenção a uma marca de microcomputador. O gerente da Cia. Delta está interessado em estudar a associação existente entre o tempo (y) em minutos gasto em um atendimento e o número (x) de micros atendidos. Neste contexto anota as realizações yt e xt dessas variáveis em 16 chamadas. O gerente postula o modelo yt = + xt + t, t = 1,... ,16, onde e são parâmetros desconhecidos e os t são erros não correlacionados com média zero e variância 2. Os resultados obtidos com o ajuste pelo método de quadrados mínimos para esse modelo são apresentados a seguir: Parâmetro Estimativa Desvio padrão 2,3 2,6 14,7 0,5 2 20 Assinale a opção que dá a estimativa do aumento esperado no tempo de atendimento decorrente do aumento de uma unidade do número de micros atendidos. a) 17,0 b) 12,4 c) – 2,3 d) 0,20
Compartilhar