Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO - UFRRJ INSTITUTO MULTIDISCIPLINAR - IM DEPARTAMENTO DE TECNOLOGIAS E LINGUAGENS - DTL ANOTAÇÕES DE ESTATÍSTICA II Profº D.Sc Rosemberg Carlos Ano 2015 2 DISTRIBUIÇÕES AMOSTRAIS. 1. INTRODUÇÃO Já vimos que a Estatística Indutiva é a ciência que busca tirar conclusões probabilísticas sobre as populações, com base em resultados verificados em amostras retiradas dessas populações. Entretanto, não basta que saibamos descrever convenientemente os dados da amostra e que dominemos perfeitamente as técnicas para que possamos executar, com êxito, um trabalho estatístico completo. Antes de tudo, é preciso garantir que a amostra ou amostras que serão usadas sejam obtidas por processos adequados. Se erros palmares forem cometidos no momento de selecionar os elementos da amostra, o trabalho todo ficará comprometido e os resultados finais, serão provavelmente bastantes incorretos. Devemos, portanto, tomar especial cuidado quanto os critérios que serão usados na seleção da amostra. O que é necessário garantir, em suma, é que a amostra seja representativa da população. Isso significa que, a menos de certas pequenas discrepâncias inerentes à aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as mesmas características básicas da população, no que diz respeito à(s) variável(is) que desejamos pesquisar. A necessidade da representatividade da amostra não é, difícil de entender. O que talvez não seja tão fácil é saber quando temos uma amostra representativa ou não. Veremos algumas recomendações sobre como proceder para garantir, da melhor forma possível, a representatividade da amostra. Os problemas de amostragem podem ser mais ou menos complexos e sutis, dependendo das populações e das variáveis que se deseja estudar. Na industria, onde amostras são frequentemente retiradas para efeito de controle de qualidade dos produtos e materiais, em geral os problemas de amostragem são mais simples de resolver. Por outro lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é normalmente bastante grande. Em tais casos, extremo cuidado deve ser tomado quando à caracterização da população e ao processo usado para selecionar a amostra, a fim de evitar que os elementos desta constituem um conjunto com características fundamentalmente distintas das da população. No caso de questionários serem distribuídos, muita atenção é também requerida em sua elaboração, visando perguntas capciosas ou inibidoras, o que viria a distorcer os resultados. Em resumo, a obtenção de soluções adequadas para o problema de amostragem exige, em geral, muito bom-senso e experiência. Além disso, é muitas vezes conveniente que o trabalho do estatístico seja complementado pelo de um especialista do assunto em questão. 2. DISTRIBUIÇÃO AMOSTRAL DE X . 2.1 Conceitos Importantes Estimador: é a quantidade calculada em função dos elementos da amostra, que será usada no processo de estimação do parâmetro desejado. O estimador é, como vemos, uma estatística1. Será, portanto, uma variável aleatória caracterizada por uma distribuição de probabilidade e seus respectivos parâmetros próprios. Estimativa: é cada particular valor assumido por um estimador. 1 Toda medida descritiva e numérica de uma população é denominada como parâmetro. Todo valor obtido por cálculo de uma série de observações de uma amostra é denominada como estatística. 3 Notação: ˆ parametro a ser estimado T = um estimador de t = uma dada estimativa Qualidades desejáveis dos estimadores i. Não-tendenciosidade. Diremos que estimador T é justo (ou não-tendencioso, não-viciado ou não-viesado), se sua média (ou expectância) for o próprio parâmetro que se pretende estimar, isto é E(T) = Isto significa que os valores aleatórios de T ocorrerão em torno do valor do parâmetro , o que é, obviamente, desejável. Naturalmente, se a diferença E(T) - não for nula, ter-se-á um viés (ou tendenciosidade), que poderá ser positivo ou negativo. ii. Eficiência ou Variância Mínima A não-tendenciosidade é uma qualidade importante do estimador, mas nada informa sobre a dispersão da estimativa do parâmetro. Um estimador não-tendencioso, mas com grande variância, conduziria a estimativa muito distante da realidade ou do verdadeiro valor do parâmetro . Uma estimativa T de , obtida a partir de um estimador qualquer, é eficiente ou tem variância mínima, se as seguintes condições forem satisfeitas: a. T é uma estimativa não-tendenciosa; b. ˆ( ) ( )Var q Var m , onde m é uma estimativa obtida mediante a utilização de outro estimador. iii. Consistência Consistência refere-se às mudanças que ocorrem na distribuição amostral à medida que o tamanho da amostra cresce. Desse modo, uma estimativa T de é consistente, se o limite da probabilidade de ocorrência de T for igual a , quando o tamanho da amostra aumentar, ou seja: lim( )p T , ou, ainda: 2( ) var( ) E(T) - 0n nLim EQM T Lim T Assina-se que a diferença 2E(T) - é o viés, ou seja, a distância entre E(T) e o verdadeiro valor do parâmetro, . A interpretação da consistência, é que, à medida que o tamanho da amostra n aumenta, tanto a variância de T quanto seu viés tendem a ser nulos. Isso significa que, com aumento de n, a estimativa T tende a aproximar-se do verdadeiro parâmetro, . iv. Suficiência. Em poucas palavras, diremos que um estimador é suficiente se contém o máximo possível de informação ao parâmetro por ele estimado. Evidentemente, nos problemas de estimação devemos procurar trabalhar com estimadores justos, consistentes, da maior eficiência possível e, de preferência, suficientes. 4 Figura 1. Qualidades desejáveis dos estimadores Determinaremos as principais características da distribuição amostral da estatística X , média de uma amostra de n elementos. Sendo a população infinita ou a amostragem feita com reposição, resulta que os diversos valores da amostra podem ser considerados como valores de variáveis aleatórias independentes, com a mesma distribuição de probabilidade da população, portanto com a mesma média e a mesma variância 2 da população. Prove que: ( )X ou E X Como podemos observar na prova acima, que a média em torno da qual devem variar os possíveis da estatística X é a própria média da população. Obs: Por que amostras com reposição? Para amostras pequenas, do tipo que estamos considerando, a amostragem sem reposição tem a vantagem prática de evitar o desperdício da duplicação sempre que o mesmo item é selecionado mais de uma vez. No entanto, estamos particularmente interessados em amostragem com reposição pelas seguintes razões: i. Quando selecionamos amostras relativamente pequenas de grandes populações, não faz diferença significativa se amostramos com ou sem reposição. ii. Amostragem com reposição resulta em eventos independentes que não são afetados pelos resultados anteriores, e eventos independentes são mais fácies de ser analisados e resultam em fórmulas mais simples. Sendo assim, nos concentraremos no comportamento de amostras aleatoriamente selecionadas com reposição. Com relação à variância, temos: 2 2 X n Prove que: 2 2 X n Como pode ser observado acima, que a variância com que se os possíveis valores da estatística X é n vezes menor que a variância da população de onde é retirada a amostra. Isto se deve à própria essência do processo aleatório, que faz com que haja, dentro da amostra, uma natural 5 compensação entre valores mais elevados e valores mais baixos, produzindo valores de X que tendem a ser tanto mais próximo da média da população quanto maior o tamanho da amostra n. Resulta imediatamente que X n 2.2A Lei dos Grandes Números Introdução às Leis Fraca e Forte dos Grandes Números A Leis dos Grandes Números afirma que a média aritmética dos “n” valores observados é aproximadamente igual a ( )E X quando “n” é grande; de fato ela afirma que esta média aritmética das observações converge, em certo sentido, para a média ( )E X , quando n . Corolário (Lei dos Grandes de Bernoulli, publicado em 1713). Consideremos uma sequência de ensaios binomiais independentes, tendo a mesma probabilidade “p” de sucesso em cada ensaio. Se Sn é o número de sucessos nos primeiros n ensaios, então . n .n .n n S 0; S 0; S 0; S 0; S S Pn q cn p Temos o caso de convergência em probabilidade q c Temos o caso de conver(Lei Fraca dos Grandes Números) q c p nP nP n n P Pn n P nP n gência para um limite finito (Lei Forte dos Grandes Números) Para tornar ainda mais clara a diferença entre as Leis Forte e Fraca dos Grandes Números, o gráfico a seguir contém uma particular trajetória de resultados. 2.3 Teorema Central do Limite Em essência, trata-se da convergência em distribuição para o modelo Normal de uma soma de variáveis aleatórias independentes, após uma conveniente padronização. Sejam x , 1n n variáveis aleatórias, i.i.d (independentes e identicamente distribuídas) com média μ e variância σ2, com 0< σ2 <∞. Então, para 1 2S x x xn n , temos 6 S 0,1dn n N n No caso binomial S S S 0,1 (1 ) (1 ) (1 ) n n dn P PnP n n N nP P nP P P P nn 2.4 Correção pela População ser Finita. No caso de amostragem sem reposição de populações finitas, em que a independência entre os iX não se verifica, demonstra-se que 2 2 N-nX N-1n onde N é o número de elementos da população e N-n N-1 é chamado fator de população finita. 3. DISTRIBUIÇÕES AMOSTRAIS DE e f p . Consideremos agora a freqüência f com que foi observada alguma característica na amostra. Essa característica poderá ser uma das classificações de uma variável qualitativa, um ou mais valores de uma variável quantitativa discreta, ou o fato de uma variável quantitativa contínua cair em um dado intervalo. A freqüência f é uma estatística, pois é determinada em função dos elementos da amostra. Evidentemente, podemos, para cada elemento da amostra, considerar a ocorrência de um sucesso, caso a característica desejada se verifica, e de um fracasso, caso contrario. Seja p a probabilidade de ocorrência de sucesso para cada elemento da amostra. Se a população é infinita ou a amostra é feita com reposição, p é constante para todos os elementos da amostra, e os resultados observados para todos eles serão independentes. Nessas condições, o Cálculo de Probabilidades nos ensina que a distribuição amostral de freqüência f será uma distribuição binomial de parâmetros n e p, seguindo-se, pelas propriedades da distribuição binomial, que 2 ( ) ( ) (1 ) f np f np p A freqüência relativa p , por vez, sendo simplesmente o quociente de f pelo tamanho da amostra n, terá média e variância que serão facilmente obtidas a seguir: 2 ( ) (1 )( ) p p p pp n Prove o resultado acima. Obs: sendo a amostra suficientemente grande, podemos aproximar as distribuições de e f p por distribuições normais de mesma média e mesmo desvio-padrão. Em termos práticos, em geral, 7 podemos considerar que a amostra será suficiente grande, para efeito dessa aproximação, se 5 e (1 ) 5np n p . 4 DISTRIBUIÇÃO AMOSTRAL DE 2s – DISTRIBUIÇÃO 2 . A distribuição amostral da estatística 2s , definida dá seguinte forma 2 2 1 1 n i i x x s n está relacionada com uma família de distribuições de probabilidades de grande importância em diversos problemas de Estatística Indutiva, que são as distribuições do tipo 2 . Devemos, portanto, preliminarmente, apresentar essa família de distribuições. Diremos que a estatística 2 2 2 1 1 v v i v i i i x z onde ix são os valores aleatórios independentes retirados de uma população normal de média e desvio-padrão , tem distribuição 2 com v graus de liberdade. Tal denominação deve-se a Karl Pearson. Os valores iz são os correspondentes valores da variável normal reduzida. Podemos, podemos, portanto, considerar a distribuição da variável 2 com v graus de liberdade como a soma dos quadrados de v valores independentes da variável normal reduzida. Do fato de que 2( ) 1z , segue-se que 2 2 2 1 2 2 ( ) ( ) ( ) ( ) 2 v v i i i v z v z v v Obs: Segue-se do teorema central de limite que a família de distribuição Qui-Quadrado tende à distribuição normal quando o número de gruas de liberdade aumenta. Outra importante propriedade das distribuições Qui-Quadrado é sua aditividade. 1 2 1 2 2 2 2 v v v v O conhecimento das distribuições 2 nos leva à determinação da distribuição amostral da estatística 2s , conforme segue. 2 2 1 2 1 2 2 2 1 1 1 2 2 2 2 1 2 2 2 2 1 1 1 1 1 n iv i i i n n i i i i n n n x x x x x x x x n n n s s n 8 vemos, pois, que, a menos de uma constante, a estatística 2s se distribui conforme uma distribuição Qui-Quadrado com n-1 graus de liberdade. 2 2 2 2 2 1 4 4 4 2 2 2 2 12 2 ( ) ( ) ( 1) 1 1 ( ) ( ) 2( 1) 2 11 1 n n s n n n s n nn n Propriedades da distribuição da Estatística Qui-Quadrado. 1. A distribuição qui-quadrado não é simétrica; 2. Os valores de qui-quadrado podem ser zero ou positivos, mas nunca podem ser negativos; 3. A distribuição qui-quadrado é diferente para cada número de graus de liberdade, e o número de graus de liberdade é dado por gl = n-1. À medida que o número de graus de liberdade aumenta, a distribuição qui-quadrado se aproxima de uma distribuição normal. 5. DISTRIBUIÇÃO F DE SNEDECOR. Suponha que duas amostras independentes retiradas de populações normais forneçam variâncias amostrais 2 21 2 s e s , e que desejamos conhecer a distribuição amostral do quociente 2 1 2 2 s s . Isso será possível através do conhecimento das distribuições F de Snedecor. 2 1 1, 2 2 2 1 2 v v v v vF v Imaginemos agora que de duas populações normais com mesma variâncias 2 (ou o que seria equivalente, de uma mesma população normal), sejam extraídas duas amostras independentes ( 1),1 2n ( 1), 2 n 9 com, respectivamente, n1 e n2 elementos e tomemos o quociente 2 1 2 2 s s das variâncias dessas amostras. Utilizando a expressão anterior podemos concluir que a distribuição amostral desse quociente será uma distribuição 1 21, 1n n F , pois 1 1 1 2 2 2 22 2 1 12 11 1 1, 122 2 12 2 1 2 2 1 1 1 1 n n n n n n ns n F s n n 6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA 6.1 Definições Importantes Parâmetro: é toda medida descritiva e numérica de uma população. Exemplos: , 2 , e YP N Estatística: é todo valor obtido por cálculo de uma série de observações de uma amostra. Exemplos: x , 2s , s e n ap 6.2 Estimativa pontual Estimativa única de um parâmetro populacional. Cada amostral terá uma média amostral que poderá ou não ser igual. A estimação por ponto consistirá simplesmente em, à falta de melhor informação, adotar estimativa disponível como sendo o valor do parâmetro. A idéia é, em sua essência, extremamente simples, porém a qualidade dos resultados irá depender fundamentalmente da conveniente escolha do estimador. Assim, dentre os vários estimadores razoáveis que poderemos imaginarpara um determinado parâmetro, devemos ter a preocupação de escolher aquele que melhor satisfaça às propriedades de um bom estimador. 10 6.3 Estimativa Intervalar I. Intervalo de Confiança para Média da População Quando é Conhecido As estimativas por ponto são, em geral, utilizadas quando necessitamos, ao menos aproximadamente, conhecer o valor do parâmetro para utilizá-lo em uma expressão analítica qualquer. Entretanto, se a determinação de um parâmetro é a meta final de um estudo estatístico em pauta, a estimação por ponto é, em geral, insuficiente, pois a probabilidade de que a estimativa adotada venha coincidir com o verdadeiro valor do parâmetro é, em geral, nula ou praticamente nula. Isso decorre de os estimadores serem variáveis aleatórias, logo, as estimativas obtidas quase certamente serão distintas do valor do parâmetro. Ou seja, é quase certo que estejamos cometendo um erro de estimação, quando procedemos à estimação por ponto de um parâmetro populacional. Devido a esse fato, surge a idéia de se construir um intervalo em torno da estimativa por ponto, de modo a que esse intervalo tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. Essa idéia da estimativa por intervalo, a qual configura um problema prático de Estatística Indutiva, pois iremos fazer afirmações probabilísticas acerca dos possíveis valores de um parâmetro da população. Ao intervalo que, com probabilidade conhecida, deverá conter o valor real do parâmetro chamaremos intervalo de confiança para esse parâmetro. À probabilidade, que designaremos 1 , de que um intervalo de confiança contenha valor do parâmetro da chamaremos nível ou grau de confiança do respectivo intervalo. Salvo menção em contrário, suporemos os intervalos de confiança simétricos em probabilidade, isto é, tais que a probabilidade de o parâmetro ficar fora do intervalo à sua esquerda é igual à probabilidade de ficar à sua direita, ambos iguais a 2 , que designaremos por nível de significância ou erro. Assim, o intervalo conterá ou não o parâmetro, com probabilidade de 1 , sendo, a rigor, incorreto, falarmos em “probabilidade de o parâmetro cair no intervalo”. Intervalos de Confiança: intervalo de valores centrados na estatística amostral pontual, no qual julgamos estar o parâmetro populacional, com um risco conhecido. (1 ) 100% (1 ) 100% ˆ( ) ( ) ; x x IC Parametro em questao limite inferior; limite superior IC estimativa pontual erro estimativa pontual erro 1 = coeficiente de confiança ou nível de confiança = nível de significância / risco Usando a distribuição normal, observamos que existe uma relação entre os valores simétricos dos desvios-padrão ao redor da média e a probabilidade associada na área sob a curva delimitada por esses valores dos desvios padrões, por exemplo:Tem-se que, cerca de dois terços dos valores da distribuição, “caem” dentro de um desvio padrão em torno de sua média, e praticamente 11 i X Z todos os valores, dentro de três desvios padrão, engloba para ambos os lados em torno da média, ou seja, 68% dos valares entre a média e mais ou menos um desvio padrão e 99,7% entre a média e mais ou menos três desvios padrão. P( - Z α/2 < Z < Z α/2) = 1- α ou seja, dado 2 podemos encontrar valores Z α/2 Sabemos que: e que: Xi pode ser qualquer valor inclusive X e o desvio padrão amostral será dado por n , n XZ Obs: Se a distribuição da população for normalmente distribuía, então a distribuição da amostra também terá distribuição normal para qualquer tamanho da amostra (TCL). Cabe ressaltar que estamos tratando neste primeiro caso com amostra grandes 30n e que o problema fornece o desvio-padrão da população, iremos estudar também o caso de pequenas amostras quando 30n . Então o intervalo de confiança para a verdadeira média populacional, quando é fornecido o desvio-padrão da população e com nível de confiança de 1 será: (1 ) 100% 2 2 ( ) , IC X Z X Z n n 12 II. Intervalo de Confiança para Média da População Quando é Desconhecido (Pequenas Amostras) Em alguns casos não é possível obter amostras grandes, pois os dados disponíveis são poucos, o custo unitário da amostra e muito grande, o tempo disponível não e suficiente etc. Com o teorema central do limite se aplica para amostras grandes, a forma da distribuição das médias amostrais de amostras pequenas dependerá da forma da distribuição da população. Nesse caso, o desvio padrão da amostra não será um bom estimador do desvio padrão da população. Portanto, para estimar a média da população com amostras pequenas devemos estabelecer como premissas que a população da qual é retirada a amostra deve ter distribuição normal. Nessas condições, a estimativa da média da população deve ser realizada com a distribuição t, conhecida também como distribuição de student. A distribuição t uma forma similar a da distribuição normal, porém com as caudas um pouco mais altas ver figura abaixo. Para completar definição deve-se usar um novo parâmetro junto com intervalo de confiança, o número de graus de liberdade ou gl, neste caso igual ao tamanho da série menos 1, isto é gl = (n-1): 2/1, n i t n s X Z Características importantes da distribuição t 1. Distribuição contínua e simétrica com média igual a zero; 2. Existe uma família de distribuição t, em função do número de graus de liberdade gl; 3. É mais aberta e as caudas são um pouco mais altas que as da distribuição Z. Para grandes amostras, ou grandes valores de gl, as distribuições t e z são praticamente iguais. Como " "s é uma variável aleatória,a substituição pura e simples do parâmetro por " "s somente será justificável para amostras grandes, para as quais será possível que " "s ofereça uma estimativa próxima do valor de . É comum admitir-se que tal fato ocorre para 30n . Por outro lado, sabe-se que embora 2s , seja um estimador justo de 2 , " "s é um estimador viciado de . Todavia, aumentando o tamanho da amostra, o vício tende a desaparecer , ficando justificado também sob esse aspecto o procedimento anterior. Logo, grandes amostras, o intervalo de confiança para pode ser, simplesmente, construído, com boa aproximação adotando- se " "s como estimativa de . 13 Quanto menor for a amostra, porém mais necessária se torna a introdução de uma correção a qual consiste em usar a variável t de Student ao invés de Z, isso é para 30n . n stX n stXIC nn ) 2 ,1() 2 ,1(%100)1( ,)( III. Intervalo de Confiança para uma Proporção Populacional (P) Foi visto em Distribuições Amostrais de e f p que uma freqüência amostral p distribui-se conforme uma distribuição binomial, cuja média é o próprio parâmetro populacional p , e cuja variância é dada por (1 )p p n . Sendo 5 e (1 ) 5np n p , podemos em geral aproximar essa distribuição pela distribuição normal. Como desconhecemos p , adotaremos como condições de aproximação 5 e (1 ) 5np n p . Portanto, sendo a amostra suficientemente grande para satisfazer às condições precedentes e considerando-se que p é o estimador que usaremos para p , podemos chegar à expressão do intervalo de confiança para p . O intervalo será da forma p e e, por um caminho semelhante ao que foi feito no caso da estimação de , chega-se facilmente a 2 (1 ). p pe Z n Dessa forma, podemos considerar o intervalo de confiança para p , ao nível de confiança 1 , como sendo praticamente dado por 2 (1 ). p pp Z n significando que (1 ) 100% 2 2 (1 ) (1 )( ) . . x p p p pIC P p Z p p Z n n IV. Intervalo de Confiança para a Variância da População ( 2 ). Seja agora o problema da construção do intervalo de confiança ao nível1 para a variância 2 da população. O conhecimento das distribuições 2 , vistas anteriormente, será fundamental para esse propósito. As etapas são as mesmas utilizadas para construção dos outros intervalos, então: 2 2 2 2 2 2 1 2 21, 1 1, 2 2 1, 11, 22 2 2 2 2 2 (1 ) 100% 1, 11, 22 1 1 1 1 1 1 ( ) nn n nn x nn n s n s P P n s n s IC P 14 6.4. Tamanho de amostra O tamanho da amostra é um dos pontos mais polêmicos quando do planejamento de uma pesquisa por amostragem. De um modo geral, as pessoas menos familiarizadas com as técnicas de amostragem julgam que o tamanho de uma amostra está associado a um número cabalístico, 10%, o que nada tem a ver com a realidade. O dimensionamento de uma amostra leva em conta vários aspectos, por exemplo, a homogeneidade da população, o nível de confiabilidade na análise que se pretende realizar, o tipo de estimativas a serem feitas, o modelo de amostragem a ser utilizado, etc. I. Tamanho de amostra necessário à construção de um intervalo de confiança para média populacional. 2 2 2 2 Z n d onde Pré-fixando d = erro absoluto e α (erro em probabilidade). II. Tamanho de amostra necessário à construção de um intervalo de confiança para média proporção populacional. 2 2 2 (1 )Z p p n d 7. Intervalo de Confiança para a Diferença De Médias 1 2 . Seja 1 2, , , nx x x e 1 2, , , ny y y ;as amostras aleatórias de tamanho 1n e 2n de duas distribuições independentes com parâmetros 21 1, e 2 2 2, , as médias amostrais x e y são os estimadores de 1 e 2 . Se as duas amostras são tomadas de Populações Normais, então: 2 2 1 2 1 2 1 2 ~ , e y ~ ,x n n Se as distribuições de e yx não forem normais, porém os tamanhos amostrais forem grande o TCL que elas irão convergir para distribuição normal ambas. Algumas Propriedades Importantes 1 2E y E E y y y cov , y x x V x V x V x Observação: como as amostras são independentes cov , y 0x 1 2E y E E y y y x x V x V x V Supondo e yx com distribuição normal e independentes, temos: 2 2 1 2 1 2 1 2 y ~N ,x n n 15 Análogo ao procedimento para o intervalo de confiança para verdadeira média populacional, temos: P( - Z α/2 < Z < Z α/2) = 1- α 1 2 2 2 1 2 1 2 y ~ 0,1 x Z N n n 1. Intervalo de Confiança para a Diferença das Médias com Variâncias Conhecidas. 2 2 2 2 1 2 1 2 1 2 1 2 1 22 2 y , yIC x z x z n n n n 2. Intervalo de Confiança para a Diferença das Médias com Variâncias Conhecidas, porém supostas iguais 2 2 21 2 . Uma estimativa para 2 é dada por: 2 2 1 1 2 22 1 2 1 1 2p n s n s s n n 1 2 1 2 1 2 2, 2,1 2 1 22 2 1 1 1 1y , yp p n n n n IC x t s x t s n n n n 3. Intervalo de Confiança para a Diferença das Médias com Variâncias Desconhecidas e Desiguais Se 1 2 e forem desconhecidos e não puderem ser supostos iguais, desde que 1 2 30n n , substituiremos 1 2 e pelas estimativas amostrais 1 2 e s s e calculamos o intervalo como em “1”. 2 2 2 2 1 2 1 2 1 2 1 2 1 22 2 y , ys s s sIC x z x z n n n n agora se 1 2 30n n , faremos da seguinte forma: ; )( 2 2 2 1 2 1 2 ,.21 2 2 2 1 2 1 2 ,.21%100)1( 21 n s n stxx n s n stxxIC lglg 16 Observação: o grau de liberdade deve ser calculado da seguinte forma: 2 1 2 2 2 1 2 1 2 2 1 1 1 2 2 2 2 . 2 1 1 w w g l w w n n sw n sw n esse método que faz a correção do valor crítico é conhecido como Aspin-Welch. 8. Intervalo de Confiança para Diferença entre Proporções 1 2P P . No caso de se desejar o intervalo de confiança para a diferença entre duas proporções populacionais 1 2P P , a expressão será análoga ao caso do intervalo de confiança para verdadeira proporção Populacional P. 1 1 2 2 1 1 2 2 1 2 1 2 1 2 1 100% 1 2 1 22 2 1 1 1 1 , p p p p p p p p IC P P p p z p p z n n n n 17 9. Testes de Hipóteses Vamos agora abordar o segundo tipo de problema de Estatística Indutiva, o problema dos testes de hipóteses referentes à população. Trataremos dos testes ditos paramétricos, pois se referem a hipóteses sobre parâmetros populacionais. Ao contrário do que ocorria nos problemas de estimação, vamos agora supor que exista uma hipótese, a qual será considerada válida até prova em contrário, acerca de um dado parâmetro da população. Essa hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada, conforme veremos a seguir. Entretanto se, sob diversos aspectos, o problema dos testes de hipóteses é oposto ao da estimação, há também vários pontos que são comuns aos dois casos. Vimos que a estimação é feita com base em uma variável convenientemente escolhida, função dos elementos da amostra, à qual denominamos estimador. Vimos também critérios para a escolha de bons estimadores. Ora, também nos problemas de testes de hipóteses, vamos basear nossas conclusões em variáveis calculadas a partir da amostra ou amostras disponíveis. E os mesmos critérios que indicam a conveniência de uma estimador em problemas de estimação vão agora nos orientar na escolha da variável de testes adequada, não sendo necessário repeti-los. ETAPAS DE UM TESTE DE HIPÓTESE 1. Formulação do problema. Baseado neste problema, discutir as hipóteses, 0 1 e H H ; 2. Fixar e conseqüentemente determinar os valores tabelados que levam a rejeição de 0H . Estes valores definem uma região de rejeição de 0H ; 3. Colher uma amostra representativa da população em estudo o obter o valor da estatística teste; 4. Comparar o resultado amostral com o da região de rejeição, se o valor amostral for um deles, a regra de decisão leva a rejeição de 0H . 5. Tirar conclusões. Se após o teste ser realizado, a decisão for não rejeitar 0H , isso significa que a diferença entre o valor alegado e o valor observado na amostra é devido ao acaso (variação amostral). Se a decisão for rejeitar 0H , implica que a diferença é demasiado grande para ser devida apenas ao acaso. CONCEITOS FUNDAMENTAIS hipótese nula ( 0H ); hipótese alternativa ( 1H ); nível de significância →padrão estatístico especificado para rejeitar a hipótese nula. Para um dado nível de significância, 0H é rejeitada se o resultado amostral for significativamente diferente do valor suposto. 18 Em um teste de hipótese podem ocorrer dois tipos de erros: erro tipo I: rejeitar 0H , sendo 0H verdadeira; erro tipo II: aceitar 0H , sendo 0H falsa. Tipos de erros no teste de hipóteses 0H Verdadeiro 0H Falsa Aceita 0H Decisão correta 1 Erro tipo II Rejeita 0H Erro tipo I Decisão correta 1 Uma situação freqüentemente encontrada na prática, em problemas de aceitação ou rejeição de lotes submetidos à inspeção por amostragem. O assunto é abordado com mais pormenores nos textos que tratam de Controle Estatístico de Qualidade, onde as probabilidades e dos erros tipo I e II são denominados, respectivamente, risco do produtor e risco do consumidor. (Com efeito, é o risco do produtor de ver rejeitada um bom lote fornecido, e é os risco do consumidor de aceitar um lote fora a especificação.) 9.1. Testes para uma média populacional (Suposta a normalidade da população) a) com conhecido (n ≥ 30) Obs: os dois primeiros são chamados monocaudais ou unilaterais e o último bicaudal ou bilateral Estatística teste: x-Z = n 19 b) com desconhecido (n < 30) Estatística teste: x- = n-1t s n Erros no teste de hipóteses A conclusão de um teste de hipóteses é aceitar ou rejeitar a hipótese H0 e, consequentemente, rejeitar ou aceitar a hipótese alternativa H1. em qualquer situação, seja H0 verdadeira ou falsa, procura-se tomar decisão correta, tendo presente que isso não seja possível em 100% das vezes. Como a decisão é baseada em dados amostrais, não teremos a certeza qual as duas hipóteses é a hipótese realmente verdadeira, salvo que seja realizado um censo, uma amostragem total da população. Portanto, sempre que H0 for rejeitada o teste de hipóteses não afirma que H0 seja falsa, o teste de hipótese sugere que existem evidencias de que H0 seja falsa. O único que podemos afirmar é que se adotamos, por exemplo, um nível de significância de 0,10, esperamos que em 90% das vezes a conclusão obtida seja correta; isto é, se o teste fosse repetido um número muito grande de vezes, esperamos que a proporção de acertos seja de 90%. O nível de significância α adotado define o erro tolerado pelo analista e esse erro é conhecido, também, como nível de risco. É o risco que o analista está aceitando no caso de rejeitar a hipótese nula quando ela for verdadeira. A probabilidade de cometer um erro do tipo I é controlada pelo analista; isto é, escolhido o nível de significância α: P(Ocorrer erro tipo I) = P(Rejeitar H0 quando H0 é verdadeira) = α A probabilidade de cometer um erro do tipo II, denominado como β, é: P(Ocorrer erro tipo II) = P(Aceitar H0 quando H0 é falsa) = β Entre os erros existe uma relação: quando α aumenta β diminui e vice versa, quando α diminui β aumenta. O único caminho para reduzir α e β simultaneamente é obter mais informações, isto é, aumentando o tamanho da amostra. 20 9.2. Testes de uma Variância Populacional As mesmas ideias apresentadas no caso do teste de uma média podem ser utilizadas para se realizarem testes envolvendo a variância da população. Assim, vamos testar as hipóteses 2 2 0 0 2 2 1 0 H : Hipótese H : Estatística de teste: 1 2 2 2 0 1 n n s , então Iremos rejeitar H0 se 2 2 1 1,n n calculado tabelado 9.3 Testes de uma Proporção Populacional Já sabemos que, ao realizar induções sobre uma proporção populacional “P”, devemos nos basear na proporção observada na amostra, p . Sabemos também que, se 5np e (1 ) 5n p , podemos aproximar a distribuição amostral de p pela distribuição normal de P e desvio-padrão (1 )P P n . Isso nos permite facilmente realizar testes envolvendo proporções populacionais, de forma análoga ao que foi viso para os testes de uma média. Assim, por exemplo, sejam as hipóteses 0 0 1 0 H : Hipótese H : P P P P Satisfeitas as condições 0 5nP e 0(1 ) 5n P , a distribuição da frequência relativa p será aproximadamente normal, com média (pela hipótese H0) igual a 0P , e desvio-padrão 0 0(1 )P P n . Logo, padronizando o valor experimental p , teremos o “Z” experimental, dado por 0 0 0(1 ) p P P P n z Iremos rejeitar H0 se calc tab z z 10. Comparação de Duas Médias Vamos agora estender a teoria dos testes de hipóteses para os casos em que temos duas ou mais amostras, em princípio provenientes de populações distintas. Com base nessas amostras, iremos comparar parâmetros equivalentes das populações envolvidas. Veremos que as idéias fundamentais expostas nos itens precedentes não sofrerão alteração; apenas à técnica de realização dos vários testes se modificará convenientemente. Analisaremos os diversos casos possíveis de ocorrer ao se compararem as médias de duas populações. Em termos gerais, testaremos hipóteses referentes ao valor real da diferença entre duas médias populacionais, ou seja, 21 0 1 2: ,H tendo, em geral, especial interesse o caso ∆ = 0, em que se trata a hipótese da igualdade das duas médias, ou seja, 1 2 . 10.1 Dados Emparelhados Os resultados das duas amostras constituem dados emparelhados quando estão relacionados dois a dois segundo algum critério que introduz uma influência marcante entre os diversos pares, que supomos, porém, influir igualmente sobre o valor de cada par. Os conjuntos de dados podem ser dispostos da seguintes forma: 1 1 1 1 1 2 2 2 2 2 i i i n n n n n x y d x y d y x x y d y x x y d y x Onde 1 n i i d d n Estatística teste: d- = d t s n Rejeita-se 0H ao nível de significância α se calculado tabeladot t * 10.2 Dados Não-Emparelhados Primeiro Caso Se os dados não são emparelhados, não terá sentido calcular diferença entre valores das duas amostras, e o teste deverá, portanto, ser baseado na diferença 1 2x x entre as médias das duas amostras. Nesse caso, as duas amostras podem ter tamanhos diferentes, que denotaremos por 1 2 e n n . Supomos, neste primeiro caso, que são conhecidos os desvios-padrão 1 2 e das duas populações envolvidas. Ora, sendo válida a hipótese 0 1 2:H sabemos que 22 2 2 2 21 2 1 2 1 2 e x x n n , 2 2 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 + + x x n n x x n n A estatística de teste 1 2 2 2 1 2 1 2 x x Z n n Segundo Caso Supomos agora que não são conhecidos os desvios-padrão das duas populações, mas podemos admitir que esses desvios-padrão são iguais, ou seja, 1 2= . Nesse caso, devemos substituir o desvio-padrão desconhecido por uma estimativa 2 2 1 1 2 22 1 2 1 1 2c n s n s s n n onde 2 21 2 e s s são as variâncias das duas amostras disponíveis. A estatística de teste 1 2 2 1 2 y 1 1n n p x t s n n Terceiro Caso Supondo agora que as duas populações tenham desvios-padrão diferentes e desconhecidos, devemos recorrer a métodos aproximados, mesmo que as populações sejam normalmente distribuídas. A estatística de teste 2 2 1 2 1 2 yx t s s n n fazendo a correção pelo método de Aspin-Welch para o grau de liberdade. 2 1 2 2 2 1 2 1 2 2 1 1 1 2 2 2 2 . 2 1 1 w w g l w w n n sw n sw n 23 11. Comparação de Duas Proporções Frequentemente desejamos testar hipóteses referentes à diferença entre duas proporções populacionais, ou seja, 0 1 2:H P P contra a alternativa 1H conveniente. A variável de teste, será a diferença entre as frequências relativas das duas amostras disponíveis, 1 2p p . Sabemos que, se 1 1 1 2 2 2 2 25, 1 5, 5 1 5n p n p n p e n p , as distribuições por amostragem de 1 2 p e p poderão ser aproximadas por distribuições normais de médias 1 2 P e P e variâncias 1 1 2 2 1 2 1- 1- e P P P P n n Nessas condições, sendo independentes as duas amostras, a distribuição da variável de teste 1 2p p será também normal, com média 1 2P P e variância 1 1 2 22 1 2 1 2 1- 1- + P P P P p p n n logo, a hipótese 0H poderia ser testada, de forma análoga aos casos anteriores, pela quantidade 2 22 1 11 2121 11 n PP n PP PPppz Como não conhecemos os valores de 1 2 P e P , vamos estimá-los pelas respectivas frequências relativas amostrais, obtendo, por aproximação, o valor 2 22 1 11 2121 11 n pp n pp PPppz Um caso muito comum é aquele em que desejamos testar a igualdade das duas proporções, ou seja, quando0 . Nesse caso, por hipótese, 1 2P P P . O cálculo da variância será: 2 1 2 1 2 1 1 1- + p p P P n n Como não é conhecido P substituiremos pela sua estimativa amostral: 1 1 2 2 1 2 n p n pp n n 1 2 1 2 p pz 1 1p 1 p n n 24 EXERCÍCIOS PARA RELAXAR A MENTE 1. Uma população consiste em cinco números 2, 4, 6, 8 e 10. Considere todas as amostras possíveis de 2 elementos que dela podem ser retiradas, com e sem reposição. a) calcule a média populacional; b) o desvio padrão populacional; c) a média da distribuição das médias; d) o desvio padrão da distribuição amostral das médias. 2. Após o plano real, o gerente de agência bancária verificou que o saldo médio das contas correntes aumentou. Considerando todos os clientes da agência, a média e o desvio padrão do saldo médio das contas correntes são iguais, a respectivamente, R$ 325 e R$ 114. Se for retirada uma amostra aleatória de 100 contas correntes, pede-se determinar: a) a probabilidade que a média dos saldos médios seja menor que R$ 330. b) a probabilidade que a média dos saldos médios seja maior que R$ 350. 3. A garrafa de um vinho branco importado de uma determinada marca é vendido na maior parte dos supermercados do país. Levantamentos realizados pelo distribuidor desse vinho em todos os pontos de vendas mostraram que a média do preço de venda e R$ 6,35 com desvio padrão igual a R$ 1,90. Se for retirada uma amostra aleatória em 45 pontos de vendas, pede-se determinar a probabilidade que a média do preço de venda da garrafa de vinho seja: a) menor que $ 6,00; b) seja maior que $7,00. 4. Suponha que tenhamos uma amostra de aleatória de tamanho 2n, proveniente de uma população denotada por X, e E(X)=µ e V(X)=σ2. Faça 2 1 2 1 1 1 1 e 2 n n i i i i X X X X n n serem dois estimadores de µ. Qual é melhor estimador de µ? Explique sua escolha. 5. Faça 1 2, , , nX X X denotar uma amostra aleatória, proveniente de uma população tendo média e variância 2 . Considere os seguintes estimadores de . 1 2 7 1 1 6 4 2 ˆ 7 2ˆ 2 X X X X X X a) os dois estimadores são não tendenciosos? b) Qual é o melhor estimador? Em que sentido ele é melhor? 6. Suponha que 1̂ , 2̂ e 3̂ sejam estimadores do parâmetro . Sabemos que E( 1̂ )=E( 2̂ )= , E( 3̂ )≠ , V( 1̂ )=12, V( 2̂ )=10 e E( 3̂ - )2=6. Compare esses três estimadores. Qual você prefere? Por quê? 7. Ache o valor crítico 2 Z que corresponde ao nível de confiança dado: a) 90% b) 92% c) 95% d) 99% e) 99,74% 25 8. Ache o valor crítico 2 ,1 n t ou 2 t que corresponde ao nível de confiança dado: a) 90%, n = 5 b) 95%, n = 6 c) 98%, n = 5 d) 99%, n = 121 9. Ache o valor crítico 2 1, 1 2n e 2 1, 2 n que corresponde ao nível de confiança dado: a) 95%; n = 16 b) 95%; n = 31 c) 90%; n = 11 10. Ache o valor crítico que corresponde ao nível de confiança dado: a) 95%, n1 = 10 e n2 = 3 b) 97,5%, n1 = 7 e n2 = 7 c) 99%, n1 = 3 e n2 = 10 11. A distribuição dos diâmetros de parafusos produzidos por uma certa máquina é normal, de desvio-padrão igual a 0,17 mm. Uma amostra de seis parafusos retirada ao acaso da produção apresentou os seguintes diâmetros (em milímetros). Construa um intervalo de 95% de confiança para média da população. 25,4 25,2 25,6 25,3 25,0 25,4 12. De uma população com média desconhecida e desvio padrão igual a 16, foi retirada uma amostra de n=64 observações. Se o valor da média amostral é igual a 50, pede-se estimar a média da população considerando um intervalo de confiança igual a 95%. 13. Estimando a Poluição dos Carros. Em uma amostra de sete carros, cada um foi testado em relação à emissão de óxido de nitrogênio (em gramas por milha) e obtiveram-se os seguintes resultados: 0.06; 0,11; 0,16; 0,15; 0,14; 0.08; 0,15 (com base em dados da Agência de Proteção Ambiental dos Estados Unidos). Supondo que essa amostra seja representativa dos carros em uso, construa uma estimativa de intervalo de confiança de 98% de confiança para a quantidade média das emissões de óxido de nitrogênio para todos os carros. Se a Agência de Proteção Ambiental exige que as emissões de óxido de nitrogênio sejam menores do que 0,165 gramas / milha, então podemos concluir com segurança que essa exigência esteja sendo atendida? 14. Uma amostra aleatória de 40 contas de pessoas físicas na filial de um banco apresentou saldo médio de $ 1.400,00 com desvio padrão de R$ 300,00. Pede-se: a) Há alguma suposição para ser feita? Em caso positivo, qual? b) Construir um intervalo de confiança de 95% para verdadeira média do saldo dos correntistas desse banco. c) Construir um intervalo de confiança de 99% para verdadeira média do saldo dos correntistas desse banco. 15. Suponha que a idade média dos alunos do IM / UFRRJ será estimada com base em uma amostra de 25 alunos que apresentou média igual 26 anos e variância de 9 anos2. Construa o intervalo de confiança de 95% para a idade média populacional usando os resultados desta amostra. Alguma suposição é necessária para construção deste intervalo? Qual? 16. Nosso interesse é estimar a média de consumo em quilômetros por litro de um novo modelo de carro da montadora líder do mercado de carros populares. Sabendo que a população tem distribuição normal e o consumo em quilômetros por litro de uma amostra aleatória de 16 carros do novo modelo de carro é igual a 14,8 com desvio padrão igual a 2, pede-se estimar o valor da média da população com intervalo de confiança igual a 95%. 26 17. Seja X uma variável aleatória normalmente distribuída com média e desvio padrão, ambos desconhecidos. Uma amostra aleatória de tamanho 10 apresentou os seguintes resultados: 10 1 159 i ix , 2531 10 1 2 i ix . Construa o intervalo de confiança, com coeficiente de 95%, para . 18. É dada a seguinte distribuição de freqüência, representativa dos dados de uma amostra de cinqüenta elementos: Classes fi 10├20 3 20├30 9 30├40 15 40├50 10 50├60 8 60├70 5 Total 50 a) Construa um intervalo de 95% de confiança para média da população. b) Quais as suposições necessárias para a interpretação desse intervalo? Qual é essa interpretação? 19. Retira-se uma amostra de 1000 peças da produção de uma máquina, verificou-se que 35 eram defeituosas. Dar um intervalo de confiança ao nível de 95% para a proporção de defeituosos fornecida por essa máquina. 20. Uma moeda abaulada foi jogada 400 vezes, obtendo-se 136 “caras”. Construa intervalos de 95% e 99% de confiança para a probabilidade de resultado “cara” nessa moeda. 21. Uma moeda, reconhecida sem vícios, vai ser lançada 400 vezes. Construa intervalos de 95 e 99% de confiança para o número de caras a serem obtidas nesse experimento. Você percebe a diferença de situações entre o caso deste problema e o do problema anterior? 22. Numa pesquisa de opinião eleitoral dentre oitenta entrevistados, candidato João obteve 48 votos contra apenas 32 de seu opositor. Admitindo-se a amostra com bem representativa do eleitorado, pode-se concluir com um %1 que João será o vencedor da eleição? 23. Genética de Mendeliana – Quando Mendel realizou seus famosos experimentos em genética com ervilhas, uma amostra das descentes consistia em 428 ervilhas verdes e 152 amarelas. a) Ache uma estimativa de intervalo de confiança de 95% de confiança da porcentagem de ervilhas amarelas b) Com base na teoria da genética, Mendel esperava que 25% das ervilhas descendentes fossem amarelas. Dado que a porcentagem das ervilhas descendentes não é 25%, os resultados contradizem a teoria de Mendel? Por que sim ou por que não? 24. Uma amostra aleatória retirada de uma população normal possui desvio padrão = 2,0. Qual é o desvio padrão da média amostral de uma amostra de tamanho n= : (a) 9, (b) 25, (c) 100. Qual é o tamanho amostral que fornece odesvio amostral da média amostral = 0,5? 25. Seja ~ ( , )Y B n p . Qual o tamanho mínimo de uma amostra para que tenhamos 99% de confiança de que a estimativa de “p” não defira de mais de 0,05? 26. Uma amostra de onze elementos, extraídos de uma população com distribuição normal, forneceu 2 7,08 . Construir um intervalo de 90% confiança para a variância dessa população. 27 27. Uma amostra extraída de população normal forneceu os seguintes valores 3,0 – 3,2 – 3,4 – 2,8 – 3,1 – 2,9 – 3,0 – 3,2 Construa: 2 90% 2 99% ) ( ) ) ( ) a IC b IC 28. Suponha que as notas de um exame para corretor de seguro são normalmente distribuídas com 200 20e . Qualquer pessoa cuja nota superior a 230 recebe o certificado especial. Suponha que 10 pessoas façam exame simultaneamente e suas notas 1 10, ,x x representam uma amostra aleatória da populacional das possíveis notas. 2 2 ) 371 ) 185 653 a P s b P s 29. Testes de resistência à tensão foram feitos em duas estruturas contendo em duas estruturas contendo dois teores de alumínio. Essas estruturas foram usadas na fabricação das asas de um avião comercial. De experiências passadas com o processo de fabricação dessas estruturas e com o procedimento de teses, os desvios-padrão das resistências à tensão são considerados conhecidos. Os dados obtidos são mostrados na tabela abaixo. Se 21 e denotarem as resistências médias verdadeiras à tensão para os dois tipos ( dois teores de diferentes) da estrutura, calcule o intervalo de confiança de 90% para a diferença na resistência média 21 - . Tipo de Estrutura Tamanho da amostra Resistência média à tensão da amostra 2mm kg Desvio-padrão 2mm kg 1 101 n 6,871 x 0,11 2 122 n 5,742 x 5,12 30. Os dados que seguem referem-se a cinco determinações da resistência de dois tipos de concreto. Calcule e interprete o intervalo de confiança para diferença entre as médias 1 2 para o nível de significância de 5%. Concreto 1 Concreto 2 54 50 55 54 58 56 51 52 57 53 Observação: suponha nesse caso que as variâncias sejam pelo menos da mesma ordem de grandezas, é bem plausível supor 2 2 21 2 . 28 31. Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo peso médio por pacote. Entretanto, como uma das máquinas é nova e a outra é velha, é razoável supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos pela máquina velha. Os pesos, em quilograma, desses pacotes são: Máquina 1 0,82 0,83 0,79 0,81 0,81 0,80 Máquina 2 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78 Calcule e interprete o intervalo de confiança para diferença entre as médias ao nível de significância de 5%. 32. Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certa revista, acontecendo o mesmo com 26 dentre 50 mulheres. Calcule e interprete o intervalo de confiança para diferença entre as proporções ao nível de significância de 5%. 33. O desvio padrão de uma população é conhecido e igual a 22 unidades. Se uma amostra de cem elementos, retirada dessa população, forneceu 115,8x , podemos afirmar que a média dessa população é igual a 120 unidades, ao nível de 10% de significância? 34. O desvio padrão de uma população é conhecido e igual a 22 unidades. Se uma amostra de cem elementos, retirada dessa população, forneceu 115,8x , podemos afirmar que a média dessa população é inferior 120 unidades, ao nível de 5% de significância? 35. O atual reitor da UFRRJ acredita que a idade média dos alunos dos cursos noturnos do IM é de 30 anos com uma variância de 4 anos2. Uma amostra representativa de 50 alunos dos cursos noturno revelou uma idade média de 27 anos, será que há evidências estatísticas com 95% de confiança de que a idade dos alunos do curso noturno está diminuindo? 36. Em indivíduos sadios, o consumo renal de oxigênio distribui-se normalmente em torno de 12 cm3/min. Deseja-se investigar, com base em cinco indivíduos portadores de certa moléstia, se esta influência no consumo renal médio de oxigênio. Os consumos medidos para os cincos pacientes foram: 14,4 12,9 15,0 13,7 13,5 Qual a conclusão, ao nível de 1% de significância? 37. Uma amostra de seis elementos, extraída de uma população normal, forneceu 84,0ix e 2 55,0ix x . Deseja-se saber se a média da população pode ser considerada como superior a 11. Qual a conclusão, nos níveis de 5 e 1% de significância? 38. Uma amostra forneceu os seguintes valores: 8, 10, 5 e 9. Ao nível de 5% de significância, há evidência de que a média da população seja: a. Inferior a 11? b. Distinta de 11. 29 39. Uma amostra de dez elementos extraída de uma população suposta normal forneceu variância igual a 12,4. Pergunta-se: esse resultado é suficiente para se concluir, ao nível de α = 5% de significância, que a variância dessa população é inferior a 25? 40. Uma amostra de 27 elementos forneceu 3,2X e 2 2,12s . Deseja-se saber se é possível afirmar, aos níveis de 5% e 1% de significância, que: a. a média da população seja distinta de 1,5; b. o desvio-padrão da população seja inferior a 5. 41. Inspeciona-se uma amostra de 142 peças de uma grande remessa encontrando-se 8% de peças defeituosas. O fornecedor garante que não haverá mais de 6% de peças defeituosas em cada remessa. Como comprovar a afirmação do fornecedor? Use α = 5% de significância. 42. Desconfia-se de que uma moeda fosse viciada, realizou-se um experimento que consistiu de lançar essa moeda cem vezes. Obtiveram-se 59 caras e 41 coroas. Ao nível de α = 5% de significância, pode-se afirmar a existência de vício na moeda? 43. Dão-se a seguir os pesos de 32 pacientes, no início de uma dieta para emagrecimento, e duas semanas mais tarde: Paciente Antes Depois Perda Paciente Antes Depois Perda 1 212 195 17 18 209 208 8 2 193 185 8 19 198 195 3 3 241 225 16 20 211 196 15 4 218 199 19 21 220 203 17 5 205 194 11 22 245 236 9 6 216 193 23 23 185 169 16 7 215 205 10 24 206 195 11 8 198 176 22 25 189 185 4 9 200 188 12 26 202 195 7 10 233 224 9 27 219 214 5 11 258 240 18 28 263 255 8 12 186 174 12 29 241 228 13 13 289 263 26 30 235 229 6 14 250 238 12 31 200 188 12 15 225 213 12 32 207 193 14 16 244 241 3 dx 12,16 17 260 249 11 ds 5,70 Ao nível de significância de 0,05, teste a hipótese nula de que a perda média de peso dos pacientes, com essa dieta de duas semanas, é de 10,0, contra a alternativa de que é superior a 10. 30 44. Com o objetivo de comparar as velocidades de dois tipos de calculadoras, na realização de cálculos estatísticos, um calculista realiza dez cálculos em cada uma das duas calculadoras. A tabela abaixo fornece o número de segundos gastos na realização dos diversos cálculos: Operação Calculadora A Calculadora B 1 25 23 2 62 75 3 46 56 4 123 167 5 89 95 6 365 429 7 234 250 8 124 140 9 145 139 10 79 86 Existe diferença na velocidade das calculadoras para 20% ? 45. Uma máquina automática enche latas com base no peso líquido, com variabilidade praticamente constante e independente dos ajustes na média, dada por um desvio-padrão de 5 g. Duas amostras retiradas em dois períodos de trabalho consecutivos, dez e vinte latas forneceram pesos líquidos médios de, respectivamente, 184,6 e 188,9 g. Desconfia-se que a regulagem da máquina quanto ao peso médio fornecido possa ter sido modificada entre a coleta das duas amostras. Qual a conclusão, aos níveis de 5 e 1% de significância? 46. Os dados que seguem referem-se a cinco determinações da resistência de dois tipos de concreto. Ao nível de significância de 5%, há evidências de que o concreto 1 seja mais resistente que o concreto 2? Concreto 1 Concreto 2 54 50 55 54 58 56 51 52 57 53 Observação:suponha nesse caso que as variâncias sejam pelo menos da mesma ordem de grandezas, é bem plausível supor 2 2 21 2 . 47. Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo peso médio por pacote. Entretanto, como uma das máquinas é nova e a outra é velha, é razoável supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos pela máquina velha. Os pesos, em quilograma, desses pacotes são: Máquina 1 0,82 0,83 0,79 0,81 0,81 0,80 Máquina 2 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78 Qual a conclusão, ao nível de 5% de significância. 31 48. Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certa revista, acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de significância, os homens e as mulheres apreciam igualmente a revista?
Compartilhar