Baixe o app para aproveitar ainda mais
Prévia do material em texto
27 Exemplos: X idade de um automóvel e Y o seu valor de revenda. X temperatura ambiente e Y consumo de cerveja Coeficiente de correlação linear de Pearson O coeficiente de correlação mede o grau de associação linear entre duas variáveis, x e y, ou seja, mede a força e a direção do relacionamento linear entre as duas variáveis: O estimador do coeficiente de correlação linear populacional de Pearson é o coeficiente de correlação linear amostral, denotado por r (- 1 r +1). r = - 1: correlação linear negativa perfeita (reta decrescente). r = 1: correlação linear positiva perfeita (reta crescente). r = 0: não há correlação linear. As figuras a seguir ilustram os tipos de correlação linear entre duas variáveis. Correlação positiva (r = 0,93) Correlação negativa (r = -0,95) Ausência de correlação linear correlação não linear 28 O valor do coeficiente de correlação pode ser calculado por: SPxyr Sxx Syy ; em que, 1 1 1 n n i in i i i i i x y SPxy x y n ; 2 12 1 n in i i i x Sxx x n ; 2 12 1 n in i i i y Syy y n MODELO DE REGRESSÃO LINEAR SIMPLES Quando existe uma relação linear entre uma variável dependente (variável resposta) e uma variável independente (preditora ou explicativa), ajusta-se um modelo de regressão linear simples. Caso exista uma relação linear entre uma variável dependente e duas ou mais variáveis independentes, ajusta-se um modelo de regressão linear múltipla. Havendo relação linear entre as variáveis, o modelo de regressão linear tem o objetivo de descrever essa relação, podendo ser usado para fazer inferências sobre valores não observados. A estimação (previsão) de valores de y não deve ser feita para valores de x que estejam fora do intervalo considerado na regressão. O modelo estatístico de uma regressão linear simples é: 0 1i i iy xb b e iy : representa o i-ésimo valor observado; ix : representa a variável independente, i = 1, 2, ..., n; i : é o erro não observável associado a i-ésima observação; 0 1 e : são os parâmetros do modelo, que são o intercepto ou coeficiente linear e o coeficiente angular de regressão. Ao estabelecer o modelo de regressão linear simples, pressupomos que: i) A relação entre x e y é linear; ii) Os valores de x são fixos, isto é, x não é uma variável aleatória; iii) A média do erro é zero, isto é, 0, 1,2, , iE i n ; iv) Para um dado valor de x, a variância do erro é sempre constante, isto é, 2 2 , 1,2, ,i iV E i n v) os erros são independentes e tem distribuição Normal Estimação dos parâmetros: Método dos mínimos quadrados A reta que apresenta o melhor ajuste aos dados é aquela que minimiza a soma dos quadrados dos desvios entre os valores observados e os previstos pela própria reta (minimização dos quadrados dos resíduos). Equação da reta de regressão estimada: 0 1i iy b b x b1, inclinação da reta na amostra e pode ser usada para estimar 1. 29 b0, intercepto do eixo Y na amostra e pode ser usado para estimar 0. Os estimadores de mínimos quadrados para 0 1 e são, respectivamente: 0 0 1 ˆ ˆb y x e 1 1ˆ SPxyb Sxx Interpretação do coeficiente da regressão linear simples: Na regressão linear simples, interpreta-se 1ˆ como uma estimativa da alteração em y correspondente à alteração de uma unidade na variável independente. Exemplo 1: Com os dados a seguir, desenvolva uma equação de regressão estimada que possa ser usada para prever o custo total de determinado volume de produção. Volume de produção (unidades) Custos totais 400 4.000 450 5.000 550 5.400 600 5.900 700 6.400 750 7.000 a) Faça o diagrama de dispersão e interprete. b) Calcule o coeficiente de correlação amostral e interprete. c) Estime o custo total para uma produção de 500 unidades. Solução: X Y X2 Y2 X.Y 400 4.000 160.000 16.000.000 1.600.000 450 5.000 202.500 25.000.000 2.250.000 550 5.400 302.500 600 5.900 360.000 700 6.400 490.000 750 7.000 562.500 total 3.450 33.700 2.077.500 6 1 6 2 1 6 33.700 5.648.333,333 184.930.000 575 5.616,67 i i i i n y Syy y x y ; 6 2 1 6 1 6 1 2.077.500 3.450 20.090.000 93.750 e 712.500 i i i i i i i x x x y Sxx SPxy 30 2 2 12 1 33.700 184.930.000 5.648.333,33 6 n in i i i y Syy y n 1 1 1 3.450 33.700 20.090.000 712.500 6 n n i in i i i i i x y SPxy x y n 2 2 12 1 3.450 2.077.500 93.750 6 n in i i i x Sxx x n 1 712.500ˆ 7,6 93.500 SPxy Sxx ; 0 1ˆ ˆ 5.616,67 7,6 575 1.246,67y x x Logo, o modelo de regressão estimado é: ˆ 1.246,67 7,6i iy x . Interpretação: Verifica-se uma relação linear crescente entre os custos totais e o volume de produção. Para cada aumento de uma unidade no volume produzido espera-se um aumento de 7,6 nos custos totais. Exemplo 2: Com os dados a seguir, desenvolva uma equação de regressão estimada que possa ser usada para prever a quantidade de procaína (anestésico local) hidrolisada, em 10 moles/litro, no plasma humano, em função do tempo decorrido após sua administração. Construa o diagrama de dispersão, e calcule o coeficiente de correlação e de determinação, interpretando os resultados. (Resp: y = -0,98 + 2,16x; r =0,99; r2 = 98%) Tempo (min) X quantidade Y 2 3,5 3 5,7 5 9,9 8 16,3 10 19,3 12 25,7 14 28,2 15 32,6 31 Teoria da estimação A teoria da estimação baseia-se na estimação por ponto e estimação intervalar. Estimação por ponto (estimação pontual): um único valor numérico é usado como estimativa pontual do parâmetro populacional. Um estimador, qˆ , do parâmetro q é uma função qualquer dos elementos da amostra. Estimativa é o valor numérico assumido pelo estimador quando os valores observados são considerados. Assim, n i i X X n , é um estimador da média populacional m , e 50 cmX é uma estimativa da média populacional. Estimação intervalar (intervalos de confiança): Um intervalo de valores é usado para estimar o parâmetro populacional desconhecido. Atribui-se uma confiança (ou probabilidade) de que o verdadeiro valor do parâmetro esteja contido nesse intervalo, que é determinado com base na distribuição amostral do estimador. Intervalos de confiança (IC) Com uma confiança 1 determina-se um limite inferior e um limite superior entre os quais se espera que o verdadeiro valor do parâmetro esteja contido. Intervalo de confiança para a média populacional . Estima-se com uma confiança 1 que esteja contida no intervalo ;x e x e , ou seja, 1P x e x e . Para amostras grandes 30n : 2 2 2 IC ;(1 ) ; S S Se Z x Z x Z n n n . O tamanho da amostra para se estimar com uma confiança dada e um erroprefixado é: 2 2 0 Z S n e 0 01 nn n N . Exemplo. Suponha que uma amostra piloto de n = 10 seja extraída de uma população, fornecendo x 15 e 2S 16 . Determine o tamanho da amostra para que se tenha 0,5 e 0,95 . Para amostras pequenas 30n : 2 2 2 IC ;(1 ) ; S S Se t x t x t n n n . 32 Dimensionamento da amostra: 2 2 0 t S n e 0 01 nn n N . Exemplos 1. Numa tentativa de melhorar o esquema de atendimento, um médico procurou estimar o tempo médio que gasta atendendo cada paciente. Uma amostra aleatória de 40 pacientes, colhidas num período de 3 semanas, acusou tempo médio de 30 minutos com desvio-padrão de 7 minutos. a. Construir o intervalo de 95% e de 99% de confiança para o verdadeiro tempo médio de atendimento. 2. Em um determinado estudo sobre a DBO (demanda bioquímica de oxigênio) na água, foram selecionadas 10 amostras que apresentaram o seguinte resultado (mg/L): 2,0 2,5 3,2 2,8 2,3 2,5 3,0 3,2 2,7 2,5 a) Realizar a estimativa por ponto da média e do desvio padrão da DBO. b) Realizar a estimativa por intervalo, com 95% de confiança para média populacional. Intervalo de Confiança para diferença entre duas médias (amostras independentes): Amostras grandes , A Bn n 30 Estima-se com uma confiança 1 que A B esteja contida no intervalo ;A B A Bx x e x x e , ou seja, 1A B A B A BP x x e x x e . 2 2 2 A B A B e Z n n e A BX X são médias amostrais, isto é, são as estimativas pontuais das médias das populações, e A B respectivamente; e A B 2 2s s as variâncias populacionais e A Bn n tamanho das amostras retiradas das populações a e b, respectivamente; Se as variâncias populacionais forem desconhecidas, podem ser substituídas pelas variâncias amostrais. Amostras pequenas , A Bn n 30 (variâncias populacionais iguais, desconhcecidas) 33 Sendo as populações homocedásticas A B2 2 2s s s , assim, e A BS S2 2 são duas estimativas para um mesmo parâmetro 2s então o intervalo de confiança para a diferença entre duas médias é dado por: 2; 2 100(1 )% 1 1: A BA B A B pn n A B X X t SIC n n sendo A A B Bp A B n S n S S n n 2 21 1 2 com 2ta com 2A Bv n n graus de liberdade. Intervalo de Confiança para diferença entre duas médias (amostras dependentes): Considerando duas amostras dependentes, ou coletadas em uma mesma unidade experimental, antes e depois de certo tratamento, o intervalo de confiança para a média das diferenças D é: 1( ) : ( ) (1 ) D D D IC x e P D e D e iD d x n 2 . Dse t n di é a diferença entre os pares, di = antes – depois ; SD é o desvio padrão da diferença . Exemplo: Um grupo de 10 pessoas é submetido a um tipo de dieta por 10 dias, estando os pesos antes e depois marcados na tabela abaixo. Construa um intervalo de confiança ao nível de 5% de significância. Interprete os resultados. Pessoas Peso antes (kg) Peso depois (kg) Diferença di 1 120 116 4 2 104 102 2 3 93 90 3 4 87 83 4 5 85 86 -1 6 98 97 1 7 102 98 4 8 106 108 -2 9 88 82 6 10 90 85 5 34 Intervalo de Confiança para proporção (amostras grandes n>30): 2 2 100(1 )% ˆ ˆ ˆ ˆˆ ˆ: ; pq pqP p z p zIC n n Intervalo de Confiança para a diferença entre duas proporções 2 100(1 )% ˆ ˆ ˆ ˆˆ ˆ ˆ ˆ: ; sendo A A B BA B A B A B A B p q p qp p p p e p p e e zIC n n Regras de decisão envolvendo Intervalo de Confiança (IC) para diferença entre duas médias ou duas proporções. i) Se o IC incluir o zero, então, A B ou A Bp p . ii) Se os extremos do intervalo forem negativos, então, A B ou A Bp p . iv) Se os extremos do intervalo forem positivos, então, A B ou A Bp p . Exemplos. 1) Uma pesquisa foi conduzida para estudar as práticas de saúde dental e atitudes de uma certa população adulta urbana. De 300 adultos entrevistados, 123 disseram que faziam um check-up dental duas vezes por ano. Desejamos construir um intervalo de 90% de confiança para a proporção de sujeitos na população amostrada que regularmente fazem check-up duas vezes ao ano. 2) Pesquisadores desejam comparar os efeitos dos tempos de recuperação de pacientes, com certa doença, submetidos a dois diferentes tratamentos. Duzentos pacientes foram selecionados aleatoriamente e divididos em dois grupos. O primeiro grupo recebeu o tratamento padrão, 78 deles se recuperaram em três dias. Dos 100 tratados com o novo método, 90 se recuperaram em três dias. Os médicos desejam estimar a verdadeira diferença nas proporções das duas populações com 97% de confiança. Há evidências, com esta confiança, de que exista diferença entre as proporções entre as duas populações? 35 Teoria da decisão Teste de Hipóteses O teste de hipótese é uma regra de decisão para que permita aceitar ou rejeitar uma hipótese estatística, com base nos dados amostrais. O objetivo é verificar se os dados amostrais trazem evidência que apoiem ou não uma hipótese formulada. Hipótese estatística: suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional. Exemplos: O peso médio é 50. ( 50) O número de pacientes atendidos segue uma distribuição de Poisson. A proporção de eleitores favoráveis a um candidato é 0,70. ( 0,70)p Tipos de Hipóteses a) Hipótese nula ou de nulidade 0H : geralmente é uma igualdade ou afirmação positiva com relação ao parâmetro populacional. b) Hipótese alternativa aH ou 1H : afirmação que envolve a desigualdade e contradiz 0H . Com base em 1H define-se a região crítica (RC) do teste ou região de rejeição de 0H (RR 0H ). Tipos de erros a) Erro tipo I: Rejeitar uma hipótese nula quando ela é verdadeira. A probabilidade do erro tipo I é denotada por (nível de significância) b) Erro tipo II: Aceitar uma hipótese nula quando ela é falsa. A probabilidade do erro tipo II é denotada por . Tipos de testes Supondo que o parâmetro de interesse seja ( 2, , ...p ) e o valor de teste seja 0 a) Teste de hipótese bilateral 0 0 1 0 : : H H b) Teste de hipótese unilateral à esquerda 0 0 1 0 : : H H 36 c) Teste de hipótese unilateral à direita 0 0 1 0 : : H H Regra de decisão: Se o valor calculado da estatística do teste estiver na região crítica, deve-se rejeitar a hipótese nula. Se o valor calculado da estatística estiver na região de aceitação de H0, não se pode rejeitar a hipótese nula. Testes de hipóteses para a média a) Teste de hipótese para média μ de uma população Normal. H H 0 0 1 0 : : ou H H 0 0 1 0 : : ou H H 0 0 1 0 : : ; Estatística do teste : calc XZ n 0 Variância desconhecida: usar o desvio padrão amostral. População aproximadamente normali) amostras grandes ( 30)n usar distribuição Z. ii) amostras pequenas ( 30)n usar distribuição t de Student. Exemplo 1) Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância 5,36 mg2. Pode-se aceitar a afirmação do fabricante, ao nível de 5%? Teste de hipótese para diferença entre médias de populações Normais com variâncias populacionais conhecidas. Estatística do teste: 1 2 1 2 2 2 1 2 1 2 calc X X Z n n . (Variância desconhecida usar S). H H 0 1 2 1 2 1 1 2 : 0 : ou 0 1 2 1 1 2 : : H H ou 0 1 2 1 1 2 : : H H 37 Amostra pequena (n1, n2 ≤ 30) e variâncias populacionais iguais: 1 2 1 2 c p 1 2 (X X ) ( )t s 1 / n 1 / n ; A A B B p A B n S n S S n n 2 21 1 2 ; 1 2v n n 2 Exemplos 1) Um prefeito quer testar se os salários diários pagos aos empregados do sexo masculino e feminino, pelas grandes organizações de sua cidade, são os mesmos para as mesmas funções. Para testar essa hipótese, uma amostra aleatória de 400 homens e 576 mulheres foi selecionada, e, registradas as médias salariais. A média e o desvio-padrão para os salários dos homens eram 105,70 e 5,00, respectivamente, enquanto que para as mulheres esses números foram 112,80 e 4,80. Teste a hipótese a um nível de significância de 0,01. 2) Para descobrir se um novo soro vai interromper a leucemia, nove ratos, todos com um estágio avançado da doença, são selecionados. Cinco ratos recebem o tratamento e quatro, não. O tempo de sobrevida, em anos, a partir do momento em que o experimento foi iniciado, é o seguinte: Com tratamento 2,1 5,3 1,4 4,6 0,9 Sem tratamento 1,9 0,5 2,8 3,1 Ao nível de 0,05 de significância, pode-se dizer que o soro é eficaz? Considere as variâncias estatisticamente iguais. Teste de hipótese para diferença entre médias com amostras dependentes (Observações emparelhadas) D D H d H d 0 0 1 0 : : ou D D H d H d 0 0 1 0 : : ou D D H d H d 0 0 1 0 : : ; Estatística do teste : Dcalc D X dZ S n 0 Exemplo. Uma academia de ginástica anuncia que seus clientes perdem, em média, pelo menos 10 u.p. no primeiro mês de frequência. Para testar essa hipótese, a um nível de significância de 5%, foram registrados os pesos antes e depois de uma amostra de 10 clientes: Antes: 237 135 183 225 147 146 214 157 157 144 Depois: 153 114 181 186 134 166 189 113 188 111 Diferença 38 Teste de hipótese para a proporção Hipóteses: H p p H p p 0 0 1 0 : : ou H p p H p p 0 0 1 0 : : ou H p p H p p 0 0 1 0 : : ; Estatística do teste : ˆ . / O c O O p pZ p q n , Sendo p a proporção na população e p0 o valor de teste para a proporção. Exemplo. O gerente de uma indústria garante que 95% de suas peças produzidas não apresentam defeito. Em uma amostra aleatória de 250 peças dessa indústria, foram encontradas 198 peças não defeituosas. Em um nível de significância de 5%, testar a afirmação do gerente. Teste de hipótese para a diferença entre proporções Hipóteses: H p p p p H p p 0 1 2 1 2 1 1 2 : 0 : ou H p p H p p 0 1 2 1 1 2 : : ou H p p H p p 0 1 2 1 1 2 : : Estatística do teste : 1 2 1 2 1 1 1 2 2 2 ˆ ˆ( ) ( ) ˆ ˆ ˆ ˆ/ /c p p p pZ p q n p q n Sendo p1 e p2 os valores da proporção na população, 1 2ˆ ˆ e p p os valores da proporção na amostra, 1 1 2 2ˆ ˆ ˆ ˆ1 e 1q p q p Exemplos. 1) Em uma loja de computadores, dois vendedores disputam o prêmio de melhor vendedor. De 100 atendimentos do vendedor A, 84 foram convertidos em vendas, e de 100 atendimentos do vendedor B, 82 foram convertidos em vendas. Com base nesse índice de desempenho, teste a hipótese de que as proporções de vendas dos dois vendedores são iguais a um nível de 10% de significância. 39 Exemplo 2. Um laboratório afirma que a proporção p de cura, através de uso de certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da esquitosomose é maior que 0,75. Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados. Teste a hipótese de que o laboratório esteja certo. Exemplo 3. Ao estudar os efeitos de certa anomalia na estatura de recém-nascidos do sexo feminino, verificou-se, numa amostra de 30 crianças com anomalia, estatura média de 46,8 cm e desvio padrão de 3,44 cm e de 50 crianças normais, estatura média de 48,0 cm e desvio padrão de 2,99 cm. Teste a hipótese que a média dos anômalos e estatisticamente igual à média dos normais. Use nível de significância de 5%. 4) Uma amostra aleatória de 40 elementos retirados de uma população normal apresentou valor médio de 60 com desvio padrão de 3. Teste ao nível de significância de 5% a hipótese de que a média populacional seja de 59, contra a hipótese de que essa média tenha aumentado. Teste não paramétrico: Teste de qui-quadrado (χ2) O teste de χ2 mede a discrepância existente entre freqüências observadas e freqüências esperadas em um conjunto de dados, podendo ser utilizado como teste de aderência ou de independência Teste de aderência: é utilizado para verificar se as diferenças entre as freqüências esperadas e observadas são estatisticamente significativas. Procedimento: a) determinar o modelo teórico b) calcular as freqüências esperadas (fe) para cada classe. c) Comparar as freqüências esperadas e observadas (fo) com a estatística do teste: i i i 2 k o e2 c i 1 e f f f ; k é o número de classes, o número de graus de liberdade é v = k-1. 40 Regra de decisão: Se 2 2, c v deve-se rejeitar H0 (o modelo teórico não se ajusta à distribuição observada). Teste de independência H0: variável linha independe da variável coluna H1: variável linha e coluna são dependentes A estatística do teste é a mesma 2c , e a frequência esperada de cada classe é calculada por: e (total da linha )(total da coluna)f total . O número de graus de liberdade é v = (h-1)(k-1), sendo h o número de linhas e k o número de colunas. Exemplo 4. Verificar se a opinião dos moradores de uma cidade quanto a uma nova política de saúde é diferente, em várias classes sociais, ou seja, verificar se a opinião é dependente da classe social. Foi levantada uma amostra aleatória de 1000 pessoas estratificadas por classe a seguir: opinião classes baixa média alta total a favor 182 213 203 598 contra 154 138 110 402 total 336 351 313 1000
Compartilhar