Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA 3 (PARTE 02) AMOSTRAGEM DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS Disciplina: MÉTODOS QUANTITATIVOS VOLTADOS PARA PESQUISA EM CONTABILIDADE Professor: ALAN CARTER KULLACK 56 AMOSTRAGEM Definição: É a técnica de seleção de uma Amostra, que possibilita o estudo das características de uma população. v Para compreendermos melhor o princípio da Amostragem, devemos estudar a distribuição de valores. Esta distribuição esta dividida em 2 partes fundamentais para estatística,as quais são: · Distribuição Normal; · Distribuição Amostral. DISTRIBUIÇÃO NORMAL Definição: É uma distribuição contínua,a qual possui dois parâmetros estatísticos fundamentais: 1º) Média; (Parâmetro de localização) 2º) Desvio-padrão (Parâmetro de dispersão) OBS1: A distribuição normal é uma distribuição de probabilidade ! OBS2: Os resultados da probabilidade(posicionamento dos valores),são obtidos por meio de uma tabela de escore,denominada de Tabela Z. OBS3: A curva da distribuição normal é conhecida como a Curva de Gauss. 57 Veja: Curva de Gauss 50% 50% Md = X = Mo FÓRMULA DA DISTRIBUIÇÃO NORMAL Z = X - µ onde: σ CARACTERÍSTICAS DA CURVA DE GAUSS Ø Sua Média, Mediana e Moda são iguais. Ø Tem forma de Sino e é simétrica em torno da média. Ø A área total sob a curva é de 100% Fonte: <http://www.tomcoelho.com.br/index.aspx/s/Artigos_Exibir/221/ O_mal_da_mediocridade> Z = Valor da tabela Z X = Valor aleatório µ = Média aritmética σ = Desvio-padrão 58 TABELA DE DISTRIBUIÇÃO NORMAL VALORES DE Z 59 OBS1: Desde que a distribuição normal é simétrica, para calcular a área entre −∞ e z das curvas probabilísticas,devemos somar o valor de 0,5 aos valores da tabela. OBS2: No caso de valores acima de 3,9 considera-se que o valor é praticamente 1 pelo que não esta tabelado. ALGUNS EXEMPLOS DE USO DA TABELA 1º) Exemplo: Probabilidade de Z ≤ 1,53: Na interseção da linha 1,5 com a coluna 0,03 há o valor 0,4370. Precisa-se somar 0,5 porque, conforme visto, a tabela dá valores a partir de zero. Assim, P( Z ≤ 1,53 ) ≈ 0,4370 + 0,5 = 0,9370. 2º) Exemplo: Probabilidade de Z ≤ −1,53: A simetria da curva permite deduzir a fórmula para valores negativos de z: P( Z ≤ v ) = 1 − P( Z ≤ |v| ) para v < 0 Portanto, P( Z ≤ −1,53 ) ≈ 1 − 0,9370 = 0,0630. 3º) Exemplo: Probabilidade de −1 ≤ Z ≤ 0,5: A ideia gráfica permite concluir que é igual à diferença entre os valores calculados para cada extremo. P( Z ≤ 0,5 ) = 0,5 + 0,1915 = 0,6915. P( Z ≤ −1 ) = 1 − P( Z ≤ 1 ) = 1 − (0,5 + 0,3413) = 0,1587. Portanto o resultado é dado por P( −1 ≤ Z ≤ 0,5 ) = 0,6915 − 0,1587 = 0,5328. 60 Ex: Um estudo dos aumentos percentuais dos preços, no atacado de produ- tos industrializados, mostrou que ha distribuição normal com media de 50% e desvio- padrão de 10%. Qual a porcentagem dos artigos que: a) Sofreram aumentos superiores a 75%? Resposta: (0,62%) b) Sofreram aumentos entre 30% e 80%? Resposta: (97,59%) Solução: Dados: µ = 50% (média) σ = 10% (Desvio-padrão) X = modificações percentuais de preços (valor aleatório) a) Superiores a 75% P (x>75) = P(z > 2,5) Para: x= 75, Temos: z: x - µ = z: 75 - 50 = z: 25 = 2,5 σ 10 10 Portanto: P(z > 2,5) = 0,5- 0,4938 = 0,0062 ou 0,62 % b) Entre 30% e 80% P ( 30 < x < 80) = P(-2 < z < 3) Para: x= 30 , Temos: z: x - µ = z: 30 - 50 = z: - 20 = -2 σ 10 10 Para: x= 80, Temos: z: x - µ = z: 80 - 50 = z: 30 = 3 σ 10 10 Portanto: P(-2 < z < 3) = - 0,4772 –0,4987 = - 0,9759 ou 97,59% 61 Portanto,a representação da curva Gaussiana fica: 0,62% 12% 25% 50% 97,59% OBS1: Os valores 0,4772 foi retirado da Tabela Z; para Z = 2 ! OBS2: O valor negativo de – 0,4772 e -0,9759 devem ser ignorados! DISTRIBUIÇÃO AMOSTRAL Definição: É a distribuição de probabilidade de uma medida estatística, baseada em uma amostra aleatória, a qual é determinada o posicionamento dos valores dentro dos parâmetros da média e do Desvio-padrão. OBS: Para estudarmos uma população, necessitamos de uma amostra, a qual necessita de uma fundamentação específica para validar os seus dados. Portanto essa validação é reconhecida por Inferências Estatísticas. 62 INFERÊNCIAS ESTATÍSTICAS: Definição: É o processo estatístico que se refere-se à possibilidade de obtermos informações sobre a população por meio de resultados amostrais. As Inferências estatísticas são divididas em 2 áreas: Ø Os Testes de Hipótese (Veremos mais adiante !) Ø Estimação de Parâmetros. Estimação de Parâmetros: É o valor retirado diretamente da Amostra para medir e comprovar a eficácia dos possíveis resultados da pesquisa. OBS1: Os parâmetros utilizados na População e na Amostra,são: População: µ (Média) Amostra: X = Média ρ 2 (Variância) S2 = Variância OBS2: A variância Amostral das médias é igual à razão da variância populacional pelo número de elementos da Amostra. Então temos: S2x = ρ 2 n Nesta fórmula a variância amostral é menor que a variância populacional ! S2 < ρ 2 63 DICA: Ø Na página 106 do livro a variância populacional esta sendo representada pela letra σ, para não confundirmos com Desvio-padrão,o qual utiliza a mesma letra Sigma,trocamos esta pela letra grega (Rho) = ρ. Então: σ2 = ρ2 (Variância) TIPOS DE AMOSTRAGEM Temos 2 tipos de amostragem com as suas características bem definidas, as quais se apresentam como: · Amostragem Probabilística; · Amostragem Nãoprobabilística; 1º) AMOSTRAGEM PROBABILÍSTICA: Ø Todos os elementos da população tem a mesma chance de fazer parte da Amostra. Ela se divide em: a) Aleatória Simples: Escolhe os elementos sem utilizar nenhum critério. b) Sistemática: Escolhemos os elementos por processo de repetição. c) Proporcional: Escolhemos os elementos por proporção pré estabelecida. 64 2º) AMOSTRAGEM NÃO PROBABILÍSTICA Ø Os elementos da população são escolhidos de forma aleatória. Ela se divide em: a) Por conveniência: Escolhe os elementos, conforme a distribuição mais favorável e facilitada. b) Intencional: Escolhemos os elementos, conforme a sua vontade. c) Por Tráfego: Escolhemos os seus elementos,conforme a concentração, volume ou tráfego contidos na população. d) Por Quotas: Escolhemos os seus elementos, seguindo um critério específico. CÁLCULO DO TAMANHO DA AMOSTRA Ø Para determinarmos um estudo estatístico por meio de uma amostra, devemos ter uma quantidade mínima de elementos que possibilite realizar uma cálculo estatístico,o qual dará uma perspectiva confiável ao resultado apresentado do que queremos pesquisar.Para isso,temos que utilizar a seguinte fórmula: Ø n = Z2.p.q e2 Onde: n = Número de indivíduos da Amostra; Z = Nível de confiança Z; p = proporção favorável; q = proporção desfavorável; e = Erro máximo provável (Erro-padrão) α = Limite de confiança 65 OBS: Quando não for mencionado em um exercício o valor da proporção,subentendemos que elas serão iguais,isto é, 50% para cada lado,logo podemos concluir que p = q, e que p e q = R,onde temos: 2 n = Z2.R2 n = Z.R e2 e OBS: Para aplicarmos esta fórmula,devemos seguir o nível de limite de confiança para o tamanho de cada Amostra. Estes limites estão expressos na tabela à seguir: OBS: Com as informações sobre o tipo de amostragem e o tamanho da amostra,podemos fornecer informações extremamente relevantes para a parte administrativa de uma empresa. Exemplo: 01) Uma assistente social, deseja saber o tamanho da amostra necessário para determinar a proporção da população atendida por uma Unidade de Saúde,a qual pertence ao Município de São José dos Pinhais, região metropolitana de Curitiba - Pr. Não foi feito um levantamento prévio da proporção amostral e, portanto, seu valor é desconhecido. Ela quer ter 90% de confiança e estima um o erro máximo de 5% . Quantas pessoas necessitam ser entrevistadas? Limite de Confiança Valor Z 80% 1,28 90% 1,65 95% 1,96 99% 2,58 66 SOLUÇÃO: Dados: e= 5% = 0,05 (Erro máximo) α = 90% (Limite de Confiança) Z = 1,65 (Nível de Confiança,verificar tabela !) p = q =R = 50% = 0,5 ( Proporção favorável e desfavorável) n = ? (Nº de Indivíduos da amostra) Temos: 2 2 n = Z.R n = 1,65. 0,5 (16,5)2 = 272,25 e 0,05 n = 272 pessoas Portanto, precisamos uma Amostra de 272 pessoas para determinar a proporção da população atendida na Unidade de Saúde. De São José dos Pinhais. OBS: Caso a população seja finita,isto é, N< 100.000 elementos, devemos utilizar a seguinte fórmula: n = Z2.p.q.N Com N = População ! (N-1).e2 + Z2.p.q 67 EXERCÍCIOS DE FIXAÇÃO 01) Analisando as curvas abaixo marque a resposta correta. (I) (II) (III) a) a curva I é simétrica - x > med > mo; b) a curva II é assimétrica positiva - mo > > x 2s ; c) a curva I é simétrica x = med = mo ; d) a curva III é simétrica positiva x = med = mo ; e) a curva II e III são aasimétricas: x = med = mo 02) A vida média útil de um aquecedor elétrico é de 1,5 anos, com um desvio – padrão de 0,3 anos. Se são vendidos 12.000 unidades por uma empresa fabricante ao mês, quantos aquecedores necessitarão de conserto antes que expire o período de um ano de garantia ? a) 510 aquecedores b) 530 aquecedores c) 550 aquecedores d) 570 aquecedores e) 590 aquecedores 68 03) Um processo industrial produz canos com diâmetro médio de 2 polegadas e com desvio-padrão de 0,01 polegada. Os canos com diâmetro de mais de 0,03 polegadas acima da média, são considerados defeituosos. Em uma produção de 10.000 canos, quantos canos estariam com defeito ? a) 20 b) 27 c) 32 d) 36 e) 44 04) Um pesquisador deseja estimar a proporção de ratos nos quais se desenvolve um certo tipo de tumor quando submetidos a radiação. Ele deseja que sua estimativa não se desvie da proporção verdadeira por mais de 0,02 com uma probabilidade de pelo menos 90%.Portanto,quantos animais ele precisa examinar para satisfazer essa exigência? a) 1285 b) 1302 c) 1447 d) 1528 e) 1681 05) Antes de uma eleição, um determinado partido está interessado em estimar a proporção de eleitores favoráveis a seu candidato. Determine o tamanho de amostra necessário para que o erro cometido na estimação seja de, no máximo 0,01, com probabilidade de 80%. a) 3942 eleitores b) 4096 eleitores c) 4595 eleitores d) 5029 eleitores e) N.D.A 69 Gabarito: 01 - C 02 - D 03 - B 04 - E 05 - B AULA 4 INTERVALO DE CONFIANÇA DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS Disciplina: MÉTODOS QUANTITATIVOS VOLTADOS PARA PESQUISA EM CONTABILIDADE Professor: ALAN CARTER KULLACK 70 INTERVALO DE CONFIANÇA (IC) Definição1: É um intervalo (espaço) estimado de um parâmetro estatístico,o qual possibilita o cálculo deste parâmetro estatístico desconhecido. Definição2: É quando fazemos uma estimativa de um intervalo de valores possíveis, no qual se admite esteja o parâmetro populacional. Em outras palavras: “O intervalo de confiança é um intervalo matemático que mede a confiabilidade de uma amostra retirada de uma determinada população.” Profº Alan Carter Kullack Exemplo 1: UTILIZAÇÃO DO INTERVALO DE CONFIANÇA Utilizamos o intervalo de confiança para os seguintes parâmetros: Ø Média; Ø Diferença de Médias; Ø Proporção; Ø Diferença de Proporção; Ø Variância; Ø Tamanho de uma amostra. 71 REPRESENTAÇÃO GRÁFICA DO I.C. O gráfico de intervalo de confiança, reproduz uma dimensão bem específica dos valores a serem considerados na amostra,deixando assim o grau de confiança napesquisa mais elevado,isto é, com uma probabilidade de acerto maior. Fonte:<http://pt.slideshare.net/NathliaMendona1/intervalos-de-confiana> OBS: Utilizaremos a fórmula: X – Z. Sx ≤ µ ≤ X + Z. Sx Portanto,temos que: e = Z. Sx INTERVALO DE CONFIANÇA DA MÉDIA POPULACIONAL(µ) Definição: São os valores retirados da média populacional, os quais podemos validar para toda população a ser pesquisada, isto é, assim um intervalo de confiança da própria média. 72 OBS: Para efetuar a Estimativa de Médias de uma População utiliza-se desvio padrão da distribuição que constitui a amostra (distribuição amostral), deve-se levar em consideração se o desvio padrão da população é ou não conhecido. ERRO-PADRÃO AMOSTRAL PARA A MÉDIA Ao se obter uma amostra qualquer de tamanho n, calcula-se a média aritmética populacional. Provavelmente, se uma nova amostra aleatória for realizada, a média aritmética obtida será diferente daquela da primeira amostra. A variabilidade das médias é estimada pelo seu erro padrão. Assim, o erro padrão avalia a precisão do cálculo da média populacional. O erro padrão é dado pela fórmula: Sx = S √ n , onde: Para uma população conhecida, usaremos a seguinte fórmula: Sx + S . N - n √ n N - 1 OBS1: Quanto melhor a precisão no cálculo da média populacional, menor será o erro padrão. OBS2: A amostra e o erro-padrão são grandezas inversamente proporcionais. Exemplo: Numa população obteve-se desvio padrão de 2,64 com uma amostra aleatória de 60 elementos. Qual o provável erro padrão? Solução: Sx → Erro padrão S → Desvio padrão n → Tamanho da amostra 73 INTERVALO DE CONFIANÇA PARA MÉDIA AMOSTRAS PEQUENAS(N<30) Em muitas situações da vida real, o desvio padrão populacional é desconhecido. Além disso, em função de fatores como tempo e custo, não é prático colher amostras de tamanho 30 ou mais. Nesse caso, devemos construir intervalos de confiança com uma distribuição para uma média populacional pequena,como isso utilizamos a distribuição t de Student. A DISTRIBUIÇÃO T DE STUDENT Definição: Se a distribuição de uma variável aleatória x é aproximadamente normal e , então a distribuição amostral de é uma distribuição t de Student, onde: . Onde: t = Distribuição t de student; X = Variável aleatória; µ = Média; S = Desvio Padrão amostral; n = Número da amostra Podemos representar a fórmula, da seguinte maneira: X - t. Sx ≤ µ ≤ X + t. Sx Portanto, temos: 74 Fonte: < http://slideplayer.com.br/slide/353636/> Os valores críticos de t são denotados por tc. Diversas propriedades da distribuição t estão relacionadas a seguir: · A distribuição t tem a forma de sino e é simétrica em torno da média. · A distribuição t é uma família de curvas, cada uma delas determinada por um parâmetro chamado grau de liberdade (g.l). Os graus de liberdade são os números de escolhas livre deixada após uma amostra estatística tal como ter sido calculada. Quando se usa uma distribuição t para estimar uma média populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1, ou seja, g.l = n – 1. · O risco é representado por α ( 1 – nível de confiança) · A área total sob uma curva t é 1 ou 100%. · A média, a moda e a mediana da distribuição t são iguais a zero. · Quando o número de graus de liberdade cresce, a distribuição tende para a distribuição normal. Após 30 graus de liberdade a distribuição t está muito próxima da distribuição normal padrão z. 75 TABELA DOS VALORES DA DISTRIBUIÇÃO t DE STUDENT Fonte: < http://slideplayer.com.br/slide/360340/> 76 ERRO-PADRÃO AMOSTRAL PARA A PROPORÇÃO: Refere-se ao erro de estimativa de uma proporção, sendo a diferença do resultado amostral em relação ao populacional para mais ou para menos, o qual aceitamos em nossa pesquisa, em função do nível de confiança desejado e representado pelo escore z. Fórmula: Sp = p.q Onde: n Ex: Um instituto de pesquisa revelou,por meio de um estudo que realizou com 300 microempresas paranaenses, que 77% delas estão satisfeitas com os serviços prestados por seus contadores e as demais estão insatisfeitas. Estime, com 95% de confiança o intervalo da proporção populacional para aquelas empresas satisfeitas com seus contadores. Solução: Dados: p = 77% q = 23% n = 300 Sp = ? p = Proporção favorável; q = Proporção desfavorável; n = Amostra; Sp = Erro-padrão proporcional Sp = 77.23 = Sp = 1771 300 300 Sp = 2,43 % 77 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL Definição: Refere-se aos valores máximo e mínimo da proporção populacional. Fórmula: p – Z. Sp ≤ ¶ ≤ p + Z.Sp onde: Z = nível de confiança da tabela normal. Exemplo: Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre sua preferência por determinado produto. Destas 400 pessoas, 240 disseram preferir o produto. Determinar um intervalo de confiança de 95% de probabilidade para o percentual de preferência dos consumidores em geral para este produto. Solução: Têm-se 1 - α = 95%, então α = 5% e α / 2 = 2,5%. O coeficiente de confiança que deve ser buscado na normal padrão é valor Zα/2 de Z tal que: P(Z > Zα/2) = 2,5%, ou então: (-Zα/2) = 2,5%. Este valor vale 1,96. A estimativa por ponto para a proporção populacional será: p = f/n = 240/400 = 0,60 = 60%. Logo,devemos calcular o erro-padrão amostral: Sp = p.q n Temos,então: Sp = 60.40 = Sp = 2400 = Sp = 2,45% 400 400 Então o intervalo de confiança de 95% para a proporção populacional será: 78 p – Z. Sp ≤ ¶ ≤ p + Z.Sp 60 – 1,96.2,45 ≤ ¶ ≤ 60 + 1,96.2,45 0,60 - 4,8 ≤ ¶ ≤ ,60 + 4,8 = [55,20%; 64,80%]. Portanto, pode-se afirmar com uma certeza de 95% de que este intervalo conterá a proporção populacional, isto é, a verdadeira percentagem dos consumidores que preferem o produto pesquisado. TESTE DE HIPÓTESE Definição: Os testes de hipóteses tem a função de comparar as medidas obtidas de uma amostra com os dados da população. OBS: Este teste determina se o valor amostral é correto ou incorreto ! HIPOTESE ESTATÍSTICA Definição: É um processo de decisão para avaliar as hipóteses feitas a respeito de uma determinada população. Exemplo 1: Suponhamos que uma indústria compre de certo fabricante parafusos cuja a carga média de ruptura por tração é especificada em 50 Kg, o desvio-padrão das cargas de ruptura é suposto ser igual a 4 Kg. O comprador deseja verificar se um grandelote de parafusos recebidos deve ser considerado satisfatório, no entanto existe alguma razão para se temer que a carga média de ruptura seja eventualmente inferior à 50 Kg. Se for superior não preocupa o comprador pois neste caso os parafusos seriam de melhor qualidade que a especificada. Neste exemplo, a hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O comprador pode ter o seguinte critério para decidir se compra ou não o lote: 79 Resolve tomar uma amostra aleatória simples de 25 parafusos e submetê-los ao ensaio de ruptura. Se a carga média de ruptura observada nesta amostra for maior que 48 Kg ele comprará o lote, caso contrário se recusará a comprar. CÁCULO DE TESTES DE HIPÓTESE: Temos 2 hipóteses a serem testadas: 1º) H0 (Hipótese Nula) 2º) H1 (Hipótese Alternativa) HIPÓTESE NULA (H0): Definição: É um valor suposto para um parâmetro.Se os resultados da amostra não forem muito diferente de H0,ela não poderá ser rejeita. No exemplo1, temos H0: µ = 50. HIPÓTESE ALTERNATIVA (H1) : Definição: É uma hipótese que contraria a hipótese nula, complementar de H0. Essa hipótese somente será aceita se os resultados forem muito diferentes de H0. No exemplo1, temos H1: µ < 50 ERROS DE DECISÃO A decisão sobre uma hipótese estatística é um processo de inferência, de modo que a possibilidade de que erros sejam cometidos é inerente ao processo. Em termos da decisão sobre uma hipótese H0 existem dois tipos de erro: 80 1. Erro do tipo I: rejeitar a hipótese de nulidade quando ela não deveria ser rejeitada. 2. Erro do tipo II: falhar na rejeição da hipótese de nulidade quando ela deveria ser rejeitada. Evidentemente, decisões corretas podem ser tomadas: não rejeitar quando H0 é a hipótese adequada e rejeitar quando H1 é a hipótese adequada. A tabela que segue resume as situações. DECISÃO DE TOMADA HIPÓTESE Não Rejeitar Rejeitar HO Verdadeira Correta Erro Tipo I (α) HO Falsa Erro Tipo II (β) Correta OBS: Essa situação é totalmente análoga à decisão de um juiz sobre um réu após um julgamento, como se pode ver na tabela abaixo. A hipótese de nulidade é o réu é inocente e a decisão é no sentido de condenar ou não condenar o réu. Observe-se que o erro do tipo I é o mais importante. DECISÃO DE TOMADA HIPÓTESE Não Condenar Condenar Réu inocente Correta Erro Tipo I (Alfa) Réu culpado Erro Tipo II ( Beta) Correta É interessante notar que muitas vezes não há condenação porque as evidências (provas) não são suficientes para condenação, ou seja, H0 não é rejeitada, mas não quer dizer necessariamente que a inocência está provada. Conclusão: Para aplicar um teste de significância, cria-se uma hipótese que, geralmente, é a de igualdade (hipótese nula). O teste é feito para tentar refutar esta hipótese. Mas, por erros amostrais (flutuações) pode-se incorrer em erros de tomada de decisão. 81 OBS1: A probabilidade máxima do erro do tipo I denotada por α, é denominada nível de significância, tipicamente fixada como um valor pequeno, como 0,1; 0,05 ou 0,01. OBS2: A probabilidade de se rejeitar H0 quando ela é verdadeira, corresponde ao nível de significância ( alfa ). Reforçando a Analogia: Não rejeitar H0 não quer dizer necessariamente que ela é verdadeira; apenas não há evidências na amostra para a sua rejeição. RESUMO: Probabilidade do erro do tipo I (α) É a probabilidade de que H0 verdadeira seja rejeitada. Probabilidade do erro do tipo II. (β) É a probabilidade de que H0 falsa não seja rejeitada. Observe a figura 1: Serve para demonstrar um teste de hipótese com a média de uma população. Fonte: <http://www.portalaction.com.br/inferencia/511-erros-cometidos-nos- testes-de-hipoteses> OBS: A Região Crítica(RC), é o conjunto de valores assumidos pela variável aleatória(θ) ou estatística de testes, para o qual a hipótese nula é rejeita. Esta região também é conhecida como região de rejeição. 82 Exemplo 1: Suponha que equipe técnica tenha decidido adotar a seguinte regra:rejeitar Ho se X for maior que 62.5 kgf e ou menor que 57.5 kgf. Temos: Rc = {X > 62, 5 ou X < 57, 5 } ÞRegião de rejeição de Ho Rc = Ra = {57, 5 £ X £ 62,4 } ÞRegião de aceitação de Ho. Solução: Procedimento do Teste: Se x Є Rc Rejeita -se Ho Se x Rc Aceita-se Ho Considerando as hipóteses : H0: m = 60 contra H1: m ≠ 60. a = P[ X > 62,5 ou X < 57,5 / H0 m = 60] ; Sendo X ~ N(60,25 /16). a = P[ X > 62,5 / H0 m = 60] + P[X < 57,5 / H0 m = 60] P X – 60 > 62,5 - 60 + P X - 60 < 57,5 - 60 25/16 25/16 25/16 25/16 P [ Z > 2 ] + P [ Z < -2 ] = 0,02275 + 0,02275 = 0,0445 Temos, então: Fonte: <http://www.ime.unicamp.br/~hlachos/Inferencia_Hipo1.pdf> 83 PASSOS PARA A CONSTRUÇÃO DE UM TESTE DE HIPÓTESES Nos itens anteriores foram introduzidos os conceitos básicos e as terminologias que são aplicados em testes de hipóteses. Um sumário dos principais passos que podem ser usados sistematicamente para qualquer teste de hipóteses é apresentado aqui, ou seja: 1º) Fixe a hipótese H0 a ser testada e a alternativa H1; 2º) Use a teoria estatística e as informações disponíveis para decidir qual estatística (estimador) será usada para testar a hipótese H0, obtendo-se suas propriedades (distribuição, estimativa, erro padrão); 3º) Fixe a probabilidade a de cometer o erro tipo I e use este valor para construir a RC (região crítica). Lembre-se que a RC é construída para a estatística definida no 1º passo , usando os valores hipotetizados por H0; 4º) Use as informações da amostra para calcular o valor da estatística do teste; 5º) Se o valor da estatística calculado com os dados da amostra não pertencer à RC, não rejeite H0; caso contrário, rejeite H0. TIPOS DE TESTES DE HIPÓTESES Estudaremos testes de hipóteses com uma hipótese nula (Ho) e uma hipótese alternativa (H1). A partir da formulação de Ho e H1, podemos definir o tipo do teste a ser utilizado. Consideremos m o parâmetro estudado e mo ,o valor Inicialmente suposto para m. Se nas hipótese formuladas forem do tipo: Ø TESTE BILATERAL: Ø TESTE UNILATERAL À DIREITA Ø TESTE UNILATERAL À ESQUERDA 84 TESTE BILATERAL H0 : m = m0 H1 : m = m1 RC = {Z ³ zc £ ou Z £ - zc} TESTE UNILATERAL À DIREITA TESTE UNILATERAL À ESQUERDA RC = {Z £ - zc } a m x x x x m0 x c a a/2 a/2 1 - a -zc zc Z H0 : m = m0 H1 : m ≠ m1 (m1 > m0) H0 : m = m H1 : m = m1 (m1 < m0) a -ZC z 85 TESTE DE HIPOTESE PARA A MÉDIA POPULACIONAL Neste caso há interesse em testar a hipótese de que o parâmetromédia populacional (m) de uma certa variável Quantitativa seja maior, menor ou diferente de um certo valor. Para a realização deste teste é necessário que uma das duas condições seja satisfeita: 1º) Supor que a variável de interesse segue uma distribuição normal na população, isso significa que a distribuição amostral da média também será normal, permitindo realizar a inferência estatística paramétrica. 2º) A distribuição da variável na população é desconhecida, mas a amostra retirada desta população é considerada “suficientemente grande” o que, de acordo com o Teorema Central do Limite, permite concluir que a distribuição amostral da média é normal. Supõe-se também que a amostra é representativa da população e foi retirada de forma aleatória. Tal como na Estimação de Parâmetros por Intervalo existirão diferenças nos testes dependendo do conhecimento ou não da variância populacional da variável. A) Se a variância populacional (s2) da variável (cuja média populacional queremos testar) for conhecida. Neste caso a variância amostral da média poderá ser calculada através da expressão: V( x) = s2 e, por conseguinte, o “desvio padrão” será S = s N n A variável de teste será a variável Z da distribuição normal padrão, lembrando que: Z = Valor – Média Desvio - padrão 86 Podemos representar, esta Fórmula da seguinte maneira: Z = X - m0 S n Compara-se o valor da variável de teste com o valor crítico (Zcrítico que depende do Nível de Significância adotado) de acordo com o tipo de teste: Se H1: m > m0 Rejeitar H0 se Z > Zcrítico ( x > x crítico) Se H1: m < m0 Rejeitar H0 se Z < Zcrítico( x < x crítico) Se H1: m ¹ m0 Rejeitar H0 se |Z|¹ |Zcrítico| B) Se a variância populacional (s2) da variável for desconhecida. Naturalmente este é o caso mais encontrado na prática. Como se deve proceder? Dependerá do tamanho da amostra. B1) Grandes amostras (mais de 30 elementos) Nestes casos procede-se como no item anterior, apenas fazendo com que s = s, ou seja, considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na amostra (suposição razoável para grandes amostras). B2) Pequenas amostras (até 30 elementos) Nestes casos a aproximação do item B1 não será viável. Terá que ser feita uma correção na distribuição normal padrão (Z) através da distribuição t de Student. Trata-se de uma distribuição de probabilidades que possui média zero (como a distribuição normal padrão, variável Z), mas sua variância é igual a n/(n-2), ou seja, a variância depende Onde: X = Média Amostral; m0 = Média Populacional; S = Desvio Padrão; n = Amostra 87 do tamanho da amostra. Quanto maior for o tamanho da amostra mais o quociente acima se aproxima de 1 (a variância da distribuição normal padrão), e mais a distribuição t de Student aproxima-se da distribuição normal padrão. A partir de n=30, já é possível considerar a variância da distribuição t de Student aproximadamente igual a 1. A variável de teste será então t n-1 (t com n - 1 graus de liberdade). Portanto,temos a seguinte Fórmula para representar tal situação: tcal = X - m0 S n Compara-se o valor da variável de teste com o valor crítico (tn-1,crítico que depende do Nível de Significância adotado) de acordo com o tipo de teste. Se H1: m > m0 Rejeitar H0 se tn-1 > tn-1,crítico ( x > x crítico) Se H1: m < m0 Rejeitar H0 se tn-1 < tn-1,crítico ( x < x crítico) Se H1: m ¹ m0 Rejeitar H0 se |tn-1|¹ |tn-1,crítico| OBS: O Zcal ou tcal, deverá estar na área de aceitação,caso contrário, a hipótese é rejeitada e assim, aceita-se H1. TESTE DE HIPOTESE PARA A IGUALDADE ENTRE DUAS MÉDIAS POPULACIONAIS Há situações em que é necessário verificar a hipótese de existência,com duas médias obtidas de populações diferentes. 88 As hipóteses são: H0: µX1 - µX2 = d contra H1: µX1 - µX2 ≠ d ou µX1 - µX2 > d ou ainda µX1 - µX2 < d Se d = 0, então µX1 - µX2 = 0, isto é, µX1 = µX2. Como as variâncias são conhecidas, tem-se então que, para n1 e n2 ≥ 30 ou para amostras extraídas de populações normais, que a variável D = X1 – X2 ,terá uma distribuição aproximadamente normal com média E(D) = µX1 - µX2 e variância V(D) = S12 + S22 . A variável teste será, então: n1 n2 Z cal = (X1 – X2) – d e sendo: gl = n1 + n2 - 2 S12 + S22 n1 n2 Portanto,temos graficamente o teste de hipótese para duas médias: Assim fixando o nível de significância “α“, a hipótese nula será rejeitada se: |z| > zα/2 no teste bilateral; z > zα, no teste unilateral à direita; z < zα no teste unilateral à esquerda. a/2 a/2 1 - a Área de rejeição da hipótese Ho. Área de aceitação da hipótese Ho. Área de rejeição da hipótese Ho. tcal = X1 – X2 - d S12 + S22 n1 n2 89 Exemplo: Um fabricante produz dois tipos de pneus. Para o pneu do tipo A o desvio padrão é de 2500 km e para o pneu do tipo B é de 3.000 km. Uma companhia de táxis testou 50 pneus do tipo A e 40 do tipo B, obtendo 24.000 km de média para o “A” e 26.000 para o tipo “B”. Adotando α = 4% testar a hipótese de que a duração média dos dois tipos é a mesma. Solução: As hipóteses são: H0: µA - µB = 0 ( µA = µB ) contra H1: µA - µB ≠ 0 ( µA ≠ µB ) Como α = 4%, então zα/2 = -2,05. O valor da variável teste será: z = 24.000 – 26.000 - 0 2.5002 + 3.0002 50 40 Portanto, rejeita-se a hipótese de igualdade entre as durações médias dos dois tipos de pneus. Com base nestas amostras, pode-se afirmar, ao nível de 4% de significância, que os dois tipos de pneus diferem quanto a durabilidade média. TESTE DE HIPÓTESE PARA A PROPORÇÃO POPULACIONAL Considere uma população e uma hipótese sobre uma proporção p dessa população: H0 : p = p0 = - 3,38 90 O problema fornece informações sobre H1, que pode ser: a) H1 : p = p1 p1 > p0 (teste unilateral à direita) b) H1 : p = p1 p1 < p0 (teste unilateral à esquerda) c) H1 : p > p0 (teste unilateral à direita) d) H1 : p < p0 (teste unilateral à esquerda) e) H1 : p ¹ p0 (teste bilateral) Quando n (tamanho da amostra) é grande; Potanto, temos: Fórmula: n/)p1(p ppˆ Z - - = ; sendo pˆ é a proporção da Amostra Onde: pˆ = Proporção Amostral; po = Proporcional Populacional; n = Amostra Exemplo: Um laboratório de vacinas contra febre aftosa reivindicou que ela imuniza 90% dos animais. Em uma amostra de 200 animais, nos quais foram aplicados a vacina, 160 foram imunizados. Verificar se a declaração dofabricante é verdadeira ao nível de 5%. Solução: H0 : p = 0,90 (p0) H1 : p < 0,90 n = 200 200 160 pˆ = = 0,80 a = 0,05 n/)p1(p ppˆ z 00 0 obs - - = = 200/)10,0.90,0( 90,080,0 - = - 4,72 RC = {Z £ -1,65} 0 91 EXERCÍCIOS DE FIXAÇÃO 01) Fazendo o teste H0: µ = 1150 (σ = 150) contra H1: µ = 1200 (σ = 200) e com n = 100, estabeleceu-se a seguinte região crítica: RC = [1170, +∞). Determine: a) Qual a probabilidade α de rejeitar H0 quando verdadeira? b) Qual a probabilidade β de Aceitar H0 quando H1 é verdadeira? 02) Dados os valores: 4, 6, 3, 6 e 6, de uma amostra aleatória de 5 (cinco) observações de uma variável X, estime a média e a variância de X e admitindo que X tenha uma distribuição normal, teste, a 5%, a hipótese de que a média da população é 1 (um), contra a hipótese alternativa de que é maior do que 1 (um). 03) A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 homens/hora por ano, com desvio padrão de 20 homens/hora. Tentou-se um programa de prevenção de acidentes e, após o mesmo, tomou-se uma amostra aleatória de 16 indústrias e verificou-se que o tempo perdido baixou para 50 homens /hora ano. Você diria que, ao nível de 5% de significância, o programa surtiu efeito? 04) Está-se desconfiado de que a média das receitas municipais, per capita, das cidades pequenas (menos de 20 mil habitantes) é maior do que a média da receita estadual que é de 1229 unidades monetárias. Para testar a hipótese é realizada uma amostragem com 10 pequenas cidades que forneceram os seguintes resultados (em termos de receitas médias): 1230, 582, 576, 2093, 2621, 1045, 1439, 717, 1838, 1359 Verifique que não é possível rejeitar a hipótese de que as receitas municipais são iguais as do estado, aos níveis usuais de significância. Como isto se justifica, já que a média da amostra obtida é bem maior do que a média do estado! 92 05) Um fabricante garante que 90% das peças que fornece a um cliente estão de acordo com as especificações exigidas. O exame de uma amostra aleatória de 200 destas peças revelou 25 fora das especificações. Verifique se as níveis de 5% e 1% de significância há exagero na afirmativa do fabricante. 06) Suponha que a experiência tenha mostrado que dos alunos submetidos a determinado tipo de prova, 20% são reprovados. Se de uma determinada turma de 100 alunos, são reprovados apenas 13, pode-se concluir, ao nível de significância de 5%, que estes alunos, são melhores? 07) O rótulo de uma caixa de sementes informa que a taxa de germinação é de 90%. Entretanto, como a data de validade está vencida, acredita-se que a taxa de germinação seja inferior a este número. Faz-se um experimento e de 400 sementes, tomadas ao acaso, 350 germinam. Qual a conclusão ao nível de 5% de significância? 08) Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através de duas amostras de 50 clientes, selecionados ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma significância de 2,5%? 09) Num ensaio para testar a proteção de dois tipos de tinta em superfícies metálicas, 55 painéis foram pintados com a tinta do tipo A e 75 com a tinta do tipo. Decorridos dois anos de exposição dos painéis ao ar livre, verificou-se que, dos painéis pintados com tinta A, 6 apresentaram problemas enquanto que dos 75 painéis pintados com tinta B, 19 apresentaram problemas. Pode-se concluir, destes valores, com 5% de significância, que as duas marcas de tintas diferem quanto a capacidade de proteção? 93 10) Os salários dos funcionários de uma fábrica de tecidos têm uma distribuição aproximadamente normal. Para estimar o salário médio desta população, foram observados os salários de 20 funcionários, obtendo-se x = 850 reais e s = 120 reais. Determine: a) Um intervalo de confiança de 95% para a média populacional. b) Um intervalo de confiança de 95% para a variância. c) Um intervalo de confiança de 95% para o desvio-padrão populacional. 11) Considerando que uma amostra de cem elementos extraída de uma população aproximadamente normal, cujo desvio padrão é igual a 2, forneceu média de 35,6, construir intervalos de confiança de 90%, 95% e 99% para a média dessa população. 12) O valor de face dos títulos depositados em um banco para cobrança simples tem distribuição normal com variância 400 (u.m.)2. Uma amostra de 10 títulos escolhidos ao acaso forneceu os seguintes valores : 80, 120, 71, 120, 140, 200, 180, 70, 45, 87. a) Qual é o intervalo de confiança de 90% para o valor médio dos títulos da carteira? b) O responsável pela carteira afirma, com 80% de confiança, que o valor médio dos títulos é de 125. Ele pode estar correto? 94 GABARITO: 01- a) α = P(Rej. H0 / H0 é V) = P( X >1170 /µ = 1150) = P[Z >(1170 - 150)/ 15)] = P(Z > 1,33) = 9,18% b) β = P(Ac H0 / H1 é V) = P( X< 1170 / µ = 1200) =P[Z < (1170 - 1200) /20)]= P(Z < -1,50) = 6,68% 02- x = 5; S2 = 2 ; t = 6,32 > t 5% = 2,132; Portanto rejeita H0 03- Como α = 5%, zα = -1,645 e zc = -2. Rejeita-se H0, isto é, pode-se dizer que o programa surtiu efeito. 04- Como tc = -0,566, não é possível rejeitar a hipótese aos níveis de 1%, 5% e mesmo 10%. Isto se justifica devido a grande variabilidade da amostra que apresenta um desvio padrão igual a 675,82. 05- H0: π = 10% contra H1: π > 10%. Como zc = 1,18. Logo não se pode rejeitar H0. 06- H0: π = 20% contra H1: π < 20%. Como zc = -1,75 e z5% = -1,645 . Logo pode-se rejeitar H0. 07- H0: π = 90% contra H1: π < 90%. Como zc = -1,667 e z5% = -1,645 . Logo pode-se rejeitar H0. 08- H0: 1 µ = 2 µ contra H1: 1 µ ≠ 2 µ . Como α = 2,5%, tα = -2,24 e tc = -2,25. Rejeitar H0. 09- H0 :π1 = π2 contra H1: :π1 ≠ π2 . Como Zc = 2,20 e z5% = 1,96. Pode-se afirmar que as duas tintas diferem. 95 10- a) A média populacional dos salários está entre R$ 793,84 e R$ 906,16 reais. b) A variância populacional está entre R$ 8.328,26 e R$ 30.717,41 reais. c) O desvio-padrão populacional está entre R$ 91,26 e R$ 175,26 reais. 11- 99,0)116,35084,35( 95,0)992,35208,35( 90,0)928,35272,35( =<< =<< =<< XP XP XP 12- a) 90,0)67,12193,100( =<< XP b) Não. O valor máximo a esse nível de confiança é de 119,40. AULA 5 CORRELAÇÃO DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS Disciplina: MÉTODOS QUANTITATIVOS VOLTADOS PARA PESQUISA EM CONTABILIDADE Professor: ALAN CARTER KULLACK 96 CORRELAÇÃO Definição: O termo correlação significa relação em dois sentidos (co + relação), e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores. Exemplos: Peso xIdade, Consumo x Renda, Altura x Peso de um indivíduo. OBS1: A verificação da existência e do grau de relação entre as variáveis é o objeto de estudo da correlação. OBS2: Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é o objeto da regressão. Os pares de valores das duas variáveis poderão ser colocados num diagrama cartesiano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de dispersão está em que, muitas vezes sua simples observação já nos dá uma ideia bastante boa de como as duas variáveis se relacionam. Uma medida do grau e do sinal da correlação é dada pela covariância entre as duas variáveis aleatórias X e Y que é uma medida numérica de associação linear existente entre elas, e definida por: Cov(X, Y) = 1 . ∑x.y - ∑x.∑y n n É mais conveniente usar para medida de correlação, o coeficiente de correlação linear de Pearson, como estimador de rxy, definido por: 97 rxy = Cov (x,y) = Sxy σx . σy Sxx . Syy e Sxx = ∑x2 - (∑x)2 ; Syy = ∑y2 – (∑y)2 n n sendo: n = número de pares das observações. CORRELAÇÃO LINEAR Definição: É toda análise de correlação (ρ), a qual utilizamos duas variáveis quantitativas da amostra, para verificarmos se existe correlação entre elas. O grau de correlação é sintetizado e conhecido pelo coeficiente de correlação de Pearson(r). FÓRMULA: r = n.∑Xi.Yi – (∑Xi).(∑Yi) [ n.∑Xi2 – (Xi)2] . [ n.∑Yi2 – (∑Yi)2 ] Onde: X = Variável independente; Y = Variável dependente; n = Número de elementos observados. 98 OBS: Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r. COEFICIENTE DE RELAÇÃO LINEAR Definição: O coeficiente de correlação rxy linear é um número puro que varia de –1 a +1 e sua interpretação dependerá do valor numérico e do sinal, como segue: rxy = -1 Correlação perfeita negativa; -1 < rxy < 0 Correlação negativa; rxy = 0 Correlação nula; 0 < rxy < 1 Correlação positiva; rxy = 1 Correlação perfeita positiva; 0,2 < rxy < 0,4 Correlação fraca; 0,4 < rxy < 0,7 Correlação moderada; 0,7 < rxy < 0,9 Correlação forte; Resumidamente, temos: 1º) r ≥ 0,5 (forte correlação positiva); 2º) r < 0,5 (fraca correlação positiva); 3º) r ≥ - 0,5 (forte correlação negativa); 4º) r < - 0,5 (fraca correlação negativa). 99 ANÁLISE DO DIAGRAMA DE DISPERSÃO O diagrama de dispersão mostrará que a correlação será tanto mais forte quanto mais próximo estiver o coeficiente de –1 ou +1, e será tanto mais fraca quanto mais próximo o coeficiente estiver de zero. a) CORRELAÇÃO PERFEITA NEGATIVA (RXY = -1): Quando os pontos estiverem perfeitamente alinhados, mas em sentido contrário, a correlação é denominada perfeita negativa. b) CORRELAÇÃO NEGATIVA (-1 < RXY < 0): A correlação é considerada negativa quando valores crescentes da variável X estiverem associados a valores decrescentes da variável Y, ou valores decrescentes de X associados a valores crescentes de Y. c) CORRELAÇÃO NULA (RXY = 0): Quando não houver relação entre as variáveis X e Y, ou seja, quando os valores de X e Y ocorrerem independentemente, não existe correlação entre elas. d) CORRELAÇÃO POSITIVA (0 < RXY < 1): Será considerada positiva se os valores crescentes de X estiverem associados a valores crescentes de Y. e) CORRELAÇÃO PERFEITA POSITIVA (RXY = 1): A correlação linear perfeita positiva corresponde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados. f) CORRELAÇÃO ESPÚRIA: Quando duas variáveis X e Y forem independentes, o coeficiente de correlação será nulo. Entretanto, algumas vezes, isto não ocorre, podendo, assim mesmo, o coeficiente apresentar um valor próximo de –1 ou +1. Neste caso a correlação é espúria. Algumas situações que podem se apresentar os diagramas de dispersão. 100 DIAGRAMAS DE DISPERSÃO LINEAR Fonte: http://www.lugli.com.br/2008/02/diagrama-de-dispersao/ OBS: Se x e y variam em sentidos contrários,existe correlação negativa entre as variáveis. Essa correlação é tanto maior quanto menor é a dispersão dos pontos. Fonte: http://www.lugli.com.br/2008/02/diagrama-de-dispersao/ OBS: Se x cresce e y varia ao acaso,não existe correlação entre as variáveis ou o que é o mesmo entre elas pé nula. 101 Fonte: http://www.lugli.com.br/2008/02/diagrama-de-dispersao/ r SQUARE Definição: Determina o impacto da variável independente do X no comportamento da variável dependente Y. OBS: A análise r Square é o resultado do coeficiente de correlação de Pearson ao quadrado(r2) Exemplo: Seja r = 0,92; onde X é o produto derivado do petróleo e Y é o resíduo deste material,logo podemos deduzir que existe uma forte correlação positiva entre as duas variáveis(X e Y),pois: r Square = r2 r Square = (0,92)2 rSquare = 0,8464 Logo podemos deduzir que: 0,8464 x 100% = 84,64 % é referente ao impacto da produção de resíduos, sendo que o restante (15,36%) retrata outras variáveis que também determinam esse impacto. 102 CONCLUSÕES FINAIS: Ø Correlação não é o mesmo que causa e efeito. Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver relação de causa e efeito entre elas. Ø Se duas variáveis estiverem amarradas por uma relação de causa e efeito elas estarão, obrigatoriamente, correlacionadas. Ø O estudo de correlação pressupõe que as variáveis X e Y tenham uma distribuição normal. Ø A palavra simples que compõe o nome correlação linear simples, indica que estão envolvidas no cálculo somente duas variáveis. Ø O coeficiente de correlação linear de Pearson mede a correlação em estatística paramétrica. 103 EXERCÍCIOS DE FIXAÇÃO 01) Para estudar a poluição de um rio, um cientista mediua concentração de um determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X): a) Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Informa-se que r= 0,89. Teste sua significância, ao nível de 5%. , 02) Um pesquisador deseja verificar se um instrumento para medir a concentração de determinada substância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo: X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0 Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1 Calcule o coeficiente de correlação entre as variáveis X e Y. 03) (AFTN-96) Considere a seguinte tabela, que apresenta valores referentes às variáveis x e y, porventura relacionadas: Valores das variáveis x e y relacionadas X y x2 y2 xy 1 2 3 4 5 6 5 7 12 13 18 20 1 4 9 16 25 36 25 49 144 169 324 400 5 14 36 52 90 120 21 75 91 1.111 317 Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e y. a) 0,903 b) 0,926 c) 0,947 d) 0,962 e)0,989 X Y 0,91 0,10 1,33 1,10 4,19 3,40 2,68 2,10 1,86 2,60 1,17 1,00 104 GABARITO: 01 – Temos que verificar a significância do coeficiente através da fórmula: tc = r. n - 2 1 – r2 Fazendo: tc = 0,89 . 6 – 2 = 3,86 1 – (0,89)2 Portanto: tc = 3,86. O valor crítico de t para n-2 = 4 graus de liberdade, e 5% de nível de confiança é 2,78. Como o valor de t é superior ao valor crítico,concluí mos que X e Y se correlacionam-se. 02- X = 6 e Y = 6,040 e r = 0,996 03- Devemos utilizar a fórmula: YX YX SS YXCov r . ),( , = Calculando a Covariância: YXYXyxCov ..),( -= . 83,52 6 317. . ===å n YiXi YX ; 5,3 6 21 ===å n Xi X ; e 5,12 6 75 ===å n Yi Y Logo: Cov(x,y)=52,83-(3,5).(12,5) à Cov(x,y)=9,08 Calculando as Variâncias de X e de Y: ( )222 XXS X -= à ( ) 91,225,1216,155,3 6 91 22 =-=-÷ ø ö ç è æ=XS e ( )222 YYS Y -= à ( ) 91,2825,15616,1855,12 6 1111 22 =-=-÷ ø ö ç è æ=YS Calculando os Desvios Padrões de X e de Y: XX SS 2= Þ SX= 91,2 e YY SS 2= Þ Sy= 91,28 Calculando a Correlação: YX YX SS YXCov r . ),( , = Þ 989,0 172,9 08,9 128,84 08,9 91,28.91,2 08,9 , ====YXr Resposta: 0.989 (letra E) AULA 5 (PARTE 03) SÉRIES TEMPORAIS DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS Disciplina: MÉTODOS QUANTITATIVOS VOLTADOS PARA PESQUISA EM CONTABILIDADE Professor: ALAN CARTER KULLACK 120 SÉRIES TEMPORAIS Definição: Uma série temporal é uma sequência de observações sobre uma variável de interesse. A variável é observada em pontos temporais discretos, usualmente equidistantes, e a análise de tal comportamento temporal envolve a descrição do processo ou fenômeno que gera a sequência. Em outras palavras, podemos afirmar que: “Série temporal é o conjunto de observações {Y (t), t א T}, Y : variável de interesse, T: conjunto de índices” Exemplos de Aplicabilidade de Séries Temporais: ECONOMIA: Preços diários de ações; taxa de desemprego. MEDICINA: Níveis de eletrocardiograma ou eletroencefalograma. EPIDEMIOLOGIA: Casos semanais de sarampo; casos mensais de AIDS. METEROLOGIA: Temperatura diária; registro de marés,etc. OBS: A hipótese que fundamenta a análise de séries temporais é que há um sistema causal mais ou menos constante, relacionado com o tempo, que exerceu influência sobre os dados no passado e pode continuar a fazê-lo no futuro. 121 MODELO CLÁSSICO DAS SÉRIES TEMPORAIS Segundo o modelo clássico todas as séries temporais são compostas de quatro padrões: Ø Tendência Ø Cíclicas ou períodos ciclos Ø Sazonais ou Sazonalidade Ø Estacionalidade TENDÊNCIA (T) Definição: É o comportamento de longo prazo da série, que pode ser causada pelo crescimento demográfico ou mudança gradual de hábitos de consumo ou qualquer outro aspecto que afete a variável de interesse no longo prazo. Ø Em outras palavras, podemos afirmar que é o crescimento ou queda de uma determinada variável observada a um longo prazo. REPRESENTAÇÃO GRÁFICA DE TENDÊNCIA. Fonte: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-71402006000200003> 122 CÍCLICAS OU PERÍODOS CICLOS (C) Definição: São oscilações nos valores de uma variável com duração superior a um ano, e que se repetem com certa periodicidade, que podem ser resultado de variações da economia como períodos de crescimento ou recessão. Ø Em outras palavras, podemos afirmar que são variações de crescimento ou queda de uma determinada variável observada,com duração superior a um ano. REPRESENTAÇÃO GRÁFICA DE PERÍODOS CICLOS Fonte: <http://g1.globo.com/economia/noticia/2013/04/inflacao-faz-copom-elevar-selic-75 -primeira-alta-desde-2011.html> 123 SAZONAIS OU SAZONALIDADE (S) Definição: São variações nos valores de uma variável com elevação ou queda da mesma, com duração inferior ou igual a um ano ,as quais se repetem todos os anos. Exemplo: Consumo de energia elétrica de uma residência durante um ano. REPRESENTAÇÃO GRÁFICA DE SAZONALIDADE Fonte: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382002000300004> ESTACIONALIDADE Definição: É quando não ocorre nenhuma oscilação na variável estudada, isto é, a variável não sofre nenhuma mudança no seu comportamento, ficando estável,ou melhor dizendo, sem elevação ou queda em seu valor. 124 REPRESENTAÇÃO GRÁFICA DE ESTACIONALIDADE Fonte: autor Podemos representar a estacionalidade com uma pequena variação através de um eixo central. Veja: Fonte:<file:///C:/Users/seven/Downloads/599-1270-1-SM%20(1).pdf> 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Contas a receber Contas a pagar Despesas Empresa Fictícia: ARCOM S.A. Valores estipulados em 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 10 20 30 40 50 60 70 80 90 100 125 CLASIFICAÇÃO DAS SÉRIES TEMPORAIS 1. DISCRETA: T = {t1, t2, . . . , tn} Ex: Exportações mensais de 2013 a 2014: {01/13, 02/13, .., 11/14, 12/14} . Notação: Yt 2. CONTÍNUA: T= {t: t1< t< t2} Ex: Registro do gasto de combustível de um carro durante 1ano. T = [0, 24] se unidade de tempo é a hora. Notação: Y (t) 3. MULTIVARIADA: São as observações que podem ser representadas por uma sequência de valores que possuem duas ou mais funções agregadas. Notação: Y1(t), . . . , Yk(t), sendo t א T . Ex: Vendas semanais Y1(t) e gastos com propaganda Y2(t). Podemos identificar T = {1, 2, . . . , n} COMPONENTES DAS SÉRIES TEMPORAIS Definição: São fatores estatísticos que auxiliam na previsão do comportamento das variáveis quantitativas. Esta avaliação da variável esta submetida com os valores assumidos pela mesma durante um determinado período de tempo, podendo assim analisar e sinalizar um resultado futuro. Os componentes das séries temporais a serem estudados para possibilitar previsões de analises de uma variável são: Ø Oscilações Sazonal; Ø Oscilações de Tendência; Ø Oscilações Cíclica; Ø Oscilações Aleatória. Ø 126 OSCILAÇÕES SAZONAL v Representa o movimento de oscilações de curta duração(um ano ou menos) sobre uma determinada variável em estudo. Esta pequena duração de tempo, é ocasionado por diversos fatores que influenciam na variação de sua elevação ou regressão de seu comportamento durante esse período. Exemplo: Existem padrões nas vendas de: · Sorvetes( alta no período do verão e baixa no período do inverno) · Camiseta Regata (alta no período do verão e baixa no período do inverno) REPRESENTAÇÃO GRÁFICA DE OSCILAÇÕES SAZONAL Fonte:<http://rotadosconcursos.com.br/questoes-de-concursos/estatistica-grafico-de- linhas/132416> 127 OSCILAÇÕES DE TENDÊNCIA v Representa um movimento evolutivo, aumentando ou diminuindo a quantidade de determinada variável,podendo ser ascendente ou descente ao passar do tempo. · Em outras palavras, podemos afirmar que as oscilações de tendência são as mudanças que ocorrem a longo prazo no nível médio da série. OBJETIVOS: a) Remover a tendência de modo a permitir a análise de outras componentes. b) Identificar a tendência de modo a utilizá-la como suporte em planejamentos e decisões. PRINCIPAIS TIPOS DE TENDÊNCIAS A forma mais simples de tendência é: Yt = α + βt + ε Outras formas de tendências: Função polinomial: Y = α + β t + β t2 +... β tk + εt Exemplo: Vamos supor que os dados a seguir representem a demanda por um determinado produto nos últimos 20 anos. Analisar a série quanto à tendência ANO(X) DEMANDA(Y) ANO(X) DEMANDA(Y) 1º 10 11º 15 2º 12 12º 18 3º 7 13º 20 4º 11 14º 23 5º 11 15º 24 6º 15 16º 21 7º 16 17º 26 8º 12 18º 25 9º 18 19º 28 10° 17 20º 30 128 Adotando o modelo Y = a +bt, e aplicando o método dos mínimos quadrados para determinar os valores de a (coeficiente linear) e b (coeficiente angular) temos: Y = 6,9368 + 1,0489 t GRÁFICO DA OSCILAÇÃO DE TENDÊNCIA Fonte: autor Se desejarmos fazer uma previsão da demanda para o 21º o ano, podemos usar a linha de tendência (equação de regressão) para fazer essa previsão: Y = 6,9368+1,0489. (21) = 28,96 OBS: As extrapolações usando modelos de regressão devem ser feitas com restrições apenas para períodos curtos. 0 5 10 15 20 25 30 35 0 5 10 15 20 25 DEMANDA (Y) DEMANDA (Y) y = 1.0489x + 6.9368 R2 = 0.9044 ANO(X) 129 OSCILAÇÕES CÍCLICA v Variações cíclicas são variações periódicas de amplitude superior a um ano. OBS: As variações da variável ficam intercaladas entre fases de elevação ou declínio da mesma dentro do período analisado. REPRESENTAÇÃO GRÁFICA DE OSCILAÇÕES CÍCLICAS Fonte:<http://pt-br.aia1317.wikia.com/wiki/An%C3%A1lise_Gr%C3%A1fica_- _Normas_e_Interpreta%C3%A7%C3%A3o> OSCILAÇÕES ALEATÓRIA v Representa um movimento aleatório ou randômico, no qual não há como prever possíveis mudanças de comportamento da variável. Esse fenômeno ocorre quando há influência naturais,sociais ou econômicas para as quais não há previsão,tais como: Seca, greves, crises em outros países, guerras, etc. 130 OBS: Todas as situações que são do âmbito de previsões,fogem de qualquer estimativa estatística, pois a variável em estudo sofre com muitos fatores externos, os quais não conseguimos quantificar,impossibilitando uma análise mais precisa . Fonte: <http://www.scielo.br/img/revistas/prod/v12n1/html/v12n1a04fig06-08.htm> REPRESENTAÇÃO GRÁFICA DE OSCILAÇÕES ALEATÓRIAS 131 ANÁLISE DE SÉRIES TEMPORAIS As séries temporais possuem os seguintes objetivos: i) Compreender o mecanismo gerador da série; ii) Prever o comportamento futuro da série. COMPREENDER O MECANISMO DA SÉRIE POSSIBILITA: • Descrever efetivamente o comportamento da série; • Encontrar periodicidades na série; • Tentar obter razões para o comportamento da série ( possivelmente através de variáveis auxiliares); · Controlar a trajetória da série. PREVER O COMPORTAMENTO FUTURO DA SÉRIE. Ø Quando conseguimos prever o futuro das ações contábeis e administrativas de uma empresa, isto possibilita tomadas de decisões mais precisas, podendo estabelecer com mínimo de prejuízos ações financeiras de longo, médio e curto prazo. OBS: O nível de incerteza da série é quando estamos mais longe do Futuro; portanto maior será a incerteza da previsão associada, isto é, quanto mais tempo para prever o comportamento de uma variável, maior é o erro do resultado que podemos obter pelo seu comportamento. 132 EXERCÍCIOS DE FIXAÇÃO 01) Classifique as seguintes série em: DISCRETA, CONTÍNUA ou MULTIVARIADA. a) Índice diário da bolsa de valores de são Paulo(Bovespa)____________ b) Registro das marés do Porto de Paranaguá(Paraná),durante um período de 2 meses____________ c) Medida da pressão sanguínea de um paciente durante uma cirurgia_______________ 02) Considere a série temporal(Exportação de soja em unidade de U$ 1.000.000,00 da tabela abaixo. ANO 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 EXP. 15 35 41 64 60 62 101 177 333 432 a) A série apresenta tendência ? b) Determine e faça o gráfico da primeira diferença. Ela é estacionária ? 03) Considere a série temporal(PIB brasileiro em trilhões de reais),dado na tabela a Seguir: ANO 2009 2010 2011 2012 2013 2014 PIB 27.614 44.073 63.746 86.171 122.430 161.900 a) Faça o gráfico da série; b) Verifique se a série apresenta uma tendência linear, através do cálculo da primeira diferença. 133 GABARITO: 01- a) Discreta b) Contínua c) Discreta e Multivariada 02- a) Sim ! ANO 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 EXP. 20 6 23 -4 2 39 76 156 99 Os valores são obtidos da seguinte maneira: 1º) 35 - 15 = 20 2º) 41 – 35 = 6 3º) 64 – 41 = 23 e assim por em diante ! Pelo diagrama pode-se verificar que a série não é estacionária ! -200 20 40 60 80 100 120 140 160 180 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 EXPORTAÇÃO de SOJA em MILHÕES DE DÓLARES 134 3 – a) A série não apresenta uma tendência linear,pois a primeira diferença não é estacionária. Pelo gráfico pode-se perceber que a tendência da série é exponencial. 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 2009 2010 2011 2012 2013 2014 PIB Brasileiro em Trilhões de Reais PIB b) AULA 4 INTERVALO DE CONFIANÇA DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS Disciplina: MÉTODOS QUANTITATIVOS VOLTADOS PARA PESQUISA EM CONTABILIDADE Professor: ALAN CARTER KULLACK 70 INTERVALO DE CONFIANÇA (IC) Definição1: É um intervalo (espaço) estimado de um parâmetro estatístico,o qual possibilita o cálculo deste parâmetro estatístico desconhecido. Definição2: É quando fazemos uma estimativa de um intervalo de valores possíveis, no qual se admite esteja o parâmetro populacional. Em outras palavras: “O intervalo de confiança é um intervalo matemático que mede a confiabilidade de uma amostra retirada de uma determinada população.” Profº Alan Carter Kullack Exemplo 1: UTILIZAÇÃO DO INTERVALO DE CONFIANÇA Utilizamos o intervalo de confiança para os seguintes parâmetros: Ø Média; Ø Diferença de Médias; Ø Proporção; Ø Diferença de Proporção; Ø Variância; Ø Tamanho de uma amostra. 71 REPRESENTAÇÃO GRÁFICA DO I.C. O gráfico de intervalo de confiança, reproduz uma dimensão bem específica dos valores a serem considerados na amostra,deixando assim o grau de confiança na pesquisa mais elevado,isto é, com uma probabilidade de acerto maior. Fonte:<http://pt.slideshare.net/NathliaMendona1/intervalos-de-confiana> OBS: Utilizaremos a fórmula: X – Z. Sx ≤ µ ≤ X + Z. Sx Portanto,temos que: e = Z. Sx INTERVALO DE CONFIANÇA DA MÉDIA POPULACIONAL(µ) Definição: São os valores retirados da média populacional, os quais podemos validar para toda população a ser pesquisada, isto é, assim um intervalo de confiança da própria média. 72 OBS: Para efetuar a Estimativa de Médias de uma População utiliza-se desvio padrão da distribuição que constitui a amostra (distribuição amostral), deve-se levar em consideração se o desvio padrão da população é ou não conhecido. ERRO-PADRÃO AMOSTRAL PARA A MÉDIA Ao se obter uma amostra qualquer de tamanho n, calcula-se a média aritmética populacional. Provavelmente, se uma nova amostra aleatória for realizada, a média aritmética obtida será diferente daquela da primeira amostra. A variabilidade das médias é estimada pelo seu erro padrão. Assim, o erro padrão avalia a precisão do cálculo da média populacional. O erro padrão é dado pela fórmula: Sx = S √ n , onde: Para uma população conhecida, usaremos a seguinte fórmula: Sx + S . N - n √ n N - 1 OBS1: Quanto melhor a precisão no cálculo da média populacional, menor será o erro padrão. OBS2: A amostra e o erro-padrão são grandezas inversamente proporcionais. Exemplo: Numa população obteve-se desvio padrão de 2,64 com uma amostra aleatória de 60 elementos. Qual o provável erro padrão? Solução: Sx → Erro padrão S → Desvio padrão n → Tamanho da amostra 73 INTERVALO DE CONFIANÇA PARA MÉDIA AMOSTRAS PEQUENAS(N<30) Em muitas situações da vida real, o desvio padrão populacional é desconhecido. Além disso, em função de fatores como tempo e custo, não é prático colher amostras de tamanho 30 ou mais. Nesse caso, devemos construir intervalos de confiança com uma distribuição para uma média populacional pequena,como isso utilizamos a distribuição t de Student. A DISTRIBUIÇÃO T DE STUDENT Definição: Se a distribuição de uma variável aleatória x é aproximadamente normal e , então a distribuição amostral de é uma distribuição t de Student, onde: . Onde: t = Distribuição t de student; X = Variável aleatória; µ = Média; S = Desvio Padrão amostral; n = Número da amostra Podemos representar a fórmula, da seguinte maneira: X - t. Sx ≤ µ ≤ X + t. Sx Portanto, temos: 74 Fonte: < http://slideplayer.com.br/slide/353636/> Os valores críticos de t são denotados por tc. Diversas propriedades da distribuição t estão relacionadas a seguir: · A distribuição t tem a forma de sino e é simétrica em torno da média. · A distribuição t é uma família de curvas, cada uma delas determinada por um parâmetro chamado grau de liberdade (g.l). Os graus de liberdade são os números de escolhas livre deixada após uma amostra estatística tal como ter sido calculada. Quando se usa uma distribuição t para estimar uma média populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1, ou seja, g.l = n – 1. · O risco é representado por α ( 1 – nível de confiança) · A área total sob uma curva t é 1 ou 100%. · A média, a moda e a mediana da distribuição t são iguais a zero. · Quando o número de graus de liberdade cresce, a distribuição tende para a distribuição normal. Após 30 graus de liberdade a distribuição t está muito próxima da distribuição normal padrão z. 75 TABELA DOS VALORES DA DISTRIBUIÇÃO t DE STUDENT Fonte: < http://slideplayer.com.br/slide/360340/> 76 ERRO-PADRÃO AMOSTRAL PARA A PROPORÇÃO: Refere-se ao erro de estimativa de uma proporção, sendo a diferença do resultado amostral em relação ao populacional para mais ou para menos, o qual aceitamos em nossa pesquisa, em função do nível de confiança desejado e representado pelo escore z. Fórmula: Sp = p.q Onde: n Ex: Um instituto de pesquisa revelou,por meio de um estudo que realizou com 300 microempresas paranaenses, que 77% delas estão satisfeitas com os serviços prestados por seus contadores e as demais estão insatisfeitas. Estime, com 95% de confiança o intervalo da proporção populacional para aquelas empresas satisfeitas com seus contadores. Solução: Dados: p = 77% q = 23% n = 300 Sp = ? p = Proporção favorável; q = Proporção desfavorável; n = Amostra; Sp = Erro-padrão proporcional Sp = 77.23 = Sp = 1771 300 300 Sp = 2,43 % 77 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL Definição: Refere-se aos valores máximo e mínimo da proporção populacional. Fórmula: p – Z. Sp ≤ ¶ ≤ p + Z.Sp onde: Z = nível de confiança da tabela normal.
Compartilhar