Baixe o app para aproveitar ainda mais
Prévia do material em texto
CÁLCULO NUMÉRICO OBJETIVOS DE APRENDIZAGEM > Definir regressão linear. > Reconhecer a diferença entre regressão e interpolação. > Utilizar a regressão linear para ajustar uma reta a um conjunto de dados. Introdução Estabelecer as relações entre variáveis a fim de prever uma em relação à outra é bastante comum em situações na área da estatística, como ao prever o preço da venda de uma casa em termos de variáveis, como a quantidade de quartos e banheiros. Para isso, deve-se encontrar uma relação entre as variáveis, que pode ser linear, quadrática ou polinomial, por exemplo. Neste capítulo, você vai estudar sobre a regressão linear, um tipo de relação específica, e como utilizá-la. Além disso, você também vai ver como diferenciá-la da interpolação e como realizar a metodologia da regressão na prática, ajustando uma reta a dados. Conceito Suponha que você tenha dados referentes a duas variáveis, e a partir deles você pode encontrar uma relação ou equação matemática que descreva esses dados, e com isso é possível fazer previsões a respeito de seus dados originais. Essa relação pode ser de diversos tipos, como linear, quadrática ou exponencial, por exemplo, e feita a partir dos gráficos dessas variáveis, assim, é preciso ajustar uma curva aos gráficos. A Figura 1 mostra um exemplo de aproximação linear a partir da análise da dispersão de dados de peso versus Regressão linear Mariana Sacrini Ayres Ferraz altura e outro de aproximação não-linear a partir da visualização da dispersão de dados de quantidade de apresentações versus tempo. Figura 1. Exemplos de aproximação linear e não linear em gráficos de dispersão. Fonte: Adaptada de Spiegel e Stephens (2009). Gráfico de dispersão de peso versus altura Gráfico de dispersão do número de apresentações versus o tempo Peso Al tu ra N úm er o de a pr es en ta çõ es Tempo A Figura 2 mostra exemplos de equações matemáticas possíveis para os modelos linear e polinomial. As variáveis são denotadas por X e Y, denomi- Regressão linear2 nadas variáveis independentes e dependentes, respectivamente. Os an são constantes, conhecidos como coeficientes, com n ≥ 0. Figura 2. Exemplos de equações matemáticas para modelar dados. Fonte: Spiegel e Stephens (2009, p. 337). A regressão linear se utiliza de um modelo linear para ajustar dados e fazer previsões, as equações lineares: y = a + bx onde a é uma constante que representa o corte da reta no eixo y, também conhecida como intercepto, ou seja, o valor de y quando x = 0; e b é uma constante referente à inclinação da reta (FREUND, 2007). A partir da reta estimada, pode-se fazer previsões, ou seja, dado um valor de x, pertencente aos dados originais, é possível encontrar o valor estimado de y. Regressão e interpolação Observe que na Figura 1, na seção anterior, os pontos são aproximados por determinada função matemática, tornando possível encontrar uma equação que melhor se ajuste aos pontos. Embora a curva encontrada seja a melhor possível, ela não passa necessariamente por todos os pontos dados. Já a interpolação é um método que possibilita a criação de novos dados a partir de dados discretos. Isso significa que o objetivo da interpolação é encontrar os dados “faltantes” entre os pontos dados e, portanto, podem ser criadas funções interpoladoras no conjunto de dados, a fim de conectar os pontos dados (JUSTO et al., 2020). Em relação aos tipos de interpolação, os mais comuns são a linear e polinomial. A Figura 3 mostra exemplos desses tipos de interpolação. Regressão linear 3 Figura 3. Exemplos de (a) regressão linear, (b) in- terpolação linear e (c) polinomial de pontos dados. Fonte: Chapra e Canale (2016, p. 390). Observe que a interpolação também gera uma aproximação dos pontos, mas ela passa por todos eles obrigatoriamente, gerando curvas de dados. Com ela, também podemos inferir valores de y a partir de valores de x diferentes dos pontos dados iniciais. Assim, pode-se dizer que há duas abordagens para fazer ajustes de curvas (CHAPRA; CANALE, 2016). Na primeira, o dado exibe alto grau de erro ou “ruído”, seu objetivo é encontrar uma curva de tendência, e o método utilizado para isso é denominado regressão por mínimos quadrados. Na segunda, os dados são considerados mais precisos, assim, ajustam-se curvas que passam por todos os pontos, e o método utilizado nesse caso é chamado de interpolação. Regressão linear4 Ajustando uma reta Nesta seção, você verá como encontrar a melhor reta que se ajusta nos dados de interesse. O método mais utilizado para isso é denominado método de mínimos quadrados. Para compreender esse processo, veja o exemplo a seguir. Primeiramente, suponha que há duas variáveis, tempo de exposição e alcance auditivo de pessoas expostas a alto ruído, medido em milhares de ciclos por segundo. Os respectivos dados são apresentados no Quadro 1. Quadro 1. Dados de número de semanas e alcance auditivo Número de semanas (x) Alcance auditivo (y) 47 15,1 56 14,1 116 13,2 178 12,7 19 14,6 75 13,8 160 11,9 31 14,8 12 15,3 164 12,6 43 14,7 74 14,0 Fonte: Adaptado de Freund (2007). A partir dos dados, você pode fazer um gráfico de dispersão, como mostra a Figura 4. A partir deste gráfico, é possível observar que os dados seguem um comportamento linear. Assim, uma reta seria um bom modelo nesse caso. Regressão linear 5 Figura 4. Gráfico de dispersão dos dados de número de se- manas e alcance auditivo. Fonte: Freund (2007, p. 401). Agora é preciso encontrar a reta mais adequada aos pontos dados. Se você pegasse uma régua e simplesmente traçasse retas, possivelmente haveria vá- rias retas que se encaixariam próximas aos pontos, como ilustrado na Figura 5. Então, para saber qual reta seria a ideal, usa-se o método dos mínimos qua- drados, que utiliza a propriedade mínima à soma dos quadrados das distâncias verticais dos pontos para encontrarmos a melhor reta (FREUND, 2007). Figura 5. Gráfico de dispersão dos dados de número de semanas e alcance auditivo com retas aproximadas aos pontos. Fonte: Adaptada de Freund (2007). Regressão linear6 Na Figura 6, há duas possibilidades de retas ajustadas a quatro pontos, e os números indicam a distância entre os pontos e as retas. Assim, ao utilizar a reta para prever os valores de y dados os valores de x, haveria uma diferença entre os valores reais (pontos dados) e os valores previstos pelas retas, e essa diferença é o erro da previsão. Calculando a soma dos erros para a reta horizontal, o resultado seria – 3 + 1 – 3 + 5 = 0, e, para a segunda reta, seria 0 + 1 – 5 + 0 = –4. Embora o erro para a reta horizontal tenha resultado em 0, é possível observar que todos os pontos estão a certa distância da reta, e o erro da segunda é numericamente maior que o da primeira, mesmo que pareça se ajustar melhor aos pontos. Figura 6. Exemplo de retas ajustadas a quatro pontos. Os números indicam a distância dos pontos às retas. Fonte: Adaptada de Freund (2007). Para uma melhor comparação, utiliza-se, então, a soma do quadrado da distância: (–3)2 + 12 + (–3)2 + 52 = 44 e 02 + 12 + (–5)2 + 02 = 26 Então, obtém-se um valor menor para a segunda reta (a que melhor se ajusta aos dados). Assim, o método dos mínimos quadrados visa a diminuir o erro quadrático entre a reta e os dados, com a reta chamada de reta dos mínimos quadrados. Regressão linear 7 Agora veja como encontrar a reta ideal. Suponha a reta ideal dada por y ̂ = a + bx, e os n pontos dados escritos como pares x e y. A soma da diferença quadrática entre os dados e a reta é dada por: ( )2 = [ ( + )]2 Assim, é preciso encontrar os valores das constantes a e b que minimizem o erro quadrático. A Figura 7 mostra um esquema com a representação dos valores de y, y ̂ e y – y ̂. Figura 7. Representação de y, y ̂ e y – y ̂. Fonte: Freund (2007, p. 403). Deixando o cálculo implícito, obtém-se o seguinte sistema de equações, denominadas equações normais: = + = + 2 Regressão linear8Resolvendo esse sistema, é possível encontrar as constantes a e b. Assim, dadas as quantidades: = 2 − 1 2 = − 1 As constantes são dadas por: = = ∑ (∑ ) Voltando agora ao exemplo do início da seção, sobre o alcance auditivo, determine a reta de mínimos quadrados. Calculando os somatórios, tem-se que ∑x = 975, ∑x2 = 117.397, ∑xy = 12.884,4 e ∑y = 166,8 (Quadro 2). Observe que é possível realizar esses cálculos no Excel. Quadro 2. Dados e somatórios (sombreados em cinza) x y x2 x ∙ y 47 15,1 2209 709,7 56 14,1 3136 789,6 116 13,2 13456 1531,2 178 12,7 31684 2260,6 19 14,6 361 277,4 75 13,8 5625 1035 160 11,9 25600 1904 31 14,8 961 458,8 12 15,3 144 183,6 (Continua) Regressão linear 9 x y x2 x ∙ y 164 12,6 26896 2066,4 43 14,7 1849 632,1 74 14,0 5476 1036 975 166,8 117397 12884,4 Fonte: Adaptado de Freund (2007). Calculados então os somatórios, obtêm-se os seguintes valores: = 117,397 − 1 12 (975)2 = 38.178,25 = 12.884,4 − 1 12 (975)(166,8) = −668,1 Assim, as constantes serão dadas por: = −668,1 38.178,25 ≈ −0,0175 = 166,8 − (−0,0175)(975) 12 ≈ 15,3 Portanto, a equação da reta de mínimos quadrados é dada por: y ̂ = 15,3 – 0,0175x Determinada a reta de mínimos quadrados, é possível prever valores do alcance auditivo dado um número de semanas. Por exemplo: qual será o alcance auditivo para um número de semanas de 300? É preciso substituir o valor de 300 na equação encontrada. Assim: = 15^ ,3 − 0,0175(300) = 15,3 − 5,25 = 10,05 O valor previsto do alcance auditivo será de 10,05. (Continuação) Regressão linear10 Quantificando o erro na regressão linear Para encontrar a melhor reta, utiliza-se a soma dos quadrados das diferenças, também chamado de soma dos quadrados dos resíduos, e denotá-lo como Sr: = ( − )2 = [ − ( + )]2 ^ A partir dessa medida, pode-se encontrar um desvio-padrão para a reta encontrada, que é dado por: / =⎷ − 2 onde a quantidade Sx/y é chamada de erro padrão da estimativa, a qual re- presenta a dispersão em torno da reta de regressão, similar ao que se tem ao calcular a dispersão em torno da média (Figura 8). Figura 8. Dispersão em torno de dados: (a) em torno da média; b) em torno da reta. Fonte: Chapra e Canale (2016, p. 407). A partir desses conceitos, pode-se determinar o “quão bom” é o ajuste realizado, o que também permite comparar diversas regressões. Assim, serão utilizadas duas quantidades, Sr e St, onde St é a soma dos quadrados dos resíduos entre os pontos dados e a média, ou seja: = ( −−)2 Regressão linear 11 Com esses valores, calcula-se o coeficiente de determinação r2 (e r é o coeficiente de correlação). Assim: 2 = − Esse parâmetro representa a melhora, ou a redução do erro, decorrentes do ajuste da reta. Se um ajuste for perfeito (Sr = 0) e resultar em r = r2 = 1, significa que a reta explica toda a variação dos dados. Para r = r2 = 0, tem-se Sr = St, e o ajuste não implica em nenhuma melhora. Calcule o coeficiente de determinação para o exemplo de alcance au- ditivo. Primeiramente, são calculados o Sr e o St, conforme o Quadro 3. Quadro 3. Dados e somatórios (em negrito) x y y – y– (y – y–)2 y ̂ y – y ̂ (y – ŷ)2 47 15,1 1,2 1,44 14,48 0,62 0,39 56 14,1 0,2 0,04 14,32 -0,22 0,05 116 13,2 -0,7 0,49 13,27 -0,07 0,00 178 12,7 -1,2 1,44 12,19 0,51 0,27 19 14,6 0,7 0,49 14,97 -0,37 0,14 75 13,8 -0,1 0,01 13,99 -0,19 0,04 160 11,9 -2 4 12,50 -0,60 0,36 31 14,8 0,9 0,81 14,76 0,04 0,00 12 15,3 1,4 1,96 15,09 0,21 0,04 164 12,6 -1,3 1,69 12,43 0,17 0,03 43 14,7 0,8 0,64 14,55 0,15 0,02 74 14,0 0,1 0,01 14,01 -0,01 0,00 St = 13,02 Sr = 1,33 Fonte: Adaptado de Freund (2007). Regressão linear12 Agora, o coeficiente é dado por: 2 = 13,02 − 1,33 13,02 = 0,8975 Assim, 89,75% da incerteza original foi explicada pelo modelo linear. Referências CHAPRA, S. C.; CANALE, R. P. Métodos numéricos para engenharia. 7. ed. Porto Alegre: AMGH, 2016. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2007. JUSTO, D. A. R. et al. (Org.). Cálculo numérico: um livro colaborativo. Porto Alegre: UFRGS, 2020. Disponível em: https://www.ufrgs.br/reamat/CalculoNumerico/index. html. Acesso em: 3 fev. 2021. SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre, Bookman, 2009. Os links para sites da web fornecidos neste capítulo foram todos testados, e seu funcionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. Regressão linear 13 BIOESTATÍSTICA OBJETIVOS DE APRENDIZAGEM > Descrever o que é um teste de análise de variância. > Identificar quando deve ser utilizado um teste de análise de variância. > Definir o valor de F de uma Anova. Introdução Os testes de hipóteses são muito importantes no âmbito da estatística. Eles são utilizados quando se deseja verificar uma hipótese específica e também quando se quer verificar se existem evidências estatísticas para atestar que determinada diferença seja significativa. Neste capítulo, você vai estudar a Anova, um teste paramétrico utilizado para a comparação de mais de duas médias. Você também vai ver como realizar uma Anova. Além disso, vai verificar quando utilizar essa técnica de inferência estatística e como analisar seus resultados. Teste de Anova Os testes de hipóteses integram a área da estatística chamada de “estatís- tica inferencial”. Os testes de hipóteses dividem-se em paramétricos e não paramétricos. Os testes paramétricos distinguem-se dos não paramétricos basicamente porque se baseiam em variáveis que seguem uma distribuição de probabilidades conhecida, geralmente a distribuição normal. Existem testes de hipóteses que verificam afirmações a respeito de médias, variâncias, proporções e associações, por exemplo. Análise de variância Juliane Silveira Freire da Silva Uma hipótese estatística é uma suposição sobre determinado parâmetro da população, como média, desvio-padrão, coeficiente de correlação, etc. Por sua vez, um teste de hipótese é um procedimento utilizado para decidir sobre a veracidade ou falsidade de determinada hipótese. Para que uma hipótese estatística seja validada ou rejeitada com certeza, seria necessário examinar toda a população, o que na prática é inviável. Portanto, como alternativa, extrai-se uma amostra aleatória da população de interesse (FAVIERO, 2017). A Anova é um teste que verifica a igualdade de duas ou mais médias. Os pressupostos para a utilização desse teste são: � as amostras em estudo devem ser independentes; � as amostras devem ser retiradas de populações que sigam a distri- buição normal ou aproximadamente normal; � deve haver homocedasticidade (igualdade de variâncias); � as variáveis em estudo devem ser numéricas. Por ser um teste de hipóteses estatísticas, esse teste segue o mesmo procedimento de outros testes de hipóteses. Tal procedimento implica: � formular hipóteses; � definir o nível de significância do teste (α); � calcular a estatística de teste; � definir a região crítica de acordo com o nível de significância estabelecido; � concluir (rejeitar ou não H0). Segundo Moretin e Bussab (2017), o objetivo do teste de hipóteses é indicar, de acordo com a estatística de teste, se H0 é verdadeira ou não. Operacional- mente, essa decisão é tomada por meio da consideração de uma região crítica (RC), também conhecida como “região de rejeição”. Caso o valor observado na estatística de teste pertença a essa região, rejeita-se a hipótese nula; caso contrário, não se pode rejeitar H0. Componentes de um teste de Anova Há duas hipóteses de pesquisa: a hipótese nula, também chamada de “hipó- tese de igualdade” (H0), e a hipótese alternativa (H1 ou Ha). No teste de Anova, é possível descrever genericamenteas hipóteses como indicado a seguir. Análise de variância2 � H0: as médias são iguais. � H1: ao menos uma das médias difere das demais. As duas afirmações são hipóteses porque a verdade é desconhecida. Serão feitos esforços para rejeitar a hipótese nula (às vezes chamada de “hipótese firmada” ou “hipótese de pesquisa”). A H0 deve ser enunciada de forma precisa para que possa ser testada mediante as evidências empíricas de uma amostra. Se H0 representa uma teoria estabelecida, espera-se efetivamente não rejeitá-la, mas, de qualquer maneira, há uma tentativa de fazê-lo. Quando H0 é rejeitada, procura-se concluir que a hipótese alternativa H1 é a verdadeira. A H0representa o status quo (por exemplo, a situação corrente dos negócios), enquanto a H1 é às vezes chamada de “ação alternativa”, pois alguma ação pode ser exigida se H0 for rejeitada em favor de H1 (DOANE, 2014). O nível de significância do teste é a probabilidade de erro do tipo 1, que consiste em rejeitar H0 quando ela é a hipótese verdadeira. O nível de signi- ficância é representado pela letra grega α (alfa). No Quadro 1, a seguir, veja os tipos de erro associados à realização dos testes estatísticos. Quadro 1. Erros associados à realização dos testes estatísticos e suas res- pectivas probabilidades Conclusão do teste Verdade Não se rejeita H0 Rejeita-se H0 H0 é verdadeira Decisão correta Probabilidade: 1 – α Decisão errada: erro tipo I Probabilidade: α H0 é falsa Decisão errada: erro tipo II Probabilidade: β Decisão correta Probabilidade: 1 – β (poder do teste) Fonte: Adaptado de Callegari-Jacques (2007). A probabilidade α de se cometer um erro do tipo I (ou de primeira espécie) é um valor arbitrário e recebe o nome de “nível de significância do teste”. O resultado da amostra é tanto mais significante para rejeitar H0 quanto menor for esse nível α. Ou seja, quanto menor for α, menor é a probabilidade de se obter uma amostra com estatística pertencente à região crítica. Nesse sentido, é pouco verossímil a obtenção de uma amostra da população para a qual H0 seja verdadeira. Usualmente, o valor de α é fixado em 5%, 1% ou 0,1% (MORETIN; BUSSAB, 2017). Análise de variância 3 O erro do tipo I é fixado como o nível de significância. Por sua vez, o erro do tipo II pode ser controlado com o aumento do tamanho da amostra. A estatística do teste depende do teste escolhido. No caso da Anova, são feitos alguns cálculos para se encontrar a estatística de teste F. Os cálculos necessários para a estatística de teste são trabalhosos. Por isso, em geral essa análise é realizada por meio de software. Os dados precisam estar dispostos como no Quadro 2 para que se possa realizar os cálculos para a obtenção da estatística de teste. Caso o teste seja rodado no Excel, é necessário que as amostras de cada um dos grupos estejam organizadas de forma semelhante à apresentada no Quadro 2. Contudo, isso não é uma exigência de todo software estatístico. Quadro 2. Organização de amostras Tratamento Total 1 2 3 ... k Y11 Y21 Y31 ... Yk1 Y12 Y22 Y32 ... Yk2 Y13 Y23 Y33 ... Yk3 ... ... ... ... ... Y1r Y2r Y3r ... Ykr Total T1 T2 T3 ... Tk ΣT = Σy Número de repetições r1 r2 r3 ... rk Σr = n Média ... Análise de variância4 Veja algumas notações importantes: � k — grupos ou tratamentos; � r — número de repetições em cada grupo, ou seja, tamanho da amostra para cada grupo a ser comparado; � n — tamanho total da amostra (n = Ʃr); � y — valores da variável de cada unidade amostral. A seguir, veja os cálculos a serem realizados para obter o valor da estatística de teste em uma tabela Anova. � Graus de liberdade: ■ Grupos (tratamentos) = k – 1 ■ Resíduo (erro) = n – k ■ Total = n – 1 � Valor de correção C: � Soma de Quadrados Total (SQT): � Soma de Quadrados de Tratamentos (SQTRr): � Soma de Quadrados de Resíduo (SQR): � Quadrado Médio de Tratamentos (QMTr): � Quadrado Médio de Resíduo (QMR): � Valor da estatística de teste F: Agora observe a Tabela Anova. Causas de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrados médios (QM) F Grupos (tratamentos) k – 1 SQTr QMTr F Resíduo n – k SQR QMR Total n – 1 SQT A regra de decisão é tomada em função do nível de significância estabe- lecido. Caso o F calculado caia na região crítica, rejeita-se H0. Caso o valor calculado de F não caia na região crítica, não se pode rejeitar a hipótese nula. A distribuição F é uma distribuição assimétrica à direita que começa a partir do zero (F não pode ser negativo, pois as variâncias são somas de quadrados) e Análise de variância 5 não tem limite superior (pois as variâncias podem ser de qualquer magnitude). Para a Anova, o teste F é um teste unilateral à direita. Considera-se um nível de significância fixado α (DOANE, 2014). O que delimita a região crítica é um valor tabelado de acordo com a dis- tribuição F de Snedcor correspondente aos graus de liberdade e ao nível de significância fixa. Caso você tome a decisão com base nos valores calculados (FCALC) e tabelados (FTAB), deve considerar a regra de decisão apresentada a seguir. � Se FCALC > FTAB, rejeita-se H0. Logo, existe diferença significativa. � Se FCALC < FTAB, aceita-se H0. Logo, não existe diferença significativa. Caso você tome a decisão com base no nível de significância do teste (valor–p), que representa a área abaixo da curva F correspondente ao valor de F calculado, comparado ao nível de significância fixado, deve considerar a regra a seguir. � Se valor–p < nível de significância (α), rejeita-se H0. Logo, existe dife- rença significativa. � Se valor–p > nível de significância (α), aceita-se H0. Logo, não existe diferença significativa. A escolha de uma dessas duas formas de interpretação depende da fer- ramenta disponível (calculadora ou pacote computacional). Ambas as opções levam ao mesmo resultado. A conclusão indica se a hipótese nula foi rejeitada ou não. Utilização da Anova A Anova é um teste para comparação de médias. Além dela, existem ou- tros testes para comparação de médias, como o teste t para uma média, o teste t para duas amostras independentes e o teste t pareado. Porém, esses testes limitam-se a uma ou duas amostras. Já o teste de Anova é utilizado quando se tem mais de duas amostras oriundas de populações normais ou aproximadamente normais e essas amostras são independentes entre si e homocedásticas. A Anova segue as mesmas premissas dos demais testes de hipóteses pa- ramétricos. Caso as variâncias não sejam iguais, ou os dados não sigam uma distribuição normal e a sua distribuição seja desconhecida, é preciso utilizar Análise de variância6 testes similares para comparação de médias (porém, testes não paramétricos, também conhecidos como “testes livres de distribuição”). A Anova testa se existe ou não diferença entre as médias oriundas de populações independentes. Todavia, esse teste indica apenas se a diferença existe ou não; ele não consegue informar entre quais grupos a diferença é significativa. Exemplo Imagine que você coletou amostras de pessoas e investigou o número de salários mínimos recebidos em três diferentes estados do Brasil. O seu obje- tivo é verificar se existe diferença significativa no número médio de salários recebidos pelos moradores desses três estados. A seguir, veja os números coletados. São Paulo Rio de Janeiro Rio Grande do Sul 5 6 9 6 8 5 4 7 6 8 9 4 9 5 8 11 8 5 12 9 6 9 6 7 8 11 5 8 8 9 Como você deseja realizar um teste para verificar se existe diferença significativa entre os ganhos de salários mínimos em cada um dos estados, deve iniciar formalizando as hipóteses de pesquisa. Veja a seguir. � H0: as médias de salários mínimos nos três estados são iguais. � H1: em ao menos um dos estados, a média de salários mínimos é diferente. Análise de variância 7 Após a formulação das hipóteses, você deve fixar o nível de significância em 5% e realizar o cálculo da estatística de teste F com o auxíliodo Excel. Observe a tabela a seguir. Grupo Contagem Soma Média Variância São Paulo 11 89 8,0909 5,6909 Rio de Janeiro 9 69 7,6667 3,5000 Rio Grande do Sul 10 63 6,3000 2,6778 Agora veja a Tabela Anova, a seguir. Fonte da variação SQ GL MQ F Valor–p F crítico Entre grupos 17,9576 2 8,9788 2,2239 0,1276 3,3541 Dentro dos grupos 109,0091 27 4,0374 Total 126,9667 29 Com a estatística de teste, você pode definir a regra de decisão. Se você analisar a estatística de teste comparada ao valor tabelado, vai verificar que FCALC (2,2239) < FTAB (3,3541), ou seja, H0 é aceita. Logo, não existe diferença significativa. Já se você considerar a significância da estatística de teste comparada ao nível de significância, vai verificar que valor–p (0,1276) > nível de significância (α = 0,05), ou seja, H0 é aceita. Logo, não existe diferença significativa. As duas opções levam à mesma resposta. Então, não se pode rejeitar H0. Logo, as médias de salários mínimos são iguais nos três estados analisados, ao nível de significância de 5%. Como você viu, o teste de Anova indica se existe diferença entre as médias, mas fica limitado a isso e não consegue informar quais são as variáveis que diferem em relação à média. Para saber exatamente quais são as relações de diferença significativa, você precisa utilizar outros testes. Esses testes são chamados de “post hocs”. Os testes de comparações múltiplas mais comuns são os testes Tukey, Newman-Keuls, Bonferroni, Scheffé, Duncan e Fisher. Análise de variância8 Estatística de teste F O teste de Anova leva em consideração a distribuição de probabilidade F, e a partir dela se obtêm as probabilidades abaixo dessa curva. A distribuição F descreve a razão de duas variâncias. Portanto, faz sentido que a estatística do teste de Anova seja a estatística do teste F. A estatística F é a razão da variância devida ao tratamento pela variância devida ao erro. O QMTr é o qua- drado médio devido ao tratamento, e o QMR é o quadrado médio dentro dos tratamentos, também chamado de “quadrado médio residual” (DOANE, 2014). Segundo Doane (2014), a estatística de teste F não pode ser negativa (ela é baseada em somas de quadrados). O teste F, que testa a igualdade de médias dos tratamentos, é sempre um teste unilateral à direita, pois é a razão entre a variância explicada (pelo fator) e a variância do erro (não explicada pelo fator). Se há apenas uma pequena diferença entre os tratamentos, se espera que QMTr esteja próximo de zero, porque as médias dos tratamentos estão próximas da média geral. Logo, se F estiver próxima de zero, não se espera rejeitar a hipótese de igualdade das médias dos grupos. Quanto maior for a estatística F, mais o pesquisador se inclina a rejeitar a hipótese de igualdade de médias. Mas quão grande deve ser F para convencê-lo de que as médias diferem? Em síntese, essa estatística de teste é comparada ao valor tabelado re- ferente ao nível de significância fixado, delimitando assim a região crítica do teste. Caso a estatística de teste seja superior ao valor tabelado ao nível de significância, esse teste terá a hipótese nula rejeitada. Já se o valor da estatística de testes for inferior ao valor tabelado, não será possível rejeitar a hipótese nula. A estatística de teste é calculada com base nos dados obtidos em uma amostra. Assim, as hipóteses são testadas com base nessa amostra. A estatís- tica de teste é o ponto-chave de qualquer teste de hipóteses. Ela é calculada com base em dados amostrais, e esse é o valor comparado ao valor do nível de significância. Então, com base nos dados amostrais, é possível verificar se o teste em estudo é significativo ou não. Cada teste de hipóteses terá a sua estatística de teste correspondente e, consequentemente, uma função de probabilidade conhecida correspondente (no caso dos testes paramétricos). A estatística de teste F é calculada com base nas somas de quadrado entre e dentro dos tratamentos. Esse valor segue uma distribuição F desde que os pressupostos de independência entre as amostras e as populações de onde elas foram retiradas sigam uma distribuição normal ou aproximadamente normal e que a homocedasticidade seja satisfeita. Análise de variância 9 Se os dados estiverem em conformidade com os pressupostos, o pesqui- sador pode formular as hipóteses adequadas e calcular a estatística de teste que permitirá verificar se o teste é significativo ou não. Assim, ele poderá afirmar se é possível rejeitar a hipótese nula ou não. Os testes de hipóteses são muito importantes quando se precisa verificar uma diferença estatisticamente. O teste de Anova entra em cena como o teste paramétrico utilizado para comparação de mais de duas médias. Ele pode ter como estatística de teste o valor calculado F, que pode ser comparado a um valor tabelado de acordo com a distribuição F. Outra opção é comparar o valor–p da estatística de teste ao nível de significância. Isso possibilita que o pesquisador tome a sua decisão com base nos dados amostrados. Referências CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2007. DOANE, D. P. Estatística aplicada à administração. 4. ed. Porto Alegre: Bookman, 2014. FAVIERO, L. P. Manual de análise de dados. Rio de Janeiro: Elsiver, 2017. MORETIN, P. A.; BUSSAB, W. O. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. Os links para sites da web fornecidos neste capítulo foram todos testados, e seu funcionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. Análise de variância10 ESTATÍSTICA Juliane Silveira Freire da Silva Identificação interna do documento 1F4THCQOGL-DPXCGA1 Testes de hipóteses paramétricos Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Conhecer a estrutura dos testes de hipóteses. � Reconhecer as consequências dos tipos de erros. � Contrastar os tipos de erro de acordo com a empresa ou atividade envolvida. Introdução Neste capítulo, você conhecerá a estrutura dos testes de hipóteses para- métrico e não paramétrico. Além disso, saberá reconhecer as consequ- ências de cada tipo de erros e contrastá-los, na prática, de acordo com a empresa ou atividade envolvida. Estrutura dos testes de hipóteses Os testes estatísticos são utilizados nas estatísticas inferenciais, utilizados para verificar estatisticamente hipóteses para médias, variâncias, proporções, dentre outros. Em estatística, há dois grupos de testes de hipóteses: paramétricos e não paramétricos. Os testes paramétricos são utilizados quando existem variáveis com nível de mensuração quantitativa e se pode calcular intervalos de confiança para os dados. Existe, também, a exigência de normalidade para os dados, o que costuma ocorrer com amostras maiores do que 30 elementos (devido à teoria do limite central) e se é necessário supor a homogeneidade dos dados. Os testes não paramétricos têm menos exigências, e o nível de mensuração das variáveis pode ser qualitativo. Não é necessário que se conheça a distri- buição de probabilidades que os dados seguem. Algumas vezes, quando os Identificação interna do documento 1F4THCQOGL-DPXCGA1 pressupostos dos testes paramétricos não são aceitos, pode-se utilizar testes não paramétricos para as variáveis quantitativas. O objeto de estudo deste capítulo serão os testes paramétricos, em que consideraremos normalidade e homogeneidade nas variáveis estudadas. Independentemente de o teste estatístico utilizado ser paramétrico ou não paramétrico, sempre teremos as mesmas etapas para a sua resolução. Em todos os testes de hipóteses, precisamos formular duas destas — uma o oposto da outra. Formulamos a H0 – hipótese nula — e a H1 – hipótese alternativa(que também pode ser representada por Ha). H0: hipótese nula H1: hipótese alternativa Em todos os testes de hipóteses, há uma estatística de teste que é composta por um ou mais cálculos matemáticos. A cada teste, teremos um cálculo diferente. Os testes paramétricos costumam ter fórmulas matemáticas menos complicadas para essa resolução. Para cada um dos testes, teremos uma tabela de distribuição de probabi- -lidades associada, para que possamos definir a região crítica, e sempre con- -cluiremos de acordo com o resultado do teste realizado nos passos anteriores (Quadro 1). 1. Formular hipóteses. 2. Calcular a estatística de teste. 3. Definir a região crítica. 4. Concluir a respeito do teste. Quadro 1. Passos para a resolução de um teste de hipóteses Os testes de hipóteses podem ser utilizados para comparar uma estimativa com um parâmetro (valor de referência) ou, então, comparar duas estimativas entre elas, ou mais de duas estimativas. Entre os testes paramétricos, veremos exemplos de teste para uma média, teste para duas médias e para mais de duas médias. Testes de hipóteses paramétricos2 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Parâmetros são resumos numéricos referentes a uma população, e estimadores são resumos numéricos referentes a uma amostra. Consequências dos tipos de erros Precisamos ficar atentos, pois, sempre que realizamos um teste de hipóteses, estamos lidando com valores de médias, e não estamos analisando valores únicos e absolutos. Estamos, sim, comparando a média de uma amostra, ou de duas ou mais amostras. Sabemos que, ao compararmos os valores absolutos 2 e 3, por exemplo, estes obviamente são diferentes, pois estamos comparando valores absolutos. Todavia, no caso de uma amostra de tamanho n de uma variável que tenha uma média e uma variabilidade, será que esses valores podem ser considerados estatisticamente diferentes? Quando realizamos um teste de hipóteses, existe a possibilidade de come- termos um erro na nossa decisão. Podemos rejeitar uma hipótese quando, na realidade, ela seria a hipótese verdadeira. Quando aceitamos H0 e essa é a hipótese verdadeira, estamos tomando a decisão correta. Assim como também ocorre quando rejeitamos a hipótese nula, que é realmente a hipótese falsa. Porém, podemos cometer um erro ao rejeitar H0 quando, na realidade, esta é a hipótese verdadeira. Nesse caso, estamos cometendo o erro do tipo I quando rejeitamos a hipótese verdadeira. Simbolizamos esse tipo de erro pela letra α. Quando aceitamos H0 e essa é, na realidade, a hipótese falsa, estamos cometendo o erro do tipo II, cujo símbolo é a letra β. Veja o Quadro 2, a seguir. H0 verdadeira H0 falsa H0 aceita Decisão correta Erro tipo II (β) H0 rejeitada Erro tipo I (α) Decisão correta Quadro 2. Tipos de erros no teste de hipóteses 3Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 Segundo Doane e Seward (2014), pelo fato de raramente contarmos com informações perfeitas sobre uma situação verdadeira, não conseguimos sempre saber se foi cometido o erro tipo I ou tipo II. Entretanto, ao utilizarmos a esta- tística, podemos calcular a probabilidade de tomarmos uma decisão incorreta, minimizando a chance de erro, ao reunirmos o maior número de evidências amostrais que nossos recursos permitam e selecionando procedimentos de testes adequados. Podem ser feitas analogias, normalmente utilizadas para exemplificar os tipos de erros que podemos cometer ao termos duas hipóteses a serem testadas. Uma das analogias utilizadas é a de um julgamento, considerando que a hipótese nula seja a de o réu ser inocente. Consequentemente, a hipótese alternativa será a de o réu ser culpado. Dessa forma, cometemos o erro do tipo I, quando condenamos o réu, mas, na realidade, ele é inocente. O erro do tipo II é cometido quando absolvemos o réu, sendo este, na verdade, culpado. Ao cometermos o erro tipo I, estamos prejudicando o réu, enquanto o erro do tipo II prejudica a sociedade, pelo fato de termos absolvido um criminoso. Outra analogia é o lançamento de um medicamento por uma indústria farmacêutica. A empresa só investirá nesse medicamento caso a eficácia seja comprovada. Consideramos a hipótese nula — o medicamento é eficiente — e a hipótese alternativa — o medicamento não é eficiente. Ao cometermos o erro do tipo I, não lançamos o medicamento, alegando que ele não é eficiente, mas, na realidade, ele é. Ao cometermos o erro do tipo II, lançamos o medicamento, alegando que ele é eficiente, quando, na realidade, ele não é. Podem ser feitas várias analogias para o dia a dia. Outro exemplo: em uma agência bancária, a gerente concede crédito para os clientes que ela julga serem bons pagadores, por escores de crédito. H0 representa o cliente bom pagador e H1, o cliente mau pagador. A gerente comete erro do tipo I quando não concede crédito a um cliente que, na verdade, seria um bom pagador e comete erro do tipo II quando concede crédito a um mau pagador. O erro considerado mais importante a ser evitado ou controlado é o erro do tipo I, representado por α e denominado como o nível de significância do teste estatístico aplicado. O seu complementar 1 – α é denominado nível de confiança. Os valores para o nível de significância são encontrados em tabelas de distribuição de probabilidades e determinarão a região crítica, se rejeitamos a hipótese nula ou se não temos evidências suficientes para rejeitar a hipótese nula (aceitar H0). Observe que, quando aceitamos H0, podemos estar cometendo o erro do tipo II, que não é fixado. Então, não podemos afirmar que aceitamos H0 ao nível de significância fixado, pois não é esse tipo de erro que está nessa sentença. Testes de hipóteses paramétricos4 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Esse nível de significância determinará a região crítica de acordo com as hipóteses formuladas. Com testes unilaterais, existe a probabilidade em uma das caudas da distribuição de probabilidades, dependendo das hipóteses formuladas. Já com um teste bilateral, há α/2 nas duas caudas da distribuição. Veja as representações da Figura 1. Figura 1. Regiões críticas, considerando a distribuição normal. Fonte: Freund (2006, p. 307). Rejeitar a hipótese nula Rejeitar a hipótese nula Rejeitar a hipótese nula Rejeitar a hipótese nula α α/2 α/2 α –zα –zα/2 zα/2 zα z z z Hipótese alternativa μ < μ 0 Hipótese alternativa μ > μ 0 Hipótese alternativa μ ≠ μ 0 0 0 0 Identificar o tipo de erro faz parte do teste de hipóteses, quando definimos o nível de significância do teste — ele é definido juntamente com as hipóteses, antes mesmo de qualquer coleta de dados ser efetuada. 5Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 O valor de nível de significância (α) mais utilizado é o de 5%. Isso dependerá de uma decisão do pesquisador, querendo ser mais rigoroso ou não. Com a teoria das probabilidades de erro tipo I e tipo II, podemos, também, determinar o poder do teste utilizado. O poder de um teste é definido pela probabilidade do complementar do erro do tipo II, ou seja, 1 – β. Logo, quanto menor a probabilidade de erro do tipo II, mais poder terá o teste aplicado. Para a diminuição da probabilidade de erro do tipo II, aumenta-se a amostra estudada. Então, costuma-se afirmar que, quanto maior for o tamanho da amostra pesquisada, mais poderoso será o teste utilizado. Tipos de erros na prática Quando estamos comparando hipóteses, podemos, na maioria das vezes, estar cometendo um erro na nossa decisão. Só podemos ter certeza se soubermos a verdade. Para uma melhor compreensão dessa situação, podemos fazer uma analogia com um ditado que diz: “para toda a situação existem três versões: a sua, a da outra parte e a verdade”. No caso da estatística, só sabemos se temos efetivamente a verdade quando tivermos o valor do parâmetro populacional. Fora isso, quando temos uma amostra dapopulação, haverá sempre uma possibilidade de errar, o que seria a realidade da população em estudo. Além dos exemplos do caso jurídico, do lançamento do medicamento e da concessão de crédito, no dia a dia, existem outros dos mais variados na tomada de decisões. Por exemplo, muitos celulares atualmente desbloqueiam a tela por impressão digital, sendo assim: H0 desbloqueia a tela, as impressões conferem. H1 não desbloqueia a tela, as impressões não conferem. Cometemos o erro do tipo I quando rejeitamos H0, e, na realidade, as im- pressões eram verdadeiras. E cometemos o erro do tipo II quando aceitamos H0, mas, na verdade, as impressões não conferem. Assim como nos demais exemplos, o erro a ser controlado é do tipo I, “que seja culpado até que provem o contrário”. Isso ocorre no exemplo do réu, julgando que um dano ao réu (uma vez que será condenado sendo inocente) seja menos prejudicial à sociedade do que o erro do tipo II, que considera inocente um criminoso. Porém, de acordo com os direitos humanos, não podemos arcar com o dano de condenar uma pessoa Testes de hipóteses paramétricos6 Identificação interna do documento 1F4THCQOGL-DPXCGA1 inocente. Para controlar o erro do tipo II, as cortes refinam seus métodos de julgamento. No exemplo da indústria farmacêutica, quando não lançamos um medi- camento ao cometer o erro do tipo I, estamos de qualquer forma deixando os usuários desse medicamento sem a solução para a doença. Porém, se cometemos o erro do tipo II, lançamos um medicamento que não é eficaz, o que pode causar danos, mas a indústria farmacêutica refina a cada dia seus métodos para testes de novos medicamentos. Assim como no exemplo da gerente de banco, conceder crédito a um mau pagador, que configura erro do tipo II, é prejudicial apenas para a instituição de crédito. Já o erro do tipo I, de negar crédito a um bom pagador, acaba prejudicado o cliente e não o banco. Sendo assim, o erro tipo I seria o pior de ser aceito, sem contar que as instituições financeiras a cada dia melhoram seus escores de crédito, e o erro do tipo II é menos comum. Por esses motivos que o erro fixado é o do tipo I, chamado de nível de significância (α). Essa será sempre a probabilidade de erro fixada nos testes de hipóteses paramétricos e não paramétricos. Desejamos controlar, então, o falso positivo, erro do tipo I, quando rejeita- mos a hipótese nula e ela seria a verdadeira. Os falsos negativos, erros do tipo II, quando aceitamos a hipótese nula e ela seria falsa, podem ser controlados com o aumento da amostra estudada. Devemos, então, conseguir um equilíbrio por meio da redução de ambas as probabilidades de erro. Na prática, um teste estatístico será iniciado pela formulação das hipóteses nula e alternativa, depois calculada a estatística de teste, que atualmente é facilmente resolvida em planilhas eletrônicas e softwares estatísticos, então, a tomada de decisão de acordo com o nível de significância do teste realizado e, por último, a conclusão do teste. Queremos comparar as médias salariais de homens e mulheres que trabalham com cargos gerenciais. Foram coletados dados de 15 homens e 12 mulheres, considerando nível de significância de 5%. Como estamos lidando com duas amostras independentes, utilizaremos o teste t para duas delas. 7Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 Primeiro, formulamos as hipóteses: H0: salário dos homens é igual ao salário das mulheres H1: salário dos homens é diferente do salário das mulheres Depois calculamos a estatística de teste: tcalc = (x–1 – x – 2) s21 n1 s22 n2 + = = (6640 – 6375) 174000 15 + 367500 12 265 205,49 = 1,2896 De acordo com a saída do Excel: Homem Mulher Média 6640 6375 Variância 174000 367500 Observações 15 12 Hipótese da diferença de média 0 gl 19 Stat t 1,289618 t crítico bicaudal 2,093 Teste-t: duas amostras presumindo variâncias diferentes O próximo passo é definir a região crítica. Nesse caso, busca-se o valor tabelado da distribuição t-student com α/2 = 0,025 e o grau de liberdade correspondente. Como as variâncias são distintas, o grau de liberdade é dado por: = [ 1² 1 + 2 ² 2 ] 2 ( 1² 1 ) 2 1 ― 1 + ( 2² 2 ) 2 2 ― 1 = [17400015 + 367500 12 ] 2 (17400015 ) 2 14 + (36750012 ) 2 11 ≅18.7927844 = 19 Testes de hipóteses paramétricos8 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Conforme Doane e Seward (2014, p. 394), “os graus de liberdade ajustados são arredondados para o próximo inteiro menor, para ser conservador”. Nível de significância – alfa GL 0,250 0,100 0,050 0,025 0,010 0,005 1 1,000 3,078 6,314 12,706 31,821 63,657 2 0,816 1,886 2,920 4,303 6,965 9,925 3 0,765 1,638 2,353 3,182 4,541 5,841 4 0,741 1,533 2,132 2,776 3,747 4,604 5 0,727 1,476 2,015 2,571 3,365 4,032 6 0,718 1,440 1,943 2,447 3,143 3,707 7 0,711 1,415 1,895 2,365 2,998 3,499 8 0,706 1,397 1,860 2,306 2,896 3,355 9 0,703 1,383 1,833 2,262 2,821 3,250 10 0,700 1,372 1,812 2,228 2,764 3,169 11 0,697 1,363 1,796 2,201 2,718 3,106 12 0,695 1,356 1,782 2,179 2,681 3,055 13 0,694 1,350 1,771 2,160 2,650 3,012 14 0,692 1,345 1,761 2,145 2,624 2,977 15 0,691 1,341 1,753 2,131 2,602 2,947 16 0,690 1,337 1,746 2,120 2,583 2,921 17 0,689 1,333 1,740 2,110 2,567 2,898 18 0,688 1,330 1,734 2,101 2,552 2,878 19 0,688 1,328 1,729 2,093 2,539 2,861 20 0,687 1,325 1,725 2,086 2,528 2,845 21 0,686 1,323 1,721 2,080 2,518 2,831 22 0,686 1,321 1,717 2,074 2,508 2,819 23 0,685 1,319 1,714 2,069 2,500 2,807 24 0,685 1,318 1,711 2,064 2,492 2,797 25 0,684 1,316 1,708 2,060 2,485 2,787 9Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 Na tabela, encontramos o valor tabelado de 2,093. Como a estatística de teste = 1,2896 < valor tabelado = 2,093, consequentemente fora da região crítica, aceitamos H0. Por fim, concluímos a respeito do teste: Não existem evidências suficientes para rejeitar H0. Logo, o salário médio de homens e mulheres pode ser considerado igual, ao nível de significância de 5%. Estamos estudando o valor do preço do combustível nos três estados da região Sul. Em cada uma das regiões, foi pesquisado o valor da gasolina comum. Tomaremos a decisão considerando o nível de significância de 5%. Como estamos querendo comparar três médias, utilizaremos o teste ANOVA (análise de variância). Primeiramente, formulamos as hipóteses: H0: o valor do preço médio da gasolina comum é igual nos três estados H1: o valor do preço médio da gasolina comum é diferente em pelo menos um dos três estados O segundo passo é o cálculo da estatística de teste. Para o teste ANOVA, os cálculos manuais são bastante extensos. Por isso, tomaremos por base apenas a saída do Excel. Resumo Grupo Contagem Soma Média Variância RS 10 48,63 4,863 0,001534 SC 12 55,65 4,6375 0,002039 PR 8 39,66 4,9575 0,001393 Testes de hipóteses paramétricos10 Identificação interna do documento 1F4THCQOGL-DPXCGA1 ANOVA Fonte da va- riação SQ gl MQ F valor-P F crítico Entre grupos 0,554895 2 0,277448 162,9027 8,54E-16 3,354131 Dentro dos grupos 0,045985 27 0,001703 Total 0,60088 29 Na terceira etapa, definimos a região crítica. Como o valor calculado na tabela F = 162,9027 > valor tabelado da distribuição Fcrítico = 3,354131, rejeitamos H0. Observe que podemos tomar a decisão do teste por meio da comparação do valor calculado da estatística de teste com o valor tabelado na distribuição de probabilidades referente ao teste utilizado. Esse valor tabelado é o que chamamos de crítico — é o valor tabelado considerando o nível de significância fixado. Se estatística de teste > valor tabelado (valor crítico) → rejeitamos H0. Se estatística de teste < valor tabelado (valor crítico) → não rejeitamos H0. Assim como também podemos tomar a decisão de acordo com a probabi- lidade da estatística de teste (valor p) comparada com a probabilidade fixada do nível de significância (por exemplo,5%). Valor de p (probabilidade da estatística de teste) > nível de significância → não rejeitamos H0. Valor de p (probabilidade da estatística de teste) > nível de significância → rejeitamos H0. Como mencionamos ao longo deste capítulo, o testes de hipóteses podem ser úteis em diversas situações aplicadas. Para lhe auxiliar nos estudos e escolha do melhor teste, finalizamos com o quadro a seguir, que mostra alguns tipos de testes paramétricos e não paramétricos e em quais tipos de problemas eles são mais utilizados. 11Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 M ét od o N ív el d e m en su ra çã o da v ar iá ve l Te st es d e hi pó te se s U m a am os tr a D ua s am os tr as Vá ri as a m os tr as Re la ci on ad as N ão re la ci on ad as Re la ci on ad as N ão re la ci on ad as N ão Pa ra m ét ric o N om in al Bi no m ia l Q ui q ua dr ad o um a am os tr a M ac N em ar Q ui q ua dr ad o du as a m os tr as Co ch ra n Q Q ui q ua dr ad o vá ria s a m os tr as in de pe nd en te s O rd in al Ko lm og or ov - -S m irn ov W ilc ox on M ed ia na , M an n- W hi tn ey U , Ko lm og or ov - -S m irn ov An ál ise d e va riâ nc ia e m du as d ire çõ es de F rie dm an M ed ia na - -v ár ia s a m os tr as in de pe nd en te s An ál ise d e va riâ nc ia nu m a di re çã o de Kr us ka l-W al lis Pa ra m ét ric o Q ua nt ita tiv a z pa ra u m a m éd ia , t p ar a um a m éd ia t p ar a am os tr as re la ci on ad as (p ar ea da s) D ife re nç a de m éd ia s z pa ra d ua s a m os - tr as in de pe nd en te s t p ar a du as a m os - tr as in de pe nd en te s Re gr es sã o An ál ise d e va riâ nc ia Q ua dr o 3. R es um o de ti po s d e te st es d e hi pó te se s Testes de hipóteses paramétricos12 Identificação interna do documento 1F4THCQOGL-DPXCGA1 DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH, 2014. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2006. 13Testes de hipóteses paramétricos Identificação interna do documento 1F4THCQOGL-DPXCGA1 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Identificação interna do documento 1F4THCQOGL-DPXCGA1 Nome do arquivo: C15_Testes_hipoteses_parametricos_202301301607258795343.pdf Data de vinculação à solicitação: 30/01/2023 16:07 Aplicativo: 647836
Compartilhar