Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA APLICADA A Faculdade Multivix está presente de norte a sul do Estado do Espírito Santo, com unidades em Cachoeiro de Itapemirim, Cariacica, Castelo, Nova Venécia, São Mateus, Serra, Vila Velha e Vitória. Desde 1999 atua no mercado capixaba, destacando-se pela oferta de cursos de graduação, técnico, pós-graduação e extensão, com qualidade nas quatro áreas do conhecimento: Agrárias, Exatas, Humanas e Saúde, sempre primando pela qualidade de seu ensino e pela formação de profissionais com consciência cidadã para o mercado de trabalho. Atualmente, a Multivix está entre o seleto grupo de Instituições de Ensino Superior que possuem conceito de excelência junto ao Ministério da Educação (MEC). Das 2109 institu- ições avaliadas no Brasil, apenas 15% conquis- taram notas 4 e 5, que são consideradas conceitos de excelência em ensino. Estes resultados acadêmicos colocam todas as unidades da Multivix entre as melhores do Estado do Espírito Santo e entre as 50 melhores do país. MISSÃO Formar profissionais com consciência cidadã para o mercado de trabalho, com elevado padrão de qualidade, sempre mantendo a credibil- idade, segurança e modernidade, visando à satis- fação dos clientes e colaboradores. VISÃO Ser uma Instituição de Ensino Superior reconheci- da nacionalmente como referência em qualidade educacional. R E I TO R GRUPO MULTIVIX R E I 2 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 3 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 BIBLIOTECA MULTIVIX (Dados de publicação na fonte) Haroldo Augusto Santos de Sant Anna e Rubens Labios Estatística Aplicada /SANT ANNA, H. A. S. de; LABIOS, R. - Multivix, 2020 Catalogação: Biblioteca Central Multivix 2020 • Proibida a reprodução total ou parcial. Os infratores serão processados na forma da lei. 4 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 LISTA DE QUADROS UNIDADE 1 Tabela 1: Distribuição de frequências faturamento/empresas 12 Tabela 2: Distribuição de frequências faturamento/empresas (moda) 16 Tabela 3: Distribuição de frequências faturamento/empresas (mediana) 19 Tabela 4: Distribuição de frequências faturamento/empresas (variância) (1) 24 Tabela 5: Distribuição de frequências faturamento/empresas (variância) (2) 25 UNIDADE 2 Tabela 1: Amostra exemplo 1 36 Tabela 1: Amostra exemplo 1 41 Tabela 2: Cálculos dos parâmetros por amostra selecionada 42 Quadro 1: Estimativas pontuais ou intervalares 46 UNIDADE 3 Tabela 1: Erros 60 UNIDADE 5 Tabela 1: Inferência em regressão 108 5 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 LISTA DE FIGURAS UNIDADE 1 Figura 1: Médias 13 Gráfico 1: Distribuição de frequências faturamento/empresas 15 Gráfico 2: Curva da distribuição de frequências por faixa etária 16 Figura 2: Medidas centrais 22 Gráfico 3: Curvas de dispersão 23 Figura 3: Variação e dispersão 24 Figura 4: Dispersão 25 Figura 5: Variação percentual 29 UNIDADE 2 Figura 1: Pesquisa 34 Figura 2: Parâmetros populacionais 36 Figura 3: População e amostra 39 Figura 4: Análise de dados 42 Figura 5: População e amostra 47 Gráfico 1: Distribuição normal: médias e desvios 49 Figura 6: Estimadores 50 UNIDADE 3 Figura 1: Previsões estatísticas 55 Figura 2: Testando as hipóteses 56 Figura 3: Hipóteses e distribuições podem usar gráficos 58 Gráfico 1: Erros tipo I e II 62 Gráfico 2: Regiões de rejeição e aceitação 63 Figura 4: Grupo heterogêneo de pessoas 66 Figura 5: Exemplo de variação casual na amostra 68 Figura 6: Relação inferência/amostragem 69 Gráfico 3: Teste unilateral à direita 70 Gráfico 4: Teste unilateral à esquerda 71 Gráfico 5: Teste bilateral 71 Gráfico 6: Valor p 72 6 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 UNIDADE 4 Figura 1: Variações representadas graficamente 75 Figura 2: Variância representada graficamente 76 Variância representada graficamente 78 Figura 3: Gráficos com variâncias 79 Figura 4: Computadores em substituição aos cadernos 81 Gráfico 1: Representação gráfica qui-quadrado 83 Gráfico 2: Hipóteses 87 UNIDADE 5 Gráfico 1: Diagramas com coeficientes de correlação linear 96 Gráfico 2: Linha de regressão 97 Gráfico 3: Reta com coeficiente angular a 104 Gráfico 4: Coeficiente de determinação 108 Gráfico 5: Análise de inferência (1) 111 Gráfico 6: Análise de inferência (2) 111 Gráfico 7: Valor P 112 UNIDADE 6 Figura 1: Representação geométrica do fatorial completo 116 Figura 2: Dado viciado 117 Figura 3: Processos para a experimentação 119 Figura 4: Reuniões constantes na busca de soluções 120 Gráfico1: Representação gráfica dos fatores variantes 122 Figura 5: Interface de programa estatístico 123 Gráfico 2: Distribuição do tipo normal 124 Figura 6: Planejamento 22 em dois blocos: 125 Figura 7: Representação geométrica da blocagem 127 Figura 8: Sistema de coordenada simplex 131 Figura 9: Controle de qualidade e de processo 132 Gráficos 3 e 4: Carta CEP utilizada para as médias e para a amplitude 135 7 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 1UNIDADE SUMÁRIO APRESENTAÇÃO DA DISCIPLINA 10 1 ESTATÍSTICA DESCRITIVA 12 INTRODUÇÃO 12 1.1 MEDIDAS DE TENDÊNCIA CENTRAL 12 1.2 MÉDIAS 14 1.3 MODA 17 1.4 MEDIANA 19 1.5 MEDIDAS DE DISPERSÃO 22 1.6 VARIÂNCIA E DESVIO PADRÃO 25 2 ESTATÍSTICA INFERENCIAL: POPULAÇÃO E AMOSTRA 33 INTRODUÇÃO 33 2.1 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA 34 2.2 POPULAÇÃO E AMOSTRA 37 2.3 DISTRIBUIÇÕES AMOSTRAIS 40 2.4 ESTIMAÇÃO 46 2.5 INTERVALOS DE CONFIANÇA 51 2.6 ERRO PADRÃO 52 3 ESTATÍSTICA INFERENCIAL – TESTES DE HIPÓTESES 55 INTRODUÇÃO DA UNIDADE 55 3.1 TESTES DE HIPÓTESES 56 3.2 HIPÓTESES NULA/ALTERNATIVA: H0 – H1 59 3.3 ERRO TIPO I E ERRO TIPO II 62 3.4 VARIAÇÃO CASUAL OU REAL 66 3.5 TESTE SOBRE A MÉDIA 68 3.6 VALOR P 70 4 ESTATÍSTICA INFERENCIAL – ANÁLISE DA VARIÂNCIA 75 INTRODUÇÃO DA UNIDADE 75 4.1 VARIÂNCIA AMOSTRAL 76 4.2 ESTIMATIVA DENTRO E ENTRE A VARIÂNCIA 79 4.3 RAZÃO E DISTRIBUIÇÃO F 81 4UNIDADE 3UNIDADE 2UNIDADE 8 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 5UNIDADE 4.4 TABELA F 83 4.5 TABELA ANOVA 86 4.6 APLICAÇÕES 88 5 REGRESSÃO E MÉTODO DOS MÍNIMOS QUADRADOS 93 INTRODUÇÃO DA UNIDADE 93 5.1 REGRESSÃO LINEAR 93 5.2 EQUAÇÃO MATEMÁTICA 97 5.3 MÉTODO DOS MÍNIMOS QUADRADOS 100 5.4 COEFICIENTE ANGULAR 104 5.5 COEFICIENTE DE DETERMINAÇÃO 107 5.6 INFERÊNCIAS EM REGRESSÃO 109 6 PLANEJAMENTO DE EXPERIMENTOS 115 INTRODUÇÃO DA UNIDADE 115 6.1 FATORIAIS COMPLETOS 115 6.2 FATORIAIS FRACIONADOS 118 6.3 EXPERIMENTOS EVOLUCIONÁRIOS 122 6.4 BLOCAGEM 125 6.5 MISTURAS E RESTRIÇÕES 128 6.6 MÉTODOS E PROCESSOS ESTATÍSTICOS APLICADOS 131 6UNIDADE 9 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ATENÇÃO PARA SABER SAIBA MAIS ONDE PESQUISAR DICAS LEITURA COMPLEMENTAR GLOSSÁRIO ATIVIDADES DE APRENDIZAGEM CURIOSIDADES QUESTÕES ÁUDIOSMÍDIAS INTEGRADAS ANOTAÇÕES EXEMPLOS CITAÇÕES DOWNLOADS ICONOGRAFIA 10 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 APRESENTAÇÃO DA DISCIPLINA A disciplina Estatística Aplicada tem por objetivo reunir os principais concei- tos utilizados pela ciência estatística, assim como oferecer ao aluno as ferra- mentas necessárias para realizar uma análise quantitativa e qualitativa dos dados, auxiliando na sua compreensão e divulgação das informações. O conteúdo das cinco primeiras unidades abordará os conceitos relativos à estatística descritiva e estatística inferencial,em que apresentaremos os prin- cipais métodos que fundamentam a estimação, análise, comparação de pa- râmetros amostrais e populacionais, seguidos dos processos que vão deter- minar os critérios para a tomada de decisão. Por fim, teremos, na última unidade, a aplicação prática no planejamento de experimentos, em que se pretende, a partir dos conceitos estudados nas unidades anteriores, auxiliar nas etapas de organização e escolha do melhor método a ser aplicado, tendo em vista a avaliação dos cálculos realizados, e opinar pela melhor decisão a ser tomada para maximizar os ganhos e mini- mizar perdas na produção. UNIDADE 1 OBJETIVO Ao final desta unidade, esperamos que possa: 11 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA > apresentar fundamentos, conceitos e aplicação das medidas de tendência central e medidas de dispersão nas análises estatísticas; > enfatizar a representatividade e a dispersão de valores. 12 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 1 ESTATÍSTICA DESCRITIVA INTRODUÇÃO O estudo da Estatística vem ganhando importância no desenvolvimento de análises e pesquisas, em razão das inúmeras fontes e formas de obtenção de dados que estão disponíveis nas redes sociais, em sites especializados ou mesmo em bibliotecas digitais de amplo acesso público. Uma vez que ocorre essa facilitação na busca e no acesso, o próximo passo e, talvez o mais impor- tante, seja o de coletar, armazenar e organizar criteriosamente essa massa de dados no intuito de produzir informação. Daí, surge a necessidade de aplicarmos as ferramentas estatísticas disponíveis no estudo da Estatística Descritiva, que, nos tópicos subsequentes, abordará as medidas de tendência central e as medidas de dispersão ou de variabilida- de, que formam o grupo de medidas fundamentais na análise da concentra- ção dos dados dentro das distribuições de frequências e demais distribuições relacionadas às séries estatísticas. Você verá que as médias, a mediana e a moda representam os valores cen- trais da distribuição. Cada uma delas possui características e funções singu- lares na mensuração do tipo de distribuição resultante do trabalho de coleta dos dados. No caso das medidas de variabilidade ou dispersão, estas representam o gru- po de medidas importantes na análise da concentração dos dados dentro da distribuição, e são representadas pela variância, pelo desvio padrão, pelo des- vio médio, pelo coeficiente de variação e pela amplitude total. Esperamos que você faça um ótimo proveito do conteúdo! 1.1 MEDIDAS DE TENDÊNCIA CENTRAL São aplicadas para calcular o grau de concentração das observações estuda- das. Maiores ou menores concentrações em torno de um valor podem ofe- recer vantagens no momento de analisar uma determinada variável. O con- junto de técnicas ligadas às medidas de tendência central auxilia na tarefa de descobrir a relevância de determinados resultados para melhor expressar 13 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 corretamente o fenômeno estudado. Há casos em que as características das variáveis, em razão do tipo de evento, determinam o melhor processo para a representação do todo pesquisado. Portanto, estaremos priorizando esses e outros aspectos mais direcionados à composição das medidas e suas influên- cias no processo decisório. FIGURA 1: MÉDIAS Fonte: Plataforma Deduca (2020). Médias ou medidas de tendência central: “Média é um valor típico ou representativo de um conjunto de dados. Como esses valores típicos tendem a se localizar centralmente em um ponto de um conjunto de dados ordenados segundo suas grandezas, as médias também são denominadas medidas de tendência central”. (SPIEGEL; STEPHENS, 2007, p. 82) 14 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 1.2 MÉDIAS Significam a busca do valor representativo de uma série de dados. No caso da média aritmética, a mais usual de todas as medidas representativas, é calcu- lada pela fórmula: 1 n i n x n=å ; para dados não agrupados e, 1 ( . )n i i n i x f f=å ; para dados agrupados ou em classes. Devemos estar atentos quanto às suas propriedades no momento da sua es- colha e utilização, uma vez que o uso muito popular acaba por desconsiderar os importantes aspectos da sua propriedade, ou seja, o seu resultado é bas- tante influenciado pelos valores extremos da distribuição. Logo, devemos es- tar atentos ao contexto do estudo. Por conta disso, as medidas de tendência central são tão importantes no estudo das pesquisas, na produção industrial, na apuração do volume de vendas e tantas outras aplicações em que a im- portância de se obter um valor representativo se faz necessária. Ao considerar o tipo de distribuição e a organização dos dados na Tabela 1, temos que construir as colunas de modo que expressem a necessidade de cálculo contido nas fórmulas. Relacionamos a seguir um exemplo de tabela de distribuição de frequências onde as variáveis estão agrupadas e dispostas em classes / intervalos. TABELA 1: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS Fonte: Elaborada pelo autor (2020). 15 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Em que: 1 n i if=å = total da coluna frequência (empresas); ix = ponto médio da classe: 2 Limite inferior Limite superior+ Logo: 1 ( ) 12.220 47 262 n i i i i x f f= ⋅ = =∑ , ou = , ou seja, por se tratar de cálculo da variável faturamento, temos como resultado a média de faturamento por empresa. GRÁFICO 1: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS 0 10 20 30 40 50 60 Empresas até 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70 70 a 80 80 a 90 90 a 100 Fonte: Elaborado pelo autor (2020). A média aritmética possui propriedades que fazem dela uma medida sensível aos valores extremos, de forma que se deve observar se a assimetria da curva de distribuição está próxima da forma de “sino” ou curva normal. Quanto mais próxima da curva normal, mais representativa será a média. Esse conteúdo será objeto de estudo nas nossas próximas unidades. Demonstramos no Gráfico 2 a curva da distribuição normal, indicando a mé- dia ao centro e os demais valores no entorno dela sendo diluídos dos dois lados da cauda. 16 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA GRÁFICO 2: CURVA DA DISTRIBUIÇÃO DE FREQUÊNCIAS POR FAIXA ETÁRIA Fonte: Elaborado pelo autor (2020). Apesar de não constar de forma explicita na bibliografia apresentada, enten- demos que informar os demais tipos de médias seria interessante a título de conhecimento e, quem sabe, dependendo do estudo, oferecer alternativas para melhor interpretação dos valores e da distribuição estatística. 17 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Média geométrica ( Xg ): É a raiz enésima do produto de todas as observações. Pode ser utilizada de forma simples ou ponderada (variáveis e frequências). Normalmente, é utilizada quando pretendemos calcular valores representativos de índices, multiplicadores e de coeficientes. (SPIEGEL; STEPHENS, 2007) Média harmônica ( Xh ): É o inverso da média aritmética dos inversos. Pode ser utilizada de forma simples ou ponderada (variáveis e frequências). Normalmente, é utilizada quando nos deparamos com variáveis fracionadas e desejamos manter tal representação no resultado calculado. Não deve ser utilizada em distribuições com valor nulo. (SPIEGEL; STEPHENS, 2007) 1 1 1 1 2 nXh x x xn = + + ×××+ , simples; fi Xhp fi xi = å å dados agrupados (ponderada). 1.3 MODA Trata-se dovalor de maior frequência dentro de uma distribuição. Quando a moda está próxima do centro da distribuição, fortalece a média e a própria mediana, fazendo com que os valores se aproximem mais da distribuição nor- mal (Gráfico 1). Seguindo a mesma dinâmica de cálculo da média, a moda ( )oM pode ser cal- culada para dados simples ou agrupados. Na forma simplificada, a moda será o valor de maior frequência da distribuição. As distribuições podem ter mais de uma moda ou nenhuma. No caso dos dados agrupados, ela é expressa pela seguinte fórmula: fabricio Realce fabricio Realce nem sempre isso acontece fabricio Realce fabricio Realce 18 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Equação: ( )inf. ( ) ( )o fcM Lim fc fant fc fpost h æ ö = + ç ÷ç ÷- + -è ø Em que: Lim. inf. = limite inferior da classe modal; fc = frequência da classe modal; fant= frequência da classe anterior à modal; fpost = frequência da classe posterior à modal; h = Amplitude da classe modal. Para cálculos mais simples, a moda bruta também pode ser uma alternativa menos complexa ( )inf sup. . 2o Lim Lim M + = , sendo os limites pertencentes à classe de maior frequência (ou classe modal). A seguir, relacionamos o exemplo de tabela de distribuição de frequências utilizado no exemplo anterior, em que as variáveis estão agrupadas e dispos- tas em classes / intervalos. TABELA 2: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS (MODA) Fonte: Elaborada pelo autor (2020). Lim. inf. = limite inferior da classe modal = 40 fc = frequência da classe modal = 50 19 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 fant = frequência da classe anterior à modal = 40 fpost = frequência da classe posterior à modal = 40 h = Amplitude da classe modal = 10 = Lim.inf. + = ( ) 5040 40 0,5 40,5 (50 40) (50 40) 10o o M M æ ö = + Þ = + =ç ÷ç ÷- + -è ø O resultado representa o faturamento de maior frequência dentro da distri- buição. 1.4 MEDIANA Dentre as medidas de tendência central, a mediana se encontra entre aque- las que não sofrem influência dos valores extremos e representa o valor que separa as observações em duas partes iguais, de forma que o valor central corresponda à mediana da distribuição. Ao contrário da média aritmética, a mediana é considerada uma medida resistente aos valores extremos. Essa é uma vantagem comparativa importante, porque, na hipótese de a média não ser um parâmetro representativo, a mediana pode assumir o papel de melhor estimador (amostra) ou valor representativo da distribuição (população). Essa concepção permite oferecer recursos importantes à análise dos dados, por exemplo: qual valor de salário, renda, idade etc. divide em duas partes iguais o quantitativo de observações realizadas. Daí a importância de se esta- belecer a diferença entre valor médio e valor mediano. Também possui gran- de utilidade quando a distribuição possui variáveis com características de or- dem ou classificação. Mediana: “A mediana de um conjunto de números, ordenados pela grandeza (ou seja, em um rol), é o valor central ou média aritmética dos dois valores centrais.” (SPIEGEL; STEPHENS, 2007, p. 84) fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 20 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA A mediana (Mdx) é calculada para dados simples ou agrupados, assim como as médias e a moda. Na forma simplificada, a mediana será o valor central após a ordenação da distribuição. Quando o número de observações for ímpar, o va- lor que divide em duas partes o conjunto corresponderá à mediana. No caso de distribuições com número par de observações, a mediana será calculada pela média aritmética dos dois valores centrais. Vejamos os exemplos: Considerando a distribuição devidamente ordenada 1 2 3 4 5x x x x x+ + + + a me- diana será o valor central que a divide duas em partes iguais, ou seja, 3x . Na distribuição com número par de observações ordenadas, 2 32x x xMd += . Logo, a notação geral será: Números ímpares 1 2 n x xMd += = se n=ímpar; Números pares 1 2 2 2 n n x x x Md æ ö+ç ÷è ø + = ,se par; Com n = número de observações. No caso dos dados agrupados a Mdx é expressa pela seguinte fórmula: inf 2 x med fi Fant h Md Lim f − × = + ∑ , onde: 2 fi å = somatório da coluna de frequência divido por 2 para achar em qual classe está o valor da mediana; Lim. inf. = limite inferior da classe da mediana; fmed = frequência simples da classe da mediana; fabricio Realce 21 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Fant = frequência acumulada anterior da classe da mediana; h = Amplitude da classe. A seguir, relacionamos a tabela de distribuição de frequências utilizada no exemplo anterior. Neste caso, acrescentamos a coluna de frequência acumu- lada para o cálculo da mediana. TABELA 3: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS (MEDIANA) Fonte: Elaborada pelo autor (2020). 2 fi å = somatório da coluna de frequência divido por 2622 131 2 = = , por meio da coluna Fac. (xi) ou frequência acumulada verifica-se que o valor está incluso na classe de faturamento entre 40 e 50 (5ª classe). Lim. inf. = limite inferior da classe da mediana = 40 fmed = frequência simples da classe da mediana = 50 Fant = frequência acumulada anterior da classe da mediana = 100 h = Amplitude da classe = 10 ( ) ( ) inf .Lim. h /f 40 131 100 10 502 40 31 10 50 40 6,2 46,2 i x med x x x fMd Fant Md Md Md é ùæ ö= + - ´ Þ = + - × ÷é ùç ÷ê ú ë ûè øë û = + ´ ÷ Þ = + =éë å Interpretando o resultado anterior, a distribuição tem exatamente a metade do faturamento com valores superiores e inferiores a R$ 46,2. 22 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA FIGURA 2: MEDIDAS CENTRAIS Fonte: Plataforma Deduca (2020). 1.5 MEDIDAS DE DISPERSÃO A variabilidade ou dispersão são as denominações representativas do grupo de medidas importantes na análise da concentração dos dados dentro da dis- tribuição, mais precisamente ao centro. Elas são representadas, principalmen- te, pela variância e pelo desvio padrão. Cada uma delas possui características e funções singulares na mensuração do grau de dispersão das informações. Calcular a dispersão entre os valores observados significa mensurar quanto o posicionamento dos dados dentro da distribuição pode afetar o resultado dos demais parâmetros, principalmente as medidas de tendência central, que dependem de uma representatividade mínima para serem consideradas boas estatísticas, tanto para populações quanto para amostras. fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 23 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 GRÁFICO 3: CURVAS DE DISPERSÃO Fonte: Banco de imagens do autor (2019). No gráfico anterior, vemos comportamentos distintos entre as variáveis per- tencentes às duas distribuições. Na distribuição representada pela linha con- tínua, os valores estão menos dispersos e, portanto, mais centralizados. Isso significa que as medidas de variabilidade ou dispersão exercem influência bem menor sobre as medidas de tendência central. Já na outra distribuição, de linha pontilhada, verificamos o contrário. Os va- lores estão mais dispersos, as caudas apresentam maior alongamento para as extremidades, o que indica a maior influência dos valores extremos sobre as medidas centrais. Os resultados podem ser confirmados pelos valores do desvio padrão calculados e informados na legenda do gráfico. A variância e o desvio padrão sãomedidas que têm na sua base de cálculo a atribuição de medir o distanciamento de cada observação da média da distri- buição. Como veremos mais adiante, cada uma das medidas tem suas carac- terísticas, uma vez que o formato do resultado poderá ser utilizado de acordo com o objetivo da pesquisa ou da própria condução do cálculo ou medida que se deseja utilizar. Variância "Variância de um conjunto de dados é definida como o quadrado do desvio padrão e é, deste modo, representada por s²(...)".(SPIEGEL; STEPHENS, 2007, p. 117) fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 24 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Desvio padrão "[...] é a raiz média quadrática dos desvios, em relação à média ou, como é muitas vezes denominado, o desvio da raiz média quadrática". (SPIEGEL; STEPHENS, 2007, p. 116) FIGURA 3: VARIAÇÃO E DISPERSÃO Fonte: PlataformaDeduca (2020). Dessa forma, quando elaboramos uma tabela de distribuição de frequências ou outro modelo qualquer, devemos estar atentos às informações necessárias que devem constar nas linhas e colunas e que auxiliem na montagem do cál- culo da medida desejada. Portanto, seguindo os objetivos desta unidade, buscamos oferecer o máximo de informações sobre a importância dessas medidas na mensuração da va- riabilidade das distribuições e suas principais características na formulação teórica e prática dos processos e processos estatísticos. Outrossim, também abordaremos os conceitos de desvio médio, coeficiente de variação e ampli- tude total como complementos às medidas anteriores. 25 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 1.6 VARIÂNCIA E DESVIO PADRÃO 1.6.1 VARIÂNCIA (σ2) Iniciaremos este tópico conceituando variância. Vamos entender o seu signi- ficado. A variância é calculada a partir do somatório das diferenças entre vari- áveis e a média, elevado ao quadrado. Sua notação corresponde a: ( )2ix x n - å dados simples com = x = média; e ( )2xi x fi fi - × åå dados agrupados ou em classes, em que ix = ponto médio. Essas fórmulas permitem calcular as distâncias de cada variável em relação à média da distribuição, elevando-se a diferença ao quadrado com o objetivo neutralizar a influência dos valores negativos. O símbolo de ∑ (somatório) re- presenta o total de cada diferença das parcelas ( )2ix x- somadas n vezes. Os valores de if correspondem à frequência da distribuição e n à quantidade de observações. FIGURA 4: DISPERSÃO Fonte: Plataforma Deduca (2020). 26 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Retomamos a construção de tabelas com base nos exemplos anteriores. As colunas devem conter os valores que atendam a necessidade de cálculo con- tido nas fórmulas. TABELA 4: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS (VARIÂNCIA) (1) Fonte: Elaborada pelo autor (2020). A coluna de faturamento (x) apresenta as dez observações com as respectivas frequências de empresas (fi), onde é computado o total de todas as observa- ções realizadas. O objetivo de calcular a variância da distribuição nos remete ao acréscimo de outras colunas, de modo a fornecer os dados complementares à aplica- ção da fórmula, ou seja, em ( ) 2xi x fi fi - × åå ,deverão ser calculadas as colunas para obtermos a média e os demais valores para a variância. Registra-se que, no exemplo em questão, a variável (faturamento) foi disposta de forma agrupada (frequências), conforme tabela a seguir. 27 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 TABELA 5: DISTRIBUIÇÃO DE FREQUÊNCIAS FATURAMENTO/EMPRESAS (VARIÂNCIA) (2) Fonte: Elaborada pelo autor (2020). Logo, obtemos variância ( ) 2 2 117 028 447 262 fixi x fi s ×- × = = =å å . Obs.: lembrando que a média é igual 47, conforme calculado quando aborda- mos a média aritmética. Por fim, veremos com maior detalhe o estudo da variância nos processos de análise dos estimadores e das distribuições de probabilidade. 1.6.2 DESVIO PADRÃO 2s O desvio padrão é a medida de dispersão mais utilizada no cálculo da disper- são entre os valores observados e a média. É obtido por meio do cálculo da raiz quadrada da variância. Dessa forma, os va- lores calculados na variância que foram elevados ao quadrado retornam à me- dida de grandeza original. É interpretado em diversas aplicações como sendo um medidor da variabilidade entre a média e as respectivas observações. Um exemplo da sua importância, como principal conceito de medida de dis- persão, está na sua aplicação no mercado financeiro, mais precisamente no cálculo do risco em determinados investimentos. O desvio padrão é conside- rado uma medida para calcular o retorno de ativos em relação à sua média, cujo resultado indicará a margem de possíveis ganhos ou perdas consideran- do o valor médio da distribuição desses ativos. 28 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Retornando aos exemplos da distribuição de notas agrupadas por frequência e classes, os resultados para o desvio padrão serão: Desvio padrão 2 447 21,1346s = = . Assim, podemos utilizar a sua medida como referência da variabilidade dos valores observados, assim como veremos na sua utilização no cálculo do coe- ficiente de variação e em vários outros conceitos ligados ao processo de esti- mação que serão abordados oportunamente. 1.6.3 OUTRAS MEDIDAS DE DISPERSÃO COMPLEMENTARES Desvio médio (Dm.) O desvio médio é uma medida de dispersão pouco utilizada. Registramos para efeito de comparação com os resultados do desvio padrão, conforme método adotado nos exemplos anteriores. É calculado pela fórmula: 1Dm n j xi n m− = ∑ para dados não agrupados; e 1Dm n j xi fi fi m− ∨ ⋅ = ∑ ∑ para dados agrupados. Obs.: lembrando que a relação entre x e a média é um módulo que corres- ponde à distância entre o x observado e a média apurada. Desvio médio: “[...] é o valor absoluto do desvio X em relação à média x. ”O conteúdo complementar assim como os exercícios estão disponíveis nesta bibliografia. (SPIEGEL; STEPHENS, 2007, p. 115) 29 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Retornando aos exemplos, o resultado para o desvio médio será: Desvio médio 1 4 506Dm 17,1985 262 n j xi fi fi m− ∨ ⋅ ⋅ = = =∑ ∑ Observe que o valor do desvio médio se aproxima daquele calculado no des- vio padrão. No entanto, seu resultado expressa a distância do valor observado e a média calculada da distribuição. Coeficiente de variação (C.v.) A formulação do coeficiente de variação privilegia as características de um “coefi- ciente”, pois oferece resultado entre grandezas diferentes como número relativo. É utilizado na medição do quanto há de variação percentual entre a média e o desvio padrão, resultando numa taxa de volatilidade, uma medida compa- rativa entre a média e o desvio padrão. FIGURA 5: VARIAÇÃO PERCENTUAL Fonte: PlataformaDeduca (2020). Assim como o desvio padrão, o coeficiente de variação também é bastante em- pregado no mercado financeiro na avaliação de riscos e análise de investimentos. 30 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Coeficiente de variação: “Se a dispersão absoluta é o desvio padrão s e a média µ , a dispersão relativa é denominada coeficiente de variação ou dispersão”. O conteúdo complementar assim como os exercícios estão disponíveis nesta bibliografia (SPIEGEL; STEPHENS, 2007, p. 120). É calculado pela fórmula: ( ) 2 C s µ ×Ú = , em queµ = média aritmética; e 2s = desvio padrão Retornando aos exemplos anteriores, os resultados para o coeficiente de va- riação são: Exemplo 1: coeficiente de variação ( ) 2 21,1346 0,4497 47 C s µ ×Ú = = = . O resultado expressa a taxa de variação ou dispersão em torno de 45%. Res- saltamos que a medida representa quanto os valores observados estão dis- tantes dos valores centrais representados pela média, ou seja, o coeficiente de variação é uma medida relativa de volatilidade entre os valores centrais e os valores extremos, enquanto que o desvio padrão é uma medida absoluta dessa dispersão. Aprofunde seus estudos com a leitura do livro: SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2007. (Coleção Schaum). O conteúdo complementar assim como os exercícios estão disponíveis nesta bibliografia: (SPIEGEL; STEPHENS, 2007, p. 120). 31 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Amplitude total Ainda complementando os conteúdos de dispersão, o conceito de amplitude total significa o intervalo entre o menor e o maior valor dos valores observa- dos. É geralmente utilizada na construção da fórmula de Sturges para o cál- culo do número de classes e seus intervalos. Amplitude total = valor da maior observação – valor da menor observação. Na tabela de faturamento, são relacionadas dez observações com as respec- tivas frequências (fi), em que é computado o total de todas as observações realizadas. A amplitude total do faturamento será o maior valor deduzido do menor: 100 – 10 = 90. A amplitude total será 90. CONCLUSÃO Esta unidade apresentou, nos primeiros três tópicos, uma reflexão sobre o es- tudo das medidas de tendência central, destacando a importância da aplica- ção das suas metodologias para a análise dos valores centrais da distribuição, assim como a simetria dos valores. Na sequência, demos continuidade com as medidas de variabilidade e de dispersão, enfatizando as metodologias para a análise dos valores centrais da distribuição em relação aos desvios. Tais procedimentos são indispensáveis na decisão da melhor medida representativa da distribuição, considerando a dispersão dos dados. Além dos conceitos descritos com as devidas referências bibliográficas, bus- camos apresentar exemplos para melhor compreensão da teoria estatística, compreendendo tabelas e gráficos e aplicações específicas para cada conceito. Desse modo, esperamos que você tenha atingido os objetivos de aprendiza- gem propostos na presente unidade e sugerimos atentar para a utilização dos estudos complementares indicados nos tópicos como forma de obter mais informações e detalhamentos sobre a disciplina. OBJETIVO Ao final desta unidade, esperamos que possa: 32 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA UNIDADE 2 > conceituar, diferenciar e esclarecer os diferentes processos que caracterizam as populações, as amostras e a estimação de parâmetros. 33 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 2 ESTATÍSTICA INFERENCIAL: POPULAÇÃO E AMOSTRA INTRODUÇÃO Também conhecida como inferência estatística ou estatística indutiva, a pre- sente unidade ganha uma importância ainda maior no nosso estudo, pois abordará uma série de conceitos, alguns deles baseados nos métodos e pro- cessos estudados anteriormente na estatística descritiva. Dessa forma, com o acréscimo de parte da teoria das probabilidades: à qual faremos algumas referências teóricas, visto que não teremos uma unidade específica para tra- tar do estudo –, teremos o objetivo de desenvolvermos os conceitos sobre inferência de dados, mais precisamente, populações e amostras. Para situá-lo(a) melhor nos tópicos que se sucederão, o estudo da inferência objetiva fornecer ao pesquisador ou analista de dados as garantias básicas de que os parâmetros ou estimadores calculados possuam confiabilidade ne- cessária para a construção do ambiente de decisão seguro em torno da ma- téria ou do fenômeno estudado. No caso específico da nossa unidade, trataremos de aprofundar os conceitos de população e amostra, distribuições amostrais, estimação de valores, interva- lo de confiança e os erros (padrão e médio quadrático). A ideia será desenvolver de forma sucinta e objetiva cada conceito e associar a uma aplicação prática. Acreditamos que, dessa forma, iniciaremos o estudo dos pressupostos da in- ferência, procurando seguir o melhor caminho na preparação das próximas unidades, em que daremos sequência aos demais conceitos. Por fim, adotaremos como metodologia aquela sugerida na bibliografia prin- cipal, cujo objetivo é estudar exemplos aplicáveis à distribuição normal e dis- tribuições aproximadamente normais; logo, a tarefa principal seria oferecer instrumentos para compreensão desses conceitos dentro dos limites estabe- lecidos na ementa. Esperamos que você faça um ótimo proveito do conteúdo! fabricio Realce fabricio Realce fabricio Realce 34 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 2.1 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA A adoção das técnicas estatísticas de inferência ou estimação sempre tiveram o objetivo de buscar soluções mais ágeis, econômicas e administrativamen- te adequadas, quando o interesse está em descobrir e analisar determinado experimento, opinião ou atributo e tantos outros eventos, visando atender as mais variadas necessidades. Em razão dessa grande demanda, governos, entidades, empresas, universida- des, etc. se utilizam de informações e dados com fundamentação científica: como é o caso dos processos e métodos de estimação de populações –, bus- cando atender as necessidades de realização de projetos, pesquisas e plane- jamentos, com vistas a subsidiar decisões, políticas e diretrizes estratégicas. FIGURA 1: PESQUISA Fonte: Plataforma Deduca (2020). fabricio Realce fabricio Realce fabricio Realce 35 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Registra-se, ainda, que o acesso à grande massa de dados nas redes sociais e na internet constitui terreno fértil para aplicação de programas, acesso a da- dos abertos e a banco de dados públicos e privados, utilizando as ferramentas estatísticas disponíveis. Inferência estatística: É a parte da Estatística que tem o objetivo de estabelecer níveis de confiança da tomada de decisão de associar uma estimativa amostral a um parâmetro populacional de interesse. A inferência estatística paramétrica utiliza processos estatísticos e probabilísticos para testar a significância de estimativas calculadas em amostras aleatórias. (COSTA, 2012, p. 87) Temos que reconhecer que o avanço da tecnologia e seu constante aperfei- çoamento vêm oferecendo mais recursos para o acesso a programas e aplica- tivos que permitem levar as ferramentas estatísticas a toda parte. Entretanto, isso não substitui o conhecimento e a prática do profissional ou do usuário de programas estatísticos, que precisa de toda teoria para a execução e análise dos resultados. Então, quais seriam os desafios que teremos pela frente no estudo da inferên- cia estatística? O que significa parâmetro e para que estimá-lo? Essa talvez seja a razão de ser da nossa unidade. Quando falamos que a es- timação é um objetivo dentro dos nossos estudos, também é fundamental que saibamos justificar corretamente a sua necessidade. Em primeiro lugar, devemos nos situar teoricamente tendo em vista que a ciência estatística tem um vasto campo de atuação e aplicação. Quando es- tabelecemos um marco teórico, no presente caso a estatística paramétrica, desejamos afirmar que estaremos desenvolvendo nossa teoria voltada para a aplicação de processos cujos parâmetros são a distribuição normal,com mé- dia e desvio padrão correspondentes. fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 36 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 FIGURA 2: PARÂMETROS POPULACIONAIS Fonte: Plataforma Deduca (2020). Esclarecido esse aspecto, devemos olhar para todo o processo estatístico e entender porque é importante sabermos planejar corretamente todas as eta- pas, a fim de conhecer o fenômeno a ser estudado, suas variáveis e os méto- dos e processos mais adequados para busca das informações mais significati- vas. Atendidas essas questões, fica mais simples explicar o papel da inferência, que, na verdade, se resume em: • a partir dos dados levantados, busca-se inferir, prever algo, estimar e auxiliar a realização dos estudos propostos; • o processo de escolha da amostra deve ser planejado e compatível com os objetivos propostos no estudo ou na pesquisa; • os dados precisam estar organizados, prontos para análise e avaliação. • a análise deve apontar se as medidas de tendência central são representativas e qual(is) delas devem servir de parâmetro; • a dispersão precisa estar mensurada, pois saber para que lado tendem as observações é importante para a definição da sua distribuição de probabilidade; fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 37 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA • a distribuição de probabilidade amostral pode ser representativa ou não, a depender dos testes com estimadores, teste da variância para médias etc., assim como a verificação devida dos limites críticos para descartar ou não as hipóteses nulas; • cumpridos esses requisitos, podemos tirar as conclusões sobre a população pesquisada, considerando os resultados obtidos na amostra, enfatizando o nível de confiança das variáveis envolvidas. Aprofundaremos essas etapas da inferência nos próximos tópicos e unidades, em que faremos os cálculos passo a passo a partir de exemplos e aplicações práticas. 2.2 POPULAÇÃO E AMOSTRA São conceitos fundamentais que constam da teoria da amostragem. A sua aplicação requer o uso de técnicas que visam oferecer ao pesquisador ou ao analista a capacidade de avaliar parâmetros, construir o estimador e analisar se a estimativa é realmente representativa ou não. A amostra, como parte da po- pulação, estima os parâmetros populacionais e passa a ser a referência para as relações entre as variáveis relacionadas com o fenômeno ou evento estudado. Muitas vezes, na prática, estamos interessados em tirar conclusões válidas sobre um grupo grande de indivíduos ou objetos. Em vez de examinarmos todo o grupo, chamado de população, que pode ser difícil ou impossível de se fazer, podemos examinar somente uma pequena parte desta população, que é chamada de amostra. Fazemos isto com o objetivo de inferir certos fatos sobre a população a partir dos resultados encontrados na amostra em um processo conhecido como inferência estatística. O processo de obter amostras é chamado de amostragem. (SPIEGEL; SCHILLER; SRINIVASAN, 2013, p. 153) Como exemplo, citamos trabalho efetuado pelo Instituto Brasileiro de Geogra- fia e Estatística (IBGE), que realizou as projeções e estimativas da população no Brasil e das unidades da federação, com base em informações extraídas no ano de 2010 e 2013, buscando estimar o crescimento populacional no período de 2000 a 2020 e indicadores de mortalidade e migração internacional de 2000 a 2060. Na nota técnica, são expressas as metodologias adotadas, as de- finições sobre conceitos e características, assim como as variáveis estudadas e o respectivo modelo de função matemática ajustado. (IBGE, 2013) fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 38 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Parâmetros correspondem às medidas calculadas levando em consideração os dados da população, por exemplo: média, mediana, variância, desvio padrão etc. Estatísticas ou estimadores correspondem às medidas calculadas levando em consideração a distribuição amostral, como população estimada pela amostra. Tratam-se dos mesmos parâmetros da população e têm a finalidade de se aproximarem dos valores reais, no caso as medidas populacionais, a partir das estimativas calculadas. A determinação do processo de amostragem é realizada no planejamento e poderá ser executada considerando os seguintes aspectos: 1. se a população é finita ou infinita; discreta ou contínua; 2. se a escolha do método amostral será probabilístico ou não; 3. em relação ao tipo de extração amostral, se aleatória, sistemática, estrati- ficada ou por conglomerado. Para efeito de processo de amostragem, consideraremos as amostragens ale- atórias simples como método: com ou sem reposição, seguindo orientação bibliográfica. Vejamos o exemplo 1: Tomemos uma população normal constituída dos se- guintes elementos 2, 3, 4, 5. Extrair todas as amostras de dois elementos dessa população com reposição. A seguir relacionamos os possíveis resultados da extração aleatória. TABELA 1: AMOSTRA EXEMPLO 1 Fonte: Costa (2012, p. 73) fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce fabricio Realce 39 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA O IBGE possui conteúdo diversificado para jovens, crianças e professores no portal IBGE Educa. Lá podemos acessar conteúdos atualizados e lúdicos sobre o Brasil, com informações sobre a população, com matérias especiais sobre temas relacionados à prática de atividades físicas, tecnologia, estatísticas de gênero e saúde. Tudo numa linguagem acessível e direta. Consulte pelo link: https://educa.ibge.gov.br/. FIGURA 3: POPULAÇÃO E AMOSTRA Fonte: Plataforma Deduca (2020). 40 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Para obter mais informações sobre o processo de amostragem, suas diversas etapas e, seus exemplos práticos, sugerimos acessar a seguinte bibliografia: SPIEGEL, M. R.; SCHILLER, J. J.; SRINIVASAN, R. Probabilidade e estatística. Porto Alegre: Bookman, 2013. (Coleção Schaum.). p. 153-193. 2.3 DISTRIBUIÇÕES AMOSTRAIS São o conjunto de resultados obtidos nos processos de extração de elementos de uma determinada população, com o objetivo de se apurar as estatísticas ou os estimadores amostrais com base nos parâmetros populacionais repre- sentados por média, mediana, desvio padrão, proporção e outros. A cada reti- rada ou extração, tais estatísticas são recalculadas até que se obtenha aquilo que denominamos distribuições amostrais. Os sucessivos processos realizados, conforme descrito acima, fazem com que a distribuição amostral se aproxime da distribuição normal, com a conse- quente aproximação dos valores da média, mediana, proporção ou outros pa- râmetros e estimadores, e a diminuição do valor da variância e, obviamente, do desvio padrão. Dessa forma, poderemos deduzir que os valores caminham para uma concentração em torno dos parâmetros da distribuição normal (média e desvio padrão), o que facilita a aplicação dos métodos paramétricos de estimação dos valores. Essas observações são consagradas por meio do teorema do limite central. fabricio Realce fabricio Realce fabricio Realce 41 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADATeorema do limite central: o teorema explica a aproximação de algumas distribuições da distribuição normal devido ao aumento da amostra, ou à repetição dos experimentos. […] De acordo com isso, a probabilidade estimada ou probabilidade empírica de um evento é considerada como a frequência relativa de sua ocorrência, quando o número de observações é muito grande. A probabilidade propriamente dita é o limite da frequência relativa, conforme o número de observações cresce indefinidamente. (SPIEGEL, SCHILLER e SRINIVASAN, 2013, p. 160) Convencionou-se, ainda, que uma população que possui uma quantidade maior do que 30 observações é considerada grande e, portanto, apta a ser tratada pela distribuição normal e pelas distribuições aproximadamente nor- mais. Caso contrário, são consideradas pequenas e tratadas pela tabela “t” (student) ou assemelhadas. A distribuição “t” (student) também é utilizada quando o desvio padrão é desconhecido, independentemente do tamanho da amostra. Nesse caso, o desvio padrão a ser utilizado é o desvio amostral. Veremos nos próximos tópicos a utilização desses conceitos. 2.3.1 DISTRIBUIÇÕES DE MÉDIAS Tratam-se do processo que procura analisar as médias extraídas das amostras e compará-las à distribuição amostral, buscando identificar o valor que me- lhor representa a distribuição. fabricio Realce fabricio Realce 42 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 FIGURA 4: ANÁLISE DE DADOS Fonte: Plataforma Deduca (2020). São caracterizadas por representarem a média da população. Logo, a média amostral é igual à média da população, considerando o conceito de distribui- ção normal ou normal aproximada. Na medida em que cresce o número de observações da amostra, a distribuição amostral de média tem a probabili- dade de representatividade aumentada, enquanto a sua variabilidade, ou o distanciamento dos valores centrais, fica reduzida. Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce 43 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Tais estimadores são representados conforme formulações a seguir: • Média amostral: = Média amostral será sempre igual à média da população (µ). • Desvio padrão ou erro padrão: = erro padrão amostral da população infinita, em que σ x = desvio padrão populacional; n = tamanho da amostra. • Desvio padrão ou erro padrão: = desvio padrão (erro padrão) amostral de população finita, em que = desvio padrão populacional; n = tamanho da amostra; N = tamanho da população. Exemplo 1: Considerando a Tabela 1 dos resultados obtidos com amostra alea- tória das quatro observações, vejamos como calcular a média, a variância e o desvio padrão σ (erro padrão) das com base nas populações. TABELA 1: AMOSTRA EXEMPLO 1 Fonte: Costa (2012, p. 73) População finita N: 4N = ( ) 2 3 4 5 / 4 3,5µ = + + + = σ x2 = ( ) ( ) ( ) ( )2 3,5 ² 3 3,5 ² 4 3,5 ² 5: 3,5 ² / 4 1,25- + - + - + =é ùë û (variância) Amostra finita n: 2n = 3,5µ= = = 1,25/2 = 0,625, logo o erro padrão será 44 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 A tabela a seguir detalha o cálculo de cada parâmetro pelas 16 amostras possí- veis obtidas com a população. Os valores dos somatórios das colunas de cada medida equivalem aos utilizados nos cálculos realizados acima. É importante lembrar que a amostra utilizada foi com reposição. No caso de não ocorrer a reposição, a quantidade de amostra seria menor, ou seja, seis amostras para o cálculo das estatísticas. TABELA 2: CÁLCULOS DOS PARÂMETROS POR AMOSTRA SELECIONADA Variável Média EP Média DesvPad Variância Amostra 1 2,0000 0,000000 0,000000 0,000000 Amostra 2 2,500 0,500 0,707 0,500 Amostra 3 3,00 1,00 1,41 2,00 Amostra 4 3,50 1,50 2,12 4,50 Amostra 5 2,500 0,500 0,707 0,500 Amostra 6 3,0000 0,000000 0,000000 0,000000 Amostra 7 3,500 0,500 0,707 0,500 Amostra 8 4,00 1,00 1,41 2,00 Amostra 9 3,00 1,00 1,41 2,00 Amostra 10 3,500 0,500 0,707 0,500 Amostra 11 4,0000 0,000000 0,000000 0,000000 Amostra 12 4,500 0,500 0,707 0,500 Amostra 13 3,50 1,50 2,12 4,50 Amostra 14 4,00 1,00 1,41 2,00 Amostra 15 4,500 0,500 0,707 0,500 Amostra 16 5,0000 0,000000 0,000000 0,000000 Fonte: Elaborada pelo autor (2020) Com esse simples exemplo, identificamos como são realizados os processos para a formação das distribuições amostrais, que, após os testes dos estima- dores, poderão ser consideradas ou não representativas da população estu- dada. Esse aprofundamento do conteúdo nós veremos mais adiante. 45 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 2.3.2 DISTRIBUIÇÕES DE PROPORÇÕES Também apresentam características semelhantes à distribuição de médias determinada pelo teorema do limite central, ou seja, distribuições binomiais, hipergeométricas e Poisson são aproximadamente normais para grandes amostras, mesmo quando a população básica não é normal. • Média amostral = média amostral sempre igual à média populacional (p): distribuição binomial aproximada para normal. • Desvio padrão ou erro padrão: = = desvio padrão amostral (erro padrão) de uma proporção, em que p = proporção da amostra e (1 – p) a proporção complementar. Exemplo 2: Tomemos uma população formada hipoteticamente por cinco pessoas. Se a pessoa fuma, damos valor 1 a ela; se não fuma, o valor 0. Então, suponhamos o seguinte quadro populacional após a observação: 0, 1, 1, 0, 1. Extrair todas as amostras de dois elementos dessa população com reposição. (COSTA, 2012, p. 75) População finita N: 5N = (variância) Amostra finita n: 2n = = (0,6 . 0,4) / 2 = 0,12, logo o erro padrão será 46 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Seguindo o mesmo exemplo da distribuição amostral das médias, a distri- buição amostral proporcional também terá suas estatísticas verificadas para posterior utilização como parâmetro populacional. Não será possível apresen- tar os resultados detalhados, como fizemos no exemplo anterior, Porém se- guem o mesmo raciocínio. As demais distribuições amostrais: a) somas ou diferenças de duas médias amostrais, conhecidos os desvios no padrão populacional; b) somas ou diferenças de duas médias amostrais, não sendo conhecidos os desvios no padrão populacional; c) diferença de médias quando as amostras são emparelhadas, para a soma ou diferença de duas proporções; d) as relativas às variâncias amostrais, sugerimos o seu aprofundamento na bibliografia indicada. (COSTA, 2012, p. 77-86) 2.4 ESTIMAÇÃO Estimação é a fase em que utilizamos as estatísticas calculadas nas distribui- ções amostrais para estimar os parâmetros populacionais. Nesse processo, também são considerados os conceitos de nível de confiança, que oferecerão maior segurança aos valores calculados. As características mais comuns buscadas em uma população são a média, o desvio padrão e a proporção populacional. A amostra deve expressar as caracte- rísticas de uma população, pois a distribuição amostral tende a ser igual à popu- lacional, por tudo que vimos anteriormente no tópico da teoria da amostragem. 47 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA FIGURA 5: POPULAÇÃO E AMOSTRA Fonte: Plataforma Deduca (2020). Estimativas pontuais quando o objetivo é identificar um determinado ponto ou uma medida exata de uma estatística ou estimador amostral. Estimativas intervalares quando o processo leva em conta um intervalo em que o estimador ou a estatística estão representados. Na estatística paramétrica, a distribuição normal oferece recursos importan- tes para compararmos as medidas. Ao analisarmosuma estatística ou esti- mativa representativa de uma distribuição amostral, estamos falando da sua aplicação e do uso na distribuição normal, como variável z (padrão normaliza- da), para avaliarmos de maneira relativa quão representativo é o estimador ou a estatística em relação à média e ao desvio padrão. Vejamos o Quadro 1, a seguir, com os valores médios per capita representando valor pontual e valor intervalar da produção de aço no Brasil (valores hipotéticos). 48 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 QUADRO 1: ESTIMATIVAS PONTUAIS OU INTERVALARES Estimativa Parâmetro Pontual Intervalar Média A indústria registrou um aumento médio de 200 toneladas na produção de aço em 2016 O aumento médio na exportação de aço esteve entre 190 e 205 toneladas em 2016 Proporção O destino da produção de aço foi de 66% para exportação e 34% para o consumo interno A estimativa de produção de aço para exportação foi calculada entre 64% a 70%, em média Desvio padrão A variação da estimativa de produção de aço ficou em torno de 15% ao ano A variação da estimativa da produção de aço foi calculada entre 12% e 18% ao ano Fonte: Elaborado pelo autor (2019). Supondo que os valores calculados da média de produção de aço sejam re- presentativos da população pesquisada, segundo a tabela normal padroniza- da, poderíamos afirmar que a média da amostra está a menos de 1,96 desvios padrões a contar da média verdadeira em 95% das vezes, e em 5% das vezes fora do valor calculado. O Gráfico 1 a seguir ilustra os valores dos desvios padrões distribuídos na cur- va normal, considerando os afastamentos em torno da média (valor central). O resultado são as probabilidades obtidas em cada lado da curva normal. No exemplo anterior, a tabela da curva normal padronizada correlaciona ao valor de z = 1,96 a probabilidade 0,4750 do lado direito da curva (z = positivo). Quan- do subtraímos 0,5: 0,4750 (metade da área da curva menos a área da probabi- lidade de z = 1,96), obtemos 0,05, que multiplicado por 100 é igual a 5 %. O valor de z = 1,96 desvios padrões está entre a área correspondente à µ = média da amostra e “+2s” desvios padrões, representando, aproximadamente, 95% de certeza de que a média amostral se encontra nesse intervalo. 49 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA GRÁFICO 1: DISTRIBUIÇÃO NORMAL: MÉDIAS E DESVIOS 1 ¼ – 1 Ϊ∫ – 2 Ϊ∫ – 3 Ϊ∫ 99,7 % 95% 68% + 1 Ϊ∫ + 2 Ϊ∫ + 3 Ϊ∫ Fonte: IBM Knowledge Center (2019). No tópico a seguir, apresentaremos as propriedades dos estimadores. 2.4.1 PROPRIEDADES DOS ESTIMADORES O estimador seria um candidato a uma estatística de uma distribuição amos- tral, associado a um parâmetro (média ou variância). Para se tornar uma es- tatística, deve ser testado perante as propriedades. Essas propriedades são utilizadas para estimar de forma pontual o parâmetro ou a estatística, bem como testar se o estimador pode ser ou não a melhor estatística para a distri- buição amostral. Estimador não viesado E (T) = θ, expectância, esperança ou média de T = θ.. Estimador não viesado = proporção amostral e proporção p indivíduos. 50 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Estimador consistente Estimador eficiente , T diz-se mais eficiente do que T’. Outros estimadores, como o de momentos , mínimos quadrados e de máxima verossimilhança , são objeto de estudo mais apurado na bi- bliografia indicada. FIGURA 6: ESTIMADORES Fonte: Plataforma Deduca (2020). 51 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Em suma, ao tratarmos deste tópico, buscamos registrar que as amostras são submetidas a determinadas condições para que sejam aceitas como repre- sentativas. Outras condições, tais como teste de significância, erro padrão, etc., serão objeto de estudo posteriormente. 2.5 INTERVALOS DE CONFIANÇA É o intervalo de valores em que presumimos estar contido o parâmetro ou a estatística representativa da amostra ou população, considerando o risco co- nhecido de erro. Em outras palavras, quando escolhemos um parâmetro ou uma estatística, estamos presumindo que esse valor será tão representativo quanto os limites que determinarmos em função do erro esperado. Os intervalos de confiança seguem a mesma construção lógica: o parâmetro é calculado no intervalo superior e inferior considerando a variação do desvio padrão e o nível de significância que determinará a margem de erro no re- sultado. As formulações vão variar de acordo com a distribuição amostral e o parâmetro ou a estatística a serem calculados. No exemplo da produção de aço, tratado anteriormente, se consideramos a média calculada igual a 200 toneladas, o desvio padrão de 10 toneladas e um nível de confiança de 95%, conforme estabelecido anteriormente, com base nesses valores, acrescido de que a amostra extraída foi de 20 empresas pesqui- sadas, teríamos o seguinte intervalo de confiança para a média de consumo: Em que: = média da amostra; 1,96 = z equivalente a 95% de confiança desejada; = desvio padrão da amostra; n = tamanho da amostra. Logo, a média se encontrará no intervalo de 195,61 a 204,38 toneladas ao ano, com 95 % de probabilidade de certeza contra 5% (risco calculado). Assiria Realce Assiria Realce Assiria Realce 52 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 2.6 ERRO PADRÃO É a diferença entre os valores estimados na amostra e os valores reais da popu- lação, que têm tratamentos assemelhados na forma e nos conceitos. Estamos falando do erro e do desvio padrão, que, em estatística, são muito comumente utilizados nas fórmulas e justificações para o emprego de determinadas aná- lises e correções em face de valores estimados e aqueles realmente apurados. O chamado erro padrão, utilizado nos conceitos amostrais e na interpretação dos níveis de confiança dos intervalos dos parâmetros, mensura quanto os valores dos parâmetros amostrais se distanciam dos populacionais por conta de possíveis incorreções existentes no processo amostral. Por isso, o seu foco está na análise do parâmetro populacional em razão da estatística amostral. Já o desvio padrão tem como função medir a variabilidade dos parâmetros populacionais e amostrais com foco na distribuição de probabilidade ou na incerteza dos elementos envolvidos. No caso do desvio padrão, essa varia- bilidade é calculada em torno dos valores centrais da distribuição, quanto à amostra se dista dos valores centrais. Exemplo com a introdução da variável padronizada Em que: σ x= desvio padrão; n = número de observações da amostra; z = variável padronizada; ε = erro padrão. Chamamos a atenção que, tanto no cálculo do desvio padrão quanto do erro padrão, deverão ser observadas as características da população, se finita ou infinita, para efeito de aplicação da fórmula. 53 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA CONCLUSÃO Esta unidade apresentou uma reflexão sobre o estudo de alguns conceitos li- gados à inferência estatística, destacando a sua importância de aplicação em pesquisas, experimentos e estudos nas mais variadas áreas do conhecimento. Vimos os conceitos relativos a população e amostra, bem como suas diferenças e a importância no estudo da teoria da amostragem; os conceitos das distribui- ções amostrais e seus diferentes processos de inferir os parâmetros populacio- nais; a estimação e seus critérios de classificação dos estimadores como etapa importante na construção das distribuições amostrais; os intervalos de confian- ça e o erro padrão como forma de garantir um nível de confiança razoável que possaassegurar a tomada de decisões sobre o fenômeno estudado. Desse modo, esperamos ter atingido os objetivos propostos na presente uni- dade e sugerimos atentar para a utilização dos estudos complementares in- dicados nos tópicos como forma de obter mais informações e detalhamento sobre a disciplina. OBJETIVO Ao final desta unidade, esperamos que possa: 54 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA UNIDADE 3 > classificar, conceituar e diferenciar os diferentes testes para amostras; > comparar e estabelecer critérios para aceitação ou rejeição de valores; > interpretar e formular testes a partir de conceitos estatísticos; > verificar a validade de testes, usando as ferramentas estatísticas disponíveis. 55 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 3 ESTATÍSTICA INFERENCIAL – TESTES DE HIPÓTESES INTRODUÇÃO DA UNIDADE As teorias da probabilidade nos permitem descrever certa população com um modelo probabilístico, o qual deve apresentar certas características dota- das de parâmetros. Na maioria das vezes os parâmetros não são conhecidos, e, dessa forma, é interessante descobri-los para que possamos avaliar melhor a população e assim poder prever seu futuro. Podemos selecionar amostras de certa população de forma aleatória, por meio de estimativas de parâmetros. Desse modo, estima-se certo parâmetro que possa fornecer informações importantes e associa-se a uma probabilida- de de forma que a estimativa inicial possa estar correta. Na inferência estatís- tica, a estimativa de parâmetros faz parte de uma das suas subdivisões. FIGURA 1: PREVISÕES ESTATÍSTICAS Fonte: Plataforma Deduca (2020). Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce 56 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Parâmetro: padrão, regra, princípio etc. por intermédio do qual se estabelece uma relação ou comparação entre termos. Os testes de hipóteses também fazem parte de uma das subdivisões, sendo que, neste caso, possibilitam inferências aos modelos de probabilidade a mais características do que apenas aos parâmetros. Caso os testes sejam feitos nos parâmetros, passam a ser denominados de paramétricos; caso contrário, são não paramétricos. 3.1 TESTES DE HIPÓTESES Um teste estatístico fornece regras para que uma decisão seja tomada em relação a algum tipo de fenômeno pertencente a uma população. Dessa for- ma, é possível avaliar uma amostra em relação a uma determinada hipótese, verificando se ela pode ser aceita ou descartada. FIGURA 2: TESTANDO AS HIPÓTESES Fonte: Plataforma Deduca (2020). Assiria Realce Assiria Realce Assiria Realce Assiria Realce 57 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Em inferência estatística, a procura por respostas a respeito do comportamen- to de certa população é de suma importância. Com base no comportamento é que surgem as regras de decisão, e essas por sua vez avaliam as hipóteses. Para facilitar o entendimento do processo de testes de hipóteses, podemos pensar da seguinte maneira: Escolha da variável escolhemos uma variável de certa importância de uma amostra da população, que deve ser colhida de forma aleatória, de modo que não favoreça uma possível resposta forçada e que possa estar equivocada. Análise desejada analisamos algum parâmetro a ser avaliado, como média, variância, etc., que tenha alguma importância para aquela população. Avaliação procura-se avaliar o comportamento da variável em relação à sua distribuição de probabilidade. Os testes de hipóteses são capazes de fornecer formas para que se possa de- terminar, com um bom grau de confiança, se os valores dos parâmetros e da distribuição de certa população podem representá-la de forma adequada. Dessa forma, foram criados testes paramétricos, que podem estimar valores para os parâmetros e os testes de aderência, os quais buscam a distribuição de certa varável de uma população. Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce 58 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Na maioria das vezes, os testes paramétricos e de aderência estão interligados. Isso porque, para se conseguir certo grau de confiança em relação a uma hipótese, é necessário que se conheça, com razoável certeza qual a distribuição de probabilidade que melhor se adequa a uma determinada estimativa observada em uma amostra. FIGURA 3: HIPÓTESES E DISTRIBUIÇÕES PODEM USAR GRÁFICOS Fonte: Plataforma Deduca (2020). Muitas são as aplicações dos testes de hipóteses, tais como: o horário para certa propaganda surtir maior efeito a respeito do consumo de certo produ- to; se uma raça de animal é mais adequada a certa região, proporcionando maior rentabilidade; se numa empresa de transportes é mais rentável fazer manutenção ou trocar a frota; se determinada vitamina auxilia na prevenção de alguma doença; o tempo de duração de certo equipamento etc. Assiria Realce Assiria Realce Assiria Realce Assiria Sublinhado Assiria Sublinhado Assiria Realce Assiria Realce Assiria Realce Assiria Realce 59 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 1. Lâmpadas: a estatística mostra que a troca das lâmpadas de uma casa pelas mais modernas e mais caras é compensada em um prazo de tempo devido ao baixo consumo das lâmpadas modernas. 2. Acidentes de trabalho: a análise estatística evidencia que os acidentes de trabalho podem ser amenizados com o uso dos equipamentos de proteção individual (EPI). 3.2 HIPÓTESES NULA/ALTERNATIVA: H0 – H1 A hipótese nula é aquela que está sujeita a um teste. De uma determinada amostra, infere-se um valor paramétrico (ϴ), com a obtenção de uma estima- tiva de um parâmetro (^ϴ), por meio de certo estimador. Com cálculos de pro- babilidades, os quais os resultados são determinados, em função da chamada hipótese nula (H0), toma-se então uma decisão de aceitar ou descartar H0. Para que essa decisão seja tomada, devemos observar se a diferença entre o valor proposto para a hipótese nula e o parâmetro estimado, dado por ϴ - ^ϴ, é ou não significativa. Caso não seja, conclui-se que a pequena variação foi ao acaso. Caso seja, rejeita-se H0, já que a variação não foi por acaso e tem um significado a ser verificado. Assiria Sublinhado Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce 60 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Podemos fazer uma estimativa inicial de algum fenômeno de interesse. Por exemplo: será que a altura média (θ = µ) dos jogadores de um time de basquete é de 2,00 metros de altura? Fonte: Plataforma Deduca (2020). Deste exemplo temos a hipótese nula descrita como H0: µ = 2,00. Para resolver esse problema, devemos inicialmente pegar uma amostra aleatória para obtermos uma estimativa desta média de alturas, dada por ˆθ = ¯ X. Após isso, devemos verificar a diferença entre µ e ¯ x. Assim, H0 deve ser rejeitado se a diferença µ e ¯ x for considerável e verificarmos que a média não é de 2,00 m. Nesse sentido, outros valores para a média seriam hipóteses alternativas, as quais denominamos de H1, que logicamente deve ser diferente de H0. A nova hipótese H1: µ < 2,00 m ou H1: µ > 2,00 m.. 61 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA 3.2.1 TESTES Para rejeitar ou não uma hipótese, é necessário que ela passe poralgum tipo de teste. Esses testes dependem do tipo específico de trabalho estatístico e seu grau de precisão desejado. 1. Teste bilateral H0: µ = 2,00 m versus H1: µ ≠ 2,00 m. Observe que este teste apenas tem como objetivo decidir se a média difere de 2,00 m, não especificando se é maior ou menor. 2. Teste unilateral para a direita H0: p = 0,50 versus H1: p > 0,50. Já neste teste podemos observar que sua finalidade é verificar se a proporção (p) é maior que 0,50. Um dos exemplos é verificar se um time de futebol aumenta sua torcida após vencer um campeonato. 3. Teste unilateral à esquerda H0: σ2 = 8 versus H1: σ2 < 8. Agora estamos pensando se a variabilidade é menor que 8. Por exemplo, se ela for maior que 8, com certeza é recomendável que uma empresa troque sua frota em detrimento de realizar manutenção de seus veículos. Assiria Realce 62 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Um teste estatístico é muito útil para que as empresas façam bons investi- mentos, que serão compensados em um breve período de tempo. 3.3 ERRO TIPO I E ERRO TIPO II É comum que ocorram erros no momento de tomada de decisão a respeito de uma dada amostra. Temos dois tipos de erros que geralmente são come- tidos, conforme tabela a seguir: TABELA 1: ERROS Ocorrência real Decisão H0 é verdadeira H0 é falsa Rejeitar H0 Erro tipo I Decisão correta Não rejeitar H0 Decisão correta Erro tipo II Fonte: Elaborada pelo autor (2020). Dessa forma, as probabilidades poderiam ser descritas da seguinte forma: a P= (rejeitar 0 0H H é verdadeira) e Pb = (não rejeitar 0 0H H é falsa). GRÁFICO 1: ERROS TIPO I E II Distribuição sob H1 Distribuição sob H0 p0 p1 Erro tipo I (α) Erro tipo II (β) Fonte: Adaptado de Portal Action (2020). Assiria Realce 63 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Em testes de hipóteses, devemos considerar possíveis ambas as probabilida- des. Poderíamos utilizar apenas α, o que quase sempre ocorre nos testes mais simples, porém, neste caso, seria apenas um teste de significância. O valor β é muito importante, uma vez que está diretamente associado ao poder do teste. Para determinar o poder do teste, podemos usar a função poder do teste dada por: 1 ( )b m∗− . Na função, m∗ é o valor real da média populacional, mas desco- nhecido, já que descobrir a média real resolveria grande parte dos problemas estatísticos. Quanto menor for o valor de β, mais poderoso será o teste. Ao realizar um teste de hipóteses, β deve ser considerado, já que Pb = (Não Rejeitar 0 0H H é Falsa). Assim, β dependeria de verdadeiro valor da média para a aquisição de seu valor, pois justamente o cálculo da probabilidade de- pende de H0 não ser verdadeiro. Ao efetuarmos testes de hipóteses, o nível de significância α estará ligado a uma regra de decisão do respectivo teste. Desse modo, após estabelecer α, construímos uma região denominada de região crítica, onde será rejeitado H0. GRÁFICO 2: REGIÕES DE REJEIÇÃO E ACEITAÇÃO Região de rejeição Região de rejeição Região de aceitação Fonte: Adaptado de Portal Action (2020). Assiria Realce 64 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 Nessa região, constaram toda amostra que seja rara de ocorrer. Assim, im- pondo 0,05a = , para alguma amostra na qual a probabilidade seja menor que 0,05, permite que H0 seja rejeitado automaticamente. Assim, admitindo H0 como verdadeiro e considerando a referência adotada (α), a amostra é então admitida como rara. Muitas vezes as amostras coletadas em determinada população nos permitem verificar resultados que divergem muito dos valores que são desejados, ou seja, de H0. Portanto, esses resulta- dos se localizam na região crítica, mas com probabilidades extremamente baixas, por isso, classificados como amostras raras. Um bom exemplo é a verificação de temperatura por amostragens geográficas aleatórias. As ilhas de calor, situadas nos grandes centros, fornecem picos de temperatura, sendo assim uma amostra rara para temperatura de uma dada região. Rural Suburbano Residencial Comercial Centro Urbano Residencial Parques Suburbano Residencial Fazendas Temperatura 33 °C 32 °C 31 °C 30 °C Fonte: Adaptado de Science Direct (2020). Desse modo, não há alternativa a não ser rejeitar H0. Devemos observar que, se H0 já for tomado inicialmente como falso, a probabilidade das amostras, que anteriormente eram raras, passa a ser alta. Do exemplo dos jogadores 65 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA de basquete, no qual 0 2,00 mH = , se escolhemos 0,05a = e 1: 2,05 mH m< , po- demos depreender a regra seguinte: caso seja encontrada uma amostra cuja média seja 1,93 m, devemos assim descartar H0, já que a probabilidade de ocorrência de H0 é aquém de 0,05. Podemos entender que H0 passa a ser rara. Já, caso a hipótese nula for correta, 0 : 2,05H m= . Seria mais correto então considerar 2,05 mm< . Como fazer os testes verificados? Podemos seguir os seguintes passos: • definir as hipóteses nula (H0) e alternativa (H1); • verificar qual a distribuição amostral associada a um estimador; • obter a estimativa relacionada ao parâmetro; • definir qual o valor para α (nível de significância); • obter a estatística de teste do parâmetro; • delimitar região crítica (RC), baseando-se em H1 e no valor de α; • estabelecer as regras de decisão (RD); • finalizar com o teste: rejeitar ou não H0. Assiria Realce Assiria Realce Assiria Realce Assiria Realce 66 ESTATÍSTICA APLICADA MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 3.4 VARIAÇÃO CASUAL OU REAL As variações nas populações podem ocorrer basicamente de duas formas: uma delas é a variação real, quando a amostra é colhida aleatoriamente; mes- mo assim, as variáveis oscilam muito. Um bom exemplo seria uma amostra de várias pessoas em nosso país: como são muitas etnias, as variações são di- versas. Nesse caso temos uma variação real, na qual as pessoas divergem nas variáveis altura, peso, idade, cor de pele, entre outras. FIGURA 4: GRUPO HETEROGÊNEO DE PESSOAS Fonte: Plataforma Deduca (2020). As variações casuais são aquelas em que apenas alguns componentes da amos- tra aleatória da população apresentam variações em uma ou mais variáveis. Em certos problemas, gostaríamos de tomar a decisão se duas amostras de tamanhos variáveis, nas quais as variâncias podem ser medidas, foram ob- tidas de uma mesma população e com mesma variância. Para esses casos, usamos a estatística: 2 2 1 1 2 2 2 2 ˆ / ˆ / SF S s s = (equação 1) Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce Assiria Realce 67 MULTIVIX EAD Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017 ESTATÍSTICA APLICADA Na qual 21ŝ e 2 2ŝ são as variâncias das duas populações de onde as amostras foram retiradas. Agora vamos tomar como verdade que H0, sendo a hipótese nula, atribui indi- ferença entre as variâncias das populações. Ou seja, temos simplesmente que: 2 1 2 2 ˆ ˆ SF S = (equação 2) Podemos sujeitar a hipótese a certo nível, por exemplo, se definimos o nível como 0,2. Primeiro observamos que se o aplicarmos a equação 1, temos uma distribuição com 1m − e 1n − graus de liberdade. Podemos, assim, utilizando agora um teste bilateral, aceitar ou rejeitar H0 para um nível de 0,2 caso: 2 1 0,1 0,92 2 ˆ ˆ SF F S ≤ ≤ Quando desejamos verificar a hipótese de que a variância de certa população é maior que de outra, podemos usar o mesmo processo. Os casos de variação casual ocorrem por defeitos
Compartilhar