Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Estatística Descritiva Unidade 2 Medidas de Dispersão e Análise Bidimensional. Rafaela Rodrigues Oliveira Amaro Introdução Inicialmente, você sabe que este não é o capítulo inicial. Alguns conceitos já foram apresentados até aqui, não é mesmo? Aprendemos a construir tabelas de modo a agrupar diversos dados e seus respectivos gráficos (histograma e polígono de frequência). Também foi possível anunciar sobre as medidas de Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. tendência central (média aritmética, moda e mediana), bem como utilizar de tais conceitos para interpretar informações. Neste segundo capítulo, dando continuidade ao estudo da estatística descritiva, veremos a necessidade de medir a variabilidade dos dados. Afinal, com que grau de confiança as medidas de tendência central retratam fielmente as informações providas de uma pesquisa? Questionamentos semelhantes a estes serão respondidos pela fundamentação teórica que compreende as medidas de dispersão. A chance de relacionar duas variáveis, ou seja, determinar até qual ponto a manipulação de uma interfere na relação da outra, embasa o estudo da análise bidimensional. Neste contexto, você será apresentado a técnicas de como avaliar por métodos numéricos a qualidade de tal vínculo. Vamos em frente! 1. Medidas de dispersão Imagine que em uma escola há quatro professores de matemática, de idades: 24, 32, 39 e 57 anos. E que, em outra escola, com essa mesma quantidade de docentes, as idades sejam de 35, 36, 39, 42 anos. Observe que a idade média entre as duas escolas é a mesma, de 38 anos; mas se atente às distintas variabilidades entre os dois grupos, ou seja, no quanto os números distam entre si. No primeiro grupo, as idades são mais heterogêneas, enquanto que, no segundo, estes dados são homogêneos. Desta maneira, avaliar a média somente, sem estabelecer uma relação entre os outros dados pertencentes a um grupo não permite elaborar uma afirmação precisa acerca das particularidades do conjunto. Martins e Domingues (2017) definem medidas de dispersão como sendo os parâmetros que avaliam o grau de variabilidade ou dispersão, dos valores em torno da média. Logo, possuem a capacidade de mensurar a representatividade da média. Assim, neste capítulo, você conhecerá o conceito, a maneira de calcular e a interpretação algumas medidas de dispersão. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. 2. Variância e desvio padrão Utilizando todas as entradas de um conjunto de dados, temos a variância e desvio padrão como medidas de dispersão. É importante salientar que estes indicadores podem contemplar uma amostra ou uma população. De acordo com Castanheira (2013), variância é o resultado da média aritmética dos quadrados dos desvios; e permite medir a variabilidade dos dados em torno da média. A medida de dispersão mais utilizada em estatística é o desvio padrão, ele é o resultado da raiz quadrada da variância, logo o cálculo da variância é um passo intermediário para obter o desvio padrão. Para interpretação desta medida vale relembrar que este indicador avalia o quanto uma entrada típica se desvia da média. Quanto mais espalhados estiverem os dados, maior será o desvio padrão. Desta forma, ele é considerado pequeno, se os valores estão bem concentrados em torno da média, ou grande, se estão muito espalhados ao redor da média. 2.1. Variância e desvio padrão para dados não agrupados. Uma pesquisa ao ser realizada com uma população ou amostra e, em seguida, contabilizada pequena quantidade de dados, podemos utilizar as fórmulas direcionadas a dados não agrupados, visto que não exista repetição de mesmos dados, não sendo necessário organizar tais informações em tabelas de distribuição de frequência. Outra ressalva deve ser considerada na identificação do método para encontrar a variância e o desvio padrão, assim, há diferença se for utilizada uma amostra ou população, como pode ser observado na tabela 1 abaixo. Essa distinção é encontrada a partir do enunciado e contexto do exercício a ser resolvido. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. População Amostra Variância 𝜎2 = 𝛴(𝑥 − 𝜇 )2 𝑁 𝑠2 = 𝛴(𝑥 − 𝑥 )2 𝑛−1 Desvio Padrão 𝜎 = √ 𝛴(𝑥 − 𝜇 )2 𝑁 𝑠 = √ 𝛴(𝑥 − 𝑥 )2 𝑛−1 Média 𝜇 𝑥 Tamanho do conjunto 𝑁 𝑛 Tabela 1: Fórmulas para variância e desvio padrão de dados não agrupados. Elaborada pela autora, 2019. Voltando ao contexto das idades dos professores de matemática de diferentes escolas no início do capítulo, é necessário identificar que se trata de uma população. Calculando sua variância, obtemos, para o primeiro grupo: 𝜎2 = (24− 38 )2+ (32−38 )2 + (39−38 )2 + (57−38 )2 4 = 594 4 = 148,5 e, para o segundo grupo: 𝜎2 = (35− 38 )2+ (36−38 )2 + (39−38 )2 + (42−38 )2 4 = 30 4 = 7,5 “anos ao quadrado”. Mas que medida de unidade é essa? Parece sem sentido, porém, com o resultado do cálculo da variância, obtemos respostas como esta. Essa é uma desvantagem em utilizar este parâmetro, pois suas unidades de medida, geralmente, não possuem sentido físico. Assim, devemos calcular a raiz quadrada desses valores, para, deste modo, conseguir interpretar tais resultados, uma vez que o desvio padrão é uma medida de variabilidade com idêntica unidade de medida dos dados. Agora sim, retornando a proposta inicial, concluímos que as idades variaram, em relação à média, 12,2 anos para o primeiro grupo e 2,7 anos para o segundo grupo. Logo, é possível concluir que, apesar da média aritmética ser a mesma, na primeira escola há mais variabilidade em relação às idades dos professores de matemática, tendo assim uma diferença maior em relação a média de 38 anos. Enquanto que a segunda escola possui profissionais com idades mais próximas em relação a média, logo variaram menos. 2.2. Variância e desvio amostral para dados agrupados. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Quando trabalhamos com uma grande quantidade de dados é mais viável interligar tais informações a tabelas de distribuição de frequências, assim, consequentemente, a variável frequência estará presente. Por isso, a fórmula que permite calcular a variância e o desvio padrão não são mantidas. O que diferencia a fórmula utilizada é estabelecer se os dados são referentes a uma amostra ou a uma população, assim como as relações para dados não agrupados. Observe que, na variância populacional, o numerador é dividido por N, enquanto que, na variância amostral, é fracionado por n - 1. População Amostra Variância 𝜎2 = 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 𝑠2 = 𝛴(𝑥 − 𝑥 )2⋅𝑓 𝑛−1 Desvio Padrão 𝜎 = √ 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 𝑠 = √ 𝛴(𝑥 − 𝑥 )2⋅𝑓 𝑛−1 Média 𝜇 𝑥 Tamanho do conjunto 𝑁 𝑛 Tabela 2: Fórmulas de variância e desvio padrão para dados agrupados. Elaborada pela autora, 2019. Agora, considere que, após um teste de proficiência de língua estrangeira foram contabilizados os erros cometidos por 50 alunos que realizaram tal prova. Estes números foram alocados na tabela de distribuição de frequência 3, disposta a seguir: Quantidade de erros Frequência 0 I--- 4 10 4 I--- 8 7 8 I--- 12 21 12 I--- 16 9 Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. 16 I--- 20 3 Total 50 Tabela 3: Distribuição de frequência de quantidade de erros por alunos. Fonte: Elaborada pela autora, 2019. Bem, esse conjunto de dados retrata uma amostra ou uma população? Qual sua variância e seu desvioo padrão? Como podemos interpretar tais resultados? Começaremos respondendo a primeira pergunta: no enunciado está explícito que a pesquisa foi realizada com 50 alunos, logo, trata-se de uma população e utilizaremos as fórmulas destinadas a tal conjunto de dados. Para retornamos quanto à segunda pergunta, neste momento, adicionaremos uma nova coluna à tabela para cálculo da média, que é uma variável necessária para encontrar a variância e o desvio padrão; e outra coluna para facilitar as demais operações. Assim, a tabela 4 apresenta esses resultados (lembrando que, por se tratar de uma tabela de distribuição de frequência, também é necessário calcular o ponto médio (𝑥𝑖)). Quantidade de erros Frequência (f) Ponto médio (𝑥𝑖) (𝑥𝑖 ⋅ 𝑓) (𝑥𝑖 − 𝑥) 2 ⋅ 𝑓 0 I--- 4 10 2 20 (2 − 9,04)2 ⋅ 10 = 495,61 4 I--- 8 7 6 42 (6 − 9,04)2 ⋅ 7 = 64,69 8 I--- 12 21 10 210 (10 − 9,04)2 ⋅ 21 = 8,29 12 I--- 16 9 14 126 (14 − 9,04)2 ⋅ 9 = 221,41 16 I--- 20 3 18 54 (18 − 9,04)2 ⋅ 3 = 240,84 Total 50 𝛴(𝑥𝑖 ⋅ 𝑓) = 452 𝛴(𝑥𝑖 − 𝑥) 2 ⋅ 𝑓 = 1030,84 Tabela 4: Distribuição de frequência de quantidade de erros por alunos. Fonte: Elaborada pela autora, 2019. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Logo, para a média, obtemos: 𝑥 = 𝛴𝑥⋅𝑓 𝑛 = 452 50 = 9,04, observe que este valor interfere diretamente no cálculo da variância e do desvio padrão, já que: 𝜎2 = 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 = 1030,84 50 = 20,62 erros ao quadrado e 𝜎 = √ 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 = √ 1030,84 50 = 4,54 erros. Assim, a interpretação de tais resultados compreende que, cerca de 21 erros ao quadrado, corresponde à variabilidade dos erros e que estes variaram em relação à média, aproximadamente, 4,5 erros. 3. Análise bidimensional 1ª parte Frequentemente, nos deparamos com a necessidade de realizar estimativas ou previsões sobre ocorrências futuras, tal processo pode ser realizado quando conhecemos as variáveis e o modo como se relacionam. Nesta conjuntura, existem técnicas estatísticas que possibilitam elaborar modelos e avaliar sua qualidade, estas são chamadas de análise de regressão e correlação. Essas técnicas possuem atributos próprios. Enquanto a regressão descreve, por meio de equações algébricas, a previsão acerca dos comportamentos da situação, a correlação avalia a qualidade da relação entre as variáveis (MILONE, 2006). Correlações e regressões podem ser classificadas quanto ao número de variáveis, assim, são ditas simples, quando uma variável for conveniente para explicar o contexto, ou múltipla, quando necessitar de mais de uma. Também são diferenciadas quanto à sua complexidade, logo, recebem o nome de lineares, quando se enquadram em funções de 1° grau, ou não lineares, quando sua modelagem matemática exige funções de ordem superior (MILONE, 2006). Nesta primeira parte, dedicada à análise bidimensional, o foco será o estudo acerca da qualidade entre as relações, ou seja, a correlação linear e a covariância. Você sabia? Galton Francis (1822 - 1911), matemático e estatístico francês publicou no século XIV o resultado de uma pesquisa onde coletou a altura de Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. homens adultos e a de seus pais. Assim, concluiu, por intermédio na análise bidimensional, que a variação da altura dos homens é, em parte, explicada pela variação da altura de seus pais. 3.1. Correlação linear Suponha que um médico queira avaliar o tempo que uma pessoa pratica exercícios físicos em relação à manutenção de seu peso. Ou que um professor queira avaliar o tempo dedicado aos estudos com as notas obtidas na etapa. Como seria possível avaliar a relação existente entre tais variáveis? Correlação é descrita por Larson e Farber (2016) como uma relação entre duas variáveis, onde as informações são identificadas por pares ordenados (x, y). X é a variável independente (ou explanatória) e y representa a variável dependente (ou resposta). Inúmeras vezes, dados bidimensionais são coletados, simultaneamente, para determinar se a variação de uma interfere na variação da outra. Assim, duas variáveis quantitativas podem aumentar ou diminuir juntas, aumentar quando uma diminui ou vice-versa. Uma importante ferramenta para visualizar tal comportamento é o diagrama de dispersão, que, de acordo com Larson e Farber (2016), consiste em uma representação gráfica de dois conjuntos de dados que possuem mesmo tamanho e, para cada entrada do primeiro conjunto, existe um correspondente no segundo conjunto. Este formato é utilizado para exibir a relação entre duas variáveis quantitativas. No diagrama de dispersão, os pontos (x, y) são plotados em um plano coordenado, a variável independente (x) é medida no eixo horizontal e a variável dependente (y), no eixo vertical. Com diagrama, é possível determinar se existe uma correlação linear, assim como diferenciar o tipo de correlação. Quando duas variáveis crescem no mesmo sentido, existe correlação positiva, já em sentidos contrários há correlação negativa, e, caso a variável independente cresça e a dependente varie ao acaso, a correlação é nula, ou seja, não existe. Também existe a situação da correlação não ser linear. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Observe na figura 1 os gráficos de dispersão da correlação linear negativa e positiva, respectivamente, e a figura 2 apresenta os casos de não existir correlação ou desta não ser linear. Figura 1: Gráfico de dispersão de correlação linear negativa e positiva. Fonte: LARSON; FARBER, 2016, p. 394. Figura 2: Gráfico de dispersão quando inexiste correlação e quando esta não é linear. Fonte: LARSON; FARBER, 2016, p. 394. 3.2. Coeficiente de correlação linear O coeficiente de correlação linear permite determinar o quanto duas variáveis se relacionam. É possível encontrá-lo por meio da igualdade: 𝑟 = 𝛴𝑥𝑦 − 1 𝑛 𝛴𝑥𝛴𝑦 √[𝛴𝑥2− 1 𝑛 (𝛴𝑥)2][𝛴𝑦2− 1 𝑛 (𝛴𝑦)2] Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. O resultado encontrado por intermédio desta operação varia entre -1 e +1, assim, se a correlação for negativa, o sinal do coeficiente será negativo e, se a correlação for positiva, o sinal deste coeficiente também será positivo. Vamos considerar a seguinte situação: dez alunos tiveram suas notas em Português e Matemática estudadas, de modo a identificar uma possível relação entre ambas. Estes valores compõem a tabela 5 abaixo. Português Matemática 50 75 68 70 70 90 95 93 53 61 70 75 93 90 60 54 72 69 54 63 Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. Fonte: Elaborado pela autora, 2019 Neste contexto, que tipo de correlação existe entre tais conjuntos de dados? Positiva ou negativa? Qual interpretação é viável, de acordo com o valor de coeficiente de correlação? Bem, estas são as indagações possíveis de realizar acerca de tais entradas. Vamos em frente! Encontrar estas respostas. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Para facilitar o cálculo do coeficiente de correlação, inserimos três novas colunas à tabela 5, que relacionam os dados do problema a ser resolvido. Estas colunas contém o produto entre e xy, x² e y², uma vez que necessitamos dos somatórios destes valores. Portanto, geramos a tabela 6 abaixo. Português (x) Matemática (y) 𝑥𝑦 𝑥2 𝑦2 50 75 50 ⋅ 75 = 3750 502 = 2500 752 = 5625 68 70 68 ⋅ 70 = 4760 682 = 4624 702 = 4900 70 90 70 ⋅ 90 = 6300 702 = 4900 902 = 8100 95 93 95 ⋅ 93 = 8835 952 = 9025 932 = 8649 53 61 53 ⋅ 61 = 3233 532 = 2809 612 = 3701 70 7570 ⋅ 75 = 5250 702 = 4900 752 = 5625 93 90 93 ⋅ 90 = 8370 932 = 8649 902 = 8100 60 54 60 ⋅ 54 = 3240 602 = 3600 542 = 2916 72 69 72 ⋅ 69 = 4968 722 = 5184 692 = 4761 54 63 54 ⋅ 63 = 3402 542 = 2916 632 = 3969 𝛴𝑥 = 685 𝛴𝑦 = 740 𝛴𝑥𝑦 = 51910 𝛴𝑥2 = 49107 𝛴𝑦2 = 56346 Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Fonte: Elaborado pela autora, 2019. Agora, de posse dos valores necessários, substituiremos na relação: 𝑟 = 𝛴𝑥𝑦 − 1 𝑛 𝛴𝑥𝛴𝑦 √[𝛴𝑥2− 1 𝑛 (𝛴𝑥)2][𝛴𝑦2− 1 𝑛 (𝛴𝑦)2] = 51910− 1 10 ⋅685⋅740 √[49107− 1 10 ⋅(685)2][56346− 1 10 ⋅(740)2] = 1220 √ 2184,5⋅1586 = 0,6554 = 65,54% Logo, o coeficiente de correlação entre as notas de português e matemática para a amostra de dez alunos indicam média correlação positiva entre as variáveis. Ou seja, que há uma média semelhança dos comportamentos das variáveis no mesmo sentido. Para interpretar o valor encontrado no coeficiente de correlação utilizamos os seguintes parâmetros: se r estiver compreendido entre 90% e 100%, alta ou ótima correlação; entre 80% e 90% boa correlação; entre 60% e 80%, média correlação; entre 40% e 60%, baixa correlação e entre 0% e 40% é péssima correlação ( MARTINS E DOMINGUES, 2011). Você sabia? É trabalhoso realizar os cálculos para encontrar o coeficiente de correlação, principalmente, se a amostra ou população for grande. Para isso, existem softwares como o Planilha Eletrônica Excel, que dispõe de ferramentas específicas para o cálculo de correlações entre duas ou mais variáveis. 3.3. Covariância Larson e Farber (2016) caracterizam a covariância como uma medida que avalia a relação entre duas variáveis. Este indicador assemelha-se muito ao conceito de correlação, no entanto, se diferenciam em dois aspectos. Os valores da covariância não obedecem a uma padronização, diferente da correlação (varia de +1 a -1), portanto, seu campo de existência abrange todos os números. Além disso, a covariância fornece respostas sobre a direção da relação entre as variáveis. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Resultados com sinais positivos apontam que, valores acima da média de uma variável estão associados a valores médios acima da outra variável e, abaixo dos valores médios, são igualmente associados. Resultados com sinais negativos indicam que valores acima da média de uma variável estão associados com valores médios abaixo da outra variável. O cálculo da covariância é feito por intermédio da relação: 𝐶𝑜𝑣(𝑥, 𝑦) = 𝛴𝑥𝑦 𝑛 − 𝛴𝑥 𝑛 ⋅ 𝛴𝑦 𝑛 . Agora, vamos voltar ao contexto das notas de dez alunos nas disciplinas de português e matemática e avaliar a covariância entre estas variáveis. Aproveitaremos os resultados disponibilizados na tabela 5, logo, apenas serão substituídos tais valores: 𝐶𝑜𝑣(𝑥, 𝑦) = 𝛴𝑥𝑦 𝑛 − 𝛴𝑥 𝑛 ⋅ 𝛴𝑦 𝑛 = 51910 10 − 685 10 ⋅ 740 10 = 5191 − 5069 = 122, como o resultado foi um número positivo, podemos afirmar que as variáveis tendem a aumentar juntas ou diminuir juntas. Logo, se a nota em português aumentar, a de matemática também aumentará, ou se a nota em português diminuir, a de matemática também diminuirá. 4. Análise bidimensional 2ª parte Dando continuidade ao estudo de mais de um conjunto, iniciaremos uma nova abordagem ao trabalhar com dados bidimensionais. Até aqui, aprendemos a medir e qualificar a relação entre informações quantitativas e, a partir de agora, vamos desenvolver modelos estatísticos utilizados com o intuito de prever outros valores. E, assim, a partir de uma variável independente, descobrir os valores da variável dependente. 4.1. Regressão linear As técnicas de regressão linear são muito utilizadas em atividades em que organização e planejamento para o futuro são de suma importância, sendo empregada com o propósito de previsão. Estipular as futuras vendas de um produto em função do seu preço ou prever o consumo de certos alimentos em relação a seu valor nutritivo retratam algumas das muitas situações existentes Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. que permitem o uso de regressão linear. Uma vez que tal estratégia possibilite a previsão de médias ou valores esperados. Geralmente, ao utilizar dados provenientes de observações e/ou pesquisas e, com o objetivo de utilizar o dispositivo de regressão linear, é necessário encontrar uma equação matemática que possibilite estabelecer a relação entre duas variáveis. Este processo é denominado ajuste de curvas. Aqui, concentramos no ajuste para equações lineares de duas incógnitas, ou seja, da forma y = ax + b (FREUND, 2009). 4.2. Reta de ajuste linear O ajuste de uma reta é um tipo de regressão linear que interliga uma variável independente (x) a uma dependente (y) por intermédio de uma equação de primeiro grau, este processo sintetiza a relação linear entre duas variáveis aleatórias. Conforme Larson e Farber (2016), a equação de uma reta de regressão é: �̂� = 𝑚𝑥 + 𝑏, sabendo que �̂� é o valor 𝑦 previsto para um valor 𝑥. Para compor esta relação é determinado que 𝑚 = 𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦) 𝑛𝛴𝑥2 − (𝛴𝑥)2 e 𝑏 = 𝛴𝑦 𝑛 − 𝑚 𝛴𝑥 𝑛 . Você sabia? O ajuste de curvas no processo de regressão linear é deduzido pelo método dos mínimos quadrados, esse dispositivo de otimização matemática foi criado pelo matemático francês Adrien Legendre (1752 - 1833) e objetiva encontrar o mais adequado ajuste de reta para um conjunto de dados pré- estabelecido (FREUND, 2009). Para entender a dinâmica destas fórmulas, vamos considerar que uma empresa investigou a relação entre o tempo de uso de suas máquinas, em meses com o custo médio de manutenção em milhares de reais destas e obteve a seguinte tabela: Idade 3 6 14 21 28 36 Custo médio 7,7 9,5 15,2 19,8 21,2 27,7 Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Tabela 7: Tempo de uso de uma máquina em relação a seu custo médio. Fonte: Elaborada pela autora, 2019. Seria possível estimar o custo médio desta máquina após 10 meses? E depois de 4 anos de uso? Ou para qualquer idade que não tenha seu valor já alocado na tabela? A resposta é sim, pois, uma vez identificada a equação de regressão linear, qualquer valor poderá ser substituído na igualdade que define tal situação e, assim, detectada a solução para qualquer um dos questionamentos iniciais. Para começarmos, vamos transpor (transformar linhas em colunas) a tabela 7, que contém as informações sobre o tempo de uso da máquina com seu gasto médio e adicionar duas novas colunas. Idade Custo médio 𝑥𝑦 𝑥2 3 7,7 23,1 9 6 9,5 57 36 14 15,2 212,8 196 21 19,8 415,8 441 28 21,2 593,6 784 36 27,7 997,2 1296 𝛴𝑥 = 108 𝛴𝑦 = 101,1 𝛴𝑥𝑦 = 2299,5 𝛴𝑥2 = 2762 Tabela 8: Tempo de uso de uma máquina em relação a seu custo médio(modificada). Fonte: Elaborada pela autora, 2019. De posse destes valores é possível determinar o valor de m, 𝑚 = 𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦) 𝑛𝛴𝑥2 − (𝛴𝑥)2 = 6⋅2299,5 − 108⋅101,1 6⋅2762−11664 = 2878,2 4908 = 0,5864 e, consequentemente, encontraremos o valor de b, pois 𝑏 = 𝛴𝑦 𝑛 − 𝑚 𝛴𝑥 𝑛 = 101,1 6 − 0,5864 ⋅ 108 6 = 6,2948. Agora sim, a reta será definida por: �̂� = 𝑚𝑥 + 𝑏 → �̂� = 0,5864𝑥 + 6,2948 . Voltando aos questionamentos no início do tópico: Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Seria possível estimar o custo médio desta máquina após 10 meses? Sim, basta substituir a variável x por 10, observe: �̂� = 0,5864 ⋅ 10 + 6,2948 ≃ 12,2 , logo, após dez meses o custo médio é de 12,2mil reais. Depois de 4 anos de uso? Bem, quatro anos de uso equivalem a 48 meses (4 x 12), logo, este valor será substituído na variável x: �̂� = 0,5864 ⋅ 48 + 6,2948 ≃ 34,4mil reais. Ou seja, por meio da equação, é possível descobrir o gasto médio para qualquer tempo de uso ou a situação contrária, encontrar o tempo de uso, sendo previamente informado seu gasto médio. Síntese No decorrer desta unidade, verificamos que a variância e o desvio padrão são ferramentas úteis para verificar o quanto os dados obtidos por uma pesquisa estão dispersos em torno do foco central, ou seja, da média aritmética. Assim, por esta análise, constatamos sua aplicabilidade. Também foi possível descrever e avaliar a significância das relações entre variáveis, quando estas são organizadas no formato de pares ordenados. Por meio do uso de técnicas de correlação, que avaliam a qualidade entre as relações e pela regressão linear, processo que possibilita a previsão de resultados. De maneira geral, foi possível: ● Calcular a variância e desvio padrão de dados não agrupados; ● Calcular a variância e desvio padrão de dados agrupados; ● Distinguir a relação de variância e desvio padrão para dados populacionais e amostrais. ● Compreender e aplicar o conceito de correlação ● Compreender e aplicar o conceito de regressão linear. ● Elaborar a reta de ajuste linear. ● Interpretar o coeficiente de correlação linear. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Bibliografia CASTANHEIRA, Nelson Pereira. Estatística aplicada a todos os níveis. Curitiba: Intersaberes, 2013. Disponível em: Minha Biblioteca. CRESPO, A. A. (2009) Estatística Fácil. 19a ed. São Paulo: Saraiva. COSTA, Giovani Glaucio de Oliveira. Curso de estatística básica - Teoria e Prática. 2ªedição. São Paulo: Atlas, 2015. Disponível em: Minha Biblioteca. FREUND, John E. Economia, Administração e Contabilidade. Estatística Aplicada. Porto Alegre: Bookman, 2009. LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. 654 p. v. único. Disponível em: Biblioteca Virtual Universitária. MARTINS, Gilberto de Andrade; DOMINGUES, Osmar. Estatística Geral e Aplicada. São Paulo: Atlas, 2017. MILONE, Giuseppe. Estatística Geral e Aplicada. Rio de Janeiro: Thomson, 2006. MORETIM, Luiz Gonzaga. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010. 376 p. v. único. Disponível em: Biblioteca Virtual Universitária MORAES, Fabíola Eugênio Arrabaça. Estatística Descritiva. 1. ed. São Paulo: Pearson, 2010. 142 p. v. único. Disponível em: Biblioteca Virtual Universitária. VIEIRA, Sônia. Elementos de Estatística. São Paulo: Atlas, 2012.
Compartilhar