Prévia do material em texto
Profa. Karina de Oliveira UNIDADE III Estatística Nas seções anteriores, apresentamos grandezas que nos trazem um valor significativo dos dados de um conjunto. Nesta seção, vamos discutir como aprofundar nossa análise, enfocando agora a dispersão dos dados, ou seja, analisaremos se eles estão concentrados em torno do valor médio ou se estão espalhados, dispersos em torno dele. Vamos abordar aqui somente as medidas de dispersão mais frequentemente utilizadas: o intervalo e o desvio-padrão. Medidas de dispersão Intervalo ou amplitude O conceito de intervalo é bastante intuitivo e coincide com o significado da linguagem cotidiana. O intervalo de valores é aquele que vai do menor ao maior valor. Consideremos idades de pessoas em uma família. A mais nova, Ana, tem 3 anos e a mais velha, Gabriel, tem 56. Assim sendo, o intervalo vai de 3 a 56. Quando não é de interesse saber exatamente qual o maior e qual o menor valor, mas apenas saber qual o tamanho do intervalo, este será encontrado, subtraindo-se o menor valor do maior valor do conjunto. Medidas de dispersão Variância e desvio-padrão O intervalo é uma medida de dispersão fácil de calcular, porém de utilidade limitada, pois traz apenas informações sobre os valores extremos. Não leva em conta a variabilidade. A exemplo do que discutimos para as medidas de posição, quando abordamos a média, vamos agora definir uma medida de dispersão que considere cada um dos valores individuais. Medidas de dispersão Nesta seção vamos discutir alguns aspectos importantes referentes à definição de variância. Tomemos um exemplo similar àquele dos gastos na lanchonete, em que analisaremos os gastos de 5 amigos em um restaurante. Para analisar o quanto a divisão igualitária das despesas foi justa (ou injusta), o primeiro passo é comparar cada valor consumido com o valor efetivamente pago. Formalmente, isso significa subtrair o valor médio do valor específico. Medidas de dispersão Consideremos a tabela Medidas de dispersão A variância utiliza as distâncias entre os valores individuais e as médias, mas o faz elevando esses valores ao quadrado. Não cabe aqui discutir os motivos de tal definição, dada a complexidade da matemática envolvida, mas vale uma discussão qualitativa dessa escolha. Ao utilizarmos os quadrados das diferenças, garantimos que os parâmetros de desvio serão sempre positivos, já que o produto de números com sinais iguais é sempre positivo. Além disso, esse critério faz com que tenhamos ainda mais rigor na medida da “injustiça”, pois quanto maior a diferença, maior o peso com que ela será contada. Medidas de dispersão Definições formais Há duas grandezas que descrevem a dispersão dos dados utilizando o critério acima: a variância e o desvio-padrão. O desvio-padrão é a raiz quadrada da variância e será denotado pela letra sigma minúscula (σ). A variância é, portanto, o quadrado do desvio-padrão e se denota por . Medidas de dispersão Variância e desvio-padrão para populações Quando nossos dados trazem a totalidade da população estudada, como é o caso do exemplo anterior, a variância é definida como a média dos quadrados das diferenças entre o valor individual e o valor médio, conforme formalizado a seguir: Medidas de dispersão Geralmente, a grandeza mais utilizada para analisar dispersões é o desvio-padrão. Não detalharemos ainda o seu significado, isso ficará para quando estudarmos a distribuição normal de probabilidades. Por hora, basta saber que uma maior dispersão dos dados implica ter um valor maior para o desvio padrão. Nos casos em que temos os dados em tabelas de frequência, precisamos lembrar que cada valor 𝑥𝑖 aparece 𝑓𝑖 vezes e é preciso multiplicar a quantidade de vezes que cada valor aparece para que todas as diferenças sejam computadas. Medidas de dispersão Assim sendo, teremos: Novamente, o desvio-padrão será simplesmente a raiz da variância. Lembre que, embora as fórmulas sejam escritas de maneira diferente quando colocamos as frequências explicitamente, a grandeza calculada é a mesma nos dois casos. Medidas de dispersão O Desvio Padrão de um conjunto de dados é 9. A variância é: a) 3. b) 18. c) 81. d) 27. e) 36. Interatividade Variância e desvio-padrão para amostras Nos casos em que temos dados para uma amostra e não para toda a população, em lugar de dividirmos por N, a divisão será feita por N-1. Não cabe aqui discutir os motivos dessa definição, mas apenas comentar dois aspectos dessa diferença. Quando o número de dados é grande, o valor final não será muito afetado pela substituição de N por N-1. Medidas de dispersão Por fim, note que como na maioria das vezes temos amostras em lugar de populações, é mais comum utilizarmos as definições na forma que estão colocadas a seguir: Medidas de dispersão Realização dos cálculos Dados não agrupados Para efetuar os cálculos, é preciso lembrar que nesse caso temos uma população, já que temos os valores referentes a todos os ocupantes da mesa estudada. Utilizaremos aqui um procedimento similar ao usado no cálculo das médias, colocando os valores intermediários que precisamos para os cálculos em colunas adicionais e realizando as somas pertinentes nas colunas respectivas. Vejamos como fazer isso na tabela. Medidas de dispersão Medidas de dispersão Para maior clareza, vejamos passo a passo como foi feito o cálculo do desvio-padrão depois de já termos calculado a média. Como já visto anteriormente, a diferença entre o valor individual e a média, dado por xi - x, tem valor -5. Elevamos o valor encontrado ao quadrado para determinar (xi – x)2, obtendo o valor 25, que é colocado na tabela. Repetimos esse procedimento para todos os dados xi. Somamos todos os valores da coluna (xi – x)2, obtendo o valor 440, que é colocado na linha adicional da coluna. Como se trata de uma população, dividimos o valor obtido por N, que, nesse caso, é 5. O resultado é a variância de valor 88. Medidas de dispersão Dados agrupados No intuito de construir o procedimento para o caso de dados agrupados, vamos calcular a variância e o desvio-padrão para um conjunto de dados em que haja valores repetidos. A partir de agora, passaremos a utilizar a fórmula da variância para amostras, visto que sua utilização é mais frequente, pois é mais comum termos estudos que utilizam amostras que estudos que trazem informações sobre toda a população. Esse cálculo está colocado na tabela a seguir. Medidas de dispersão Vamos ver agora um procedimento para o cálculo do desvio-padrão quando os dados estão agrupados em uma tabela de frequências. Medidas de dispersão Coeficiente de Variação É uma medida de dispersão relativa. Elimina o efeito da magnitude dos dados. Exprime a variabilidade em relação à média. Útil comparar duas ou mais variáveis. Medidas de dispersão Coeficiente de Variação Medidas de dispersão Exemplo 4: Altura e peso de alunos Conclusão: Com relação às médias, os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso. Medidas de dispersão Média Desvio Padrão Coeficiente de Variação Altura 1,143 cm 0,063 5,5% Peso 50Kg 6kg 12% Na distribuição de valores iguais, o desvio padrão é: a) 0. b) 1. c) 2. d) -1. e) -2. Interatividade Médias ponderadas Vamos ver agora um procedimento para o cálculo quando os dados têm pesos diferentes. Lembramos que, para efeito dos cálculos, o peso e a frequência têm papéis similares.Assim sendo, montaremos a tabela e efetuaremos os cálculos seguindo os mesmos passos descritos anteriormente. Os dados e os cálculos estão esquematicamente apresentados na tabela colocada a seguir. Medidas de dispersão Medidas de dispersão Vimos que: O estudo da Estatística apresenta medidas de dispersão que permitem a análise da dispersão dos dados. Amplitude. Variância e Desvio Padrão. Resumo Amplitude é a diferença entre o maior e o menor valor em um intervalo de valores. Por exemplo, se tivermos um conjunto de valores ordenados, no qual o menor valor é 15 e o maior valor é 45, teremos uma amplitude de 45 - 15 = 30. Essa amplitude nos dá uma noção do quão afastados estão o maior e o menor valores, porém não nos traz informações sobre os demais elementos do conjunto de dados. Resumo Vimos que: A variância é uma medida de dispersão que mostra quão distantes os valores estão da média. Nesse caso, como estamos analisando todos os valores de cada funcionário, e não apenas uma “amostra”, trata-se do cálculo da variância populacional. Resumo O cálculo da variância populacional é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados. Para a variância amostral o cálculo é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados menos 1. Resumo Para uma população, a variância e o desvio padrão são dados por: Resumo Para uma amostra, a variância e o desvio padrão são dados por: Resumo No caso de dados agrupados em uma tabela de frequência temos: Para uma população Lembrando que equivale ao número de elementos da população. Resumo No caso de dados agrupados em uma tabela de frequência temos: Para uma amostra Lembrando que σ𝑓𝑖 equivale ao número de elementos da amostra. Resumo Dado o seguinte conjunto de dados x: 5,5,5,2,4,3,3 , a variância e o desvio padrão para uma amostra são respectivamente: a) 6,52 e 2,55. b) 3,63 e 1,90. c) 2,55 e 6,52. d) 1,90 e 1,38. e) 2,40 e 1,56. Interatividade Estão no nosso dia a dia. Será que vai chover hoje? Qual a probabilidade de que eu ganhe na loteria? Qual a probabilidade de sair cara ou coroa quando lançamos uma moeda? Probabilidades Espaço amostral: para cada experimento aleatório E, define-se espaço amostral S o conjunto de todos os possíveis resultados desse experimento. Evento: é um conjunto de resultados do experimento. Probabilidades Mede-se a probabilidade numa escala de 0 a 1. Um evento impossível tem probabilidade 0. Um evento com absoluta certeza tem probabilidade 1. Probabilidades Variáveis aleatórias As probabilidades dizem respeito a situações em que existe aleatoriedade. Ou seja, em que o resultado a ser obtido depende de fatores imponderáveis do acaso. Em estatística, quando falamos em um resultado, ele se expressa no valor de uma variável. Se o valor depende do acaso, a variável que expressa esse valor é chamada de variável aleatória. Probabilidades Probabilidade enquanto frequência relativa Formalização Para determinar a probabilidade de que ocorra um determinado evento E como resultado de uma variável aleatória, precisamos analisar quantos são os resultados possíveis em geral e quantos são aqueles favoráveis ao evento E. A probabilidade de o evento E ocorrer, que será denotada por P(E), será a razão entre o número específico de eventos que são favoráveis a E, ao qual chamaremos , pelo número total de eventos possíveis, ao qual chamaremos . . Probabilidades Formalmente, escrevemos: A menor probabilidade possível está relacionada ao menor número possível de eventos favoráveis a E. O número de eventos favoráveis a E será, no mínimo, zero, visto que uma contagem de eventos não pode ser negativa. Assim sendo, a menor probabilidade possível é zero. O número de eventos favoráveis a E será, no máximo, igual ao número total de eventos possíveis. Dessa forma, , será igual a 𝑛𝑡𝑜𝑡 , e a divisão de um pelo outro será igual a 1. Probabilidades Exemplo Numa festa de escola são realizados alguns sorteios de brindes entre os alunos, cujas idades estão apresentadas na tabela. Probabilidades Idade Quantidade 6 12 7 20 8 17 9 21 10 15 total 85 Para calcular a probabilidade de um aluno de 8 anos de idade ganhar o brinde num determinado sorteio seguimos os passos descritos abaixo: Temos 85 alunos no total, ou seja, o número de eventos possíveis nesse caso é 85, ou, seguindo a notação proposta: = 85. Como queremos analisar o evento “aluno de 8 anos sorteado”, chamamos de “número de eventos favoráveis” ao número de crianças dessa idade. Dos 85 alunos, 17 têm 8 anos de idade, assim, há 17 eventos favoráveis no conjunto. Novamente, de acordo com a notação proposta: = 17. O cálculo da probabilidade se dá dividindo-se o número de eventos favoráveis pelo número total de eventos possíveis. Chamaremos P(8) a probabilidade em questão. Assim, temos: Probabilidades E, portanto: P(8) = 0,2. Se houver preferência pela notação percentual, podemos dizer que essa probabilidade é de 20%. Suponhamos agora que haja um brinde que seja de interesse apenas dos alunos maiores, com mais de 7 anos. Assim, o sorteio desse brinde seria feito somente com parte das crianças. Como calcularíamos a probabilidade de um aluno de 8 anos ser sorteado? Probabilidades Temos agora somente 53 alunos com mais de 7 anos, ou seja, o número de eventos possíveis nesse caso é 53, ou = 53. O número de crianças com 8 anos permanece o mesmo, portanto, = 17. O cálculo da probabilidade se dá dividindo-se o número de eventos favoráveis pelo número total de eventos possíveis. Agora temos: E, portanto: P(8) = 0,32 ou 32%. Probabilidades Origem dos dados Quando estudamos probabilidades, podemos analisar situações em que os valores conhecidos das variáveis são empíricos ou analíticos. Na sequência definiremos cada um deles. Os dados analíticos e os empíricos são tratados de maneira diferente. Passamos agora a discutir essa distinção, mostrando como utilizar os dados de ambos os tipos. Probabilidades Dados empíricos Dados empíricos são aqueles cujos valores são observados na prática. Fazem parte dessa classificação todos os dados oriundos de pesquisas de campo, como a idade das pessoas de certo grupo, os valores de preços de mercado etc. Para efeitos didáticos, os dados do tipo empírico utilizados não foram retirados da realidade, mas simulam valores que poderiam ter sido encontrados dessa maneira. Probabilidades Dados analíticos Os dados analíticos têm um caráter diferente, eles não precisam ser medidos diretamente, visto que a análise das características do sistema estudado já nos dá os valores possíveis da variável aleatória, bem como a proporção em que eles se encontram. Como exemplo dessa classe de dados temos os jogos de azar, como o jogo de uma moeda, o jogo de dados ou o sorteio de cartas, por exemplo. Probabilidades No lançamento de dois dados perfeitos, qual a probabilidade de que a soma dos resultados obtidos seja igual a 6? a) 1/36. b) 3/36. c) 5/36. d) 2/36. e) 6/36. Interatividade ATÉ A PRÓXIMA!