Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DE ESTATÍSTICA Webconferência I Professor(a):Mabel Lopes Temas abordados • Introdução à estatística • Classificação dos dados • Planejamento experimental • Distribuição de frequência e seus gráficos • Considerações éticas • Medidas de posição • Medidas de variação Introdução à Estatística Mas e o que são dados? São informações que são geradas de observações, contagens, medições ou respostas e podem ser baseados na população ou em uma amostra. De acordo com Larson e Farber (2010, p.3) estatística é a ciência que coleta, organiza, analisa, e interpreta dados para a tomada de decisões. IMPORTANTE: a menos que uma população seja pequena, é geralmente impraticável obter todos os seus dados. Na maior parte dos estudos, a informação deve ser obtida a partir de uma amostra. Introdução à Estatística População: para estatística, a população é o conjunto de todos os elementos de um estudo. Amostra: é o subconjunto de elementos da população que possa representá-la de maneira efetiva. Exemplos: • Pesquisa de opinião pública: a população é o número total de habitantes de um país; a amostra é uma parte dessa população. • Pesquisa de um novo tratamento para uma certa doença: a população é o conjunto total de pessoas com a doença ou que venham a ter a doença, um número que não é conhecido; a amostra é o conjunto de doentes escolhido para testar o tratamento. O que se espera é que a amostra, sendo adequadamente escolhida, tenha características semelhantes (chamadas de parâmetros) às da população em estudo. Introdução à Estatística Parâmetro: é uma descrição numérica de uma característica da população. Estatística: é uma descrição numérica de uma característica da amostra. Os estudos da estatística dividem-se em dois ramos principais: Estatística descritiva: trata da organização, resumo e apresentação dos dados. Fornece um resumo conciso dos dados. Os dados podem ser resumidos de forma numérica ou gráfica. Estatística inferencial: usa uma amostra aleatória dos dados coletados de uma população para descrever e fazer inferências sobre a população. A ferramenta básica no estudo no estuda da estatística inferencial é a Probabilidade. Classificação dos Dados Tipos de Dados: •Qualitativos: consistem em atributos, classificações ou registros não- numéricos. •Quantitativos: consistem em medidas e contagens numéricas. Planejamento Experimental O objetivo de todo estudo estatístico é coletar dados e então usá-los para uma tomada de decisão. Antes de interpretar os resultados de um estudo, você deve determinar se ele é válido ou não. Para o planejamento de um estudo estatístico é necessário: 1. Identificar as variáveis de interesse; 2. Identificar a população do estudo; 3. Coleta de Dados ; (desenvolva um plano) 4. Produzir Interpretações; 5. Tomar Decisões; 6. Identifique todos os erros possíveis. Distribuição de Frequência e seus Gráficos Métodos de Representação de Dados: nesta seção você vai aprender formas de organizar e descrever um conjunto de dados. Conjuntos de Dados com muitas entradas Distribuição de Frequência Ex.: O conjunto de dados a seguir mostra a quantidade de minutos que 50 pessoas passaram na internet durante sua sessão mais recente. Distribuição de Frequência e seus Gráficos Como fazer uma distribuição de frequência? 1. Determinar o número de classes (Recomenda-se de 5 a 20 classes); 2. Identificar a amplitude total e aferir a largura da classe; 3. Encontrar os limites, superior e inferior, de cada classe; Sol.: 1. 6 classes (criadas por nós) 2. Amplit. Total: 118-10 =108 - Largura da classe: 108/6= 18 3. A soma de f, ∑f, é igual ao número de entradas no conj. de dados amostrais. Distribuição de Frequência e seus Gráficos Ponto médio: é a metade da soma entre os valores do limite superior e inferior. No ex. anterior teríamos como ponto médio: 19, 38, 57, 76, 95 e 114. Frequência Relativa de uma classe: é um valor que corresponde à porcentagem dos dados que entra nessa classe, f/n. Frequência Acumulada de uma classe: é a soma da frequência daquela classe com a de todas as classes anteriores. Uma vez construída a tabela de distribuição de frequência, há alguns aspectos adicionais que auxiliam a melhorar a compreensão dos dados . Esses aspectos são o ponto médio, frequência relativa e cumulativa de cada classe. Gráfico das distribuições de frequência 1. Histograma de Frequência: é um gráfico de barras que representa a distribuição de frequência de um conjunto de dados. Possui as seguintes propriedades: as barras devem ser desenhadas encostadas entre si, no eixo vertical ficam as frequências das classes e no eixo horizontal as subdivisões. Uma vez que as barras consecutivas devem se encostar, elas começam e terminam nas fronteiras das classes. Pode-se marcar a escala horizontal tanto nos pontos médios como nas fronteiras de classe. Fronteiras das classes são os números que separam as classes sem formar lacunas entre elas. Fronteira inferior de cada classe= limite inferior - 0,5 Fronteira superior de cada classe=limite superior + 0,5 2. Polígono de Frequência Relativa: é um gráfico em forma de linha que enfatiza a mudança contínua nas frequências. Importante: Um histograma e seu polígono de frequência são frequentemente traçados juntos. A escala horizontal deve consistir nos pontos médios das classes, enquanto a vertical deve conter os valores apropriados da frequência. 3. Histograma de Frequência Relativa: uma variação do histograma clássico onde a escala vertical mede as frequências relativas e não as frequências. 4. Gráfico de Frequência Cumulativa (ogiva): tem como principal função identificar o quanto determinada classe é responsável ou não por um acréscimo na quantidade total. 1.Constrói-se uma distribuição de frequência que inclua as frequências acumuladas. 2. Define-se os eixos vertical e horizontal. O vertical terá as frequências acumuladas e no horizontal os pontos máximos das fronteiras das classes. 3. Conecta os pontos da esquerda para a direita, traçando uma reta. Outras Representações Gráficas 1. O Diagrama Ramo e Folhas: é uma forma de organizar os dados semelhante à distribuição de frequência. Esse divide os dados por sua ordem de grandeza. Um ou mais dígitos mais significativos são escolhidos para compor os ramos e, um ou mais dígitos menos significativos são escolhidos para compor as folhas. Com o ramo e folhas dividem-se as dezenas de um lado e as unidades do outro. Nota-se que os dado Estão mais concentrados nas dezenas 30 e 50. 2. Diagrama de pontos: deve-se traçar uma linha horizontal e dispor os valores das variáveis. Concluído isso, insere-se um ponto sobre cada ocorrência identificada. 3. Gráfico setorial (gráfico de pizza): é muito utilizado para visualização da distribuição de variáveis e diferentemente dos anteriores pode ser utilizado para variáveis qualitativas. Como exemplo vamos utilizar o exemplo do livro. Ex.: Construir um gráfico setorial sobre uma pesquisa realizada com 2,5 mil pessoas sobre a preferência do consumidor entre as 5 marcas mais famosas de água mineral. Vamos reescrever a tabela incluindo as porcentagens referentes à preferência do consumidor para marca da água mineral. 4. Gráfico de Pareto: combina um gráfico de barras com um gráfico de linhas. O princípio de Pareto é geralmente utilizado quando analisamos a frequência de problemas ou as causas em um processo e quando analisamos os problemas mais frequentes e queremos focar na solução dos mais significantes. O princípio de Pareto informa que, para a maior parte dos eventos, 80% deles vêm de 20% das causas, conhecido como 80/20. • Construa uma tabela listando os problemas nas linhas e a frequência de cada problema. • Organize a coluna de frequência em ordem decrescente. Com isso, temos uma representação gráfica que destaca as classes de maior relevância. • Adicione uma colunacom o total de frequência acumulada. • Adicione outra coluna com os valores percentuais das frequências acumuladas. • Gere dois tipos de gráficos combinados. Ex.: Levantamento sobre peças defeituosas em uma empresa de embalagem, para que esta pudesse reduzir custos. Note que defeitos do tipo “não selagem” são responsáveis por mais de 80% de todos os defeitos. Considerações Éticas A ética é fundamental no uso da estatística, de modo que apenas a verdade seja relatada sem que haja distorções de dados. Algumas situações de comportamento antiético: • Amostragem Tendenciosa: ocorre quando se escolhe um grupo que não representa totalmente uma população. • Amostras de pequenas dimensões: acarreta em informações suspeitas. • Representações de medida central mal escolhidas: esse tipo de problema geralmente envolve valores de média entre populações não uniforme. • Enviesamento Social: ocorre quando um pesquisador precisa coletar dados que são considerados socialmente indesejáveis. • Usar gráficos para criar uma boa (ou má) impressão: alteração de escalas em um gráfico, por exemplo, abre espaço para falsas impressões. Medidas de Posição As medidas de posição também chamadas de medidas de tendências central são valores únicos cuja função é representar o conjunto de dados com um todo. Medidas de Posição mais utilizadas: 1. Média (aritmética) : é a soma das entradas de um conjunto de dados dividida pelo número de entradas. Média Populacional 𝜇 = σ 𝑥 𝑁 Média Amostral ҧ𝑥 = σ 𝑥 𝑛 Ex.: Supondo que 8 crianças de uma sala de aula do oitavo ano possuam as seguintes idades: 13, 16, 15, 17, 13, 16, 15 e 15. A média é: (13+16+15+17+13+16+15+15)/8=120/8=15 Medidas de Posição 2. Mediana : a mediana é uma quantia que divide ao meio uma lista ordenada de valores. O número de entradas inferiores à mediana é exatamente igual ao número de entradas superiores. Se o conjunto de dados tem um número ímpar de entradas, a mediana é a entrada de dados do meio. Se o conjunto de dados tem o número par de entradas, a mediana é a média das duas entradas do meio. Utilizando o exemplo anterior: Ordenando os valores temos: 13, 13, 15, 15, 15, 16, 16 e 17. A mediana é (15+15)/2=15. Medidas de Posição 3. Moda: é aquela entrada que ocorre com maior frequência em um conjunto de dados. Ex.: 13, 13, 15, 15, 15, 16, 16 e 17. A moda é o número 15 que aparece 3 vezes. Dica: A moda é a única medida de tendência central que pode ser aplicado a valores qualitativos. Se nenhum valor é repetido o conjunto de dados não possui moda. E se duas entradas ocorrem com a mesma frequência elevada, cada entrada é uma moda e os dados são chamados bimodais. Medidas de Variação As medidas de variação, muitas vezes chamadas de medidas de dispersão, são usadas para descrever a variabilidade em uma amostra ou população. 1. Amplitude: é a diferença entre o maior e o menor valor presentes no conjunto de dados. Ex.: Preço de um remédio em várias farmácias. Ordenando os valores temos: R$ 8,20 R$ 8,55 R$ 9,35 R$ 9,50 R$ 9,75 R$10,00 R$ 10,25 A amplitude será R$ 10,25 - R$ 8,20 = R$2,05 IMPORTANTE: Pode apresentar um valor distorcido, se o conjunto de dados tiver um valor discrepante. Apesar de ser fácil de calcular, não informa nada sobre os dados intermediários do conjunto. Medidas de Variação 2. Desvio, Variância e Desvio Padrão. O desvio de uma entrada x em uma população é a diferença entre a entrada média μ do conjunto de dados. Desvio de x= x- μ Ex.: Desvio com relação ao preço do remédio de R$ 9,50 é R$ 9,50 – R$ 9,37 = R$ 0,13 Obs.: Note que o desvio é aplicado de forma individual às entradas, e não ao conjunto todo. A soma de todos os desvios é zero, logo não faz sentido calcular a média de todos os desvios. Para detectar como a distribuição de valores ocorre em toda amostra ou população é necessário o cálculo da Variância ou Desvio Padrão. Medidas de Variação Variância: a variância populacional de um conjunto de dados de uma população com “N” entradas é : Desvio Padrão: o desvio padrão populacional de um conjunto de dados de entrada “N” é a raiz quadrada da variância. Importante: A desvantagem da variância consiste no fato de suas unidades normalmente não terem sentido, por ficarem elevadas ao quadrado. Com o desvio padrão podemos retomar a unidade original. Medidas de Variação Ex. da Farmácia.: Variância σ² = 0,48 Desvio Padrão σ = 0,69 No caso do cálculo da variância e desvio padrão em amostras temos: Preços Remédios Desvio (x-μ) Quadrados (x-μ)² 8,20 -1,17 1,37 8,55 -0,82 0,67 9,35 -0,02 0,00 9,50 0,13 0,02 9,75 0,38 0,14 10,00 0,63 0,40 10,25 0,88 0,77 Medidas de Variação Interpretando o desvio padrão: Regra Empírica: Para dados com distribuição (simétrica) na forma de sino, o desvio padrão tem as seguintes características: 1. Cerca de 68% dos dados estão dentro de um desvio padrão em relação à Média. 2. Cerca de 95% do dados estão dentro de 2 desvios padrões em relação à média. 3. Cerca de 99,7% com 3 desvios padrão. Lembre-se: o desvio padrão indica quando os pontos dos dados tendem a estar próximos ou distantes do valor da média do conjunto. Ex.: A expectativa de vida de zebras de um determinado zoológico tem distribuição normal (simétrica). A expectativa de vida média de uma zebra é de 20,5 anos e o desvio-padrão é de 3,9 anos. Qual a probabilidade de uma zebra viver entre 16,6 e 24,4 anos ? Sol.: Utilizando-se a regra empírica: A altura média x é 20,5. A probabilidade de uma zebra viver entre 16,6 e 24,4 anos é de 34%+34%=68%. Medidas de Variação Obs.: Você deve ter notada que para calcular o desvio padrão e a variância, todas as entradas dos conjuntos de dados devem possuir a mesma unidade de medida. Quando isso não acontece, podemos utilizar o coeficiente de variação. Coeficiente de Variação: é uma medida relativa de variação que expressa a variabilidade dos dados independente da unidade de medida que é usada. Mede a variabilidade dos dados com relação a média da amostra. Quanto menor o coeficiente de variação, mais homogêneo é o conjunto de dados.
Compartilhar