Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Profª. Drª. Iara R. A. P. Bresolin Iara.bresolin@gmail.com UNIVERSIDADE FEDERAL DE SÃO PAULO – UNIFESP Eng. Química Bibliografia básica DEVORE, JAY L. Probabilidade e Estatística: para Engenharia e Ciências. Editora Thomson Learning, 2006. TRIOLA, M. F. Introdução à estatística. Editora LTC, 2011. BUSSAB, W. O., MORETTIN, P. A. Estatística Básica: Métodos Quantitativos. Editora Atual, 2002. O que é estatística? Estatística é a ciência que trata da coleta, da análise e da disposição de dados. Portanto, a estatística é uma ferramenta fundamental no processo de solução de problemas. Como coletar os dados Como classificar os dados Como analisar os dados Como utilizar os resultados da análise Indústria Indústria Peso de um produto; Dimensões de um produto; Propriedades físico-químicas de um produto; Diferentes medidas de um processo etc. Pesquisa científica Pesquisa científica Pesagem de reagentes; Determinação das concentrações de reagentes; Determinação das concentrações de produtos; Medidas das propriedades do meio reacional etc. Todas essas medidas apresentam VARIAÇÕES! Todas essas medidas apresentam VARIAÇÕES! A estatística fornece técnicas para avaliar estas “variações” Ramos da estatística 1) Estatística Descritiva: Consiste em resumir e descrever as características principais de um conjunto de dados. Via métodos gráficos Via cálculo de medidas numéricas 2) Estatística Inferencial: Usar informações de uma AMOSTRA para tirar conclusões (INFERIR) sobre toda POPULAÇÃO. População e amostra População: consiste em uma coleção de objetos bem definida. Quando são conhecidas as informações de todos os objetos (população). Amostra: consiste em um subconjunto de uma população. Quando são conhecidas as informações de um grupo dos objetos (amostra). Variável Toda característica que pode variar de elemento para elemento de uma dada população é uma variável. Consideremos o gênero dos alunos da sala: Essa dado é uma variável! Seja uma fábrica de parafusos: O diâmetro (d) de todos os parafusos produzidos em um determinado dia é uma variável! Variável numérica (quantitativa) O diâmetro de todos os parafusos produzidos em um determinado dia. Variável discreta: resultante de contagem Variável contínua: resultante de uma medida Variável categorizada (qualitativa) O gênero dos alunos do Campus. Variável discreta Número de alunos aprovados na UC de Estatística; Número de parafusos produzidos em um dia (não confundir com o diâmetro dos parafuso que é uma medida!); Número de votos que um candidato recebeu; Número de gols em uma partida de futebol. Variável contínua A medida do pH de uma dada solução 1) Podemos calcular por titulação, medindo-se a quantidade (volume) do agente titulante adicionado. 2,25 mL Volume titulante = 5,00 – 2,25 mL = 2,75 mL Mas, o volume pode ter sido: 2,7499 ou 2,7511 Variável contínua 2) Podemos medir o pH também com o auxílio de um pHmetro. Também nesse caso o pH real pode ser: 6,722; 6,725; 6,7233... ou seja, embora o volume de titulante ou o pH aqui só possa assumir valores definidos, tanto o volume como o pH são variáveis contínuas. Estatística descritiva Baseadas em visualizações gráficas de um conjunto de dados. Baseadas em cálculos numéricos de um conjunto de dados. Métodos gráficos: Dot Plot Sejam as temperaturas (ºC) de uma Cidade A medidas às 12:00 h: T = 30; 25; 32; 34; 31; 29; 28; 30; 32; 34; 34; 32; 30; 26; 43. Gráfico Ramo e Folha Seja o conjunto do número de multas de trânsito notificadas em uma certa via da Cidade de Diadema, observadas durante 16 dias: Dados observados brutos: 10; 15; 22; 9; 15; 16; 9; 24; 11; 20; 22; 25; 40; 28; 30; 31 Vamos organizá-los: (ordená-los em ordem crescente, por exemplo) Rol: 9; 9; 10; 11; 15; 15; 16; 20; 22; 22; 24; 25; 28; 30; 31; 40 “RAMO” “FOLHA” Histogramas - variáveis discretas Seja o conjunto do número de defeitos em um dado produto. Consideremos a seguinte amostra de 40 observações: Frequência de um dado valor x = Nº de vezes que o valor ocorre Frequência relativa do valor x = Frequência de um dado valor x Número total de observações Frequência relativa do valor (x = 5) = 6 = 0,15 40 Frequência percentual do valor (x = 5) = 15% Obs: A soma das frequências relativas = 1 Tabela de frequência Tabela de frequência Completar a tabela de frequência! Tabela de frequência Tabela de frequência Qual o percentual de produtos que apresentam no máximo 2 defeitos? Exercício Qual o percentual de produtos que apresentam no máximo 2 defeitos? Resposta = fr(0) + fr(1) + fr(2) = 0,225 ou 22,5% Exercício Colete os “n” dados. Os dados devem ser divididos em “Classes”. O número de classes são usualmente entre 5 e 20. O número de classes = número de dados (n) Amplitude Total: At = Valor máximo – Valor mínimo Histogramas - variáveis contínuas Sejam os valores de pH de 50 amostras medidos pelos alunos numa aula de laboratório. 2,6; 2,6; 2,8; 3,1; 4,0; 4,0; 4,0; 4,1; 4,2; 4,5; 5,1; 5,1; 5,2; 5,2; 5,3; 5,3; 5,3; 5,8; 5,9; 6,0; 6,0; 6,0; 6,0; 6,1; 6,1; 6,2; 6,2; 6,3; 6,4; 6,5; 6,6; 6,8; 7,0; 7,0; 7,0; 7,0; 7,0; 7,1; 7,2; 7,2; 7,2; 7,6; 7,7; 7,8; 7,9; 8,0; 8,6; 8,8; 8,9; 9,1. Número de classes = 50 = 7,07 = 7 Largura da classe = Amplitude total_ Número de classes = 9,1−2,6 = 0,928 ≈0,93 7 Exemplo 2,6; 2,6; 2,8; 3,1; 4,0; 4,0; 4,0; 4,1; 4,2; 4,5; 5,1; 5,1; 5,2; 5,2; 5,3; 5,3; 5,3; 5,8; 5,9; 6,0; 6,0; 6,0; 6,0; 6,1; 6,1; 6,2; 6,2; 6,3; 6,4; 6,5; 6,6; 6,8; 7,0; 7,0; 7,0; 7,0; 7,0; 7,1; 7,2; 7,2; 7,2; 7,6; 7,7; 7,8; 7,9; 8,0; 8,6; 8,8; 8,9; 9,1. Tabela de frequência 2,6; 2,6; 2,8; 3,1; 4,0; 4,0; 4,0; 4,1; 4,2; 4,5; 5,1; 5,1; 5,2; 5,2; 5,3; 5,3; 5,3; 5,8; 5,9; 6,0; 6,0; 6,0; 6,0; 6,1; 6,1; 6,2; 6,2; 6,3; 6,4; 6,5; 6,6; 6,8; 7,0; 7,0; 7,0; 7,0; 7,0; 7,1; 7,2; 7,2; 7,2; 7,6; 7,7; 7,8; 7,9; 8,0; 8,6; 8,8; 8,9; 9,1. Tabela de frequência Completar a tabela de frequência! Tabela de frequência Comportamento dos Histogramas Uma série temporal é uma sequência de realizações (observações) de uma variável ao longo do tempo. O objetivo é identificar padrões não aleatórios da variável de interesse. 0 5 10 15 20 25 30 35 40 45 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 nº de m ult as Tempo (dias) Gráfico da série temporal Cálculo de medidas numéricas: média amostral Notações: n = tamanho da amostra xi = i-ésima observação de uma dada variável “x” Sejam as temperaturas x (ºC) de uma cidade A, medidas às 12:00 h (horário local): Dados brutos x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 Calcular a média! x = Média amostralMédia amostral Sejam as temperaturas x (ºC) de uma cidade A, medidas às 12:00 h (horário local): Dados brutos x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 Calcular a média! x = 30,4 ºC Média amostral 0 2 4 6 8 10 12 14 16 0 5 10 15 20 25 30 35 40 45 50 Observações T e m p e ra tu ra ( ºC ) “outlier” Média populacional N = tamanho da população Em casos práticos, a média da população é inviável de ser calculada x Inferência Mediana Com os dados de uma amostra organizados em forma de ROL (na ordem crescente), a mediana amostral é representada pelo valor que divide o conjunto de dados em duas partes iguais. Considerando uma amostra com cinco observações dispostas em ordem crescente: x1 , x2 , x3 , x4 , x5 mediana amostral Mediana Observação: No caso de amostras com um número par de observações, a mediana consistirá na média das duas observações centrais. A mediana, diferentemente da média, praticamente não sofre efeitos pela presença de outlires, quer sejam valores muito baixos ou muito altos. x1 , x2 , x3 , x4 , x5 , x6 x3 + x4 2 mediana amostral Sejam as temperaturas x (ºC) de uma cidade A, medidas às 12:00 h (horário local): Dados brutos x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43 Rol: x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 43 x = 30,4ºC x = 30,0 ºC outlier Mediana Supondo que o valor de 43ºC seja agora 80ºC (um outlier maior). Rol: x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 80 x = 32,9ºC x = 30,0 ºC outlier Mediana Desvio entre a média e a mediana de uma população Considerando as seguintes distribuições populacionais: Analogamente à mediana, divide um conjunto de dados, organizados em ordem crescente, em subdivisões mais detalhadas. Seja uma amostra contendo 100 observações: Percentis x1 , x2 , x3 , x4 , …, x98 , x99 , x100 98o percentil Separa os 2% superiores dos restantes Média aparada A média aparada consiste no cálculo da média de um conjunto de dados, organizados em forma crescente, eliminando-se iguais quantidades de dados dos dois extremos. Consiste em uma medida de localização que apresenta as características da média e da mediana. Seja uma amostra contendo 100 observações: x1 , x2 , x3 , x4 , …, x98 , x99 , x100 A média aparada de 2% resulta em: x3 + x4 + … + x98 96 x = (2) Medidas de dispersão A soma dos desvios pode refletir o grau da dispersão: Zero?? Mas a dispersão existe! Então, a soma dos quadrados dos desvios é: Variância e desvio padrão Desvio padrão, bem como a variância, são medidas de dispersão. Elas medem o quanto cada elemento de uma distribuição se desviou de um valor central. No caso, este valor central é a média. Variância amostral (S2) Unidade de S2 unidade da média2 Desvio padrão amostral (S) Unidade de S unidade da média Variância da população (2) Desvio padrão população () Exemplo Dado o seguinte conjunto de valores de uma amostra: 2, 3, 4, 5, 7, 9 Calcule a média, variância e o desvio padrão O box Plot (Diagrama de Caixa) exibe simultaneamente vários aspectos: tendência central ou posição, dispersão ou variabilidade e afastamento da simetria. Ele é especialmente útil quando trabalhamos com conjuntos limitados de dados para os quais outras ferramentas (tais como histogramas, que requerem 25 – 400 pontos) podem ser inválidas ou insuficientes. Box Plot Box Plot Através da disposição dos valores em ordem crescente tem-se uma idéia clara sobre a localização e a dispersão dos dados. Para o gráfico box plot precisamos calcular: limite da haste inferior, limite da haste superior, primeiro quartil, terceiro quartil e a mediana. Quartis Quartis - outra forma de caracterizar quantitativamente a distribuição de uma variável. Consiste em encontrar os valores abaixo dos quais estão 25% dos dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro Quartil). Exemplo Dados brutos: 200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Dados ordenados (Rol): 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 25% dos dados estão abaixo de 3, assim, o Primeiro Quartil é Q1=3; 50% dos dados estão abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2=M=4,25; 75% dos dados estão abaixo de 5,75, assim, o Terceiro Quartil é Q3=5,75 O box plot é um gráfico construído com base no resumo dos cinco números, constituído por: Valor mínimo Primeiro quartil (Q1) Mediana (segundo quartil Q2) Terceiro quartil (Q3) Valor máximo Supondo (genérico): Q1 = 5; Q2 = 7; Q3 = 8. v v v v v v v v v v v v v v v v v v v v 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Supondo ainda: Mínimo = 3; Máximo = 15 v v v v v v v v v v v v v v v v v v v v 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Os valores atípicos, são valores muito afastados da grande maioria dos dados. Supondo que todas as observações sejam menores que ou iguais a 10, e apenas uma observação seja igual a 15. Então 15 é um valor atípico ou outliers. v v v v v v v v v v v v v v v v v v v v 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Consideremos o conjunto de dados que gerou o boxplot ; há 18 observações. A mediana divide o conjunto em duas partes, cada uma com 9 observações. A mediana será, então, a média dos dois valores centrais: O cálculo do primeiro e do terceiro quartis é feito calculando- se as medianas das duas metades – o primeiro quartil é a mediana da metade inferior e o terceiro quartil é a mediana da metade superior. Para os dados anteriores, cada metade tem 9 observações. Logo, a mediana deixará 4 observações abaixo e 4 observações acima, ou seja, a mediana de cada uma dessas partes será a quinta observação: Consideremos outro conjunto de dados como exemplo: Como há um número ímpar de observações (13), a mediana deixará 6 observações abaixo e 6 observações acima dela. Logo, a mediana é a 7ª observação. Q1 Q3 Q2 Neste caso, considera-se o valor da mediana para calcular o Q1=19 e Q3=28 Determinação de valores atípicos A regra que adotamos para identificação dos valores atípicos se baseia na amplitude interquartil AIQ, definida como a distância entre o primeiro e o terceiro quartis: AIQ = Q3 – Q1 Note queAIQ é o comprimento da caixa. Quaisquer valores abaixo de Q1 ou acima de Q3 por mais de 1,5×AIQ serão considerados valores atípicos e terão tratamento especial no box plot. Assim, serão valores atípicos os valores x tais que x < Q1 – 1,5×AIQ ou x > Q3 + 1,5×AIQ Para o nosso primeiro exemplo, com 18 observações, obtemos: Q1 – 1,5×AIQ = 5 – 1,5×(8 – 5) = 0,5 Q3 + 1,5×AIQ = 8 + 1,5×(8 – 5) =12,5 v v v v v v v v v v v v v v v v v v v v 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Compartilhar