Baixe o app para aproveitar ainda mais
Prévia do material em texto
Ana M. Abreu - 2006/07 Slide 0 Estatística Ana M. Abreu - 2006/07 Slide 1 Capítulo 1 Estatística Descritiva I-1 Introdução à organização e ao processamento de dados. I-2 Amostra e população; cuidados a ter na recolha da amostra. I-3 Ordenação dos dados. Agrupamento dos dados. Tabela de frequências. I-4 Medidas de localização e de dispersão. I-5 Representação gráfica dos dados: gráfico de barras, gráfico de caule-e-folhas, caixa-de- bigodes, histograma. Ana M. Abreu - 2006/07 Slide 2Introdução Um objectivo comum dos inquéritos e de outros processos de obtenção de dados é a recolha de informação de uma parte de um grupo, de modo a aprender algo sobre esse mesmo grupo. Por exemplo, podemos perguntar a 10% dos alunos da UMa qual a sua nota de entrada na Universidade e assim ter alguma informação sobre a totalidade dos alunos da UMa. Ana M. Abreu - 2006/07 Slide 3 v Dados estatísticos são observações (como medidas, respostas de inquéritos, registos de idade, sexo, naturalidade, ...) que foram recolhidas. v Estatística a informação estatística é constituída por dados, os quais são organizados, sumariados, apresentados, analizados, interpretados de modo a retirar conclusões baseadas nos dados. Definições Ana M. Abreu - 2006/07 Slide 4Definições v População a colecção completa de todos os elementos (pessoas, animais, medidas, ...) a serem estudados. A colecção é completa no sentido de incluir todos os indivíduos a serem estudados. v Amostra Um subconjunto da população escolhido correctamente, de modo a poder ser considerado como representativo da população. Ana M. Abreu - 2006/07 Slide 5 v Parâmetro uma medida numérica que descreve alguma característica de uma população. população parâmetro Definições Ana M. Abreu - 2006/07 Slide 6Definições v Estatística uma medida numérica que descreve alguma característica de uma amostra. amostra estatística Ana M. Abreu - 2006/07 Slide 7Definições v Dados quantitativos números que representam contagens ou medidas. Exemplo: número de palavras por frase. Ana M. Abreu - 2006/07 Slide 8Definições v Dados qualitativos (ou categorizados ou atributos) podem ser separados em diferentes categorias, que se distinguem por alguma característica não numérica. Exemplos: sexo dos clientes de um hotel, nacionalidade dos clientes de um hotel. Ana M. Abreu - 2006/07 Slide 9Definições Os dados quantitativos podem ser de tipo discreto ou contínuo. v Dados discretos surgem quando o número de valores possíveis é finito ou contável. 0, 1, 2, 3, . . . Exemplo: número de palavras por frase. Ana M. Abreu - 2006/07 Slide 10 v Dados contínuos (ou numéricos) surgem quando o número de valores possíveis é infinito e corresponde a alguma escala contínua que contempla uma amplitude de valores sem interrupções ou saltos. Definições 1,5 2,1 Exemplo: As alturas dos alunos da UMa. Ana M. Abreu - 2006/07 Slide 11 v escala nominal caracterizada por dados tais como nomes, etiquetas ou categorias. Os dados não têm qualquer relação de ordem (do mais pequeno para o maior). Exemplo: inquéritos cujas respostas são sim, não, sem opinião. Definições Outra forma de classificar os dados consiste em usar escalas. Ana M. Abreu - 2006/07 Slide 12 v escala ordinal envolve dados que podem ser ordenados, mas as diferenças entre eles ou não podem ser calculadas ou não fazem sentido. Exemplo: O nível de escolaridade. Definições Ana M. Abreu - 2006/07 Slide 13 v escala intervalar como a escala ordinal, mas onde é possível calcular diferenças. No entanto, não existe um zero natural (que pudesse corresponder a ausência da característica). Exemplo: As temperaturas em graus Celsius e em graus Fahrenheit (ºF=ºC(9/5)+32). Definições Ana M. Abreu - 2006/07 Slide 14 v escala absoluta ou de razões o zero da escala corresponde à anulação da característica em estudo. São possíveis comparações quer através de diferenças quer através de quocientes. Exemplo: Preço das propinas (0€ representa ausência de custo). Definições Ana M. Abreu - 2006/07 Slide 15Resumo - Escalas para os dados v Nominal - só categorias. v Ordinal - categorias com alguma ordem. v Intervalar - diferenças possíveis mas sem zero natural. v Absoluta ou de razões - diferenças possíveis e com zero natural. Ana M. Abreu - 2006/07 Slide 16 Recapitulando Até agora vimos: v Definições e termos básicos para descrever os dados v Parâmetros versus estatísticas v Tipos de dados (quantitativos e qualitativos) v Escalas de medidas Ana M. Abreu - 2006/07 Slide 17Cuidados a ter na recolha da amostra Ana M. Abreu - 2006/07 Slide 18Pontos fundamentais v Se uma amostra não é recolhida de forma apropriada, os dados podem ser tão inúteis, tal que, qualquer que seja a tortura a que sejam submetidos, não confessam seja o que for. v Tipicamente a aleatoriedade tem um papel importante na recolha de dados. Ana M. Abreu - 2006/07 Slide 19Pontos fundamentais v Dimensão da amostra usar uma amostra com dimensão suficiente para conseguir captar as características dos dados e recolhida de forma apropriada, tal como baseada na aleatoriedade. Ana M. Abreu - 2006/07 Slide 20 v Amostra Aleatória os membros da população são seleccionados de tal forma que cada membro tem igual possibilidade de ser escolhido. Definições v Amostra Aleatória Simples (de dimensão n) os indivíduos são seleccionados de tal forma que cada possível amostra de dimensão n tem a mesma possibilidade de ser escolhida. Ana M. Abreu - 2006/07 Slide 21Amostra Aleatória Selecção tal que cada um tem igual possibilidade de ser escolhido. Ana M. Abreu - 2006/07 Slide 22Amostragem Sistemática Seleccionar a partir de um ponto inicial e depois seleccionar a cada K elemento na população. Ana M. Abreu - 2006/07 Slide 23 Amostragem por conveniência Usar os resultados que são fáceis de obter. Ana M. Abreu - 2006/07 Slide 24Amostragem Estratificada subdividir a população em, pelo menos, dois subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (ou estratos). Ana M. Abreu - 2006/07 Slide 25Amostragem por Clusters dividir a população em secções (ou clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos clusters seleccionados. Ana M. Abreu - 2006/07 Slide 26 v Aleatória v Sistemática v Por conveniência v Estratificada v Por clusters Métodos de Amostragem Ana M. Abreu - 2006/07 Slide 27 v Estatística Descritiva resume ou descreve as características importantes de um conjunto conhecido de dados populacionais. v Estatística Inferencial usa dados amostrais para fazer inferências (ou generalizações) sobre uma população. Generalidades Ana M. Abreu - 2006/07 Slide 28Características importantes dos dados 1. Localização: Um valor representativo ou médio indica onde se situa o centro dos dados. 2. Variação: Uma medida do quanto os valores da amostra variam entre si. 3. Distribuição: A natureza ou a forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica). 4. Outliers: Valores amostrais que se situam muito afastados da maioria dos restantes valores amostrais. 5. Tempo: Algumas características podem se alterar ao longo do tempo. Ana M. Abreu - 2006/07 Slide 29Distribuição de Frequência v Distribuição de Frequência lista dos valores das observações (ou individuais ou por grupos de intervalos), juntamente com as correspondentes frequências ou contagens. Ana M. Abreu - 2006/07 Slide 30Distribuição de Frequência Ana M. Abreu - 2006/07 Slide 31Ponto Médio de uma Classe O ponto médio de uma classe determina-se adicionando os limites da classe (inferior e superior) e dividindo por dois. Pontos Médios 49.5 149.5 249.5 349.5 449.5 Ana M. Abreu - 2006/07 Slide 32Amplitude da Classe é a diferença entredois limites superiores consecutivos ou dois limites inferiores consecutivos. Amplitude da Classe 100 100 100 100 100 Ana M. Abreu - 2006/07 Slide 33 Razões para construir distribuições de frequência 1. Conjuntos de dados grandes podem ser resumidos. 2. Pode-se ganhar alguma perspectiva sobre a natureza dos dados. 3. Base para a construção de gráficos. Ana M. Abreu - 2006/07 Slide 34 Como construir uma tabela de frequências 3. Escolher o limite inferior da primeira classe. 4. Usar o limite inferior da primeira classe e a amplitude de classe para listar, numa coluna vertical, todos os limites inferiores. 5. Em seguida, listar os correspondentes limites superiores. 6. Percorrer os dados, assinalando com um traço vertical a classe onde se encontra cada dado. 1. Decidir o número de classes (habitualmente entre 5 e 20). Regra de Sturges: k=nº de classes ≈≈≈≈ 1+[log2n] 2. Calcular (aproximando por excesso) a amplitude da classe ≈≈≈≈ (maior valor) – (menor valor) número de classes Ana M. Abreu - 2006/07 Slide 35Frequência Relativa Frequência relativa = frequência da classe soma de todas as frequências 11/40 = 28% 12/40 = 30% etc. Frequência total = 40 Ana M. Abreu - 2006/07 Slide 36Frequência acumulada Frequências acumuladas Ana M. Abreu - 2006/07 Slide 37Recapitulando Acabamos de ver v Características importantes dos dados. v Distribuições de frequências. v Procedimentos para construir as distribuições de frequência. v Frequências relativas. v Frequências acumuladas. Ana M. Abreu - 2006/07 Slide 38 Medidas de localização e de dispersão Ana M. Abreu - 2006/07 Slide 39Notação ΣΣΣΣ denota a soma de um conjunto de valores. x é a variável usada habitualmente para representar os valores individuais. n representa o número de valores na amostra, ou seja, a dimensão da amostra. N representa o número de valores na população. Ana M. Abreu - 2006/07 Slide 40Notação µ pronuncia-se ‘mu’ e denota a média de todos os valores da população. x = n ΣΣΣΣ x pronuncia-se ‘x-barra’ e denota a média dos valores da amostra. x N µ = ΣΣΣΣ x Ana M. Abreu - 2006/07 Slide 41Definições v Mediana o valor central quando os dados estão ordenados. ❖ Se a dimensão da amostra é ímpar, a mediana corresponde ao valor que está no centro da amostra. ❖ Se a dimensão da amostra é par, a mediana corresponde à média dos dois valores que estão no centro da amostra. Ana M. Abreu - 2006/07 Slide 42 5.40 1.10 0.42 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (amostra de dimensão ímpar - valor exacto) MEDIANA é 0.73 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 0.73 + 1.10 2 (amostra de dimensão par – os dois valores centrais são distintos) MEDIANA é 0.915 Ana M. Abreu - 2006/07 Slide 43Definições v Moda o valor que ocorre com maior frequência. A moda nem sempre é única. Um conjunto de dados pode ser: Bimodal Multimodal Não ter Moda v é a única medida de localização que pode ser usada para os dados em escala nominal. Ana M. Abreu - 2006/07 Slide 44Exemplos a. 5.40 1.10 0.42 0.73 0.48 1.10 b. 27 27 27 55 55 55 88 88 99 c. 1 2 3 6 7 8 9 10 ï Moda é 1.10 ï Bimodal - 27 e 55 ï Não existe Moda Ana M. Abreu - 2006/07 Slide 45Média para dados agrupados Assuma que, em cada classe, todos os valores são iguais ao ponto médio da classe. x = ponto médio f = frequência Σ Σ Σ Σ f = n x = f ΣΣΣΣ (f • x) ΣΣΣΣ Ana M. Abreu - 2006/07 Slide 46 Pontos Médios 49.5 149.5 249.5 349.5 449.5 x = 11111111x49.5+12121212x149.5+14141414x249.5 +1111x349.5+2+2+2+2x449.5 40 = 177 Ana M. Abreu - 2006/07 Slide 47Definições v Simetria As observações distribuem-se de forma simétrica quando a metade esquerda do histograma correspondente é sensivelmente um espelho da metade direita. v Assimetria As observações distribuem-se de forma assimétrica se se prolongam mais para um dos lados do que para o outro. Ana M. Abreu - 2006/07 Slide 48 Ana M. Abreu - 2006/07 Slide 49Definições A amplitude de um conjunto de dados é a diferença entre o valor mais elevado e o valor mais pequeno. valor mais elevado valor mais pequeno - Ana M. Abreu - 2006/07 Slide 50Definições O desvio padrão de uma amostra é uma medida da variação dos valores em torno da média. ΣΣΣΣ (x - x)2 n - 1 S = Ana M. Abreu - 2006/07 Slide 51 • Uma forma mais simples do desvio padrão amostral, para efeitos de cálculo, é a que se segue: n (n - 1) s = n (ΣΣΣΣx2) - (ΣΣΣΣx)2 Ana M. Abreu - 2006/07 Slide 52 Desvio padrão amostral - algumas características v O desvio padrão é uma medida de variação de todos os valores da amostra em torno da média. v O valor do desvio padrão, s, é positivo. v O valor do desvio padrão, s, pode aumentar dramaticamente com a inclusão de um ou mais outliers na amostra. v As unidades do desvio padrão, s, são as mesmas dos elementos da amostra. Ana M. Abreu - 2006/07 Slide 53 Desvio padrão populacional 2ΣΣΣΣ (x - µ) N σσσσ = Esta fórmula é semelhante à anterior, mas neste caso é usada a média populacional e a dimensão da população. Ana M. Abreu - 2006/07 Slide 54Definições v Variância populacional ( ): quadrado do desvio padrão populacional .σ v A variância é uma medida de variação de um conjunto de valores e é igual ao quadrado do desvio padrão. v Variância amostral (s2): quadrado do desvio padrão amostral s. 2 Ana M. Abreu - 2006/07 Slide 55Variância - Notação quadrado do desvio padrão s σ σ σ σ 2 2 } Notação Variância amostral Variância populacional Ana M. Abreu - 2006/07 Slide 56Definições O coeficiente de variação (ou CV) de uma amostra, expresso em percentagem, descreve o desvio padrão relativamente à média. É uma medida sem unidades. •100% s x CV = σ µ •100%CV = PopulaçãoAmostra Ana M. Abreu - 2006/07 Slide 57 Desvio padrão para dados agrupados Usar os pontos médios de cada classe n (n - 1)S = n [ΣΣΣΣ(f • x 2)] - [ΣΣΣΣ(f • x)]2 Ana M. Abreu - 2006/07 Slide 58Definições v Q1 (1º Quartil) separa os primeiros 25% da amostra ordenada dos restantes 75%. v Q2 (2º Quartil) o mesmo do que a mediana; separa os primeiros 50% da amostra ordenada dos restantes 50%. v Q3 (3º Quartil) separa os primeiros 75% da amostra ordenada dos restantes 25%. Ana M. Abreu - 2006/07 Slide 59Quartis Q1, Q2, Q3 dividem os valores ordenados em 4 partes iguais 25% 25% 25% 25% Q3Q2Q1 (mínimo) (máximo) (mediana) Ana M. Abreu - 2006/07 Slide 60Percentis Assim como os quartis dividem os dados em 4 partes iguais, existem 99 percentis denotados P1, P2, . . . P99, os quais particionam os dados em 100 grupos. Percentil do valor x = • 100 nº de valores menores que x nº total de valores Ana M. Abreu - 2006/07 Slide 61 Representação gráfica dos dados Ana M. Abreu - 2006/07 Slide 62Histograma Um gráfico com barras, em que o eixo horizontal representa as classes dos valores da amostra e o eixo vertical a correspondente frequência. Ana M. Abreu - 2006/07 Slide 63 Histograma com as frequências relativas Tem a mesma forma e escala horizontal que o anterior, mas no eixo vertical estão indicadas as frequências relativas. Ana M. Abreu - 2006/07 Slide 64Polígono de frequências Usa segmentos de recta para ligar os pontos médios das classes. Ana M. Abreu - 2006/07 Slide 65Ogiva Semelhante ao anterior mas com as frequências acumuladas Ana M. Abreu - 2006/07 Slide 66Gráfico de barras Forma de representação gráfica para dados qualitativos Ana M. Abreu - 2006/07 Slide 67Gráfico de dispersão Representação de pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y Ana M. Abreu - 2006/07 Slide 68Gráfico de caule-e-folhas Representaos dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical) Ana M. Abreu - 2006/07 Slide 69Caixa-de-bigodes Ana M. Abreu - 2006/07 Slide 70Caixa-de-bigodes Ana M. Abreu - 2006/07 Slide 71Definições ❖A caixa-de-bigodes é um gráfico que consiste numa linha desde o mínimo até ao máximo (se não houver outliers), e numa caixa com extremos nos 1º e 3º quartis e divisão na mediana. ❖Para um conjunto de dados, o resumo de 5 números é formado pelo mínimo, 1º quartil, mediana, 3º quartil e máximo.
Compartilhar