Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Vital Prof. Maria Lídia Coco Terra Departamento de Estatística Universidade Federal da Paraíba - UFPB João Pessoa, 5 de outubro de 2011 Motivação • Por que o estudo da estatística? • Pesquisas científicas; • Testes de medicamentos; • Controle de qualidade de medicamentos e cosméticos; • Todo estudo ou experimento produz um conjunto de dados; • Como interpretar as informações recolhidas? Estatística Descritiva • Podemos dizer que a Estatística Descritiva é a base de uma boa análise estatística. • Não há uma pesquisa eficiente sem essa base. • O conjunto de técnicas que permite descrever, analisar e interpretar os dados numéricos referentes à uma população ou amostra define essa importante parte da Estatística. • O objetivo da Estatística Descritiva é sintetizar de uma forma compreensível toda informação contida em um conjunto de dados. • Esta síntese está na construção de tabelas, gráficos e cálculo de medidas que representem adequadamente a informação contida nos dados. Estatística Descritiva Em um sentido amplo, as funções da Estatística Descritiva são as seguintes: 1 Obtenção dos dados (coleta); 2 Organização e classificação dos dados; 3 Apresentação dos dados (através de tabelas e gráficos); 4 Cálculo de medidas que forneçam um resumo das informações contidas no conjunto de dados (medidas-resumo). Variáveis • Quando temos o interesse de investigar elementos em uma determinada pesquisa, é de nosso interesse analisar um resultado referente à uma ou mais características de interesse. • É da natureza dos dados em qualquer área do conhecimento que exista variação, ou ainda, variabilidade. • Nesse sentido, definimos como variável como sendo uma característica de interesse que está sujeita à variabilidade. Variáveis Alguns exemplos de variáveis: Nome da Variável Possíveis valores (ou rótulos) Sexo Masculino (1); Feminino (2) Estado Civil Solteiro(a) (1); Casado(a) (2); Viúvo(a) (3) Idade 0, 1, 2, 3, . . . Peso 0, 24.5, 100.2, . . . Altura 1.55, 2.10, . . . Variáveis Nesse contexto, temos então que Variável é qualquer característica sujeita a variação. • Algumas variáveis, como sexo e estado civil apresentam como possíveis resultados ou realizações uma qualidade (ou atributo); • Já outras variáveis como peso e altura (por exemplo) apresentam como possíveis realizações números resultantes de contagens ou medições. • Normalmente, são utilizadas letras (A, B, X, Y, Z, etc.) para representar as variáveis. • Conforme suas características particulares, as variáveis podem ser classificadas como: quantitativas e qualitativas Níveis de Mensuração das Variáveis (1) Variável Qualitativa: Uma variável é dita ser qualitativa quando apresenta como possíveis realizações qualidades ou atributos. Exemplos: Sexo, Estado Civil, Escolaridade, Bairro, Curso, Departamento, Etnia, etc. Níveis de Mensuração das Variáveis Variáveis qualitativas são divididas em dois tipos: (a) Nominais: Nomeiam, rotulam ou classificam um objeto, pessoa ou alguma característica por meio de números ou outros símbolos; Exemplos: Sexo, Bairro, etc. (b) Ordinais: As categorias mantém uma relação de ordem. Exemplos: Escalas de qualidade (Péssimo/Ruim/Regular/Bom/Ótimo), Escolaridade, etc. Níveis de Mensuração das Variáveis (2) Variável Quantitativa: Uma variável é dita ser quantitativa quando apresenta como possíveis realizações números ou quantidades. Níveis de Mensuração das Variáveis Variáveis quantitativas são divididas em dois tipos: (a) Discretas: Assumem apenas valores pertencentes a um conjunto finito ou enumerável; Exemplos: Número de filhos (0, 1, 2, . . .), Número de livros comprados (0, 1, 2, . . .), Número de acidentes de trânsito (0, 1, 2, . . .), etc. (b) Contínuas: Assumem qualquer valor num certo intervalo de variação. Exemplos: Peso, Altura, Renda, Preço do Dólar, Teor alcoólico de bebidas, Taxa de mortalidade, etc. Distribuição de Frequências • É utilizada para resumir toda a informação obtida, de modo a facilitar a análise; • Ao se estudar uma variável, é desejável conhecer o comportamento da mesma, analisando a ocorrência de todos os possíveis resultados obtidos a partir do conhecimento das informações; • Em outras palavras, estamos interessados em conhecer a distribuição dos dados. Dados Brutos São os dados obtidos através de algum procedimento estatístico, que estão disponíveis logo após a coleta, mas que não estão numericamente organizados. Exemplo: 50 crianças foram entrevistadas, fornecendo diversas informações. Em relação à variável IDADE, por exemplo, temos que: 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 Como se pode observar no exemplo, os valores estão dispostos de forma desordenda e pouca informação se consegue obter inspecionando os dados. Rol São os dados ordenados, de forma crescente ou decrescente. A vantagem de ordenar o conjunto de observações está em detectar de um modo mais amplo a variabilidade das mesmas. Note que dessa forma fica fácil de verificar os valores extremos (máximo e mínimo). Esse tipo de procedimento não é viável quando se tem um conjunto de dados muito grande, pois a análise se torna extremamente complicada. No exemplo anterior, dispondo os dados em ordem crescente, temos: 5 7 8 8 10 11 12 12 14 15 5 7 8 8 10 11 12 12 14 15 6 7 8 9 10 11 12 13 14 16 6 7 8 9 10 12 12 14 14 19 6 7 8 10 11 12 12 14 14 22 Amplitude Total É a diferença entre o maior e o menor valor observado da variável em estudo. Ou seja, AT = Xmáx − Xmín, onde, Xmáx representa o valor máximo observado da variável, e Xmín representa o valor mínimo observado da variável. No exemplo anterior, AT = 22− 5 = 17. Frequência Simples fi : É o número de vezes que o elemento aparece no conjunto de dados, ou o número de elementos pertencentes a uma classe ou categoria. Observe que k∑ i=1 fi = f1 + f2 + . . . + fk = n, onde n é o número de observações do conjunto de dados e k é o número de valores ou níveis que X assume. Em outras palavras, a soma das frequências absolutas simples é sempre igual ao número de observações do conjunto de dados. Distribuição de Frequências por Valores É o arranjo dos valores e suas respectivas frequências, ou seja, é uma tabela onde os valores da variável aparecem individualmente. Teremos uma tabela assim: Local do título da tabela de distribuição de frequências. Xi fi X1 Número de valores iguais a X1=f1 X2 Número de valores iguais a X2=f2 X3 Número de valores iguais a X3=f3 ... ... Xk Número de valores iguais a Xk=fk Σ f1 + f2 + . . . + fk = n Note que para cada Xi existe uma frequência fi associada. Dessa forma, teremos que i = 1, . . . , k . Em outras palavras, dizemos que a tabela possui k linhas. Distribuição de Frequências por Valores Exemplo: Construir a distribuição de frequências por valores, utilizando os dados do exemplo anterior. Distribuição de frequências por valores para o conjunto de dados em que foram coletadas as idades de 50 crianças: Xi fi 05 anos Número de crianças com 05 anos = 2 06 anos Número de crianças com 06 anos = 3 07 anos Número de crianças com 07 anos = 5 08 anos Número de crianças com 08 anos = 7 09 anos Número de crianças com 09 anos = 2 10 anos Número de crianças com 10 anos = 5 11 anos Número de crianças com 11 anos = 4 12 anos Número de crianças com 12 anos = 9 13 anos Número de crianças com 13 anos = 1 14 anos Número de crianças com 14 anos = 7 15 anos Número de crianças com 15 anos = 2 16 anos Número de crianças com 16 anos = 1 19 anos Número de crianças com 19 anos = 1 22 anos Número de crianças com 22 anos = 1 Número total de crianças (Σ) 2 + 3 + 5 + 7 + · · ·+ 1 + 1 = 50Distribuição de Frequências por Valores De forma resumida, a tabela anterior fica igual a Distribuição de frequências por valores para o conjunto de dados em que foram coletadas as idades de 50 crianças: Xi fi 05 2 06 3 07 5 08 7 09 2 10 5 11 4 12 9 13 1 14 7 15 2 16 1 19 1 22 1 Σ 50 Distribuição de Frequências por Classes Classe de frequência, ou, simplesmente, classe, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Por exemplo, Distribuição de frequências por classes para as idades das 50 crianças na amostra. Classe de Idade (Faixa Etária) fi 05 ` 08 10 08 ` 11 14 11 ` 14 14 14 ` 17 10 17 ` 20 1 20 ` 23 1 Σ 50 Número de Classes (c) Não há uma fórmula exata para o cálculo do número de classes. Em geral, utiliza-se um dos dois métodos a seguir: (a) c = 5, para n ≤ 25 e c ∼= √n, para n > 25, onde n é o número de observações. (b) Regra de Sturges: c ∼= 1 + 3, 3 log10 n, onde n é o número de observações. Exemplo: Considerando novamente o conjunto de dados dos exemplos anteriores, temos (a) n = 50 > 25, então, c ∼= √ 50 ∼= 7, 07 ∼= 7 (aproximação por falta). (b) c ∼= 1 + 3, 3 log10 50 ∼= 1 + 3, 3× 1, 69897 ∼= 6.606601 ∼= 7 (aproximação por excesso). Amplitude das Classes (h) Deve-se, em geral, construir classes de mesma amplitude, a qual pode ser obtida através da expressão: h ∼= AT c . Observação: h deve ser arredondado para o maior inteiro. No exemplo, h ∼= 177 ∼= 2, 428571 ∼= 3. Neste caso, o número de classes pode não corresponder ao número calculado. Limites de Classes (LI : Limite Inferior e LS: Limite Superior) Podemos expressar os limites das classes de várias formas: 1 LI a` LS : considera valores entre LI e LS , incluindo LI e LS . Exemplo: 10 a` 12. 2 LI ` LS : considera valores entre LI e LS , incluindo LI e excluindo LS . Exemplo: 10 ` 12. 3 LI a LS : considera valores entre LI e LS , excluindo LI e incluindo LS . Exemplo: 10 a 12. 4 LI − LS : não determina claramente se LI e LS devem ser considerados ou não. Exemplo: 10− 12. Utilizaremos a forma 2! Ponto Médio da Classe (xi) É a média aritmética entre o limite superior e o limite inferior da classe. Ou seja, xmédio = LI + LS 2 . Exemplo: 10 ` 12. xmédio = 10+122 = 222 = 11. Distribuição de Frequências por Classes Distribuição de frequências por classes para as idades das 50 crianças na amostra. Classe de Idade (Faixa Etária) fi 05 ` 08 10 08 ` 11 14 11 ` 14 14 14 ` 17 10 17 ` 20 1 20 ` 23 1 Σ 50 Tipos de Frequências Uma tabela de frequências pode representar e caracterizar um dos tipos de frequências abaixo: • Frequência Simples; • Absoluta; • Relativa; • Frequência Acumulada; • Absoluta; • Relativa; Frequências Simples (a) Frequência Simples Absoluta (fi ): é o número de repetições de um valor individual ou de uma classe de valores da variável. Neste caso, assuma que k será o número de classes existentes. Temos que k∑ i=1 fi = f1 + . . . + fk = n. (b) Frequência Simples Relativa (fri ): representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. Ou seja, fri = fin . Neste caso, temos que k∑ i=1 fri = fr1 + . . . + frk = 1. Frequências Acumuladas • Muitas vezes é interessante saber qual o número acumulado de dados até uma determinada classe. • Neste caso, é conveniente somar em uma coluna à parte a frequência de cada classe com a das anteriores. • Podemos fazer este procedimento tanto para as frequências simples absolutas quanto para as frequências simples relativas. Roteiro para a Elaboração de uma Distribuição de Frequências por Classes Um roteiro para construção de tabelas de frequências pode ser descrito pelos seguintes passos: 1 Construção do Rol; 2 Determinação da Amplitude Total (AT ); 3 Determinação do Número de Classes (c); 4 Determinação da Amplitude das Classes (h); 5 Determinação dos limites das classes (LI e LS); 6 Construção da tabela de frequências, utilizando um ou mais tipos de frequências. São utilizadas tipicamente a frequência simples absoluta, a frequência simples relativa, a frequência acumulada absoluta e a frequência acumulada relativa. Distribuição de Frequências por Classes Voltando ao exemplo anterior. Distribuição de frequências por classes para as idades das 50 crianças na amostra. Classe de Idade (Faixa Etária) fi fri FA FRA 05 ` 08 10 1/5 10 1/5 08 ` 11 14 7/25 24 12/25 11 ` 14 14 7/25 38 19/25 14 ` 17 10 1/5 48 24/25 17 ` 20 1 1/50 49 49/50 20 ` 23 1 1/50 50 1 Σ 50 1 − − Gráficos Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os dados e determinada figura geométrica, de tal modo que cada classe seja representado por uma figura proporcional. A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais: 1 Simplicidade: indispensável devido à necessidade de levar a uma rápida apreensão do sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de importância secundária. 2 Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. 3 Veracidade: indispensável qualquer comentário, posto que, se não representa uma realidade, o gráfico perde sua finalidade. Gráficos Quanto ao critério da forma, os gráficos podem ser classificados em: 1 Diagramas: São gráficos geométricos dispostos em duas dimensões. É o tipo de gráfico mais utilizado na representação de séries estatísticas e se apresentam através de uma grande variedade de tipos. 2 Cartogramas: São ilustrações relativas a cartas geográficas. Largamente utilizados em geografia, história, demografia e epidemiologia. 3 Estereogramas: Representam volumes e são apresentados em três dimensões. Observação: Trataremos, neste curso, apenas dos diagramas, por serem os gráficos mais utilizados. Principais Tipos de Diagramas Gráficos em Barras Têm a finalidade de comparar grandezas por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Neste tipo de gráfico, os retângulos são dispostos horizontalmente, como barras. Cada barra representa a intensidade ou frequência de uma categoria ou atributo. Os espaços existentes entre as barras devem ser iguais. Exemplo: Gráficos em Colunas Prestam-se à mesma finalidade que os gráficos em barras, sendo preferíveis a estes últimos quando as legendas das categorias forem curtas. Gráficos em Linhas São frequentemente utilizados na representação de séries de tempo. As linhas são mais eficientes neste tipo de gráfico porque permitem a detecção de flutuações ou mudanças intensas nas séries e também possibilitam a representação de várias séries no mesmo gráfico. Para construir um gráfico em linhas, basta marcar os pontos correspondentes às grandezas e uní-los através de segmentos de reta. Gráficos em Setores • São utilizados para representar valores absolutos ou porcentagens complementares. São úteis quando se deseja comparar cada valor da classe com o total. • A construção de um gráfico de setores parte do fato que o número total de graus de um arco de circunferência é 360◦. Exemplo: Considere os dados da seguinte tabela. Número de acidentes de trânsito por tipo de veículo na Região Metropolitana de João Pessoa, em setembro de 2007. Tipo de Veículo No¯ de acidentes Automóvel de passeio 243 Caminhão 123 Ônibus 97 Motocicleta 415 Total 878 continuação 878−−−−−−360 243−−−−−− x de onde obtemos que x = 243×360 ◦ 878 = 87480 878 ∼= 99.65◦. Repetindo o processo, obtemos os ângulos correspondentes às outras componentes da série. Exemplo O gráfico em setorda tabela anterior é: Gráficos Representativos de Distribuições de Frequências Histograma e Polígono de Frequência É a representação gráfica de uma distribuição de frequências por meio de retângulos justapostos, cujas áreas são proporcionais às frequências das classes. Vale mencionar que, tanto as frequências absolutas simples quanto as relativas simples podem ser representadas através de histogramas. Polígono de Frequências: é obtido unindo-se os pontos médios das bases superiores de cada retângulo através de segmentos de retas. Exemplo: Considere os dados da tabela abaixo. Tabela: Idade de Uma Amostra de Alunos da Escola X, 2007 Idade fi FA fri FRA 2 ` 4 3 3 3/26 3/26 4 ` 6 5 8 5/26 8/26 6 ` 8 10 18 10/26 18/26 8 ` 10 6 24 6/26 24/26 10 ` 12 2 26 2/26 1 Σ 26 − 1 − Histograma e Polígono de Frequência Medidas de Posição Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências. Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida. Estes índices estatísticos são as Medidas de Posição que são também chamadas de medidas de tendência central e estabelecem valores em torno dos quais os dados se distribuem. Dizemos ainda que esse nome é dado pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Média Aritmética Simples Se dispomos de um conjunto de valores da amostra (ordenados ou não) podemos calcular sua média aritmética simples por X = n∑ i=1 Xi n = X1 + · · ·+ Xn n , no caso amostral, em que n representa o número de indivíduos da amostra. Média Aritmética Simples Exemplo: Abaixo, temos uma amostra de 10 crianças de 5 anos de idade em uma creche de João Pessoa, onde foram coletadas informações referentes a seus pesos (em Kg). 23, 0 20, 2 22, 0 19, 0 25, 0 28, 8 24, 0 21, 0 27, 0 21, 0 Temos que n = 10 e obtemos X através de X = 23, 0 + 20, 2 + 22, 0 + 19, 0 + 25, 0 + 28, 8 + 24, 0 + 21, 0 + 27, 0 + 21, 0 10 = 230, 0 10 = 23, 0. Média Aritmética Ponderada Caso sejam atribuídos “pesos” ou “ponderações” às observações, podemos calcular sua média aritmética ponderada por X = n∑ i=1 wiXi n∑ i=1 wi = w1X1 + . . . + wnXn w1 + . . . + wn , em que n representa o número de indivíduos da amostra e w1, . . . ,wn são os pesos das observações. Média Aritmética Ponderada Exemplo: Sejam as notas de 5 provas de um aluno de farmácia e os pesos atribuídos a cada prova: Notas 7, 0 3, 7 4, 9 6, 6 7, 2 Pesos 1 1 2 3 3 A média aritmética ponderada das notas pode ser obtida por X = 7, 0× 1 + 3, 7× 1 + 4, 9× 2 + 6, 6× 3 + 7, 2× 3 1 + 1 + 2 + 3 + 3 = 7, 0 + 3, 7 + 9, 8 + 18, 8 + 21, 6 10 = 61, 9 10 = 6, 19. Média Aritmética de Dados Tabulados Não-agrupados em Classes Quando os dados estão dispostos em uma tabela de freqüências por valores, a média aritmética pode ser obtida através de X = k∑ i=1 fiXi k∑ i=1 fi = f1X1 + . . . + fkXk f1 + . . . + fk = f1X1 + . . . + fkXk n , em que n representa o número de indivíduos da amostra (Note que k∑ i=1 fi = n) e f1, . . . , fk são as freqüências simples absolutas dos k valores. Média Aritmética de Dados Tabulados Não-agrupados em Classes Exemplo: Tabela: Número de dentes com cárie em amostra de crianças de 7 anos de idade da segunda série do colégio X. Setembro de 2007 No¯ de dentes com cárie fi fiXi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 Σ 13 25 Fonte: Dados Hipotéticos Média Aritmética de Dados Tabulados Não-agrupados em Classes Obtemos o número médio de dentes com cárie por X = 3× 0 + 2× 1 + 4× 2 + 2× 3 + 1× 4 + 1× 5 3 + 2 + 4 + 2 + 1 + 1 = 25/13 = 1, 923. Propriedades da Média Aritmética P1) A soma dos desvios com relação à média é nula, isto é, n∑ i=1 (Xi − X ) = 0. Prova: Seja X1, . . . ,Xn um conjunto de n valores. A média aritmética desse conjunto pode ser obtida por X = n∑ i=1 Xi n . Podemos escrever n∑ i=1 (Xi − X ) como n∑ i=1 (Xi − X ) = n∑ i=1 Xi − n∑ i=1 X = n∑ i=1 Xi − nX = n∑ i=1 Xi − n n∑ i=1 Xi n = n∑ i=1 Xi − n∑ i=1 Xi = 0. continuação P2) Somando-se ou subtraindo-se uma constante “a” a todos os valores do conjunto, a média fica aumentada ou diminuida dessa constante. Prova: Seja X1, . . . ,Xn um conjunto de n valores. A média aritmética desse conjunto pode ser obtida por X = X1+...+Xnn . Seja agora, um conjunto Y1, . . . ,Yn onde cada Yi , i = 1, . . . , n é definido por Yi = Xi + a, ou seja, Y1 = X1 + a; Y2 = X2 + a ; . . . ;Yn = Xn + a. A média do conjunto Y1, . . . ,Yn pode ser obtida por Y = Y1 + Y2 + . . . + Yn n = X1 + X2 + . . . + Xn + n termos︷ ︸︸ ︷ a + a + . . . + a n = X1 + . . . + Xn n + n · a n = X + a. continuação P3) Multiplicando-se ou dividindo-se uma constante “b” a todos os valores do conjunto, a média fica multiplicada ou dividida por essa constante. Prova: Seja X1, . . . ,Xn um conjunto de n valores. A média aritmética desse conjunto pode ser obtida por X = X1+...+Xnn . Seja agora, um conjunto Y1, . . . ,Yn onde cada Yi , i = 1, . . . , n é definido por Yi = b · Xi , ou seja, Y1 = b · X1; Y2 = b · X2; . . . ; Yn = b · Xn. A média do conjunto Y1, . . . ,Yn pode ser obtida por Y = Y1 + Y2 + . . . + Yn n = b · X1 + b · X2 + . . . + b · Xn n = b · (X1 + . . . + Xn) n = b · X1 + . . . + Xn n = b · X . Observação: A prova para a divisão é análoga. Vantagens e desvantagens da média V 1 É a medida mais conhecida e de maior uso; V 2 É facilmente calculável; V 3 Pode ser tratada algebricamente; V 4 Serve para compararmos conjuntos semelhantes; V 5 É particularmente indicada para dados que possuem os valores simétricos em relação a um valor médio e de frequência máxima (um histograma pode ajudar nessa identificação); D1 É uma medida de tendência central que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é fortemente influenciada pelos valores extremos (grandes) do conjunto; D2 Não pode ser calculada para distribuições de freqüências com limites indeterminados (indefinidos); D3 Só deve ser utilizada quando a distribuição dos dados for simétrica (normal ou Gaussiana).
Compartilhar