Baixe o app para aproveitar ainda mais
Prévia do material em texto
�PAGE � �PAGE �12� CONCEITOS BÁSICOS ESTATÍSTICA: Ciência (ou método) que trata da coleta, organização, descrição e análise de dados. Pode ser dividida em duas áreas: ESTATÍSTICA DESCRITIVA: trata da organização e descrição de dados. ESTATÍSTICA INFERENCIAL OU INDUTIVA: trata da análise e interpretação de dados POPULAÇÃO (OU UNIVERSO): Conjunto de elementos que possuem alguma característica em comum e que interessa estudar. Quando estudamos todos os elementos de uma população, estamos fazendo um CENSO ou um RECENSEAMENTO. AMOSTRA: É um subconjunto de uma população. Quando estudamos apenas uma amostra de uma população, estamos fazendo uma AMOSTRAGEM. VARIÁVEL: É a característica de interesse dos elementos de uma população. Uma variável pode ser: QUALITATIVA: expressa uma qualidade ou um atributo. - NOMINAL: fornece categorias distintas entre si (ex: estado civil ou gênero dos elementos de uma população). - ORDINAL: fornece categorias ordenadas de acordo com a intensidade do fenômeno (ex: classe social ou nível de escolaridade dos elementos de uma população). QUANTITATIVA: expressa uma quantidade. - DISCRETA: assume valores isolados ao longo de uma escala (ex: número de filhos ou número de concursos prestados pelos elementos de uma população). - CONTÍNUA: pode assumir qualquer valor ao longo de uma escala (ex: peso ou altura dos elementos de uma população). ESTATÍSTICA DESCRITIVA I - ORGANIZAÇÃO DE DADOS: SÉRIE ESTATÍSTICA: Conjunto de dados organizados de acordo com algum critério (tempo, local ou categoria). Pode ser apresentada por meio de tabelas e/ou gráficos. Ex 1: Número de estabelecimentos de saúde no Brasil 1986 a 2009 Ano Número de estabelecimentos 1986 30872 1987 32450 1988 33632 1989 34831 1990 35701 1992 49676 1999 56134 2002 65342 2005 77004 2009 94070 FONTE: IBGE – Pesquisa de Assistência Médico-Sanitária – 1976/2009 Ex. 2: Capitais brasileiras com maior prevalência de incapacidade funcional em mobilidade de idosos com 80 anos ou mais - 2000 Capital Incidência (%) Teresina 62,6 Rio Branco 58,2 Aracaju 57,7 Maceió 57,3 João Pessoa 56,1 Recife 56,0 Natal 55,0 Belém 54,1 Palmas 52,0 Fortaleza 51,3 FONTE: IBGE – Censo Demográfico 2000 Acima, vimos dois exemplos de séries (uma temporal e outra geográfica) apresentadas sob a forma de tabelas. Vamos falar um pouco sobre gráficos. Alguns dos principais tipos de gráficos são: GRÁFICO DE LINHA: Mostra, por meio de uma linha, a evolução de um fenômeno. Por isto, é particularmente apropriado para representar uma série temporal. Exige que se trabalhe com algum dado contínuo (como o tempo), uma vez que a linha desenhada expressa a noção de continuidade. Número de estabelecimentos de saúde no Brasil 1986 a 2009 FONTE: IBGE – Pesquisa de Assistência Médico-Sanitária – 1976/2009 GRÁFICO DE COLUNAS OU DE BARRAS: Expressa por meio de colunas (verticais) ou de barras (horizontais) as grandezas para um dado fenômeno. De uma maneira geral, qualquer tipo de dado pode ser representado por um gráfico de colunas ou um gráfico de barras. Capitais brasileiras com maior prevalência de incapacidade funcional em mobilidade de idosos com 80 anos ou mais - 2000 FONTE: IBGE – Censo Demográfico 2000 GRÁFICO DE SETORES: É apropriado para representar divisões percentuais de um todo. Consiste em dividir uma circunferência em setores correspondendo a cada uma das categorias da variável. Preferencialmente, usamos este gráfico quando trabalhamos com uma variável qualitativa nominal. Estado civil para uma amostra de alunos da universidade X – 2012 FONTE: Setor de Registros DISTRIBUIÇÃO DE FREQUÊNCIAS: É uma tabela em que os valores (ou categorias) de uma variável são associados às suas frequências (número de repetições). POR PONTO: os valores (ou categorias) são listados individualmente. Ex: Número de disciplinas matriculadas por uma amostra de alunos Universidade X – 2012/2 Número de disciplinas Número de alunos 1 12 2 28 3 44 4 50 5 23 6 13 7 10 Total 180 FONTE: Setor de Registros Elementos desta distribuição de freqüências: Valores observados (X) Frequências absolutas simples (f) Se, por exemplo, quisermos nos referir à frequência absoluta simples da terceira linha, escreveremos f3. Neste exemplo, esta frequência é 44, que significa que 44 alunos estão matriculados em 3 disciplinas. OBSERVAÇÃO: Se fôssemos construir um gráfico para esta tabela, o mais indicado seria o gráfico de colunas. POR INTERVALOS OU CLASSES: os valores da variável são divididos em classes e conta-se o número de repetições de cada classe. Ex: Peso para uma amostra de alunos Universidade X – 2012/2 Peso (kg) Número de alunos 45 (( 50 5 50 (( 55 17 55 (( 60 24 60 (( 65 38 65 (( 70 35 70 (( 75 29 75 (( 80 14 80 (( 85 12 85 (( 90 6 Total 180 FONTE: Ambulatório Elementos desta distribuição de frequências: frequência absoluta simples (f): no exemplo, f3=24, significando que 24 alunos pesam de 55 kg a menos de 60 kg. limite inferior de classe (li): indica o ponto de início de cada classe. limite superior de classe (ls): indica o fim de cada classe. amplitude de classe (h): indica a extensão de cada classe. . No exemplo, Ponto médio de classe (X): indica o ponto central do intervalo, usado como representante de todos os valores contidos na classe. �� EMBED Equation.2 . No exemplo, OBSERVAÇÃO: Se fôssemos fazer um gráfico para esta tabela, o mais indicado seria um gráfico de colunas, colocando no eixo horizontal os limites de classe (inferiores e superiores). Neste caso em particular, o gráfico de colunas recebe o nome de HISTOGRAMA. Outra alternativa seria substituir cada intervalo pelo seu ponto médio. Desta forma, passaríamos a ter um gráfico de linha que é chamado de POLÍGONO DE FREQUÊNCIAS. TIPOS DE FREQUÊNCIAS QUE PODEM APARECER EM UMA DISTRIBUIÇÃO: ABSOLUTAS: trabalham com o número de observações: - SIMPLES (f): em cada linha da tabela. - ACUMULADAS (F): até cada linha da tabela. RELATIVAS: trabalham com proporções ou percentuais de observações: - SIMPLES (fr): em cada linha da tabela. - ACUMULADAS (Fr): até cada linha da tabela. Vamos voltar à tabela do peso para a amostra de alunos e complementá-la com as frequências vistas: Peso para uma amostra de alunos Universidade X – 2012/2 Peso (kg) No de alunos (f) F fr (%) Fr (%) 45 (( 50 5 5 2,8 2,8 50 (( 55 17 22 9,4 12,2 55 (( 60 24 46 13,3 25,5 60 ((65 38 84 21,1 46,6 65 (( 70 35 119 19,4 66,0 70 (( 75 29 148 16,1 82,1 75 (( 80 14 162 7,8 89,9 80 ((85 12 174 6,7 96,6 85 (( 90 6 180 3,3 100,0 Total 180 - 100,0 - FONTE: Ambulatório Vejamos algumas interpretações: f4= 38 alunos pesam de 60 a menos de 65 kg. F5= 119 alunos pesam de 45 a menos de 70 kg. fr2= 9,4% dos alunos pesam de 50 a menos de 55 kg. Fr6= 82,1% dos alunos pesam de 45 a menos de 75 kg. F7-F3=162-46= 116 alunos pesam de 60 a menos de 80 kg. EXERCÍCIO 1: Os dados a seguir representam o número de sessões semanais de fisioterapia realizados pelos pacientes de uma clínica. Construa, para estes dados, a distribuição de frequências mais indicada. 4 2 3 1 5 3 2 3 4 2 3 3 3 2 3 4 2 5 4 1 2 5 3 4 3 3 2 2 2 3 EXERCÍCIO 2: Os dados a seguir representam o tempo gasto (em minutos) pelos funcionários de uma empresa pararealizar uma tarefa. Construa, para estes dados, uma distribuição de frequências com cinco classes de amplitudes iguais entre si. 22 26 29 20 33 27 39 28 30 25 28 32 31 22 26 28 32 29 31 28 30 37 21 23 34 25 38 27 29 30 21 31 37 25 28 24 26 28 28 31 27 28 36 32 21 30 25 26 27 29 II - DESCRIÇÃO DE DADOS: É feita através de medidas sintéticas que dão informações sobre determinadas características do conjunto. MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO: Dão informações sobre o posicionamento de um conjunto de dados. MÉDIA ARITMÉTICA: É um valor abstrato que dá uma noção sobre o nível geral do conjunto. População: , onde X representa os valores observados da variável e N representa o número de elementos da população. Amostra: , onde n representa o número de elementos da amostra EXEMPLO 1: Os dados a seguir representam o número de consultas médicas realizadas no último ano por uma amostra de adultos de uma comunidade. Determine a média. 2 3 1 3 1 2 4 2 Isto significa que os adultos dessa amostra realizaram, em média, 2,25 consultas médicas no último ano. EXEMPLO 2: Considere os dados a seguir, que representam o número de dependentes para uma amostra de funcionários de uma empresa. Determine o valor da média. Número de dependentes Número de funcionários 0 17 1 25 2 32 3 21 4 12 5 8 Total 115 Neste caso, como queremos calcular o número médio de dependentes por funcionário, devemos observar que cada valor ocorreu várias vezes (por exemplo, o valor 2 ocorreu 32 vezes) e deve ser somado tantas vezes quantas ele ocorreu. Isto pode ser feito simplesmente multiplicando-se cada valor (X) pela sua frequência (f): Em média, cada funcionário da amostra tem 2,09 dependentes. O procedimento que foi usado para obter a média, neste caso, corresponde ao procedimento de uma média ponderada, em que as frequências correspondem aos pesos de cada um dos valores observados. A fórmula que representa este procedimento é dada por: EXEMPLO 3: A seguir, encontramos a idade para uma amostra de alunos de uma universidade. Determine a idade média para esta amostra de alunos. Idade (anos) Número de alunos 18 (( 20 27 20 (( 22 28 22 (( 24 19 24 (( 26 11 26 (( 28 7 28 (( 30 4 Total 96 Neste caso, devemos usar o mesmo procedimento do exemplo anterior, ou seja, devemos usar as frequências como pesos. A única diferença é que, como não temos os valores observados da variável, usamos os pontos médios de cada classe. Idade (anos) Número de alunos X fX 18 (( 20 27 19 513 20 (( 22 28 21 588 22 (( 24 19 23 437 24 (( 26 11 25 275 26 (( 28 7 27 189 28 (( 30 4 29 116 Total 96 - 2118 , o que significa que cada aluno da amostra tem, em média, 22,06 anos. PROPRIEDADES DA MÉDIA ARITMÉTICA. A média é sensível a todos os valores do conjunto. Isto pode constituir uma desvantagem, pois ela é muito afetada por valores extremos. Isto fica mais evidenciado no exemplo a seguir, relativo aos salários mensais, em salários mínimos, para uma amostra de funcionários. 3 4 5 2 3 49 salários mínimos. Facilmente podemos observar que este valor não representa bem o conjunto. A soma dos valores dos desvios das observações em relação à média do conjunto é zero, ou seja, ou . Se somarmos, subtrairmos, multiplicarmos ou dividirmos todos os valores do conjunto por uma constante, a média fica somada, subtraída, multiplicada ou dividida por esta constante. Suponhamos, por exemplo, que os dados abaixo representem o salário, em número de salários mínimos, de uma amostra de funcionários no mês de fevereiro. 4 5 6 7 salários mínimos Se cada funcionário receber um abono de um salário mínimo no mês de março, teremos a seguinte situação: 5 6 7 8 salários mínimos, que corresponde à média original (5,5) mais o abono de um salário mínimo. MEDIANA: Divide um conjunto ordenado em dois grupos de iguais tamanhos, de forma que metade das observações é menor ou igual à mediana e a outra metade é maior ou igual à mediana. Simbologia: População: e Amostra: Se o número de observações for ímpar, a mediana será o valor central; Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. EXEMPLO 4: Voltando aos dados do exemplo 1 (número de consultas médicas), encontre o valor da mediana. Neste caso, a primeira coisa a fazer é ordenar os dados: 1 1 2 2 2 3 3 4 Como temos 8 observações, a mediana é a média da quarta e quinta observações, ou seja, Isto significa que metade dos adultos realizou duas consultas ou menos e a outra metade realizou duas ou mais consultas. MODA: É simplesmente o valor que mais se repete em um conjunto. Podem existir conjuntos com apenas uma moda ou com duas ou mais modas. Além disto, podem existir conjuntos que não possuam moda. Simbologia: População: e Amostra: EXEMPLO: No exemplo 1, a moda é 2, ou seja, o mais comum é realizar duas consultas. No exemplo 2, a moda também é 2, que é o número de dependentes mais frequente por funcionário. QUESTÃO: Imagine que os dados a seguir representem o peso (em kg) dos integrantes de duas equipes esportivas (dados populacionais): Equipe A: 60 65 70 75 80 Equipe B: 68 69 70 71 72 Se formos analisar as medidas de tendência central de cada uma das equipes, observamos que elas coincidem, uma vez que, tanto na equipe A quanto na equipe B, a média e a mediana são iguais a 70 kg e a moda não existe. Mas analisando os dois conjuntos, observamos diferenças entre eles. Enquanto que, no primeiro, os valores estão mais distantes entre si, no segundo eles estão mais concentrados. Esta diferença de comportamento não é percebida por qualquer medida de tendência central. MEDIDAS DE VARIABILIDADE: Indicam o grau de dispersão dos valores em relação aos valores centrais. VARIÂNCIA ABSOLUTA: É baseada na diferença entre cada valor e a média do conjunto. É, por definição, a média quadrática das diferenças dos valores em relação à sua média. Na verdade, o objetivo da variância era fazer uma média das diferenças dos valores em torno da média. Como estas diferenças somam zero (vide propriedade 2 da média aritmética), temos que elevá-las ao quadrado antes de somá-las. Por isto, trabalhamos com média quadrática de diferenças. Este é o grande inconveniente da variância, pois ela é uma medida quadrática, expressa no quadrado da unidade original. Vamos encontrar a variância para os dados da equipe A: 60 65 70 75 80 Temos que fazer a diferença de cada valor em relação à média e elevar ao quadrado cada uma delas. Somando estes quadrados, temos 250. Para fazer a média dos quadrados, dividimos esta soma por 5, que é o número de observações. Isto nos dá uma variância absoluta de 250/5=50 kg2. Fazendo o mesmo cálculo para os dados da equipe B, chegamos a uma variância absoluta de 10/5=2 kg2. Como esta é uma medida de dispersão, percebe-se que ela consegue expressar como os pesos são mais distantes na equipe A. Vamos apresentar agora a fórmula que generaliza este raciocínio: População: Amostra: Usamos n-1 no denominador da variância amostral (ao invés de n) para obtermos uma melhor aproximação da variância populacional. Quando trabalhamos com a variância absoluta, temos uma medida quadrática, o que a torna muito abstrata. Afinal, o que significa dizer que a variância é de 50 kg2? Para eliminarmos esta dificuldade, devemos extrair a raiz quadrada do resultado. Obtemos, então, a medida de dispersão mais conhecida: o DESVIO-PADRÃO. DESVIO-PADRÃO: É a raiz quadrada da variância absoluta. Ele é expresso na mesma unidade da variável original, sendo maisútil nas aplicações práticas. Ele dá uma ideia do afastamento médio das observações em relação à média. População: Amostra: Na questão das equipes esportivas, o desvio-padrão da equipe A é kg; o da equipe B é kg. Isto significa que, na equipe A, o peso médio dos atletas é de 70 kg e o peso de cada atleta se afasta, em média, 7,07 kg em relação aos 70 kg. Na equipe B, o peso médio também é de 70 kg, sendo que cada atleta se afasta, em média, 1,41 kg desta média. EXEMPLO: Os dados a seguir representam o tempo gasto (em minutos) por uma amostra de alunos para resolver um exercício. Determine a média e o desvio-padrão. 12 15 14 18 13 17 13 15 18 Média: , ou seja, os alunos da amostra gastaram, em média 15 minutos para resolver o exercício. Desvio-padrão: Precisamos primeiro calcular a variância absoluta, usando a fórmula . Somando estes resultados, obtemos 40. Logo: Logo, o desvio-padrão é , significando que cada aluno se afastou, em média 2,24 minutos do tempo médio do grupo que era de 15 minutos. COEFICIENTE DE VARIAÇÃO OU DE VARIABILIDADE: É uma medida de variabilidade relativa, particularmente apropriada para comparar diversos grupos com relação à variabilidade. Indica a importância do desvio-padrão, comparado com a média do conjunto, podendo ser expresso em percentual. Quanto menor for o coeficiente de variação, menos importante é o desvio-padrão e mais homogêneo é o grupo. População: Amostra: EXEMPLO: Considere dois conjuntos, A e B, sobre os quais temos as seguintes informações: A: Média de 10 unidades e Desvio-padrão de 3 unidades B: Média de 500 unidades e Desvio-padrão de 5 unidades Em qual dos conjuntos houve maior homogeneidade? Se olhássemos apenas para o desvio-padrão, diríamos que há maior homogeneidade no conjunto A, porque o desvio-padrão é menor. Acontece que uma variação média de 3 unidades em torno de 10 unidades é muito mais importante que uma variação média 5 unidades em torno de 500 unidades. Por isto é que precisamos do coeficiente de variação. Conjunto A: , ou seja, neste conjunto, o desvio-padrão representa 30% do valor da média. Conjunto B: , ou seja, neste conjunto, o desvio-padrão representa 1% do valor da média. Assim, o conjunto B é o mais homogêneo. � EMBED Excel.Sheet.8 ��� _1232385744.unknown _1232553689.unknown _1232556154.unknown _1232557727.unknown _1232561423.unknown _1374311700.unknown _1374312106.unknown _1405756211.unknown _1374311750.unknown _1232562059.unknown _1232562261.unknown _1232561635.unknown _1232558283.unknown _1232559174.unknown _1232558036.unknown _1232557591.unknown _1232557655.unknown _1232557067.unknown _1232557164.unknown _1232554258.unknown _1232555202.unknown _1232555251.unknown _1232554557.unknown _1232553921.unknown _1232554197.unknown _1232553728.unknown _1232551859.unknown _1232552252.unknown _1232553429.unknown _1232553474.unknown _1232552057.unknown _1232551131.unknown _1232551317.unknown _1232551011.unknown _1232384898.unknown _1232385484.unknown _1232385648.unknown _1232384968.unknown _1232384636.unknown _1232384873.unknown _1232384591.unknown _1232383049.xls Gráfico6 250 170 50 10 20 Número de entrevistados Plan1 Mês Inflação jan. 0.38 fev. 0.23 mar. 0.27 abr. 0.12 maio 0.13 jun. -0.07 jul. 0.11 ago. -0.02 set. 0.16 out. 0.43 nov. 0.42 dez. 0.62 Plan1 Inflação Mês Inflação (%) Plan2 País Preço Brasil 327.71 Índia 222.27 Suécia 213.03 Dinamarca 208.25 Bélgica 205.81 França 205.8 Finlândia 205.8 Irlanda 205.79 Grã-Bretanha 195.04 Áustria 192.86 Plan2 Preço País Preço (dólares) Plan3 Estado civil Número de entrevistados solteiro 250 casado 170 divorciado 50 viúvo 10 outros 20 Plan3 Número de entrevistados
Compartilhar