Prévia do material em texto
1 BIOESTATÍSTICA INTRODUÇÃO ESTATÍSTICA Ciência que trata do delineamento, colheita, organização, sumarização, apresentação e análise de dados, bem como, na obtenção de conclusões válidas e tomadas de decisões em diversos campos, a saber, engenharias, campo da saúde, biologia, farmácia, biofísica, etc. Estatística é o estudo das populações, das variações e dos métodos de redução de dados. Uma metodologia desenvolvida para a coleta, a classificação, a apresentação, a análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões É objetivo da Estatística extrair informação dos dados para obter uma melhor compreensão das situações que representam. POPULAÇÃO E AMOSTRA População (universo) = é o conjunto de todos os possíveis valores de uma variável ou característica. • Finita = é aquela cujo o número total (número finito) de elementos é conhecido. • Infinita = é aquela cuja a população é uma quantidade de elementos muito grande ou difícil de ser quantificada. Resumindo: população é o conjunto de elementos que desejamos observar para obtermos determinados dados. Amostra = conjunto de observações extraídas de uma população. • É um conjunto de elementos retirados da população que estamos observando, para obtermos determinados dados. • É toda fração (independente de seu tamanho) obtida de uma população. EXEMPLOS DE POPULAÇÃO Exemplo 1: Relativamente à população constituída pelos alunos da Pós Graduação da Unimar, podemos estar interessados em estudar as seguintes características populacionais: • Altura (em cm) dos alunos: Depois de medir a altura de cada aluno, obteríamos um conjunto de dados com o seguinte aspecto: 160, 161, 158, 163, 146, ..., 170, 169, 172. • Medidas obtidas na disciplina de Bioestatística, no 1º módulo: 7.8, 4.5, 8.0, 6.5, 9.0, 7.0, 10, ..., 8.0, 5.5, 5.0, 8.0. EXEMPLOS DE AMOSTRA Nem sempre é possível estudar exaustivamente todos os elementos da população! Porquê? amostra População 2 • Pode a população ter dimensão infinita. Exemplo: população constituída pelas pressões atmosféricas, nos diferentes pontos de uma cidade. • Pode o estudo da população ser muito dispendioso. Exemplo: Sondagens exaustivas de todos os eleitores, sobre determinado candidato. • Relativamente à população das alturas dos alunos da Pós Graduação na Unimar em Fisioterapia e Nutrição, consideremos a seguinte amostra, constituída pelas alturas (em cm) de 30 alunos escolhidos ao acaso: 165, 163, 157, 152, 156, 159, 160, 157, 168, 177, 151, 152, 150, 168, 156, 160, 170, 157, 153, 162, 163, 167, 169, 170, 171, 174, 172, 168, 175, 171. POPULAÇÃO E AMOSTRA É importante a fase de coleta da amostra? Sim, pois a amostra deve ser tão representativa quanto possível da população que se pretende estudar, uma vez que vai ser a partir do estudo da amostra, que vamos tirar conclusões para a População. Quando a amostra não representa corretamente a população, a sua utilização pode dar origem a interpretações erradas, como por exemplo: • Utilizar uma amostra constituída por 10 palmeirenses, para prever o vencedor do próximo Palmeiras X Corinthians. • Utilizar uma amostra constituída pelos leitores habituais de determinada revista especializada, para tirar conclusões sobre a população geral. POPULAÇÃO EM ESTUDO Características clínicas e demográficas definem a população-alvo, o conjunto maior de pessoas ao redor do mundo para as quais os resultados serão generalizado (ex.: todos os atletas com toxoplasmose). A amostra do estudo é o subconjunto da população-alvo disponível para estudo (ex.: os atletas com toxoplasmose que moram na cidade de Marília em 2010). ESTATISTICA, PARÂMETRO E ESTIMATIVA Considera-se que o resultado de qualquer cálculo estatístico realizado em um grupo de indivíduos (população ou amostra) gera uma estatística. Parâmetro ➔ Quando a estatística é obtida em uma população. Estimativa (de parâmetro) ➔ quando a estatística é obtida em uma amostra. CLASSIFICAÇÃO Planejamento de Experimentos e Amostragem É a parte que tem por objetivo planejar a pesquisa e se preocupa com o mecanismo da coleta de dados Estatística Descritiva É a parte que tem por objetivo organizar, apresentar e sintetizar dados observados de determinada população, sem pretensões de tirar conclusões de caráter extensivo. Estatística Inferencial É a parte que. Baseando-se em estudos realizados sobre os dados de uma amostra, procura inferir, induzir ou verificar leis de comportamento da população da qual a amostra foi retirada. A estatística inferencial tem sua estrutura fundamental na teoria matemática das probabilidades. É, também definida como um conjunto de métodos para a tomada de decisões. 3 TIPOS DE DADOS Em Estatística, variável é atribuição de um número a cada característica da unidade experimental de uma amostra ou população. Vários tipos de variáveis são encontradas no dia-a-dia, sendo importante a distinção entre as mesmas. Quando uma característica ou variável é não-numérica, denomina-se variável qualitativa ou atributo. Exemplos de variável qualitativa: • Sexo • Religião • Cor dos olhos • Faixa etária. Uma variável qualitativa é expressa em categorias. Quando a variável é expressa numericamente, denomina-se variável quantitativa. Exemplos de variável quantitativa: • Peso dos órgãos • Idade • Número de filhos • Altura. Uma variável quantitativa pode ser discreta ou contínua. VARIÁVEL É o conjunto de resultados possíveis de um fenômeno. Variável qualitativa: Quando seus valores são expressos por atributos: sexo, cor da pele, cor dos olhos, raça, etc. Variável quantitativa: Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos resultados possui uma estrutura numérica, trata-se portanto da estatística de variável e se dividem em: • Variável discreta ou descontínua: Seus valores são expressos geralmente através de números inteiros não negativos. Resulta normalmente de contagens. Ex.: nº de alunos presentes às aulas de estatística básica no 1º semestre de 2006: fev = 18, mar = 22, abr = 30, mai = 35, jun = 36. • Variável contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus possíveis valores corresponde ao conjunto R dos números Reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites. Ex.: Quando você vai medir a temperatura de seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se, passará por todas as temperaturas intermediárias até chegar na temperatura atual do seu corpo. De um modo geral as variáveis quantitativas contínuas são obtidas por medições e as discretas por contagens, enumerações. Exemplos: Cor dos olhos das alunas ....................................... ......... qualitativa Índice de liquidez nas indústrias paulistas ............ ......... quantitativa contínua Número de defeitos em aparelhos de TV .............. ......... quantitativa discreta Comprimento dos pregos produzidos por uma empresa . quantitativa contínua 4 O ponto obtido em cada jogada de um dado ......... ......... quantitativa discreta EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 01) Classifique as variáveis em qualitativas e quantitativas: a) População: alunos da escola Variável: cor dos cabelos b) População: propriedades agrícolas do Brasil Variável: produção de algodão c) População: aparelhos produzidos numa linha de montagem Variável: número de defeitos por unidade d) População: Indústrias de uma cidade Variável: índice de liquidez 02) Diga qual das variáveis abaixo são discretas e quais são contínuas: a) População:alunos de uma cidade Variável: cor dos cabelos b) População: estação meteorológica de uma cidade Variável: precipitação pluviométrica durante o ano c) População: Bolsa de Valores de São Paulo Variável: número de ações negociadas d) População: funcionários de uma empresa Variável: salários e) População: pregos produzidos por uma certa máquinas Variável: comprimento f) População: bibliotecas da cidade de São Paulo Variável: número de livros 03) Classifique as seguintes variáveis: a) Cor dos olhos b) Número de filhos de um casal c) Peso de um indivíduo d) Altura de um indivíduo e) Número de alunos de uma escola f) Tipo sanguíneo g) Valor obtido na face superior de um dado h) Sexo de uma pessoa i) Resultado da loteria federal j) Religião k) Estado Civil l) Salários dos empregados de uma empresa m) Volume de água contida numa piscina. 04) Diga qual tipo de variável estamos trabalhando em cada caso abaixo: a) Número de inscritos no Seguro Social. b) Escolaridade. c) Altitude acima do nível do mar. d) Peso médio dos recém nascidos. e) Número de passageiros no ônibus da linha Tupã-São Paulo. 5 TECNICAS DE AMOSTRAGEM Amostras Probabilísticas Todos os elementos da população têm igual probabilidade e diferente de zero de serem selecionados para compor a amostra. Amostra Simples ➔ há uma igual probabilidade, diferente de zero, de cada elemento da população ser escolhido por meio de sorteio (escolha aleatória). É impraticável quando a população é muito grande. Exemplo: 20% dos prontuários de uma população de pacientes que estiveram internados com hérnia de disco são sorteados para receber visita domiciliar visando avaliar a qualidade de vida atual. Amostra Estratificada ➔ é utilizada quando há a necessidade de subdividir a população em partes homogêneas, como por exemplo, idade, sexo, classe social, etc. Quando feitas as divisões, pode-se aplicar a técnica da probabilidade Simples. Exemplo de amostra estratificada proporcional: a população de pacientes com hérnia de disco é composta por 40% de homens e 60% de mulheres. Separam-se os dois grupos e sorteiam-se 30 mulheres e 20 homens. Exemplo de amostra estratificada igualitária: o investigador tem especial interesse na hérnia de disco em obesos (87% dos casos); separa-se a população em obesos e não obesos e sorteia 25 casos de cada grupo. Amostra Sistemática ➔ os elementos da amostra serão selecionados aleatoriamente e será estabelecido um intervalo entre esses elementos. Difere da aleatória simples porque a seleção da amostra é feita por um processo periódico pré-ordenado. I = N/n onde: I = intervalo N = população n = amostra Exemplo: amostra de 20% dos pacientes com hérnia de disco num hospital. Sorteia- se um valor de 1 a 5. Se o sorteado for o 2, incluem-se na amostra o paciente 2, o 7, o 12 e assim por diante de cinco em cinco. Amostra por Conglomerado ➔ exige a utilização de mapas detalhados de regiões, estados, municípios, etc., pois para a seleção da amostra, há subdivisão de área a ser pesquisada que serão sorteados para composição dos elementos da amostra, e a pesquisa será realizada de forma sistemática. Tem vantagens logísticas na sua aplicação, porém aumenta a complexidade da análise estatística porque os indivíduos de um mesmo conglomerado tendem a ter uma certa homogeneidade. Exemplo: num estudo de sinais de depressão em uma população de alunos do ensino médio, foram sorteadas as salas de aula das escolas em um município e aplicado um questionário a todos os alunos das turmas sorteadas. Amostras por Estágios Múltiplos ➔ são amostras obtidas por métodos combinados. Exemplo: numa pesquisa sobre tabagismo em estudantes de ensino médio foram sorteadas as escolas e depois as turmas (amostra por conglomerados). De cada turma, foram sorteados 20% dos alunos do sexo masculino e 20% dos alunos do sexo feminino (amostra aleatória estratificada). 6 EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1. Estabeleça a população e a amostra abaixo: Numa escola do ensino fundamental, foram sorteados 100 alunos que responderam a um questionário sobre preferências por refrigerantes. População: Amostra: 2. Na EE Professor Sebastião Torres, quer fazer-se um estudo sobe o peso dos alunos de 7 anos de idade. Sabendo-se que há 120 crianças na faixa dos 7 anos, selecione uma amostra de 10 alunos por: (a) Amostragem aleatória simples. (b) Amostragem sistemática. 3. Na escola São Leonardo, para estudar a preferência em relação a refrigerantes, sortearam- se 150 estudantes, entre os 1000 matriculados. Responda: (a) Qual a população envolvida na pesquisa? (b) Que tipo de amostragem foi utilizado e qual a amostra considerada? 4. A população envolvida em uma pesquisa sobre a incidência de cárie dentária em escolares da cidade de Morro Grande é apresentada abaixo. Baseando-se nesses dados, estratifique uma amostra (amostra proporcional estratificada) com 200 elementos. ESCOLA POPULAÇÃO AMOSTRA A 550 B 650 C 440 D 360 TOTAL 2000 7 5. Responda: (a) Qual das técnicas probabilísticas estudadas, seria possível usar para retirar uma amostra de 32 elementos de uma população ordenada e formada por 2.432? (b) Na ordenação geral qual dos elementos abaixo será escolhido para pertencer à amostra, sabendo-se que o elemento de ordem 1420 à ela pertence? 1.648º, 290º, 725º, 1.120º 6. Uma firma de produtos alimentícios tem 120 empregados. Obtenha uma amostra representativa correspondente a 10% da população. Sugestão: use a 8ª, 9ª e 10ª colunas, a partir da 1ª linha, da Tabela de Números Aleatórios. 7. Uma população encontra-se dividida em 3 estratos, com tamanhos respectivamente 40, 100 e 60 elementos. Sabendo-se que ao ser realizada uma amostragem estratificada, nove elementos da amostra foram retirados do 3º estrato. Determine o número total de elementos da amostra. O MÉTODO DE PESQUISA SURVEY A pesquisa Survey pode ser descrita como a obtenção de dados ou informações sobre características, ações ou opiniões de determinado grupo de pessoas, indicado como representante de uma população alvo, por meio de um instrumento de pesquisa, normalmente um questionário Tanur (apud PINSONNEAULT; FRAEMER, 1993). Surveys são muito semelhantes a censos, mas deles se diferenciam porque examinam somente uma amostra da população (enquanto o censo geralmente implica uma enumeração da população toda) (BABBIE, Earl, 2001). Como principais características do método de pesquisa survey podem ser citadas: o interesse é produzir descrições quantitativas de uma população; e faz uso de um instrumento pré-definido. 8 Surveys amostrais são realizados para entender-se a população maior da qual a amostra foi inicialmente selecionada. Análises explicativas em pesquisas de survey visam a desenvolver proposições gerais sobre o comportamento humano. Survey é apropriada como método de pesquisa quando: • Se desejar responder questões do tipo “o quê?”, “por que?”, “como?” e “quando?”, ou seja, quando o foco de interesse é sobre “o que está acontecendo” ou “como e por que isso está acontecendo”; • O ambiente natural é a melhor situação para estudar o fenômeno de interesse; • O objeto de interesse ocorre no presente ou no passado recente. TAMANHO DA AMOSTRA Um passo importante antes de iniciar o cálculo do tamanho da amostra é definir qual o erro amostral tolerável para o estudo que será realizado. Observe a seguinte fórmula: E n 2 0 0 1 = Onde: 0n é a primeira aproximação do tamanho da amostra. 0E é o erro amostral tolerável (exemplo: 2% = 0,02se definirmos este valor). 0 0. nN nN n + = onde: N é o número de elementos da população. n é o tamanho da amostra. Exemplo Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de grau de satisfação. Quantos colaboradores devem ser entrevistados para tal estudo? Resolução: N = 2000 Definindo o erro amostral tolerável em 2% 2500 )02,0/(1 )/(1 02,0 0 2 0 2 00 0 = = = = n n En E 9 rescolaboradon n nNnNn 1111 )25002000/()2500.2000( )/().( 00 = += += Com o erro amostral tolerável em 2%, 1111 colaboradores devem ser entrevistados para a pesquisa. Vamos repetir os cálculos, definindo o erro amostral tolerável em 4%. N = 2000 625 )04,0/(1 )/(1 04,0 0 2 0 2 00 0 = = = = n n En E rescolaboradon n nNnNn 476 )6252000/()625.2000( )/().( 00 = += += Através desse segundo cálculo, é possível observar que, quando aumentamos a margem de erro, o tamanho da amostra reduz. E se houvesse 300.000 colaboradores na empresa? N = 300.000 625 )04,0/(1 )/(1 04,0 0 2 0 2 00 0 = = = = n n En E rescolaboradon n nNnNn 623 )625300000/()625.300000( )/().( 00 = += += Observe que a diferença entre n e n0, neste último cálculo, é muito pequena. Portanto: se o número de elementos da população (N) é muito grande, a primeira aproximação do tamanho da amostra já é suficiente. Observe ainda: populaçãodarescoladoradon E N %8,23476 04,0 2000 0 == = = 10 populaçãodarescoladoradon E N %2,0623 04,0 000.300 0 == = = EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1. Numa empresa com 1.000 deseja-se estimar a porcentagem dos empregados favoráveis a certa mudança em cursos de treinamentos. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a 5%? 2. Numa pesquisa para eleição do cargo de presidente de um país, qual deve ser o tamanho de uma amostra aleatória simples, se deseja garantir um erro amostral não superior a 2%? TABELAS Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística (Fundação IBGE). Componentes mais importantes de uma tabela: Título ➔ explica o que a tabela contém. Corpo ➔ formado pelo cabeçalho, pela coluna indicadora e pelas linhas e colunas de dados: Cabeçalho = especifica o conteúdo das colunas. Coluna indicadora = especifica o conteúdo das linhas. 11 Outros componentes da tabela: Fonte ➔ é a entidade ou o pesquisador que fornece os dados. Nota ➔ deve esclarecer aspectos relevantes de apuração os dados. Chamada ➔ dão esclarecimentos sobre os dados. Nº arábico entre parênteses. Tabela de Contingência Os elementos da amostra ou população são classificados de acordo com dois ou mais fatores (diferentes anos de arrecadação). Tabelas de Distribuição de Freqüências Distribuição de frequências é um método de agrupamento de dados em categorias, classes ou intervalos, de tal forma que se possa determinar o número ou a porcentagem de cada categoria, classe ou intervalo. 12 As tabelas com muitos dados são cansativas e não mostram ao leitor uma visão rápida e global do fenômeno. Para isso, é preciso que os dados estejam organizados em uma tabela de distribuição de frequências. Exemplo: Exemplo 1: Idades dos Empregados de uma empresa 15 30 39 18 33 21 42 23 49 46 38 29 59 57 58 35 53 29 34 39 45 49 43 33 22 22 35 27 32 19 Para que a tabela fique menor e permita melhor compreensão, podemos agrupar os valores da variável em vários intervalos, sendo que, em Estatística, prefere-se chamar os intervalos de classes. O que se pretende com a construção dessa nova tabela é realçar o que há de essencial nos dados e, também, tornar possível o uso de técnicas analíticas para sua total descrição, até porque a Estatística tem por finalidade específica, analisar o conjunto de valores, desinteressando-se por casos isolados. Temos de criar intervalos denominados classes (intervalos de idades, no exemplo anterior) e o número de dados que pertencem a cada intervalo são denominados freqüência da classe ou simplesmente freqüência. Para indicar o intervalo, utilizaremos o símbolo |⎯. Por exemplo, a classe de 150 a 154 será representada, daqui a diante, por: 150 |⎯154. Onde 150 é chamado de limite inferior da classe e 154, de limite superior da classe. Genericamente, todo intervalo pode ser representado por: (limite inferior) |⎯(limite superior) Observe que, nesta conotação, o limite inferior está incluído no intervalo, enquanto o limite superior não está incluído no intervalo. 13 Processo para agrupar dados em uma tabela Calcular o valor de: A (Amplitude Total) 441559 =−= −= A mMA vV maior e menor valor da amostra Calcular o valor de k (número aproximado de classes) 477,530 == KKNK N ➔ nº total de elementos. Calcular h (comprimento ou amplitude da classe) 8043,8477,5/44/ === kAh Para n>30 ➔ podemos usar a formular de Sturges: NK log.3,31+= Ponto Médio Numa tabela de distribuição de frequências também podem ser apresentados os pontos médios de classe. O ponto médio é dado pela soma dos extremos da classe, dividido por 2. Por exemplo o PM da classe 1,5 |⎯ 2,0 é 1,75. Assim, a tabela de distribuição de frequências possuirá 3 colunas: - da esquerda: onde estarão as classes. - do centro: onde estarão os pontos médios. - da direita: onde estarão as frequências. Exemplo de Tabela de Freqüência utilizando Ponto Médio Freqüência Acumulada A freqüência acumulada nada mais é do que a soma das frequências de cada classe (da primeira até a última) sendo acumuladas (somadas). 14 EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1. Faça uma tabela de frequências para mostrar que, numa prova de Estatística, 2 alunos obtiveram nota 3, 1 aluno obteve 4, 3 alunos obtiveram 5, 4 obtiveram 6, 7 obtiveram 7, 2 obtiveram 9 e 1 obteve 10. 2. Faça uma tabela de frequências para mostrar que de um total de 852 homens entrevistados sobre determinado assunto, 59 não tinham opinião, 425 eram favoráveis e os demais eram contrários. Das 725 mulheres entrevistadas, 99 não tinham opinião, 522 eram favoráveis e as demais contrárias. 3. Segundo Mendes et al (2003), a prevalência de tabagismo entre os jovens de acordo com a idade, em anos, em Passa Quatro (MG) foi: 11 a 13 anos (inclusive) = 283 adolescentes, 14 a 16 anos (inclusive) = 201 e 17 a 19 anos (inclusive) = 148. Organize os dados numa tabela de frequências. 4. Nesta turma, o número de irmãos de cada aluno é: 2, 1, 2, 1, 2, 2, 1, 2, 2, 2, 2, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 2, 3, 0, 1, 3, 2, 3, 1, 4, 1, 2, 3, 0, 1, 2, 3, 0, 1, 1, 1, 1,e 2. Organize esses dados em uma tabela de frequências. 5. As estaturas, em metro, dos alunos de uma turma de 6ª série do Colégio Passa Todos são: 1.60, 1.73, 1.60, 1.66, 1.65, 1.50, 1.50, 1.62, 1.60, 1.66, 1.60, 1.65, 1.60, 1.67, 1.69, 1.60, 1.68, 1.80, 1.70, 1.67, 1.78, 1.70, 1.66, 1.74, 1.60, 1.60, 1.68, 1.60, 1.70, 1.60, 1.65 e 1.58. Organize esses dados em uma tabela de frequências. 6. Contou-se com o nº de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os seguintes resultados abaixo. Construa uma tabela de frequências. 8 – 11 – 8 – 12 – 14 – 13 – 11 – 14 – 14 – 15 – 6 – 10 – 14 – 19 – 6 – 12 – 7 – 5 – 8 – 8 – 10 – 16 – 10 – 12 – 12 – 8 – 11 – 6 – 7 – 12 – 7 – 10 – 14 – 5 – 12 – 7 – 9 – 12– 11 – 9 – 14 – 8 – 14 – 8 – 12 – 10 – 12 – 22 – 7 – 15 7. Abaixo, temos os pesos (em kg) de 50 alunos de um 1º ano de uma faculdade, presentes numa aula de Educação Física. 89 75 78 76 76 67 90 88 83 71 70 72 78 79 80 64 75 77 69 70 88 91 71 73 77 69 82 87 79 90 75 78 81 85 86 91 69 70 65 90 69 71 74 86 91 88 85 79 75 88 (a) Qual a amplitude total desta amostra? (b) Usando a fórmula de Sturges, quantas classes podem formar? (c) Qual será o intervalo de cada classe? (d) Faça uma distribuição de frequências simples em intervalos de classes usando as informações anteriores. (e) Com base nessa distribuição, qual a porcentagem de alunos com peso abaixo de 80 kg? 8. A tabela abaixo apresenta as vendas diárias de certo produto, durante um determinado mês. Forme uma distribuição de frequência simples sem intervalos de classe. 10 13 12 14 13 14 12 14 13 14 11 12 15 12 14 10 13 15 11 15 13 16 16 14 14 GRÁFICOS A representação gráfica é um complemento da apresentação dos dados em forma de tabelas, uma vez que permite uma rápida visualização do fato estudado. Todo gráfico deve apresentar um título, escala e a fonte que forneceu o gráfico ou os dados que permitiram sua construção. O mesmo pode ter também legenda. Representação Gráfica de Variáveis Qualitativas ou Ordinais São mais utilizados os gráficos de ordenadas, de barras, de colunas, de setores e linear. Representação Gráfica de Variáveis Quantitativas Distribuições Discretas (nº inteiro, quantidade, por exemplo: nº de filhos, nº de moléculas, etc.) ➔ são utilizados mais os gráficos de ordenadas, barras e colunas. Distribuições Contínuas (mensurações, por exemplo: peso, pressão arterial, altura, etc.) ➔ são utilizados os polígonos de frequências e histograma. 16 - Utiliza-se o sistema cartesiano ortogonal * abscissas (eixo x) ➔ valores das classes das variáveis; * ordenadas (eixo y) ➔ valores das frequências. Gráfico de Linhas Gráfico de Colunas Colunas (Comparação) 17 Gráfico de Barras Gráfico de Setores Pcitóricos 18 19 Histograma Polígono de Freqüência MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são uma das principais características de um conjunto de dados. São valores que resumem o comportamento central dos dados e podem representar um conjunto de dados. As principais medidas são: a média aritmética, mediana e a moda. Dados não agrupados Média Aritmética n xi XMédia == Exemplo: nº de acidentes ocorridos por dia numa grande estrada. 3 – 1 – 2 – 0 – 2 – 5 – 0 – 1 – 2 – 2 – 4 – 3 – 1 2 13 26 13 1342210520213 == ++++++++++++ == n xi X i Qual o significado da média? Ponto de equilíbrio. A média corresponde ao ponto de equilíbrio. Então a média é um valor em torno do qual os dados se distribuem. Mediana Divide um conjunto ordenado de dados em dois grupos de quantidades iguais. A metade do grupo estará abaixo e, a outra metade, acima da mediana. Para se calcular a mediana em um grupo de dados deve-se • Ordenar o conjunto; • Verificar se há um número par ou ímpar de valores no conjunto. 20 Exemplo (n ímpar): Dado o grupo de valores 6,1,9,16,8,3,12 • Posição: ( ) ( ) 42/172/1 =+=+= ni (4º elemento) 1 – 3 – 6 – 8 – 9 – 12 – 16 Me=8 E se o número de indivíduos for par? Simples. Coloque os indivíduos em ordem crescente. A mediana será a média das estaturas dos dois que ocupam a posição central. Exemplo (n par): Dado o grupo de valores 11,13,5,16,7,2,14,9 • Posição: 1º elemento: º42/ == ni • Posição: 2º elemento: º51=+i 2 – 5 – 7 – 9 – 11 – 13 – 14 – 16 ( ) 10 2/119 = += Me Me Moda É aquele que mais se repete, ou seja, o valor mais freqüente de um grupo de estudo. Amodal ➔ 2 – 3 – 7 – 9 – 12 – 15 – 16 Unimodal ➔ 1 – 3 – 5 – 6 – 8 – 8 – 9 – 10 8= Mo Bimodal ➔ 2 – 2 – 4 – 5 – 5 – 6 – 6 – 6 – 10 - 10 – 10 – 12 – 12 106 eMo = Multi ou Polimodal ➔ 1 – 3 – 3 – 5 – 6 – 6 – 7 – 8 – 9 – 9 – 10 – 11 – 11 119,6,3 eMo = Tabela de Freqüência 15 2 30 2 ?* 13* === = = n i Mediana Moda (15º e 16º elemento) ( ) 5,132/1413 =+=Me 21 Mediana e Moda para Dados Agrupados em Classes MEDIDAS DE DIVISIBILIDADE Quartil Divide a distribuição em quatro partes iguais (25% cada). Decil Divide a distribuição em dez partes iguais (10% cada). Percentil Divide a distribuição em cem partes iguais (1% cada). EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1 – Determinar o 1º quartil, 4º decil e o 72º percentil da seguinte distribição classes fi fac 4 |⎯ 9 8 8 9 |⎯ 14 22 30 14 |⎯ 19 15 45 19 |⎯ 24 5 50 Soma 50 2 – Abaixo temos a distribuição de salários de uma empresa composta de 50 funcionários. A direção da empresa pretende dar um reajuste para os 25% dos funcionários com salários menores. Até que valor de salário haverá reajuste? 22 Salários (R$) 200 |⎯ 300 |⎯ 400 |⎯ 500 |⎯ 600 |⎯ 700 Nº de funcionários 18 13 9 6 4 3 – Na distribuição de salários abaixo descrita, determinar: (a) qual o salário abaixo do qual estão situados os 20% mais mal pagos? (b) qual o salário acima do qual se encontram os 15% mais bem remunerados? (c) acima de que salário estão os 18 operários mais bem pagos? (d) abaixo de que salário se situam os 36 operários mais mal remunerados? Salários (R$) 5000 |⎯ 6000 |⎯ 7000 |⎯ 8000 |⎯ 9000 |⎯ 10000 Operários 28 32 20 6 4 4 – Considere a distribuição de freqüência: Idade (anos) 10 |⎯ 14 |⎯ 18 |⎯ 22 |⎯ 26 |⎯ 30 |⎯ 34 |⎯ 38 |⎯ 42 Nº de pessoas 15 28 40 30 20 15 10 5 a) Calcular a medida que deixa 50% dos elementos. b) Calcular o 3º decil. c) Determinar a medida que deixa ¼ dos elementos. d) Calcular o percentil 80. e) Qual a porcentagem das pessoas maiores de idade? MEDIDAS DE DISPERSÃO Consideremos os dois conjuntos: a) 10 – 11 – 11 – 11 – 12 – 12 – 12 – 13 – 14 – 14 b) 1 – 5 – 6 – 9 – 11 – 12 – 12 – 15 – 18 – 21 – 22 Os conjuntos de dados apresentam valores iguais de média, mediana e moda e, no entanto, existem diferenças entre os dois conjuntos. Isto indica que necessitamos de um outro tipo de medida para distinguir os dois conjuntos dados. Observando as figuras, podemos notar que o primeiro conjunto apresenta valores concentrados em relação à média, enquanto que o segundo apresenta valores dispersos (espalhados) em relação à média. As medidas que tratam desta característica são chamadas de medidas de dispersão. As principais medidas de dispersão que veremos são: amplitude, desvio médio absoluto, variância e desvio padrão. Amplitude Amplitude é a diferença entre o maior e o menor valores dos dados. Esta medida utiliza somente dois valores (máximo e mínimo) para o seu cálculo, e é geralmente utilizada para pequeno conjunto de dados. 23 Quando todos os dados da amostra forem iguais, a amplitude será zero. O inconveniente da amplitude é depender somente de dois valores da série, assim não considera o que acontece com os valores intermediários, além de ser particularmente suscetível a dados discrepantes. Desvio Médio Absoluto (DM) Chamamos de Desvio a diferença entre um valor e a média dos dados, ou seja: XxDesvio i −= Uma vez que estamos interessados em analisar todos os dados, devemos calcular a média dos desvios. O problema surge quando somamos todos os desvios,pois a soma será sempre zero. Como estamos interessados na distância de um valor em relação à média, devemos considerar o módulo (valor absoluto) dos desvios, evitando, deste modo, valores negativos de alguns desvios. Dados não agrupados ➔ n xx DM i n i − = =1 Dados agrupados ➔ n fixx DM i n i . 1 − = = EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1 – Calcular o desvio médio absoluto das séries: X: 4, 5, 7, 8, 12 Y: 1, 2, 3, 4, 5, 6, 7 2 – Calcule o desvio médio absoluto para a série: xi fi 1 2 3 5 4 2 5 1 3 – Calcular o desvio médio absoluto da distribuição de freqüência Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12 fi 2 4 7 4 3 Obs.: O desvio médio absoluto depende de cada componente da série. Se mudarmos o valor de um único elemento da série, mudamos também o desvio. Portanto, o desvio médio 24 absoluto, tem perfeita sensibilidade estatística. Outro problema é que envolvem módulos, cujas propriedades, em geral não são suficientes conhecidas por pessoas que desenvolvem estes cálculos. Variância (S2) Um dos problemas em se trabalhar com o desvio médio absoluto é a dificuldade matemática que o módulo apresenta. Uma outra forma de contornar o problema apresentado pelos valores negativos dos desvios é elevar cada desvio ao quadrado. A média dos quadrados dos desvios é chamada de variância. A variância mede a dispersão do conjunto dos dados de uma amostra em relação â sua respectiva média. Dados não agrupados ➔ ( ) 1 1 2 2 − − = = n xx S n i i Dados agrupados ➔ ( ) 1 . 1 2 2 − − = = n fixx S n i i Obs.: A variância populacional difere da amostral em relação ao denominador que é chamado de seu grau de liberdade. No caso da variância populacional, o grau de liberdade é N (número de dados da população), enquanto na variância amostral, o grau de liberdade é n-1 (nº de dados da amostra menos 1). 25 EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1 – Calcular a variância da amostra constituída dos seguintes elementos: a) X: 4, 5, 8 e 5 b) Y: 10, 12, 15, 16, 18, 19. 2 – Calcular a variância populacional para a série: xi fi 2 1 3 4 5 5 6 3 7 2 3 – Calcular a variância amostral da distribuição: Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12 fi 3 5 8 6 3 4 – Calcular a variância da seguinte distribuição amostral: xi fi 5 2 7 3 8 5 9 4 11 2 5 – Calcular a variância amostral da distribuição: Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12 fi 2 4 7 4 3 ----------------------------------------------------------------------------------------------------------------- Desvio Padrão (S ou DP) Os dados geralmente têm unidades de medida como metro, quilograma, segundo, etc. Ao elevar os desvios ao quadrado, estas unidades também serão elevadas ao quadrado, dificultando a comparação do valor da variância com os dados. Para resolver este problema, podemos extrair a raiz quadrada positiva da variância, que é chamada de desvio padrão. É a mais importante medida de dispersão utilizada em dados quantitativos. 2SS = 26 Dados com distribuição simétrica na forma de sino têm as seguintes características Exemplo: o valor médio dos pesos de determinados obesos é de 125 kg, com um desvio padrão de 5 kg. O conjunto de dados tem uma distribuição na forma de sino. Estime o porcentual de obesos que têm entre 120 e 135 kg. EXERCÍCIOS PROPOSTOS -------------------------------------------------------------------------- 1. Calcule a variância e o desvio padrão da população. Idade (anos) Nº de Alunos 17 3 18 18 19 17 20 8 21 4 Regra Empírica Aproximadamente 68% das observações estão entre .sx Aproximadamente 95% das observações estão entre .2sx Aproximadamente 99,7% das observações estão entre .3sx Cerca de 68% dos dados estão até 1 desvio padrão da média. Cerca de 95% dos dados estão até 2 desvios padrão da média. Cerca de 99,7% dos dados estão até 3 desvios padrão da média. 27 2. Calcule a variância e o desvio padrão para o número de acidentes diários, observados em um cruzamento durante 40 dias (amostra). Nº de acidentes por dia Nº de Dias 0 30 1 5 2 3 3 1 4 1 3. Calcule a variância e o desvio padrão para as alturas de 70 alunos de uma classe (amostra). Classes Alturas (cm) Nº de Alunos 1 150 |⎯ 160 2 2 160 |⎯ 170 15 3 170 |⎯ 180 18 4 180 |⎯ 190 18 5 190 |⎯ 200 16 6 200 |⎯ 210 1 ----------------------------------------------------------------------------------------------------------------- Coeficiente de Variação (CV) Quando precisarmos comparar duas distribuições, não podemos fazer uma comparação direta, uma vez que a magnitude dos dados dessas distribuições pode ser muito diferente. Observe, por exemplo, os dois conjuntos de dados abaixo. O conjunto (a) mostra os pesos levantados por 7 atletas especialistas no levantamento de pesos e o conjunto (b) mostra os pesos conseguidos por 7 pessoas quaisquer. 185 195 210 200 190 230 220 70 95 110 90 95 85 115 Uma vez que o peso levantado pelos atletas é maior do que dos não atletas, o desvio padrão também é maior, porém, isto não significa que a dispersão do peso da atleta seja maior que a do não atleta. Para realizar corretamente este tipo de comparação, utilizaremos o coeficiente de variação. O coeficiente de variação, que representaremos por CV, é a razão entre o desvio padrão e a média da distribuição, ou seja: 100X x S CV = O coeficiente de variação é expresso em porcentagens. O coeficiente de variação é uma medida que normaliza o desvio padrão em relação à média e, como é um quociente de duas medidas com a mesma unidade, é adimensional, ou seja, não possui unidade. No exemplo anterior os coeficientes de variação são: Atletas ➔ %0,8100* 3,204 4,16 == CVCV 28 Não Atletas ➔ %0,16100* 3,94 1,15 == CVCV Portanto, podemos agora, concluir que os pesos levantados pelos atletas têm menor variabilidade do que dos não atletas. EXERCÍCIOS PROPOSTOS ------------------------------------------------------------------------- 1 – Qual das séries apresenta maior dispersão absoluta? E relativa? Qual apresenta maior dispersão? a) 2 20: = = xA 5 20: = = xB b) 2 50: = = xA 3 100: = = xB 2 – Para a série: 5,5,5,6,6,6,7,7,7,7,7,7,8,8,8,9,9, calcule: a) a média b) o desvio padrão amostral c) o coeficiente de variação de Pearson 3 – Um fabricante de caixas de cartolina fabrica 3 tipos de caixa. Testa-se a resistência de cada caixa, tomando-se uma amostra de 100 caixas e determinando-se a pressão necessária para romper cada caixa. São os seguintes os resultados dos testes: Tipos de caixa A B C Pressão média de ruptura 150 200 300 (em bária) Desvio Padrão das pressões 40 50 60 a) Que tipo de caixa apresenta a menor variação absoluta na pressão de ruptura? b) Que tipo de caixa apresenta a maior variação relativa na pressão de ruptura? 29 BIBLIOGRAFIA Apostilas de Estatística Básica na Rede – Internet. CRESPO, Antônio Arnot. Estatística Fácil. Editora Saraiva: São Paulo. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatística – LPM. SILVA, Ermes Medeiros da et al. Estatística para concursos de Economia, Administração e Ciências Contábeis. Vol. 1 e 2. 2ª Ed. Editora Atlas: São Paulo. TOLEDO, Luciano Geraldo; OVALLE, IvoIzidoro. Estatística Básica. 2ª ed. Editora Atlas. VIEIRA, S. Introdução à Estatística. 3ª Ed. Rio de janeiro: Campus, 1998. 196p.