Baixe o app para aproveitar ainda mais
Prévia do material em texto
83 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Unidade II 5 ESTATÍSTICA O método estatístico pode ser entendido como um conjunto de meios que, conduzidos e dispostos convenientemente, permite que se canalizem as informações para determinado objetivo. Os objetivos deste tópico são: • dar as noções iniciais de conceitos básicos de Estatística; • fazer que você saiba diferenciar as divisões da Estatística em Descritiva e Indutiva; • diferenciar os tipos de variáveis; • lidar com as fases do trabalho estatístico. A Estatística, ou métodos estatísticos, como é denominada algumas vezes, desempenha papel crescente e importante em quase todas as fases da pesquisa humana. Lidando anteriormente apenas com negócios de Estado, o que justifica seu nome, a influência dessa ciência estendeu-se agora à Agricultura, Biologia, Comércio, Química, Comunicações, Economia, Educação, Eletrônica, Medicina, Física, Ciências Políticas, Psicologia, Sociologia e outros numerosos campos da ciência e da Engenharia. Ela está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em tais análises. 5.1 Definição Existem várias definições para Estatística. Apresentaremos aqui uma delas, encontrada na bibliografia anexa. De acordo com Peatman Jr. (1963, p. 4),”[...] estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir fenômenos coletivos”. O objetivo geral da Estatística, como um campo de investigação, é o desenvolvimento de procedimentos que permitam analisar e interpretar um fenômeno observado, de modo a avaliar objetivamente a situação em observação. 84 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II 5.2 Conceitos usados em Estatística 5.2.1 População e amostra Ao coletar os dados referentes às características de um grupo de objetos ou indivíduos, como estatura e peso dos estudantes de uma universidade, o número de casos de cólera atendidos em um município por mês ou o número de peças defeituosas produzidas em uma fábrica em um certo dia, é muitas vezes impossível ou impraticável observar todo o grupo, especialmente se for muito grande, ou se a observação implica a destruição do objeto em questão. Em vez de examinar todo o grupo, denominado população ou universo, examina-se uma pequena parte chamada amostra. Observação População: é qualquer conjunto de informações que tenham, entre si, uma característica comum. Em Estatística, população não significa, necessariamente, “pessoas”. Amostra: é um subconjunto da população, de dimensões menores que ela, sem perda das características essenciais. Uma população pode ser finita ou infinita. Por exemplo, a população constituída de laranjas de um pomar é finita, enquanto a população constituída de todos resultados (cara ou coroa) em sucessivos lances de uma moeda é infinita. 5.2.2 Estatística Indutiva e Estatística Descritiva Se uma amostra é representativa de uma população, conclusões importantes podem ser inferidas de sua análise. A parte da Estatística que trata das condições sob as quais essas inferências são válidas chama-se Estatística Indutiva ou Inferência Estatística. Como essa inferência não pode ser absolutamente certa, a linguagem da probabilidade é muitas vezes usada no estabelecimento de conclusões. A parte da Estatística que procura somente descrever e analisar um certo grupo, sem tirar quaisquer conclusões ou inferências sobre um grupo maior, é chamada Descritiva ou Dedutiva. 5.2.3 Variáveis Chamamos de variável ao conjunto de resultados possíveis de um fenômeno aleatório. As variáveis podem ser qualitativas, quando representam um conjunto de categorias ou modalidades, ou quantitativas, quando representam um conjunto de números. As variáveis ainda podem ser: 85 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística • Contínuas: são aquelas que, teoricamente, podem assumir qualquer valor em um intervalo. Em geral, as medições dão origem a dados contínuos. Exemplo: a altura H de indivíduos, que pode ser 1,65 m, 1,662 m ou 1,6772 m, conforme a precisão da medida, é uma variável contínua. • Discretas: são aquelas em que, de um valor para outro, não existe continuidade. Geralmente originam-se de contagens. Exemplo: o número N de crianças, em uma família, que pode assumir qualquer um dos valores 0, 1, 2, 3, ... mas não pode ser 2,5 ou 3,842, é uma variável discreta. 5.2.4 Mensuração Desde os tempos remotos, o homem tem a preocupação de medir coisas. Em nossa vida diária, frequentemente estamos medindo algo: o tempo gasto em uma tarefa, a distância a ser percorrida em um compromisso, o número de convidados para uma festa, entre outros. Mensurar significa associar a alguma coisa um número. As coisas que medimos diferem entre si quanto à classe a que pertencem. Exemplo: estatura, velocidade, inteligência, beleza. A forma de mensuração depende da classe ou nível a que ela pertence, pois cada nível possui características próprias, de acordo com a sua complexidade. Os níveis de mensuração são os seguintes: • 1º nível – nominal: é o mais baixo nível da escala de medidas. É usado para classificar um objeto, pessoa ou característica. Nele vale apenas a relação de igualdade (=). Exemplo: sexo, masculino e feminino; podemos atribuir valores a essa variável: masculino = 0 e feminino = 1. No entanto, não é possível realizar operações aritméticas com esses números. • 2º nível – ordinal: é usado para atribuir ordem. Aqui, além da relação de igualdade (=), valem as relações “maior que/menor que” (<, >). Exemplo: na hierarquia militar, sargento manda mais que cabo que por sua vez manda mais que soldado. Daí podemos representar: sargento > cabo > soldado, ou cabo = cabo. Esse nível também não permite operações aritméticas. • 3º nível – intervalar: aqui aparece pela primeira vez uma escala verdadeiramente quantitativa. Caracteriza-se pela existência de uma unidade de medida arbitrária, porém fixa, e de um zero convencionado. Exemplo: nas escalas de temperatura, o zero é convencionado e a distância entre graus de uma mesma escala também. Nesse nível, as únicas operações aritméticas são a adição e a subtração (multiplicação e divisão não são permitidas). Justificativa: se um líquido A está a 30º C e o líquido B a 10ºC, não podemos dizer que a temperatura de A é três vezes maior que a de B, pois na escala Fahrenheit teríamos o corpo A a 86ºF e B a 50ºF (na escala Fahrenheit a água vira gelo a 32ºF e vapor a 212ºF). • 4º nível – racional: é semelhante ao nível intervalar, com a diferença de existir um zero verdadeiro, ou seja, o zero não é convencionado. Nesse nível, todas as operações aritméticas são possíveis. Exemplos: distância (km), volume (m3), entre outros. As mensurações em nível ordinal e nominal são as mais comuns nas ciências do comportamento. 86 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Observação Contagem: das contagens originam números inteiros; portanto, todas operações aritméticas são possíveis. 5.3 Para que usamos Estatística? A Estatística serve para: • Resumir e organizar informações: frequentemente, quandocoletamos dados de uma população, obtemos uma gama muito grande de informações que precisam ser organizadas e resumidas. Nesse resumo são colocados resultados que caracterizam uma população em relação a certa variável. • Representar dados: após apuração e resumo, as informações devem ser transmitidas de modo simples e claro. Uma forma de representar os dados são os gráficos. • Conhecer como determinada variável apresenta-se distribuída na população: muitas vezes o pesquisador precisa saber se a população tem determinada característica – por exemplo, se as pessoas que a compõem são desnutridas. A Estatística ajuda um gerente de CPD a saber como o processamento está distribuído. • Testar hipóteses: quando uma hipótese é levantada, ela precisa de comprovação, o que pode ser conseguido usando um recurso estatístico chamado Teste de Hipótese. • Fazer inferências: ao estudar uma população, em geral não se consegue dados dela toda, seja por causa do custo elevado, do tempo despendido ou do tamanho dela. Assim, a Estatística fornece meios para que, estudando apenas uma parte, se possa tirar conclusões do todo. • Tomar decisão: muitas vezes, para tomar decisão sobre determinado assunto, é necessário saber como tem sido o seu comportamento, como tem evoluído. É aí que entra a Estatística, fornecendo subsídios para a tomada de decisão. Por exemplo: o político candidato a um cargo eletivo muda o rumo de sua campanha conforme ela esteja ou não surtindo efeito, e quem vai dar essa informação é a Estatística. • Correlacionar variáveis: é usado para verificar o grau de associação entre variáveis e para fazer previsões baseadas em amostras (regressão). Por exemplo: a ocorrência de osteoporose em mulheres após a menopausa tem correlação com o consumo de café. Outro exemplo: consumo de álcool versus fumo. 5.3.1 Fases do trabalho estatístico O trabalho estatístico consiste de seis etapas: 87 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 1) Definição. 2) Planejamento. 3) Coleta de dados. 4) Elaboração. 5) Análise e interpretação dos dados. 6) Relatório. 5.3.1.1 Definição 1) Definir os objetivos: toda pesquisa deve ter um objetivo determinado para saber o que se vai procurar e o que se pretende alcançar. Deve partir de um objetivo limitado e claramente definido. A não definição de objetivos é como construir um edifício sem a fundação. É comum a alguns estudantes, após um exaustivo e dispendioso trabalho de coleta de informações, fazer uma pergunta típica: “O que eu faço com isto?”. Esse fato é decorrente da falta de objetivo. 2) Formular hipóteses: hipótese é uma proposição que se faz na tentativa de verificar a validade de resposta existente para um problema. É uma suposição que antecede a constatação dos fatos e tem como característica uma formulação provisória; deve ser testada para determinar sua validade. A clareza da definição dos termos da hipótese é condição de importância fundamental para o desenvolvimento da pesquisa. 3) Definir a população: a pesquisa em foco deve ser delimitada, ainda que esse limite seja extenso. Isso é feito em função de saber para qual população os resultados serão válidos. 5.3.1.2 Planejamento Formular um plano para coleta de dados: o próximo passo é fazer um planejamento de como os dados serão colhidos. É uma das fases mais importantes, pois, se os dados coletados não forem confiáveis ou representativos, o pesquisador não ficará sabendo e o resultado será prejudicado. O resultado final da pesquisa depende muito do planejamento no sentido de que vários cuidados devem ser tomados. Por exemplo: uma pesquisa que envolve conhecimento de particularidades das pessoas deve ser bem cuidadosa, pois os pesquisados poderão esconder ou mascarar tais dados. Conforme mencionado anteriormente, nem sempre é possível coletar dados de toda a população, assim a opção é trabalhar com amostras. A fim de que o resultado da pesquisa seja válido para toda a população, é necessário que a amostra tomada seja representativa. Por exemplo: na impossibilidade de consultar todos os habitantes de um município sobre a atuação do prefeito, um pesquisador resolve, por conveniência, obter opiniões em apenas um bairro. Pode ocorrer de o bairro escolhido ter acabado de receber melhorias, daí o resultado da pesquisa não será representativo. 88 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Para que essas situações não ocorram, é necessário que se use uma técnica de amostragem. Existem várias técnicas, e as mais comuns são: • Amostragem aleatória simples (AAS): nessa técnica, todos os elementos da população têm igual probabilidade de serem selecionados para constituir a amostra. Por exemplo: para formarmos uma amostra de funcionários de uma empresa, pegamos uma listagem com o nome de todos, numeramos e em seguida sorteamos alguns usando papéis dobrados ou uma “tabela de números aleatórios”. • Amostragem sistemática (AS): aqui, os elementos da amostra são selecionados por um sistema preestabelecido. Por exemplo: uma clínica psicológica deseja saber o perfil de seus pacientes. Ela possui um arquivo com 1.400 prontuários numerados de 1 a 1.400. Decide-se por tomar uma amostra de 10 pacientes, daí divide-se 1.400 por 10, encontrando-se 140. Em seguida, sorteia-se o primeiro prontuário. Se o sorteado for o número 15, a amostra será composta pelos prontuários 15, 15+140=155, 155+140=295 e assim por diante, até completar os 10. Outro exemplo: selecionar um cliente que entra na loja e pular 10. • Amostragem estratificada (AE): é usada quando a população apresenta-se dividida em estratos, ou seja, grupos distintos. Por exemplo: uma empresa de distribuição de energia elétrica tem seus clientes divididos em três estratos: industrial, comercial e residencial. Para realizar uma pesquisa por amostragem nesse caso, tomamos uma AAS de cada um dos estratos citados. O tamanho da amostra a ser tomada é assunto que será visto mais adiante. Planejamento de experimentos Dependendo do tipo ou objetivo da pesquisa, ao invés de colher amostras, são feitas experiências. Nesse caso, será necessário fazer um planejamento de experimento. Em virtude da complexidade, o pesquisador precisará de um conhecimento bem amplo de Estatística. 5.3.1.3 Coleta de dados Etapa da pesquisa em que se inicia a aplicação dos instrumentos elaborados e das técnicas selecionadas, a fim de efetuar a coleta dos dados previstos. É uma tarefa cansativa, que toma muito tempo e exige do pesquisador paciência, perseverança e esforço pessoal, além do cuidadoso registro dos dados e de um bom preparo anterior. O rigoroso controle na aplicação dos instrumentos de pesquisa é fator fundamental para evitar erros e defeitos resultantes de entrevistadores inexperientes ou de informantes tendenciosos. A seguir, citaremos algumas técnicas e instrumentos de pesquisa. • Coleta documental: a fonte de coleta é restrita a documentos (livros, revistas, jornais etc.). 89 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística • Observação: é uma técnica de coleta de dados em que são utilizados os sentidos para captar determinados aspectos da realidade. Não consiste apenas em ver e ouvir, mas também em examinar fatos ou fenômenos que se desejam estudar. • Entrevista: é um encontro de duas pessoas, a fim de que uma delas obtenha informações a respeito de determinado assunto. •Questionário: é um instrumento constituído por uma série ordenada de perguntas, que devem ser preenchidas sem a presença do entrevistador. • Formulário: é o instrumento utilizado na entrevista. • Testes: são instrumentos utilizados com a finalidade de obter dados que permitam medir o rendimento, a competência, a capacidade ou a conduta dos indivíduos, em forma quantitativa. • Inquérito por telefone: contato verbal entre o entrevistador e o entrevistado por meio do telefone. • Pesquisa por meio da internet: os internautas são convidados a acessar determinada página para responder à pesquisa. Pode ainda ser feita por e-mail ou salas de bate-papo. • Sociometria: é uma técnica quantitativa que procura explicar as relações pessoais entre indivíduos de um grupo. Existem outras técnicas e instrumentos para coleta de dados; mas, para aplicação de qualquer uma delas, é necessário conhecê-los bem. Vale lembrar a necessidade de um pré-teste antes da coleta definitiva dos dados. 5.3.1.4 Elaboração dos dados Após a coleta, os dados são elaborados e classificados de forma sistemática, conforme a seguir: • Seleção: é o exame minucioso dos dados para verificar possíveis falhas e erros. • Codificação: é uma técnica operacional utilizada para categorizar os dados que se relacionam. Mediante a codificação, os dados são transformados em símbolos, podendo ser tabelados e contados. • Tabulação: é a disposição dos dados em tabelas, possibilitando maior facilidade na verificação das inter-relações entre eles. Permite a sintetização dos dados, de modo que estes sejam mais bem compreendidos e interpretados rapidamente. 90 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II 5.3.1.5 Análise e interpretação dos dados Uma vez organizados os dados e obtidos os resultados, o passo seguinte é a sua análise e a interpretação, constituindo-se ambos no núcleo central da pesquisa. Nessa fase, serão obtidas medidas como média, mediana, moda, proporções, percentis, desvio padrão etc. Ao final, apresenta-se a conclusão que a análise e a interpretação levaram. 5.3.1.6 Relatório Exposição geral da pesquisa, desde o planejamento até as conclusões, incluindo os processos metodológicos empregados. Deve ser expresso em linguagem simples, clara, objetiva, concisa e coerente. Tem a finalidade de dar informações sobre os resultados da pesquisa, se possível, com detalhes, para que eles possam alcançar a sua relevância. São importantes a objetividade e o estilo, mantendo-se a expressão impessoal e evitando-se frases qualificativas ou valorativas, pois a informação deve apenas descrever e explicar. O relatório deve abranger os seguintes aspectos: • apresentação do problema ao qual se destina o estudo; • processos de pesquisa; • resultados; • consequências deduzidas dos resultados. Exemplo de Aplicação 1) Quais são as fases do trabalho estatístico? Descreva de forma sucinta cada uma delas. 2) Quais características deve apresentar o relatório final de pesquisa? 3) Qual a diferença entre população e amostra? 4) Qual a diferença entre amostra e amostragem? 5) Para que serve a Estatística? 6) Pesquise sobre outras técnicas de amostragem. Explique como funcionam. 7) Cite três técnicas ou instrumentos de pesquisa. 91 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 8) Classifique as variáveis a seguir quanto ao nível de mensuração: a) Peso (kg). b) Estatura (cm). c) Sexo. d) Profissão. e) Dia da semana. f) Idade. g) Tipo de sangue. h) Resultado de um concurso de beleza feminina. i) Religião. j) Área (m2). k) Renda familiar ($). l) Classe social. m) Altitude. n) Estado civil. o) Nº da camisa de jogador. p) Nº do CPF. q) Nº da placa de automóvel. r) Pressão. Observação Muitas pessoas acham que a Estatística trata apenas de contagens, mas ninguém coleta números só para mostrá-los. As estatísticas são usadas para chegar a conclusões ou testar hipóteses. 92 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Saiba mais Sugerimos o seguinte site: <http://guiadoestudante.abril.com.br/profissoes/ciencias-exatas- informatica/estatistica-686049.shtml>. 5.4 Tabulação dos dados A tabulação dos dados consiste no levantamento de dados naturalmente tabelados e finalizados com a perfeita compreensão dos elementos digitados nas linhas e colunas de uma tabela. É o arranjo tabular dos dados. Nosso objetivo neste tópico é mostrar como resumir dados e apresentá-los em tabelas, assim como saber entender a distribuição de dados tabelados e organizar esses dados coletados em tabelas. 5.4.1 Conceitos • Dados brutos: após a coleta, temos dados ainda não organizados que chamamos dados brutos. • Rol: é um arranjo de dados numéricos em ordem crescente ou decrescente de grandeza. • Amplitude total: é a diferença entre o maior e o menor número do rol. • Distribuição de frequência: é o arranjo tabular dos dados por classes, juntamente com as frequências correspondentes, sendo também denominado “dados agrupados”. Embora o processo de agrupamento geralmente inutilize muitos detalhes originais dos dados, consegue-se vantagem importante. Esta consiste no aspecto global obtido, que se torna mais claro evidenciando as relações essenciais. • Intervalo de classe: é a diferença entre o maior e o menor número da classe. • Limites de classe: o menor e o maior número da classe chamam-se limite inferior e superior, respectivamente. • Frequência acumulada (Fac): é a soma de frequências de determinada classe com as anteriores. • Frequência relativa (FR): é o quociente entre a frequência absoluta da classe e o total. Exemplo: estatura de estudantes (cm) 158 154 153 160 157 171 170 166 165 169 155 161 162 164 163 93 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Tabela 9 Estatura (cm) Nº de alunos (fi) Fac FR % 150 155 2 2 0,13 13 155 160 3 5 0,20 20 160 165 5 10 0,33 33 165 170 3 13 0,20 20 170 175 2 15 0,13 13 Exemplo de Aplicação 1) Tabular os dados a seguir e calcular as frequências acumuladas e relativas: a) Estatura (cm) de indivíduos adultos (iniciar em 150 e usar intervalo de classe igual a 5 cm). 182 154 163 151 180 171 189 176 159 151 160 170 161 153 171 160 158 169 157 173 153 174 170 165 174 167 164 156 162 157 166 173 159 157 158 173 167 168 168 169 b) Notas finais de 50 alunos (iniciar em zero e usar intervalo de classe igual a 1). 2,2 4,6 0,9 4,0 5,7 2,2 2,2 1,3 5,0 4,2 3,5 0,2 1,5 4,1 3,4 5,2 3,2 7,5 6,9 4,4 2,6 4,2 6,0 5,5 3,0 0,3 1,7 7,9 4,5 3,7 0,0 1,2 6,2 5,0 4,5 4,1 5,9 1,1 6,5 3,9 4,3 3,3 7,0 5,0 4,7 2,0 3,6 4,0 6,7 2,9 c) Idade dos funcionários da empresa (iniciar em 20 e usar intervalo de classe igual a 5). 33 46 49 40 53 59 42 48 34 30 49 36 51 27 38 24 41 25 48 20 50 39 41 33 31 41 27 40 42 39 31 47 46 54 56 35 48 46 58 48 40 57 25 43 40 37 43 49 35 46 33 45 55 52 43 39 41 44 23 37 41 37 42 45 50 54 35 38 32 41 53 41 57 32 48 45 40 55 45 37 57 49 56 54 29 26 54 49 36 50 39 43 38 44 32 d) Para avaliar o nível de estresse de um indivíduo, existe um critério que atribui pontos a acontecimentos pessoais. Somando-se esses pontos num período de 12 meses, sabe-se que a pessoaestá estressada se o resultado for superior a 300. Os números a seguir são a pontuação de alguns funcionários da empresa L&P S.A. (iniciar em 140 e usar intervalo de classe igual a 40). 230 168 300 265 159 274 198 217 310 155 264 277 225 255 288 301 215 206 240 350 220 337 186 171 94 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II 308 140 189 243 144 193 219 154 379 249 251 217 231 278 346 231 292 208 280 324 304 270 166 176 e) Peso (kg) de estudantes do colégio ACD (iniciar em 45 e usar intervalo de classe igual a 5). 69 57 72 54 83 68 72 58 64 62 65 76 60 49 74 59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 67 68 53 75 65 58 80 60 63 53 f) Tempo gasto (em minutos por dia) por executivos em reuniões (iniciar em 50 e usar intervalo de classe igual a 20). 55 123 100 62 101 135 78 95 87 118 91 84 98 125 80 95 82 99 111 103 120 115 77 96 90 114 52 148 57 88 106 104 87 116 82 112 93 130 149 113 56 61 144 96 139 114 91 118 70 87 106 87 Lembrete Algumas variáveis, como sexo, educação e estado civil, apresentam possíveis realizações – uma qualidade (ou atributo) do indivíduo pesquisado –, e são chamadas qualitativas. As variáveis quantitativas apresentam como possíveis realizações números resultantes de uma contagem ou mensuração, por exemplo, número de filhos, salário, idade etc. Saiba mais Consulte o site: <http://www.ibge.gov.br/home/> 6 MEDIDAS E REPRESENTAÇÕES GRÁFICAS 6.1 Medidas de tendência central Essa denominação ocorre porque os dados observados tendem a agrupar-se em torno dos valores centrais da distribuição. 95 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Nossos objetivos aqui são perceber que medidas de tendência central são aquelas localizadas próximas do centro de uma distribuição, saber calcular média aritmética, mediana e moda e perceber a utilização adequada de cada uma dependendo da distribuição. As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de dados. Geralmente, localizam-se em torno do meio ou centro de uma distribuição, onde maior parte dos dados tende a se concentrar. Média aritmética É dada por: x x n i = ∑ onde x i são os dados apurados e n a quantidade desses dados. Mediana Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição central. 133 135 137 138 140 142 145 Figura 10 Nesse grupo, o quarto indivíduo tem estatura mediana. A mediana é encontrada da seguinte forma: • número ímpar de dados: se n for ímpar, a mediana será o elemento central, de ordem 0,5(n+1). Exemplo: 27, 37, 31, 43, 42. 96 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Primeiramente, colocamos em ordem: 27 31 37 42 43. A seguir, verificamos qual elemento ocupa a posição central, ou fazemos 0,5(n+1) = 0,5(5+1) = 3; portanto, é o 3º elemento. Assim, Md = 37 • Número par de dados: caso n seja par, a mediana será a média entre os elementos centrais, de ordem 0,5n e 0,5n+1. Exemplo: 134, 120, 136, 133, 123, 127. Colocamos em ordem (120 123 127 133 134 136) e fazemos 0,5n = 0,5.6 = 3 e 0,5n+1 = 3+1 = 4; logo, a mediana está entre o 3º e 4º elemento, ou seja, Md = +127 133 2 = 130. Lembrete 1 – A média aritmética sofre a influência de todos os dados. Deve ser usada quando a amostra for homogênea. 2 – A mediana não sofre a influência dos valores extremos (muito altos ou muito baixos). Deve ser usada quando a amostra for heterogênea. Moda É o valor que ocorre com maior frequência num conjunto. Exemplo: notas de matemática: 2, 8, 6, 5, 4, 6, 1, 0, 6, 7, 9, 3. Mo = 6. 6.1.1 Proporção As medidas vistas anteriormente aplicam-se principalmente a dados quantitativos, com exceção da moda, que também é útil para dados nominais. Outra medida usada para dados nominais é a proporção, que é a fração ou porcentagem de itens de determinado grupo ou classe. É calculada por: p n N = onde n é o número de itens que apresentam determinada característica e N, o número total de observações. Por exemplo: a cada 40 peças produzidas, uma é defeituosa. Portanto, a proporção de peças defeituosas é de: 97 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística p n N = = 1 40 Para que a caracterização dos dados seja mais adequada, podemos usar o seguinte critério: • média: quando os valores forem razoavelmente homogêneos; • mediana: quando os valores forem heterogêneos; • moda: quando ocorrem muitas repetições. Exemplo de Aplicação 1) O número de clientes atendidos, por dia, numa empresa de consultoria, em um período de dez dias, foi: 14, 21, 9, 11, 8, 19, 25, 22, 21 e 15. Determine a média, a mediana e a moda. 2) Uma empresa, com apenas cinco funcionários, paga os seguintes salários: $ 50,00, $ 27,00, $ 26,00, $ 25,00 e $ 24,00. Qual das medidas de tendência central caracteriza melhor os salários dessa empresa? (Dica: calcule as três.) 3) A porcentagem de desempregados entre 1965 e 1971 nos EUA foi: 4,5, 3,8, 3,8, 3,6, 3,5, 4,9 e 5,9. Qual foi a média, a mediana e a moda do período? 4) Registraram-se as seguintes temperaturas (º C) em um dia frio no município de Tuiuiu do Sul: -2, 0, -3, 4, -3, 5 e 1. Quais as temperaturas média, mediana e modal? 5) Na pesquisa anterior, constatou-se que os alunos estão distribuídos da seguinte forma, em relação à classe social: Tabela 10 Classe Nº de alunos A 4 B 15 C 23 D 14 a) Calcule as proporções de cada classe. b) Qual é a classe modal? 6) Determine a moda e as proporções: 98 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Tabela 11 Tipo de produto Quantidade vendida (mil) Televisão 117 Microsystem 92 DVD 180 Microcomputador 23 7) A tabela a seguir mostra o tráfego de pessoas (em milhões) nos shoppings brasileiros: Tabela 12 Ano 1994 1995 1996 1997 1998 1999 Pessoas (milhões) 42 45 50 55 62 100 Determine a média e a moda do período. 6.1.2 Medidas de posição – separatrizes Medidas de posição são medidas em que cada parte contém o mesmo número de elementos, porém, uma mesma série pode ser dividida em duas ou mais partes que contenham a mesma quantidade de elementos. O nome da medida de posição separatriz modifica de acordo com a quantidade de partes em que é dividida a série. Aqui, veremos como aplicar adequadamente as medidas de posição ou separatrizes em uma distribuição, assim como o modo de calcular e interpretar as medidas de posição, quartil, decil ou percentil. Se um conjunto de dados é organizado em ordem crescente de grandeza, o valor que divide o conjunto em duas partes iguais é a mediana. Por extensão desse conceito, pode-se pensar nos valores que dividem o conjunto em quatro partes iguais. Esses valores são denominados quartis. Semelhantemente, os valores que dividem os dados em dez e cem partes iguais são denominados decis e percentis, respectivamente. Quartil 25% 25% 25% 25% Q1 Q2 Q3 Decil 10% 10% 10% 10% 10% 10% 10% 10% 10% 10% D1 D2 D3 D4 D5 D6 D7 D8 D9 99 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N ome do d ia gr am ad or - d at a MateMática e Bioestatística Percentil 1% 1% 1% ... 1% P1 P2 P3 ... P99 Os percentis são encontrados da seguinte forma: • Número ímpar de dados: se n for ímpar, o percentil procurado será o de ordem (n+1)p, onde n é o tamanho da amostra e p, a porcentagem representada pela separatriz. • Número par de dados: se n for par, o percentil procurado será a média entre os elementos de ordem np e np + 1. Exemplo: em um teste você obteve o resultado 236. Além de você, onze pessoas fizeram o teste e obtiveram 210, 245, 220, 225, 233, 216, 252, 228, 215, 230 e 241. a) Qual o percentil do seu resultado entre os 12? Primeiramente, ordenamos: 210, 215, 216, 220, 225, 228, 230, 233, 236, 241, 245, 252. O resultado 236 ocupa a 9ª posição, num total de 12 posições; assim: 9 :12 = 0,75 = 75%, ou seja, 75% dos resultados são menores ou iguais ao seu. b) Qual é o 25º percentil? n = 12; logo, n é par. Assim: np = 12.0,25 = 3 ⇒ 3º elemento e np + 1 = 3 + 1 = 4 ⇒ 4º elemento Então, o 25º percentil será a média entre o 3º e o 4º elemento, ou seja, a média entre 216 e 220, que é 218. Exemplo de Aplicação 1) O que significa a frase a seguir: “Somente os gerentes e executivos recebem salários acima do 3º quartil” (AS MELHORES..., 1998)? 2) Considere os salários a seguir: 70 82 87 72 107 119 79 102 94 125 96 115 78 84 98 72 87 80 94 a) Abaixo de que salário se situam os 30% com menor remuneração? 100 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II b) Acima de que salário ficam os 30% com maior remuneração? 3) O guia informou que seu peso está no percentil 85. O que isso significa? 6.2 Medidas de dispersão ou variabilidade As medidas de dispersão ou de variabilidade servem para verificar a representatividade das medidas de posição. Nosso objetivo neste tópico é fazer você perceber que os dados obtidos podem ser distribuídos de maneira dispersa, em maior ou menor grau, e também desenvolver o senso crítico quanto às estatísticas apresentadas pela mídia. Como vimos anteriormente, um conjunto de dados pode ser sintetizado por meio de valores representativos como a média, a mediana e a moda. No entanto, essas medidas não têm a capacidade de caracterizar completamente um conjunto de dados. Por exemplo: se a média final de dois alunos A e B é 6, não podemos concluir que o aproveitamento deles foi homogêneo. O aluno A pode ter obtido notas 6, 5 e 7 e o aluno B, 10, 8 e 0. Portanto, para qualificar os valores de uma certa variável, ressaltando a homogeneidade ou a heterogeneidade de sua distribuição, recorremos às medidas de dispersão. 6.2.1 Variância Por definição, é: • Populacional: S x x N 2 2 = −∑ ( ) • Amostral: S x x n = − − ∑ ( )2 1 6.2.2 Desvio padrão É a raiz quadrada positiva da variância, ou seja, S x x N = −∑ ( )2 e S x x n = − − ∑ ( )2 1 para população e amostra, respectivamente. 101 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 6.2.3 Coeficiente de variação É uma medida de dispersão relativa que estabelece uma relação entre desvio padrão e média. Por meio dele, podemos ter uma ideia se o valor do desvio padrão é alto ou não. É dado por: CV s x = 100 Exemplo: tempo gasto (em minutos) para a realização de certa tarefa, observado em uma amostra de cinco funcionários de uma agência de viagens: 2 5 4 3 6 Como se trata de uma amostra, usamos a fórmula correspondente. Assim: Tabela 13 x (x – x)2 2 (2 - 4)2 = 4 5 (5 - 4)2 = 1 4 (4 - 4)2 = 0 3 (3 - 4)2 = 1 6 (6 - 4)2 = 4 20 Σ(x – x)2 = 10 s x x n 2 2 2 1 10 4 2 5= −( ) − = = ∑ , min Como min2 não tem sentido prático, calculamos o desvio padrão. s x x n = −( ) − = = ∑ 2 2 1 2 5 158, , min E, para conhecermos a variação, em percentual, calculamos o CV: CV s x x x = = = 100 158 100 4 39 5 , , % Portanto, os tempos variaram em 39,5%. 102 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Exemplo de Aplicação 1) A interpretação de dados estatísticos exige que se realize um número maior de estudos, além das medidas de posição. O estudo das médias, medianas, moda, quartis e percentis são válidos, mas não suficientes para estudos comparativos ou conclusões qualitativas. As medidas de dispersão ou de variabilidade servem para verificar a representatividade das medidas de posição. Por exemplo: O número de visitantes por mês (valores em milhares), durante o ano de 2002, ao santuário A e ao santuário B estão discriminados a seguir: A: 5,43; 6,31; 4,89; 6,15; 6,82; 5,42; 3,99; 4,65; 4,98; 6,46; 5,74; 5,16. B: 3,15; 2,42; 2,99; 4,10; 3,23; 17,41; 14,45; 3,80; 2,75; 4,27; 3,51; 3,92. Média de visitantes mensais no santuário A: 5,50 mil visitantes. Média de visitantes mensais no santuário B: 5,50 mil visitantes. Embora os dois santuários representem a mesma média de visitantes, a distribuição dos valores na série é muito diferente. O santuário A apresenta pequena variação no número de visitantes mensais em relação ao valor médio (os valores do desvio em relação à média são pequenos). Já o santuário B apresenta grande variação de seus valores mensais em relação à média (os valores do desvio em relação à média são grandes). Observamos que a distribuição dos valores na série A é numericamente mais próxima, enquanto na série B os elementos estão distribuídos com valores mais distantes. Podemos dizer que: a) A série A é mais dispersa. b) A série B é mais dispersa. c) A série B é mais coesa. d) As duas séries são coesas na mesma proporção. e) As duas séries são dispersas na mesma proporção. 2) Calcular variância, desvio padrão e coeficiente de variação para o consumo (em kWh) de energia elétrica de uma agência de viagens: Tabela 14 Mês Abril Maio Junho Julho Agosto Setembro Outubro kWh 278 283 296 233 334 313 251 103 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 3) Numa cidade A, a temperatura média do ano é igual a 27 ºC e o desvio-padrão é 8 ºC. Numa cidade B, a temperatura média do ano é igual a 24 ºC e o desvio padrão é igual a 6 ºC. Qual cidade apresenta a temperatura mais homogênea: a cidade A ou a cidade B? 4) Calcule o coeficiente de variação para o tempo de permanência (em dias) de uma amostra de hóspedes no Hotel Vista Azul. 3 4 4 5 2 5 4 3 6 Observação A média aritmética é usada como medida de tendência central, ou seja, como forma de, por meio de um único número, dar uma ideia das características de determinado grupo de números. No entanto, é importante ressaltar que, em algumas situações, a presença de um valor bem maior ou bem menor que os demais faz que a média aritmética não consiga traçar o perfil correto do grupo. Consideremos, por exemplo, um grupo de pessoas com idades de 2, 3, 2, 1, 2 e 50 anos. A média de idade, que é de 10 anos, não demonstra as características desse grupo em termos de idade. Em casos como esse são usadas outras medidas de tendência central, como a moda e a mediana (DANTE, 2005). 6.3 Construção de gráficos Os gráficos estatísticos são representações dos dados estatísticos, com o objetivode permitir uma visão completa e rápida do fato estudado. Meio de transporte Quantidade de usuários Trem 235 Ônibus 456 Metrô 423 Carro 255 Bicicleta 75 Total 1444 1500 1000 500 0 Quantidade de usuários Quantidade de usuários Tre m Ôn ibu s Bic icle ta Tot al Ca rro Me trô Trem Ônibus Bicicleta Total Carro Metrô Figura 11 104 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Nossos objetivos neste tópico são interpretar os diferentes tipos de gráficos e suas utilizações e aplicar o conhecimento na construção e interpretação de gráficos. Os dados estatísticos podem ser representados por meio de elementos geométricos chamados gráficos, que têm o objetivo de dar uma visão rápida e global do fenômeno em estudo. No entanto, apresentam algumas limitações: • não são precisos, na medida em que omitem detalhes; • podem ser distorcidos de acordo com interesses particulares; • não permitem a representação de um grande número de dados. Os gráficos devem ser elaborados de forma simples e clara, retratar a realidade e respeitar sua escala. Uma preocupação com eles é relacionada com a estética. Um gráfico com um eixo horizontal ou vertical muito grande fica ruim do ponto de vista estético. Assim, os eixos devem ter o mesmo comprimento, ou então o eixo vertical ter, no mínimo, 75% do comprimento do eixo horizontal. Figura 12 Devem ser construídos com base no sistema de eixos cartesianos, ou seja, dois eixos perpendiculares entre si, e a origem (zero) é na sua intersecção. No eixo das abscissas (horizontal), os valores crescem da esquerda para a direita. Nesse eixo, geralmente representamos cronologia (tempo), região geográfica (estado e município, entre outros) ou categorias. No eixo das ordenadas (vertical), os valores crescem de baixo para cima. Nele, representamos as quantidades (valores, porcentagem). Os gráficos devem ter título e, nas extremidades, indicam-se as variáveis que estão sendo representadas, com as respectivas unidades. 105 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Quando um eixo tem seus valores iniciais muito altos, deve haver uma interrupção, com a indicação da posição do zero. Todo gráfico deve indicar, no seu rodapé, a fonte, ou seja, a instituição ou pesquisador(es) que levantou(aram) os dados. 6.3.1 Gráfico de colunas É usado para representar séries cronológicas, geográficas e categóricas. São retângulos com larguras de mesma medida e alturas proporcionais às quantidades representadas. Para construí-lo, deve-se: 1) Traçar um sistema de eixos cartesianos. 2) Marcar os valores ou categorias das variáveis nos eixos, evitando o uso de números “quebrados”; escrever o nome das variáveis. 3) Construir retângulos representativos das variáveis, mantendo entre um e outro distâncias iguais. 4) Colocar o título e a fonte. Observação: as distâncias entre colunas devem ter medida inferior à sua largura. Exemplo 1 – Distribuição dos registros da produção brasileira em saúde pública da base de dados LILACS-SP/Brasil por ano de publicação. 3000 2000 1000 0 Ano Pu bl ic aç õe s re gi st ra da s na b as e 1982-85 1986-90 1991-95 20011996-2000 Figura 13 106 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Exemplo 2 – O gráfico a seguir mostra um estudo feito pelo Instituto Florestal, em que foi possível acompanhar a evolução de ecossistemas paulistas desde 1962. Desse estudo, publicou-se o Inventário Florestal de São Paulo, que mostrou resultados de décadas de transformações da Mata Atlântica. Área de vegetação natural (em mil km²) 1962-1963 1971-1973 1990-1992 2000-2001 34,633,3 43,9 72,6 Figura 14 6.3.2 Gráfico de linhas Usado apenas para séries cronológicas, nas quais podemos perceber a evolução do fenômeno no decorrer do tempo. Para sua construção, devem ser seguidos estes passos: 1 e 2) Passos idênticos ao gráfico de colunas. 3) Marcar os pontos correspondentes aos pares de valores das duas variáveis. 4) Unir os pontos marcados por segmentos de reta. 5) Colocar título e fonte. Veja os exemplos: Os países em desenvolvimento fazem grandes esforços para promover a inclusão digital, ou seja, o acesso, por parte de seus cidadãos, às tecnologias da era da informação. Um dos indicadores empregados é o número de hosts, isto é, o número de computadores conectados à internet. A tabela e o gráfico seguintes mostram a evolução do número de hosts nos três países que lideram o setor na América do Sul. 107 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 2003 2004 2005 2006 2007 Brasil 2.237.527 3.163.349 3.934.577 5.934.730 7.422.440 Argentina 495.920 742.358 1.050.639 1.464.719 1.837.050 Colômbia 55.626 115.158 324.889 440.585 721.114 Brasil 8.000.000 7.000.000 6.000.000 5.000.000 4.000.000 3.000.000 2.000.000 1.000.000 0 2003 2004 2005 2006 2007 Argentina Colômbia Fonte: IBGE (Network Wizards, 2007) Figura 15 6.3.3 Gráficos comparativos Como o próprio nome diz, servem para comparar dois ou mais fenômenos. No entanto, se muitos fenômenos forem representados num mesmo gráfico, este perde sua clareza e simplicidade. Cada fenômeno deverá ter uma cor ou motivo, de modo que possam ser diferenciados uns dos outros. Esses gráficos necessitam de legenda. Exemplo: o gráfico a seguir mostra o número de transplantes de rim, pâncreas e pulmão no Estado de São Paulo. rim 350 300 250 200 150 100 50 0 Número de transplantes ano de 2007 ano de 2008 pâncreas pulmão 253 344 27 44 4 8 Figura 16 108 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II 6.3.4 Gráfico de setores É usado quando queremos comparar os valores de uma categoria com o total de todas as categorias. Seu aspecto é de um círculo onde estão traçados alguns raios, por isso é conhecido como gráfico de pizza ou torta. Antes de iniciar sua construção, precisamos converter os valores encontrados em graus. Essa conversão é feita por meio de regra de três simples. Construção: 1) Usando um compasso ou gabarito, traçar uma circunferência com raio qualquer (não muito pequeno) e marcar o seu centro. 2) Traçar um raio qualquer. 3) Usando um transferidor, marcar os ângulos correspondentes aos valores da tabela, começando pelo primeiro raio traçado. 4) Pintar ou diferenciar com motivos cada categoria representada. 5) Colocar legenda, título e fonte. Exemplo: distribuição dos registros da produção científica brasileira indexada na base de dados AdSAÚDE, por tipos de documentos de 1990 a 2002. Teses 15% Livros 34% Outros documentos 3% Trabalhos de congressos 8% Artigos de revistas 42% Figura 17 6.3.5 Representação gráfica de distribuições de frequência Podemos representar os dados agrupados de duas maneiras: histograma e polígono de frequência. 109 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N ome do d ia gr am ad or - d at a MateMática e Bioestatística Os histogramas são parecidos com os gráficos de colunas, porém sem os espaços entre elas. Eles são construídos da seguinte forma: 1) Traçando o sistema de eixos cartesianos. 2) Marcando no eixo horizontal apenas os limites de classe. 3) Marcando as frequências no eixo vertical. 4) Traçando um retângulo para cada classe, com largura igual ao intervalo de classe e altura igual à respectiva frequência. 5) Colocando título e fonte. Observação: as linhas que dividem as colunas são dispensáveis. Com o histograma, podemos calcular a moda graficamente. Exemplo: peso de recém-nascidos no mês de novembro na Maternidade Mãe Santa. Tabela 15 Peso (g) F 2000 2500 2 2500 3000 5 3000 3500 12 3500 4000 8 4000 4500 3 f 12 10 8 6 4 2 2,0 2,5 3,0 3,5 4,0 4,5 Kg Figura 18 – Peso de recém-nascidos no mês de novembro na Maternidade Mãe Santa Os polígonos de frequência são semelhantes aos gráficos de linha. São construídos da seguinte forma: 1, 2 e 3) Igual ao histograma. 110 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II 4) Marcar os pontos médios das classes. 5) Marcar os pontos correspondentes aos pares de valores “ponto médio da classe” e “frequência da classe”. 6) Marcar um ponto onde seria o ponto médio da classe anterior à primeira e outro onde seria o ponto médio da classe seguinte à última. 7) Unir os pontos por segmentos de reta. 8) Colocar título e fonte. Com o polígono de frequências, podemos fazer a análise quanto à assimetria, graficamente. Exemplo: peso de uma amostra de adolescentes da região XYZ. Tabela 16 Peso (kg) Freq. 50 55 2 55 60 5 60 65 6 65 70 9 70 75 4 Polígono de frequência 50 1 0 5 3 7 2 6 4 8 9 55 60 65 70 75 80 Figura 19 – Peso de uma amostra de adolescentes da região XYZ Por sua vez, a Ogiva de Galton é um gráfico em linha, traçado em relação às frequências acumuladas nos limites superiores dos intervalos das classes. Com a Ogiva de Galton, podemos calcular a mediana graficamente. 111 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Para finalizar este tópico, ressaltamos a importância do papel milimetrado na construção de gráficos, pois eles facilitam muito. Mais modernamente, podemos contar com os gráficos feitos por computador, que são bastante precisos e têm uma apresentação muito boa. O recurso mais comum atualmente é o Microsoft Excel. Exemplo de Aplicação 1) Os gráficos permitem visualizar e comparar dados com mais facilidade. Por isso, aparecem com maior frequência nos meios de comunicação. De acordo com o gráfico no qual temos as cidades mais visitadas no Brasil em 2001, podemos afirmar que a preferência (moda) é: Rio de Janeiro Florianópolis São Paulo Salvador Foz do Iguaçu 13% 14% 19% 20% 34% Figura 20 - Cidades mais visitadas no Brasil em 2001 a) Rio de Janeiro. b) Florianópolis. c) São Paulo. d) Salvador. e) Foz do Iguaçu. 2) O gráfico representa a evolução do peso de um aluno do curso de Turismo: 70 60 50 40 30 pe so (q ui lo s) 20 10 0 0 20 idade (anos) 40 60 Figura 21 - Evolução do peso de um aluno do curso de Turismo segundo a idade De acordo com o gráfico, o peso desse aluno quando tinha 15 anos era: 112 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II a) 38 kg. b) 40 kg. c) 45 kg. d) 54 kg. e) 61 kg. 3) Leia o texto, adaptado de uma reportagem publicada por um jornal paulista: A Terra é um planeta cheio de água, mas a maior parte dela está nos oceanos e nós, seres humanos, precisamos de água doce para consumo próprio e para a agricultura. Segundo especialistas, 69% da água doce do mundo está nas calotas polares e geleiras, sendo inexplorável. Outros 30% estão em depósitos subterrâneos, de difícil uso. O restante, que está em rios, lagos e represas, é fácil de usar, mas a quantidade não é grande, sendo, em muitos casos, água poluída. Isso mostra que a água não pode ser mal usada (O ESTADO DE S. PAULO, 2001, p. A13.) O texto mostra que não é correto desperdiçar água, porque se trata de um recurso escasso. A questão sugere um trabalho conjunto relativo ao tema transversal meio ambiente. Esse tipo de informação, por se tratar de resultados em porcentagem, deve ser apresentado preferencialmente sob forma de gráfico de: a) Linhas. b) Barras. c) Colunas. d) Setores. e) Comparativos. 6.4 Diagramas de blocos Exemplo 1: cargos em uma empresa. O diagrama a seguir mostra, para a empresa ABC Informática, em valores absolutos, o número de mulheres em três tipos de cargo: de supervisão, de gerência e de direção. 113 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 Cargos de supervisão Cargos de gerência Cargos de direção Figura 22 – Número de mulheres em três cargos O diagrama a seguir mostra o número de mulheres, para a empresa ABC Informática, nos cargos descritos anteriormente a cada dez trabalhadores. Cargos de supervisão Cargos de gerência Cargos de direção 8 7 6 5 4 3 2 1 0 Figura 23 – Número de mulheres nos cargos a cada dez trabalhadores Valores absolutos (leitura do primeiro diagrama): • Número de mulheres em cargos de supervisão = 30. • Número de mulheres em cargos de gerência = 4. • Número de mulheres em cargos de direção = 6. Conclusão: na empresa ABC Informática, há mais trabalhadoras em cargos de supervisão e menos trabalhadoras em cargos de gerência. 114 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Valores relativos (leitura do segundo diagrama): • Dos trabalhadores em cargos de supervisão, 70% são mulheres (7 a cada 10). • Dos trabalhadores em cargos de gerência, 50% são mulheres (5 a cada 10). • Dos trabalhadores em cargos de direção, 20% são mulheres (2 a cada 10). Conclusão: na empresa ABC Informática, o maior percentual de mulheres está em cargos de supervisão e o menor percentual, em cargos de direção. Podemos afirmar que na empresa ABC Informática há dez funcionários em cargos de direção? Exemplo 2: número de internautas (adaptado do Enade 2005). Nos dias atuais, as novas tecnologias se desenvolvem de forma acelerada e a internet ganha papel importante na dinâmica do cotidiano das pessoas e da economia mundial. Os diagramas a seguir mostram o total de internautas em milhões (2004) e o número de internautas a cada dez habitantes (2003). 200 185 100 78 22,2 180 160 140 120 100 80 60 40 20 0 Estados Unidos (1%) China (2%) Japão (3%) Brasil (10%) Figura 24 – Total de internautas, em milhões (2004) 6,7 6 5,7 0,8 8 7 6 5 4 3 2 1 0 Islândia (1%) Coreia do Sul (2%) Suécia (3%) Brasil (76%) Figura 25 – Internautas a cada dez habitantes (2003) 115 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e BioestatísticaValores absolutos (leitura direta no primeiro diagrama): • Número de internautas nos Estados Unidos = 185 milhões. • Número de internautas na China = 100 milhões. • Número de internautas no Japão = 78 milhões. • Número de internautas no Brasil = 22,2 milhões. Em 2004, o país do primeiro diagrama com maior número absoluto de internautas foram os Estados Unidos. Valores relativos (leitura do segundo diagrama): • Dos habitantes da Islândia, 67% são internautas (6,7 a cada 10). • Dos habitantes da Coreia do Sul, 60% são internautas (6 a cada 10). • Dos habitantes da Suécia, 57% são internautas (5,7 a cada 10). • Dos habitantes do Brasil, 8% são internautas (0,8 a cada 10). Dos citados no segundo diagrama, o país com o maior percentual de internautas foi a Islândia, e aquele com menor percentual foi o Brasil; ou seja, valor absoluto e valor relativo são conceitos distintos! 6.4.1 Diagramas circulares (pizza) Exemplo 1: produção de grãos no Brasil. O diagrama a seguir mostra a produção de grãos (soja, milho, trigo, arroz e feijão) no Brasil, no período de 2007/08. Soja Milho Trigo Arroz Feijão 5,4 12,1 3,5 58,6 60,1 Figura 26 – Produção de grãos 2007/08 (em milhões de toneladas) 116 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Valores absolutos de produção de grãos em ordem decrescente (leitura direta no diagrama): • Produção de soja = 60,1 milhões de t. • Produção de milho = 58,6 milhões de t. • Produção de arroz = 12,1 milhões de t. • Produção de trigo = 5,4 milhões de t. • Produção de feijão = 3,5 milhões de t. Conclusão: no período de 2007/08, a maior produção foi a de soja (maior região representada no diagrama). Valores relativos de produção de grãos em ordem decrescente (cálculos feitos a partir do diagrama): Produção total de grãos no Brasil (2007/08) = 60,1+58,6+12,1+5,4+3,5 = 139,7 milhões de t. • Produção de soja → 60 1 139 7 100 43 , , % %x = → 43 t de soja a cada 100 t de grãos. • Produção de milho → 58 6 139 7 100 42 , , % %x = → 42 t de milho a cada 100 t de grãos. • Produção de arroz → 12 1 139 7 100 9 , , % %x = → 9 t de arroz a cada 100 t de grãos. • Produção de trigo → 5 4 139 7 100 4 , , % %x = → 4 t de trigo a cada 100 t de grãos. • Produção de feijão → 3 5 139 7 100 3 , , % %x = → 3 t de feijão a cada 100 t de grãos. Exemplo 2: população do Brasil. O diagrama que segue mostra a população do Brasil em 2007. 117 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Norte 51.534.406 77.873.120 26.733.595 13.222.854 14.623.316 Nordeste Sudeste Sul Centro-Oeste Figura 27 – População brasileira (2007) Valores absolutos do nº de alunos matriculados por região do Brasil, 2007 (leitura do primeiro diagrama): • Número de alunos matriculados no Ensino Médio na Região Norte = 730.499 • Número de alunos matriculados no Ensino Médio na Região Nordeste = 2.526.311 • Número de alunos matriculados no Ensino Médio na Região Sudeste = 3.353.266 • Número de alunos matriculados no Ensino Médio na Região Sul = 1.147.062 • Número de alunos matriculados no Ensino Médio na Região Centro-Oeste = 612.231 • Número total de alunos matriculados no Ensino Médio no Brasil = 8.369.369 Valores absolutos da população por região do Brasil, 2007 (leitura do segundo diagrama): • População da Região Norte = 14.623.316. • População da Região Nordeste = 51.534.406. • População da Região Sudeste = 77.873.120. • População da Região Sul = 26.733.595. • População da Região Centro-Oeste = 13.222.854. • População total do Brasil = 183.987.291 (soma das populações de cada região). Matriculados por região em relação ao total de alunos matriculados no Ensino Médio no Brasil (%): • Percentual de matriculados na Região Norte em relação ao total de alunos: 730 499 8 369 369 100 9 . . . % %x = . 118 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II • Percentual de matriculados na Região Nordeste em relação ao total de alunos: 2 526 311 8 369 369 100 30 . . . . % %x = . • Percentual de matriculados na Região Sudeste em relação ao total de alunos: 3 353 266 8 369 369 100 40 . . . . % %x = . • Percentual de matriculados na Região Sul em relação ao total de alunos: 1 147 062 8 369 369 100 14 . . . . % %x = . • Percentual de matriculados na Região Centro-Oeste em relação ao total de alunos: 612 231 8 369 369 100 7 . . . % %x = . População de cada região em relação à população total do Brasil (%): • Percentual da população no Norte em relação à população total do Brasil: 14 623 316 183 987 291 100 8 . . . . % %x = . • Percentual da população no Nordeste em relação à população total do Brasil: 51 534 406 183 987 291 100 28 . . . . % %x = . • Percentual da população no Sudeste em relação à população total do Brasil: 77 873 120 183 987 291 100 42 . . . . % %x = . • Percentual da população no Sul em relação à população total do Brasil: 26 733 595 183 987 291 100 15 . . . . % %x = . • Percentual da população no Centro-Oeste em relação à população total do Brasil 13 222 854 183 987 291 100 7 . . . . % %x = . Matriculados no Ensino Médio por região em relação à sua população (%): • Percentual de matriculados (Ensino Médio) na Região Norte em relação à sua população: 730 499 14 623 316 100 5 . . . % %x = . 119 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística • Percentual de matriculados (Ensino Médio) na Região Nordeste em relação à sua população: 2 526 311 51 534 406 100 5 . . . . % %x = . • Percentual de matriculados (Ensino Médio) na Região Sudeste em relação à sua população: 3 353 266 77 873 120 100 4 . . . . % %x = . • Percentual de matriculados (Ensino Médio) na Região Sul em relação à sua população: 1 147 062 26 733 595 100 4 . . . . % %x = . • Percentual de matriculados (Ensino Médio) na Região Centro-Oeste em relação à sua população: 612 231 13 222 854 100 4 . . . % %x = . Exemplo de Aplicação Questão 1. O Índice de Desenvolvimento Humano (IDH) é um indicador do nível do desenvolvimento socioeconômico de um dado país que leva em conta, simultaneamente, diversos aspectos, como expectativa de vida, índice de mortalidade infantil, grau de escolaridade e poder de compra da população. A relação entre o consumo anual de energia per capita (TEP) e o IDH, em vários países, está indicada no gráfico abaixo, no qual cada ponto representa um país. Países com médio desenvolvimento Países com baixo desenvolvimento Países com alto desenvolvimento 1,0 0,8 0,6ID H 0,5 Brasil 0,4 0,2 0 4 8 12 Figura 28 - Consumo anual de energia per capita em toneladas equivalentes de petróleo (TEP) Com base nesse conjunto de dados, pode-se afirmar que: a) O IDH cresce linearmente com o consumo anual de energia per capita. b) O IDH aumenta, quando se reduz o consumo anual de energia per capita. c) A variação do IDH entre dois países é inferior a 0,2,entre aqueles cujo consumo anual de energia per capita é maior que 4 TEP. 120 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II d) A obtenção de IDH superior a 0,8 requer consumo anual de energia per capita superior a 4 TEP. e) O IDH é inferior a 0,5 para todos os países com consumo anual de energia per capita menor que 4 TEP. Alternativa correta: C. Justificativa: o gráfico indica que todos os países com IDH entre 0,8 e 1 apresentam consumo anual de energia per capita maior que 4 TEP. Questão 2. Veja os gráficos a seguir: Atlanta Nova York Perth Vancouver Zurique Munique Bangkok Tóquio São Paulo Curitiba Hong Kong Cracóvia Bogotá Xangai Cidade de Ho Chi Minh Habitantes por hectare 0 50 100 150 200 250 300 350 400 Figura 29 - Densidade demográfica em 15 cidades - 1995.= Atlanta Nova York Perth Vancouver Zurique Munique Bangkok Tóquio São Paulo Curitiba Hong Kong Cracóvia Bogotá Xangai Cidade de Ho Chi Minh Litros por pessoa por ano 0 500 1000 1500 2000 2500 3000 Figura 30 - Consumo de gasolina em transporte particular de passageiros em 15 cidades - 1995. 121 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Com base nesses gráficos sobre 15 cidades, pode-se concluir que, no ano de 1995: a) As três cidades com menor número de habitantes por hectare são aquelas que mais consomem gasolina no transporte particular de passageiros. b) Nas três cidades da América do Sul, vale a regra: maior população por hectare acarreta maior consumo de gasolina no transporte particular de passageiros. c) As cidades mais populosas por hectare são aquelas que mais consomem gasolina no transporte particular de passageiros. d) Nas três cidades da América do Norte, vale a regra: maior população por hectare acarreta maior consumo de gasolina no transporte particular de passageiros. e) As três cidades da Ásia mais populosas por hectare estão entre as quatro com menor consumo de gasolina no transporte particular de passageiros. Resposta correta: A Justificativa: os gráficos mostram que, quanto maior é a densidade demográfica, menor é o consumo de gasolina no transporte particular de passageiros. Questão 3. Análise conjunta de dois gráficos. Os gráficos a seguir ilustram situações referentes à locadora de vídeos Cinema em Casa. 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0 ja ne iro nú m er o de v íd eo s al ug ad os meses (1º semestre de 2009) fe ve re iro m ar ço ab ril m ai o ju nh o Figura 31 122 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Romance 16% Outros 9% Infantil 25% Terror 20% Suspense 30% Figura 32 Número de locações de vídeos no 1º semestre de 2009 e distribuição de filmes alugados por gênero durante o mês de junho de 2009: • Número de filmes alugados pela locadora Cinema em Casa em janeiro de 2009: 2.500. • Número de filmes alugados pela locadora Cinema em Casa em fevereiro de 2009: 3.000. • Número de filmes alugados pela locadora Cinema em Casa em março de 2009: 2.000. • Número de filmes alugados pela locadora Cinema em Casa em abril de 2009: 3.500. • Número de filmes alugados pela locadora Cinema em Casa em maio de 2009: 4.500. • Número de filmes alugados pela locadora Cinema em Casa em junho de 2009: 4.000. Mês de junho de 2009: total de filmes alugados = 4000. • Locações de Romance (junho de 2009): 16% de 4000 = 16 100 4000 640x = . • Locações de Suspense (junho de 2009): 30% de 4000 = 30 100 4000 1200x = . • Locações de Terror (junho de 2009): 20% de 4000 = 20 100 4000 800x = . • Locações de Infantil (junho de 2009): 25% de 4000 = 25 100 4000 1000x = . • Locações de Outros (junho de 2009): 9% de 4000 = 9 100 4000 360x = . 123 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Variação percentual do número de filmes alugados no período de janeiro a junho de 2009: o número de locações passou de 2.500 para 4.000. Variação no número de locações no período = 4.000 – 2.500 = 1.500. Por regra de três, temos: 2.500 – 100% 1.500 – X , ou seja, 2.500 . X = 1.500x100→ X = 150.000/2.500 = 60%. Também podemos calcular a fração 1 500 2 500 100 60 . . . % %= . O número de locações teve aumento de 60% de janeiro a junho de 2009. Variação percentual do número de filmes alugados no período de fevereiro a março de 2009: o número de locações passou de 3.000 para 2.000. Variação no número de locações no período = 2.000 – 3.000 = -1.000. Por regra de três, temos: 3000 – 100% –1000 – X , ou seja, 3.000 . X = - 1.000 x 100→ X = -100.000/300 = -33,3%. Também podemos calcular a fração − = 1 000 3000 100 33 3 . . % , % . O número de locações teve diminuição de 33,3% de fevereiro a março de 2009. Observação 1 – O gráfico escolhido deve ser de acordo com o tipo de variável. 2 – Se a variável for qualitativa, devemos usar o gráfico de barras ou o gráfico de setores. 3 – Se a variável for quantitativa, devemos usar o histograma ou o polígono de frequências. 124 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Saiba mais Recomendamos o link a seguir: <http://educabilia.com.br/varias/q/estatistica-matematica?eq =estatistica+matematica&g=matem%C3%A1tica&gclid=CP_jj- OP874CFQxp7AodimgAYQ>. 7 NOÇÕES DE PROBABILIDADES A probabilidade expressa, por meio de valores numéricos, as possibilidades da ocorrência dos resultados de um fenômeno. Nossos objetivos neste tópico são definir e calcular a probabilidade de um evento ocorrer, identificar em um problema evento e espaço amostral e resolver problemas envolvendo o cálculo de probabilidades. 7.1 Conceitos básicos Veja a seguir alguns conceitos básicos: • Experimento aleatório: e aquele que, repetido em condições consideradas idênticas, pode apresentar resultados diferentes. Por exemplo, o lançamento de um dado. • Espaço amostral (S): é o conjunto dos possíveis resultados de um experimento aleatório. O número de elementos desse conjunto é indicado por n(S). Exemplo: no lançamento do dado, temos: S = {1, 2, 3, 4, 5, 6} n(S) = 6 • Evento: é um subconjunto do espaço amostral. Exemplo: no dado, podemos ter como evento a ocorrência de um número par: A = {nº par}; A = {2, 4, 6}, n(A) = 3. • Probabilidades – definição: as probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento. Num experimento aleatório equiprovável, a probabilidade de ocorrer o evento X dentro do espaço amostral S é dada por: P X n X n S P X n de casos favoraveis n de casos possiveis o o ( ) ( ) ( ) ( )= = ´ ´ 125 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Exemplo: qual a probabilidade de se retirar (sem reposição) cinco cartas de Copas de um baralho com 52 cartas? Figura 33 P Copas x x x x( ) , %5 13 52 12 51 11 50 10 49 9 48 0 0495= = 7.2 Probabilidadecondicional Sejam A e B dois eventos, com P(A) > 0. Denotemos por P(B/A) a probabilidade de ocorrência de B, na hipótese de A ter ocorrido. Como A ocorreu, passa a ser o novo espaço amostral, que vem substituir o espaço original S. Daí: P B A P A B P A n A B n A ( / ) ( ) ( ) ( ) ( ) = ∩ = ∩ Exemplo: sorteando-se um número ao acaso entre os inteiros 1, 2, ... , 15, qual a probabilidade de o número ser 6, sabendo-se que saiu par? S = {1, 2, 3, ... , 15} n(S) = 15 B = {o número é 6} = {6} n(B) = 1 A = {o número é par} = {2, 4, 6, 8, 10, 12, 14} n(A) = 7 A ∩ B = {6} ⇒ n(A ∩ B) = 1 Daí, temos: P B A P A B P A ( / ) ( ) ( ) / / ,= ∩ = = = 1 15 7 15 1 7 0 1428 126 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Exemplo de Aplicação 1) Um lote de 30 passagens é formado por 20 passagens para Belém, 8 para Manaus e 2 para Natal. Retira-se uma passagem ao acaso. Calcule a probabilidade de que: a) A passagem seja para Manaus. b) A passagem seja para Natal. c) A passagem seja para Belém. 2) Um estudo de 500 voos da American Airlines selecionados aleatoriamente mostrou que 430 chegaram no horário (com base em dados do Ministério dos Transportes). Qual a probabilidade de um voo da American Airlines chegar antes do horário? Acha que é um resultado satisfatório? 3) Distribuição de hóspedes em um hotel de Curitiba. Tabela 17 Idade Sexo Total Feminino Masculino Abaixo de 20 anos 20 16 35 Entre 20 e 40 anos 65 150 215 Acima de 40 anos 50 95 145 Total 135 260 395 Se um hóspede é aleatoriamente escolhido, qual a probabilidade: a) De ser mulher? b) De ser mulher e ter acima de 40 anos? c) De ser homem e ter menos de 20 anos? d) De ser mulher entre 20 e 40 anos? e) De ser homem e ter menos de 40 anos? 4) Estilo de vida é um fator que agrega o modo como as pessoas vivem, como se veem e como querem que os outros as vejam. É também função de variáveis como renda, ocupação, instrução e convívio social. Alguns estilos são especialmente interessantes para quem gerencia atrações (defensores de vida saudável são propensos a visitar clubes e centros esportivos, ambientalistas gostam de zoos, passeios ecológicos etc.). A tabela a seguir mostra o resultado de um teste de identificação de estilo de vida com 150 pessoas aleatoriamente selecionadas. 127 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Tabela 18 Estilo de vida Pesquisado Tipo A Tipo B Total Homem 78 42 120 Mulher 19 11 30 Total 97 53 150 Escolhendo um dos questionários preenchidos pelos entrevistados, sobre preferências por atrações turísticas, qual a probabilidade de ele se referir a alguém: a) Do estilo A? b) Do sexo feminino? c) Do estilo B, dado que é mulher? d) Do sexo masculino ou que tenha estilo de vida tipo B? Observação 1 - O estudo sobre probabilidades começou no século XVII, a partir dos jogos de azar. 2 – Os jogos de azar têm duas características: a incerteza e a regularidade. 3 – Incerteza: não podemos prever o resultado, mas, podemos prever uma série de resultados. 7.3 Distribuição Normal A distribuição normal é uma das mais importantes entre os modelos de distribuição contínua. É também conhecida como distribuição de Gauss, Laplace ou Laplace-Gauss. Os objetivos deste tópico são apresentar a distribuição de frequência mais comum e operar e interpretar variáveis com distribuição normal. Cientistas do século XVIII, ao observarem certos fenômenos sociais, psicológicos e físicos, descobriram certa distribuição de frequência que ocorria constantemente, como no gráfico a seguir: 128 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II y x Figura 34 Essa distribuição ficou conhecida como distribuição normal. Mais tarde, constatou-se que ela podia ser aproximada por uma distribuição matemática. Fr eq uê nc ia Figura 35 Daí nasceu a chamada curva normal ou curva de Gauss, em homenagem a Karl F. Gauss. Atualmente, a curva normal é uma das mais importantes distribuições de probabilidades conhecidas. Isso se deve não só aos recursos que ela própria oferece, mas também ao fato de que muitas outras distribuições convergem para ela. 7.3.1 Características da curva normal 1) É simétrica em relação à média. 2) No ponto de maior frequência coincidem média, mediana e moda. 3) Existe uma curva normal para cada média e desvio padrão (parâmetros). 4) É uma distribuição contínua e pode assumir qualquer valor do campo real de - ∞ a + ∞. 5) A área total sob a curva é considerada como 100%. 6) A área sob a curva entre dois pontos é a probabilidade de uma variável normalmente distribuída tomar um valor entre esses pontos e é função de S. 129 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística 7) Como há um número ilimitado de valores no intervalo de - ∞ a + ∞, a probabilidade de uma variável aleatória distribuída normalmente tomar exatamente determinado valor é aproximadamente zero. Assim, as probabilidades se referem sempre a intervalos de valores. 8) É assintótica em relação à horizontal, ou seja, a curva se aproxima do eixo cada vez mais, mas nunca o intercepta. Uma forma abreviada de indicar que uma variável X tem distribuição normal é X → N(X; S2), onde X e S2 são os parâmetros fundamentais. A B Figura 36 Xa < Xb SA = SB A B Figura 37 Xa = Xb SA > SB Exemplo: QI de indivíduos adultos de certa população. 130 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a Unidade II Fr eq uê nc ia 70 (-3 o) x = 100 130 (+3 o) 99,74% Figura 38 Normal reduzida Vamos imaginar que uma variável X tenha distribuição normal com média aritmética X e desvio padrão S. Se deslocarmos o eixo das frequências até o centro da curva, teremos feito uma mudança de origem. Tomando uma nova variável Z e definindo-a como Z X X S = − , teremos construído uma distribuição normal reduzida. Sendo assim, as infinitas distribuições normais reduzem-se a apenas uma: N(0; 1). Transformação de X em Z Quando fazemos Z X X S = − , estamos transformando X em unidades de desvio padrão. Exemplo: se X → N(40;16); X = 44 transforma-se em Z = 1. Isso é um desvio padrão à direita da média: Z X X S = − = − = 44 40 16 1 7.3.2 A distribuição normal como modelo Tendo uma variável X distribuição normal, podemos descobrir a probabilidade de ela assumir certo intervalo de valores, calculando a área compreendida sob a curva nesse intervalo. Como esse cálculo é trabalhoso, usamos a tabela normal reduzida. 7.3.3 Teorema do limite central Se uma variável tem distribuição normal, a distribuição das médias amostrais também será normal para qualquer tamanho de amostra, e se a variável tem distribuição não normal, a distribuição das médias amostrais será aproximadamente normal para grandes amostras. 131 Re vi sã o: N om e do re vi so r - D ia gr am aç ão : N om e do d ia gr am ad or - d at a MateMática e Bioestatística Exemplos: 1) Suponha que a renda
Compartilhar