Baixe o app para aproveitar ainda mais
Prévia do material em texto
E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 2 Índice Sobre o autor............................................................................................................................... 5 Edição ........................................................................................................................................... 5 Contato ......................................................................................................................................... 5 Orientação de Estudos ............................................................................................................... 6 1. Introdução à Estatística .......................................................................................................... 9 1. O que é Estatística? .............................................................................................................. 9 2. Estatística Descritiva e Estatística Indutiva ........................................................................... 9 3. Parâmetros x Estatísticas .................................................................................................... 10 4. Planejamento de Experimentos .......................................................................................... 10 5. População e Amostra .......................................................................................................... 11 6. Pesquisa Estatística ............................................................................................................. 11 Tipos de amostragem .............................................................................................................. 12 Amostragem Não Probabilística .............................................................................................. 13 - Acidental ou conveniência ................................................................................................ 13 - Intencional ........................................................................................................................ 13 - Quotas ou proporcional .................................................................................................... 13 - Desproporcional ................................................................................................................ 14 Amostragem Probabilística ..................................................................................................... 15 - Aleatória Simples ou Casual Simples ................................................................................. 15 - Sistemática ........................................................................................................................ 15 – Aleatória Estratificada ...................................................................................................... 16 – Conglomerado .................................................................................................................. 20 7. Dado x Variável .................................................................................................................... 20 8. Arredondamento de números ............................................................................................ 25 9. Exercícios ............................................................................................................................. 26 2. Organização de Dados ......................................................................................................... 31 1. ROL ...................................................................................................................................... 31 2. Tabelas ................................................................................................................................ 31 3. Classes ................................................................................................................................. 32 4. Amplitude de classe ............................................................................................................ 33 5. Amplitude total ................................................................................................................... 33 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 3 6. Frequências ......................................................................................................................... 33 7. Distribuição de Frequências ................................................................................................ 34 8. Escolha do número e tamanho de classes .......................................................................... 41 Alguns problemas na montagem das classes ............................................................. 45 9. Ponto médio de uma classe ................................................................................................ 47 10. Exercícios ........................................................................................................................... 48 3. Gráficos Estatísticos ............................................................................................................. 61 1. Gráfico em linhas ou em curva ............................................................................................ 61 2. Gráfico em colunas (vertical) ou em barras (horizontal) .................................................... 63 3. Gráfico de setores ............................................................................................................... 68 4. Gráfico de Dispersão ........................................................................................................... 69 5. Diagrama ramo–e–folhas .................................................................................................... 70 6. Histograma .......................................................................................................................... 71 7. Polígono de frequência ....................................................................................................... 72 8. Pictograma .......................................................................................................................... 73 9. Exemplos comparativos ...................................................................................................... 73 10. Exercícios ........................................................................................................................... 77 4. Medidas de Posição .............................................................................................................. 93 1. Média Aritmética ( x ou µ )................................................................................................. 93 Caso I: Dados não agrupados ........................................................................................ 94 Caso II: Dados agrupados sem intervalos de classe .................................................. 94 Caso III: Dados agrupados com intervalos de classe ................................................. 94 2. Moda (Mo) .......................................................................................................................... 96 Caso I: Dados não agrupados ........................................................................................ 96 Caso II: Dados agrupados sem intervalos de classe .................................................. 96 Caso III: Dados agrupados com intervalos de classe ................................................. 96 3. Mediana (Md) ......................................................................................................................98 Caso I: Dados não agrupados ........................................................................................ 98 Caso II: Dados agrupados sem intervalos de classe ................................................ 100 Caso III: Dados agrupados com intervalos de classe ............................................... 101 4. Exemplos ........................................................................................................................... 104 5. A média é representativa? ................................................................................................ 106 6. Exercícios ........................................................................................................................... 106 5. Medidas de Dispersão ........................................................................................................ 115 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 4 1. Introdução ......................................................................................................................... 115 2. Desvio Médio ..................................................................................................................... 115 3. Variância (s2 ou σ2) e Desvio padrão (s ou σ) .................................................................... 116 4. Desvio-padrão × Variância ................................................................................................ 117 5. Exemplos ........................................................................................................................... 117 FORMULÁRIO .............................................................................................................................. 127 Bibliografia ................................................................................................................................ 128 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 5 Sobre o autor Conrad Elber Pinheiro é graduado em Licenciatura em Matemática pelo Instituto de Matemática e Estatística da Universidade de São Paulo (USP) e mestre em Estatística também pela USP. Edição Este material está sendo constantemente revisado, atualizado e corrigido. Esta versão foi revisada e editada em fevereiro / 2017. Contato Se você possuir dúvidas, sugestões ou quiser informar de algum erro encontrado neste material, sinta-se a vontade para entrar em contato com o autor via email: conrad.yy@gmail.com . E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 6 Orientação de Estudos Prezado(a) aluno(a), Ao longo de todo o curso que ministro, costumo orientar os estudantes em COMO estudar Matemática, mais especificamente, Estatística. Alguns alunos seguem minhas orientações logo de início. Outros, demoram um tempo maior para “aprender” a estudar. Digo “aprender”, pois muitas vezes o método de estudo que funciona bem em determinada disciplina não fornece bons resultados em outra. Um exemplo: muitas pessoas têm facilidade em estudar disciplinas de humanas: basta prestar atenção nas aulas e ler um resumo que obtêm ótimos resultados nas provas. Porém, isso não funciona na Estatística! Por isso, vou passar algumas orientações que garanto que funcionarão. Funcionaram comigo na época em que era estudante. Funcionaram com aqueles alunos que seguiram estas orientações. Funcionará com você também! Inicialmente, vale a pena destacar e enfatizar que a Estatística é uma disciplina totalmente CUMULATIVA. Ou seja, muitas vezes, nas últimas aulas do curso, estaremos retomando conceitos que foram ensinados nas primeiras aulas. Então, siga estas orientações: 1) não falte às aulas! Seja assíduo, visto que se faltar, possivelmente terá dificuldades em acompanhar o conteúdo das aulas seguintes, e de todo o resto do curso! Lembre-se: estar presente não é sinônimo de bom desempenho. Participe das aulas, não necessariamente falando, mas prestando atenção! E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 7 2) Anote tudo que for dado em lousa, seja teoria ou um exercício. Alguns alunos dão a famosa desculpa: “ou eu copio, ou eu presto atenção”. Muito bem, como já disse, isso é desculpa! É muito importante copiar o que está na lousa, pois só assim você terá um material de consulta. Tente conciliar as coisas: preste atenção nas palavras do professor enquanto copia. Lembre- se: copiar não é ficar enfeitando o caderno! Acho muito bom cadernos organizados e coloridos, mas, se preciso, copie tudo sem muito capricho e depois passe a limpo suas anotações. O importante é que tenha, após a aula, anotado tudo que foi dado em lousa. 3) Caso precise, de fato, faltar à alguma aula, procure ler e estudar o que foi dado na(s) aula(s) que perdeu, além de, é claro, COPIAR tudo que foi passado em lousa de algum colega. 4) Alguns alunos pensam que exercício feito em lousa é apenas para exemplificar a matéria e, por isso, não se preocupam em refazer esses exercícios. Querem, logo após a aula, pegar os exercícios que ainda não foram resolvidos e tentar fazê-los. ERRADO! O primeiro passo para assimilar um conteúdo novo é REFAZER OS EXERCÍCIOS RESOLVIDOS EM LOUSA, tentando entender o passo a passo da resolução. Feito isso, passe para a resolução dos exercícios propostos. 5) Consulte sempre! O único momento em que você não poderá consultar suas anotações é durante a prova. Enquanto estiver em sala de aula, ou fora dela fazendo exercícios, procure consultar e se basear em exemplos resolvidos. Esses exemplos irão lhe ajudar muito em algumas situações. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 8 6) Faça os exercícios da apostila. Muitas vezes, por questões de tempo, fica inviável fazer todos os exercícios da apostila (embora isso seja o ideal). Ao menos, refaça os exemplos dados em aula e faça alguns exercícios da apostila. Essa será a única maneira de aprender o conteúdo. Não adianta prestar atenção durante a aula e copiar tudo que for passado em lousa. A assimilação só ocorrerá quando você fizer, sozinho, alguns exercícios. 7) Não deixe para estudar na última hora!!! Possivelmente você escuta isso desde criança. Mas, agora, leve isto à risca! O conteúdo é bastante extenso. Você não conseguirá assimilar todo esse conteúdo se estudar apenas uma semana antes da prova! Assim, procure reservar um horário por semana para estudar Estatística. Vá fazendo os exercícios da aula e da apostila lentamente, de acordo com as orientações dadas pelo professor em sala de aula. Estude sempre e não apenas nas vésperas de provas! Seguindo estas orientações, garanto a você que conseguirá aprender Estatística mais fácil do que você imagina. Alunos meus que seguiram, foram aprovados com tranquilidade. Se você acha que é muita coisa para ser feita, ou se você acha que o SEU método de estudo é relativamente bom, ok! Mas... que tal mudar? Que tal você, ao menos, TENTAR seguir as orientações aqui citadas? Acho que valerá a pena! Sucesso nos estudos! Prof . Conrad E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 9 1. Introdução à Estatística 1. O que é Estatística? Toda pesquisa ou trabalho científico, nas mais variadas áreas, como sociologia, saúde, psicologia, etc., de um modo bem geral, em algumafase de seu desenvolvimento, se depara com situações que envolvem uma grande quantidade de dados relevantes ao objeto de estudo. Esses dados têm que ser trabalhados e transformados em informações, para que possam ser comparados com outros resultados, ou ainda para julgar sua adequação a alguma teoria. Para isto se recorre a técnicas desenvolvidas com a finalidade de auxiliar a análise dessas informações. A utilização dessas técnicas, destinadas à análise de situações complexas ou não, tem aumentado e faz parte do nosso cotidiano. Jornais, revistas técnicas artigos, etc., publicam frequentemente tabelas, gráficos, porcentagens e outros dispositivos destinados a complementar a apresentação de um fato ou justificar um argumento. A ciência que se dedica a esse trabalho é a Estatística. Estatística: é o conjunto de técnicas que permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. No passado, tratar uma grande massa de números era tarefa custosa e cansativa, que exigia horas de trabalho. Recentemente, no entanto, grande quantidade de informações pode ser analisada rapidamente com um computador pessoal e programas adequados. Desta forma, o computador contribui, positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar um indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado problema. Assim, é necessário a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para o seu uso de forma criteriosa. Quando se aborda uma problemática envolvendo métodos estatísticos, deve-se planejar a experiência que nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o máximo de informações relevantes para o problema em estudo, ou seja, para a população de onde os dados provêm. Quando de posse dos dados, procura-se agrupá-los e reduzi-los sob forma de amostra. Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou testar uma hipótese. Utilizamos então técnicas estatísticas convenientes que vão permitir tirar conclusões acerca da população, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido. 2. Estatística Descritiva e Estatística Indutiva Numa análise estatística distinguem-se essencialmente duas fases: 1ª Fase - Estatística Descritiva - Procura-se descrever e resumir dados, afim de que se possam tirar conclusões a respeito das características de interesse. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 10 Exemplos de características de interesse: idade, sexo, peso. Exemplos de técnicas descritivas: gráficos, tabelas de frequência, parâmetros associados às frequências, tais como médias, variâncias, etc. 2ª Fase - Estatística Indutiva (Inferência) - Conhecidas certas propriedades (obtidas a partir de uma análise descritiva de uma amostra), expressas por meio de proposições, imaginam-se proposições mais gerais (extrapolação), que exprimam conclusões para toda a população. 3. Parâmetros x Estatísticas • Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. • Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos inferências para que possamos fazer conclusões sobre a população. 4. Planejamento de Experimentos Os estudos que utilizam métodos estatísticos vão desde os que são concebidos e executados, dando resultados confiáveis, aos que são concebidos deficientemente e mal executados, levando a conclusões enganosas e sem qualquer valor real. Eis alguns pontos importantes para o planejamento de um estudo capaz de produzir resultados válidos: 1. Identificar com precisão a questão a ser respondida e definir com clareza a população de interesse. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 11 2. Estabelecer um plano para coleta de dados. Esse plano deve descrever detalhadamente a realização de um estudo observacional ou de experimento e deve ser elaborado cuidadosamente, de modo que os dados coletados representem efetivamente a população em questão. 3. Coletar os dados. Devemos ser extremamente cautelosos, para minimizar os erros que podem resultar de uma coleta tendenciosa de dados. 4. Analisar os dados e tirar conclusões. Identificar também possíveis fontes de erros. Os estudos que requerem métodos estatísticos decorrem tipicamente de duas fontes comuns: estudos observacionais e experimentais. Estudo observacional – verificamos e medimos características específicas, mas não tentamos manipular ou modificar os elementos a serem estudados. Ex: plebiscito sobre porte de arma de fogo. Estudo experimental – aplicamos determinado tratamento e passamos então a observar seus efeitos sobre os elementos as serem pesquisados. Ex: tratamento médico a um determinado grupo de pacientes a fim de determinar sua eficiência na cura. 5. População e Amostra Ao se estudar as características de uma população, o ideal seria investigar todos os elementos dessa população. Porém, na grande maioria dos casos, é inviável estudar a população em virtude de distâncias, custo, tempo, logística, entre outros motivos. A alternativa praticada nestes casos é o trabalho com uma amostra confiável. População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo. Amostra (n): É um subconjunto da população. A amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. 6. Pesquisa Estatística É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. Recenseamento (Censo): é a contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode-se definir recenseamento do seguinte modo: “estudo científico de um universo de pessoas, instituições ou objetos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo”. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 12 Amostragem: é o processo que procura extrair da população elementos que através de cálculos probabilísticos ou não, consigam prover dados inferências da população- alvo. Este processo deve seguir um método criterioso e adequado. Tipos de amostragem Os principais tipos de amostragem estão representados no diagrama a seguir: Amostragem Não Probabilística Acidental ou Conveniência Intencional Quotas ou Proporcional Desproporcional Probabilística Aleatória Simples Estratificada Sistemática Conglomerado E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 13 Amostragem Não Probabilística A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na amostra parao todo da população quando se opta por este método de amostragem. Isto porque os elementos da amostra não têm a mesma probabilidade de serem escolhidos e, por isso, não é possível fazer inferências sobre a população. Alguns modelos de amostragem não probabilística são: - Acidental ou conveniência Indicada para estudos exploratórios. Frequentemente utilizados em supermercados para testar produtos ou em pesquisas de opinião geralmente realizada em locais onde há um grande fluxo de pessoas. Neste tipo de amostragem, geralmente o entrevistador aborda indivíduos que passem próximo a ele, de forma casual, ou ainda, totalmente acidental. - Intencional O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por exemplo, quando, de um estudo sobre automóveis, o pesquisador procura apenas oficinas. Podemos pensar, ainda, que a amostragem intencional é um tipo de acidental utilizando uma espécie de “filtro”. Se a pesquisa consiste em saber, por exemplo, sobre o design de armações de óculos de grau, é natural que o entrevistador procure abordar apenas pessoas que passem próximo a ele e que estejam usando óculos. - Quotas ou proporcional Na realidade, trata-se de uma variação da amostragem intencional. Necessita-se ter um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja- se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta será a quota para o trabalho. A amostragem proporcional buscará entrevistar pessoas de forma acidental ou intencional e que façam parte do grupo (categoria) específico. Por exemplo, se estamos realizando uma pesquisa sobre o grau de satisfação de proprietários de veículos, devemos, inicialmente, determinar a quantidade de participação na população de cada um dos carros analisados. No mês de julho de 2014, os 6 veículos mais vendidos no Brasil foram: Posição Modelo Nº de veículos 1ª Palio 15989 2ª Gol 14347 3ª Onix 14015 4ª Strada 12585 5ª HB20 10857 6ª Fiesta 10591 Total 78384 Fonte: http://carros.ig.com.br/ranking/home/01.html. Acessado em 17/08/2014. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 14 Dessa forma, baseado no total da tabela, podemos calcular as porcentagens de proprietários de cada um dos veículos na população: Posição Modelo Nº de veículos Porcentagem 1ª Palio 15989 20,4% 2ª Gol 14347 18,3% 3ª Onix 14015 17,9% 4ª Strada 12585 16,1% 5ª HB20 10857 13,9% 6ª Fiesta 10591 13,4% Total 78384 100% Vamos admitir que faremos uma pesquisa de amostra igual a 2000 indivíduos. Qual será a quantidade de pessoas proprietárias de cada um dos modelos listados que devemos entrevistar de maneira intencional? Basta calcularmos as quantidades correspondentes a cada um dos modelos baseado na porcentagem populacional: Posição Modelo Nº de veículos Porcentagem Amostra 1ª Palio 15989 20,4% 408 2ª Gol 14347 18,3% 366 3ª Onix 14015 17,9% 358 4ª Strada 12585 16,1% 322 5ª HB20 10857 13,9% 278 6ª Fiesta 10591 13,4% 268 Total 78384 100% 2000 - Desproporcional Muito utilizada quando a escolha da amostra for desproporcional à população. De modo geral, este método de amostragem só deve ser realizado quando não se conhece o tamanho real da população correspondente a cada categoria analisada. Por exemplo, considere a tabela anterior a respeito dos 6 veículos mais vendidos no Brasil no mês de julho de 2014. Caso não tivéssemos acesso às porcentagens populacionais, poderíamos realizar uma pesquisa com 2000 pessoas da seguinte maneira: Posição Modelo Amostra 1ª Palio 334 2ª Gol 334 3ª Onix 333 4ª Strada 333 5ª HB20 333 6ª Fiesta 333 Total 2000 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 15 Amostragem Probabilística Para que se possam realizar inferências sobre a população, é necessário que se trabalhe com amostragem probabilística. É o método que garante segurança quando se investiga alguma hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser selecionado na amostra. São tipos de amostragem probabilística: - Aleatória Simples ou Casual Simples É o mais utilizado processo de amostragem. Prático e eficaz confere precisão ao processo de amostragem. Normalmente utiliza-se uma tabela de números aleatórios e nomeiam-se os indivíduos, sorteando-se um por um até completar a amostra calculada. Exemplo: Queremos escolher 10 alunos de 90 alunos de uma sala. Escrevemos números de 1 a 90 em um papel e sorteamos 10 números. Seria o mesmo princípio do “bingo”: sortear 10 número a partir de um globo com bolinhas numeradas de 1 a 90. Uma maneira de substituir os papéis é utilizar uma tabela de números aleatórios, que podem ser encontradas em livros de Estatística. Porém, esse método já está ultrapassado, visto que temos acesso a softwares (inclusive para smartphones) que fazem sorteios aleatórios. Ou, ainda, funções específicas (como a ALEATÓRIOENTRE presente no Microsoft Excel). - Sistemática Em um grande número de exemplos, o pesquisador depara-se com a população ordenada. Uma palavra chave de fácil memorização é “fichário”: quando temos nossa população cadastrada em fichas numeradas ou, ainda, banco de dados que produzem números sequenciais para cada novo cadastro efetuado. Exemplos: 1. No caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra de produção diária. Neste caso estaríamos fixando o valor da amostra em 10% da população (amostragem probabilística aleatória simples) 2. Quando se trabalha com sorteio de quadras de casas, por exemplo, há uma regra crescente para os números das casas. Em casos como este, divide-se a população pela amostra e obtém-se um coeficiente (y). A primeira casa será a de número um x escolhido aleatoriamente, a segunda será a de número x + y; a terceira será a de número x + 2y, a quarta será x + 3y e assim sucessivamente (amostragem probabilística aleatória sistemática). Observe, se a rua contém 900 casas e desejamos obter uma amostra de 50 casas: • dividimos 900 por 50 obtendo o coeficiente y = 18 (900 : 50 = 18); • em seguida escolhemos por sorteio casual um número de 1 a 18 (inclusive), para indicar o número da primeira casa (x), • o segundo número será x + 18; o terceiro será x + 2.18; o quarto será x + 3.18, e assim sucessivamente. Se o número sorteado (x) for o número 4 (par), tomaríamos, E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 16 pelo lado direito da rua o 4º prédio, o 22º, o 40º etc., até voltarmos ao início da rua, pelo lado esquerdo. 3. Uma clínica possui 200 pacientes (cada um cadastrado com valores de 1 a 200). Deseja-se sortear uma amostra de tamanho 10. Inicialmente, calculamos o tamanho do “passo” a ser dado na hora de coletar a amostra: 200 : 10 = 20 (é o nosso “passo”) Agora, sorteamos um número entre 1 e o nosso “passo”, no caso, 20. Suponhamos ter sorteado o número 5. A partir desse valor, somamos o “passo” obtendo os números dos elementos de nossa amostra: 5, 25, 45, 65, 85, 105, 125, 145, 165, 185. – Aleatória Estratificada Quando se deseja guardar uma proporcionalidade na população heterogênea, estratifica-se cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre outros. Esse tipo de amostragem é útil quando se pode construir um sistema de referências, mas sabe-se de antemão que existe uma grande variabilidade entre os grupos e uma pequena variabilidade dentro de cada grupo. Com o objetivo de eliminar a variabilidade entre os grupos, convém utilizar este sistema de amostragem. A cada grupo damos o nome de estrato.Depois, retiramos de cada estrato uma amostra casual simples. Exemplo 1: Suponha que dos 90 alunos de uma sala, 54 são homens e 36 sejam mulheres. Vamos obter 10% da população para a amostra proporcional estratificada. Então vamos dividir nossa população em dois estratos: homens e mulheres. Destes dois estratos vamos obter 10% de cada um. Assim temos: Do dicionário Michaelis: Extrato: Produto da extração. Substância extraída de outra. Resumo de um escrito. Cópia resumida; excerto, fragmento, trecho. Estrato: Cada uma das camadas de uma sociedade mais ou menos segregadas entre si e hierarquicamente sobrepostas; camada social. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 17 Sexo População 10% Amostra M 54 5,4 5 F 36 3,6 4 Total 90 9 9 Exemplo 2: Suponhamos o mesmo caso dos veículos analisado anteriormente. Vamos admitir, agora, que desejamos realizar uma amostra de tamanho 400. Vamos calcular o tamanho da amostra baseado na porcentagem populacional: Posição Modelo Nº de veículos Porcentagem Amostra calculada 1ª Palio 15989 20,4% 0,204 . 400 = 81,6 2ª Gol 14347 18,3% 0,183 . 400 = 73,2 3ª Onix 14015 17,9% 0,179 . 400 = 71,6 4ª Strada 12585 16,1% 0,161 . 400 = 64,4 5ª HB20 10857 13,9% 0,139 . 400 = 55,6 6ª Fiesta 10591 13,4% 0,134 . 400 = 53,6 Total 78384 100% 400 Perceba que os valores obtidos para as amostras de cada estrato são valores decimais. Em um processo de amostragem, é impossível entrevistarmos 81,6 pessoas. Por isso, devemos arredondar os valores calculados, utilizando as regras de arredondamento convencionais: Posição Modelo Amostra calculada Amostra 1ª Palio 0,204 . 400 = 81,6 82 2ª Gol 0,183 . 400 = 73,2 73 3ª Onix 0,179 . 400 = 71,6 72 4ª Strada 0,161 . 400 = 64,4 64 5ª HB20 0,139 . 400 = 55,6 56 6ª Fiesta 0,134 . 400 = 53,6 54 Total 78384 400 ATENÇÃO! O número de elementos da amostra deve ser sempre um valor inteiro! Valores decimais devem ser arredondados! E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 18 Porém, veja que o tamanho da amostra havia sido definido, desde o começo, como sendo igual a 400 e, após os cálculos e arredondamentos, chegamos a uma soma de 401 elementos (82+73+72+64+56+54 = 401). Como nossa amostra deve ser, obrigatoriamente, igual a 400, devemos ajustar os valores manualmente. Esse ajuste consiste e aumentar ou diminuir geralmente 1 ou 2 unidades, preferencialmente no maior valor obtido, que, no caso do exemplo, é igual a 82. Assim, nossa amostra final será: Posição Modelo Amostra calculada Amostra 1ª Palio 0,204 . 400 = 81,6 82 81 2ª Gol 0,183 . 400 = 73,2 73 3ª Onix 0,179 . 400 = 71,6 72 4ª Strada 0,161 . 400 = 64,4 64 5ª HB20 0,139 . 400 = 55,6 56 6ª Fiesta 0,134 . 400 = 53,6 54 Total 78384 400 Exemplo 3: Suponhamos que em uma indústria há 3 máquinas que fabricam dois tipos de peças cada uma. Em um certo dia de produção, as quantidades produzidas pelas máquinas A, B e C das peças Tipo 1 e Tipo 2 foram: Máquina Peças Tipo 1 Peças Tipo 2 A 120 210 B 140 300 C 90 190 Total 350 700 Deseja-se analisar 8% de todas as peças obtidas a fim de controle de qualidade. Realizar uma amostragem estratificada. Inicialmente, calculamos o tamanho total da amostra de cada um dos tipos de peças: - 8% de 350 = 0,08 . 350 = 28 peças; - 8% de 700 = 0,08 . 700 = 56 peças. Colocamos os valores obtidos na tabela: Ao se fazer um ajuste manual na quantidade da amostra de um estratos, procure realizar esse ajuste sempre no estrato que possui o maior valor, evitando, assim, grandes distorções nos cálculos. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 19 Máquina Peças Tipo 1 Peças Tipo 2 Amostra Tipo 1 Amostra Tipo 2 A 120 210 B 140 300 C 90 190 Total 350 700 28 56 Em seguida, calculamos 8% de cada um dos valores da tabela. A primeira linha da tabela é obtida fazendo: - 8% de 120 = 0,08 . 120 = 9,6 - 8% de 210 = 0,08 . 210 = 16,8. Realizando todos os cálculos, obteremos os valores apresentados em vermelho. Os valores em vermelho são, em sua maioria, decimais. Fazemos, assim, o arredondamento de tais valores, obtendo os valores em verde. Máquina Peças Tipo 1 Peças Tipo 2 Amostra Tipo 1 Amostra Tipo 2 A 120 210 9,6 → 10 16,8 → 17 B 140 300 11,2 → 11 24 → 24 C 90 190 7,2 → 7 15,2 → 15 Total 350 700 28 56 Para checar, somamos os valores em verde de cada coluna e conferimos se é igual ao total: - Amostra Tipo 1: 10 + 11 + 7 = 28 - Amostra Tipo 2: 17 + 24 + 15 = 56 Caso uma dessas somas não fosse igual ao total (28 e 56), deveríamos realizar um ajuste nos maiores valores de cada coluna, conforme já explicado anteriormente. A resposta para o nosso exemplo serão os valores marcado em verde na tabela. Em seguida, devemos sortear as quantidades indicadas de cada tipo de peça para cada uma das três máquinas de maneira aleatória. O cálculo da quantidade de elementos nas amostragens Proporcionais e Estratificadas é feitos da mesma maneira. O que muda é a forma como serão obtidos os elementos dentro de cada grupo. Por exemplo: para entrevistar 81 usuários do Palio, poderíamos proceder da seguinte maneira: - amostragem Proporcional: ficamos parados em um cruzamento e abordamos 81 motoristas que pararem no semáforo e que esteja dirigindo um Palio. - amostragem Estratificada: obtemos um cadastro de todos os compradores de Palio na Fiat; sorteamos, usando o Excel, 81 deles e entramos em contato para realizar a pesquisa. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 20 – Conglomerado Muitas vezes a construção do sistema de referência é impossível. Nesta modalidade de amostragem, divide-se a área da população em seções (ou conglomerados): em seguida sorteia-se algumas dessas seções e, finalmente são estudados todos os elementos das seções escolhidas. Exemplo: queremos estudar a população que habita uma favela, mas não temos meios de conseguir uma relação completa dos habitantes. Porém, temos a relação completa dos barracos que compõem a favela. Barraco é uma unidade de amostragem maior, que engloba um certo número de indivíduos. Logo, podemos escolher uma amostra casual simples de barracos e estudarmos todos os indivíduos que moram nos barracos sorteados. Ao conjunto de indivíduos que moram em um barraco damos o nome de conglomerado. 7. Dado x Variável Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. As matérias-primas da estatística são os dados observáveis. Variável: é o que se deseja observar para se tirar algum tipo de conclusão. Geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representá-las são letras maiúsculas do alfabeto, tais como X, Y, Z,... que podem assumir qualquer valor de um conjunto de dados. Para podermos decidir como organizar os dados é preciso saber com que tipo de variáveis estamos trabalhando. Os tipos de variáveis são: - quantitativas que podem ser discretas ou contínuas; - qualitativas que podem ser ordinais ou nominais. Veja o diagrama: Variáveis Qualitativas Nominais Ordinais Quantitativas Discretas Contínuas E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 21 As variáveis quantitativas discretas assumemvalores pontuais. Por exemplo, a idade das pessoas em anos. Neste caso, a idade representa valores bem definidos como 20, 21, 22, 23 anos. As variáreis quantitativas contínuas assumem valores dentro de um intervalo. Por exemplo, podemos considerar a massa das pessoas em gramas. É claro que uma pessoa pode ter 60 235 gramas ou 60 236 gramas. Caberia a pergunta: não seria uma variável discreta? Neste caso, temos um conjunto muito grande de valores que essa variável pode assumir tornando-a contínua. As variáveis qualitativas ordinais são aquelas que atribuem qualidades de modo que possam ser ordenadas de maneira hierárquica. Por exemplo, o grau de escolaridade: analfabeto, 1° grau incompleto, 1° grau completo, 2° grau incompleto e assim por diante. Por fim, as variáveis qualitativas nominais são aquelas que atribuem qualidade mas que não é possível fazer uma ordenação. Por exemplo, matéria do colégio que mais gostava: Matemática, Física, Biologia, História... É importante ressaltar que não existem regras fixas para se dizer que uma variável é discreta ou contínua. Muitas vezes, podemos dar tanto um tratamento contínuo à variável idade quanto um tratamento discreto. Tal decisão depende do que se quer analisar e da quantidade de dados envolvida. Por exemplo: se estivermos fazendo uma pesquisa numa festa e encontramos jovens de 18 a 25 anos, podemos considerar a variável idade como discreta, ou seja, podemos contar exatamente quantas pessoas há com 18, 19, 20, 21, 22, 23, 24 e 25 anos. Porém, imaginemos que numa outra festa, com 1000 convidados, encontrássemos pessoas de 3 à 80 anos. É claro que poderíamos contar o número de indivíduos com 3,4,5,6,..., 79 e 80 anos. Porém, muitas vezes, nosso interesse está em analisar algumas faixas etárias. Por exemplo: de 3 a 18 anos de 18 a 25 anos de 25 a 35 anos de 35 a 50 anos de 50 a 80 anos Nesse caso, a variável idade passa a receber um tratamento contínuo. Assim, é preciso tomarmos muito cuidado com o fato de que algumas pessoas defendem que a variável IDADE é discreta. Dependendo do tratamento dado a ela, podemos transformá-la de discreta para contínua. Vejamos um outro caso: suponhamos um fabricante de tintas, que produz tintas coloridas fazendo o uso da tinta branca+pigmentos. Suponhamos, ainda, que ele trabalhe com as seguintes cores: branco, amarelo, vermelho, azul e preto. Aparentemente, a variável COR é qualitativa nominal. Porém, esse fabricante afirma que o pigmento amarelo é mais barato que o vermelho e que para se produzir tinta azul se usa muito corante (e mais corante ainda para tinta preta). Isso faz com que os custo sejam elevados para a tinta preta e reduzidos para a branca. Neste caso, podemos estabelecer uma ordem crescente para os custos: 1°) branco 2°) amarelo 3°) vermelho 4°) azul 5°) preto E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 22 Percebemos que foi estabelecida uma ordem. Assim, a variável COR é, agora, qualitativa ordinal. Questionário Para efeitos de análise, foi passado um questionário para uma amostra de 30 ouvintes de uma determinada palestra. Pediu-se para que respondessem com a maior exatidão possível. Um modelo do questionário é mostrado a seguir. É importante destacar alguns pontos importantes a respeito do questionário: � Deve-se ter muito cuidado na elaboração das questões para que não gerem ambigüidades quanto à interpretação nem problemas de respostas diferentes que não possibilitem uma análise posterior. � O resultado de um questionário nem sempre corresponde à realidade, visto que a pessoa pode não saber ao certo sua altura ou fazer muito tempo que não se pesa. � Alguns cuidados especiais devem ser tomados na elaboração de questões “abertas”, ou seja, que não são do tipo teste, para que as respostas sejam padronizadas. Por exemplo, se não for especificado, uma pessoa pode responder que a sua altura é de 172 cm e outra de 1,72 m. Ou ainda, o que seria muito pior pois alteraria o resultado da pesquisa, é no caso de perguntar o número de irmãos: uma pessoa pode ter 4 irmãos vivos e 1 que faleceu. Qual valor ela deveria colocar no questionário: 4 ou 5? Daí a necessidade da especificação. � Vale a pena, também, ficar atento a perguntas do tipo: “você gosta de carros brancos? ( ) sim ( ) não”. Aparentemente não há nenhum problema nessa Questionário Procure responder às questões com a maior exatidão possível. Não deixe questões em branco! 1) Sexo: ( ) masculino ( ) feminino 2) Idade (em anos): _____ 3) Altura (em metros): ________ m 4) Peso (em quilos): ______ kg 5) Número de irmãos (vivos): _____ 6) Fuma atualmente? ( ) SIM ( ) NÃO 7) Qual a sua tolerância quanto à fumaça do cigarro? ( ) Muito tolerante ( ) Pouco tolerante ( ) Indiferente 8) Número de horas médias por semana que pratica exercícios e atividades físicas (academia, andar, correr, alongamento, esportes, etc): ______ horas 9) Qualidade da programação atual da Rede Globo: ( ) Boa ( ) Regular ( ) Péssima ( ) Não sabe E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 23 pergunta, porém, uma análise mais cuidadosa faria perceber que o entrevistado poderia responder “não, não gosto de carros brancos, prefiro os vermelhos” como poderia responder “não, não gosto de carros, prefiro motos”. Porém, essa diferença de respostas não seria detectada com a pergunta (ambígua) acima. Neste caso, devemos reformular tal pergunta ou fazer outras confirmatórias. Embora isso não seja tratado neste texto, alertamos quanto ao fato na hora de elaborar e responder um questionário. O resultado de tal questionário em uma amostra de tamanho 30 é mostrado na tabela a seguir. As variáveis em questão são: Sexo – masculino (M) ou feminino (F) Idade – em anos Altura – em metros Peso – em quilos Irmãos – número de irmãos vivos Fuma – é fumante (SIM) ou não é fumante (NÃO) Tolerância – nível de tolerância à fumaça do cigarro: muito tolerante (M), pouco tolerante (P) ou indiferente (I) Exercícios – número médio de horas que pratica atividades físicas por semana Qualidade – qualidade da programação atual da Rede Globo: boa (B), regular (R), péssima (P) ou não sabe (N) A partir da tabela a seguir, onde estão representados os dados brutos (ou seja, aqueles obtidos a partir do questionário), percebemos que há uma certa dificuldade de, por exemplo, dizer se a maioria das pessoas é muito ou pouco tolerante ao fumo, ou quanto ao número médio de horas que as pessoas praticam atividades físicas. Tal dificuldade já se apresenta com um pequeno conjunto de dados (apenas 30 entrevistados). Para conjuntos maiores, diria que é praticamente impossível tirar alguma conclusão apenas observando os dados brutos. Daí a necessidade de reorganizarmos os dados em tabelas e gráficos. A organização em tabelas deve ser a mais simples possível, evitando-se utilizar tabelas muito incrementadas ou coloridas. A forma como esses dados serão organizados também pode variar, de acordo com os interesses e do que se quer analisar. Assim, daremos aqui, alguns exemplos de organização e tipos de gráficos. Aliás, quanto aos gráficos, nem sempre há um gráfico correto e outro errado. Para representar um conjunto de dados, muitas vezes é possível usar mais de um tipo de gráfico. O melhor é aquele que mais enfatiza o resultado que você deseja apresentar, ou seja, que dá maior destaque às informações que você julga importantes.Observação Sexo Idade Altura Peso Irmãos Fuma Tolerância Exercícios Qualidade 1 F 17 1,60 60 0 SIM I 0 B 2 F 18 1,69 55 2 SIM I 0 R 3 M 18 1,85 73 1 NÃO M 5 R 4 M 23 1,85 80 0 NÃO M 4 P 5 F 19 1,55 50 0 SIM I 2 B 6 M 19 1,76 60 2 NÃO M 2 P 7 F 20 1,64 47 1 NÃO P 3 B 8 F 18 1,62 58 1 SIM I 2 N 9 F 18 1,64 58 3 NÃO P 10 R 10 F 17 1,72 70 0 NÃO M 8 B 11 F 18 1,66 54 2 NÃO P 5 B 12 F 18 1,70 58 0 NÃO I 2 R E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 24 13 F 21 1,65 63 1 SIM P 1 R 14 M 18 1,90 85 2 NÃO P 0 B 15 M 18 1,65 70 2 NÃO P 0 R 16 M 19 1,70 70 1 NÃO I 3 P 17 M 20 1,75 68 3 SIM I 2 N 18 M 22 1,78 65 4 NÃO P 3 R 19 M 24 1,79 72 1 NÃO M 5 B 20 M 23 1,84 81 5 NÃO P 5 B 21 F 18 1,64 54 2 NÃO I 10 B 22 F 19 1,70 59 1 NÃO P 6 B 23 F 21 1,78 60 0 NÃO M 2 R 24 F 24 1,69 62 1 NÃO I 1 R 25 F 21 1,72 70 2 NÃO P 7 P 26 F 19 1,74 65 4 NÃO P 7 B 27 M 18 1,75 70 1 NÃO P 6 P 28 F 20 1,67 54 1 NÃO M 5 R 29 M 20 1,81 76 3 NÃO P 7 B 30 M 24 1,79 65 0 NÃO P 12 B Baseado na classificação de variáveis que apresentamos, podemos dizer que são: SEXO – nominal IDADE – discreta ALTURA – contínua (pois assume uma grande variedade de valores, embora possamos considerá-la discreta) PESO – discreta IRMÃOS – discreta FUMA – nominal TOLERÂNCIA – nominal EXERCÍCIOS – discreta QUALIDADE – ordinal RESUMO As variáveis podem ser classificadas dos seguintes modos: 1) Qualitativas (ou atributos): são características de uma população que não podem ser medidas, sendo classificadas em nominais ou ordinais. - Nominal: são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem, como sexo, nacionalidade, etc. - Ordinal: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, primeiro, segundo, terceiro e, assim, sucessivamente. 2) Quantitativas: são características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas. - Discretas: são aquelas variáveis que podem assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. - Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 25 8. Arredondamento de números Uma questão importante a ser compreendida por todos os estudantes de Estatística é quanto ao arredondamento. Raramente um cálculo realizado será exato. O mais comum é que os resultados obtidos tenham várias casas decimais. O primeiro ponto a ser discutido é: “quantas casas decimais eu devo utilizar?” Não há uma regra definida para isto. O que vale, aqui, é utilizar a coerência e o bom senso. Por exemplo, suponhamos que estamos trabalhando o cálculo de valores monetários, em reais. O que faz mais sentido neste caso é trabalharmos com 2 casas após a vírgula, visto que a terceira casa após a vírgula não faz sentido, ou seja, R$ 3,451 impossibilita, na prática, o pagamento de R$ 0,001. Neste caso, o melhor é utilizarmos R$ 3,45. Um outro exemplo: se estivermos trabalhando com medidas efetuadas com a régua, podemos utilizar até 2 casas após a vírgula, ou seja, faz sentido apresentarmos um resultado do tipo 5,43 cm, visto que estaríamos dizendo que a medida obtida tem 5 centímetros, 4 milímetros e 3 décimos de milímetro (este valor indicaria a incerteza da medida). Porém, não vamos discutir nesta apostila incertezas e erros quando utilizamos instrumentos de precisão. Um segundo ponto a ser notado é a respeito de qual regra de arredondamento devemos utilizar. Existem várias maneiras de fazermos o arredondamento de um número, porém, vamos utilizar o método tradicional de arredondamento que nos diz: quando a casa decimal seguinte àquela que vamos arredondar for 0, 1, 2, 3 ou 4, esta casa decimal permanece como está. Se a casa decimal seguinte for 5, 6, 7, 8 ou 9, somamos 1 à casa decimal a ser arredondada. Vejamos alguns exemplos. 1) Arredondar 23,4581 para 3 casas decimais. Note que a quarta casa é 1 (menor que 5) . Logo, a casa a ser arredondada, que é o número 8, permanece igual. Assim, após o arredondamento, temos o número 23,458. 2) Arredondar 3,276 para duas casas decimais. Verificamos que a terceira casa é 6 (maior ou igual a 5). Logo, devemos somar 1 à segunda casa decimal. Após o arredondamento o número fica 3,28. 3) Arredondar 12,49999 para 1 casa decimal. Como o número da segunda casa decimal é maior ou igual a 5, adicionamos 1 unidade ao valor a ser arredondado, ou seja, 4+1=5. Logo, o número após o arredondamento fica 12,5. 4) Arredondar para 2 casas decimais o número 35,89076. Como na terceira casa temos o zero, mantemos o valor da segunda casa, ou seja, o número após arredondamento fica 35,89. 5) Arredondar para 2 casas decimais o número 0,39601. Como na terceira casa decimal temos um valor superior a 5, devemos somar 1 unidade ao valor da segunda casa. Note, porém, que na segunda casa decimal temos o número 9. Pensemos, então, no número 39 (1ª + 2ª decimais). Somando 1 a esse número, teremos 40. Logo, o número arredondado fica 0,40. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 26 9. Exercícios 1) Classifique em verdadeiro ou falso as seguintes informações: a) Estatística é um conjunto de técnicas destinadas a organizar um conjunto de dados. b) Sempre que estivermos trabalhando com números, deveremos utilizar a Inferência Estatística. c) A Estatística Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou não, com a finalidade de conhecermos o fenômeno de interesse. d) Qualquer amostra representa, de forma adequada, uma população. e) As técnicas estatísticas não são adequadas para casos que envolvem experimentos destrutivos como, por exemplo, queima de equipamentos, destruição de corpos de provas, etc. 2) Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da Companhia MK. Escolha 4 variáveis a serem pesquisadas identificando se são qualitativas ou quantitativas. 3) Classifique as variáveis em qualitativas (nominais/ordinais) ou quantitativas (discretas/ contínuas): a) cor dos cabelos dos alunos de uma escola. b) número de filhos de casais residentes em uma determinada rua. c) o ponto obtido em cada jogada de um dado. d) naturalidade das pessoas que vivem na cidade de São Paulo. e) escolaridade dos funcionários de uma empresa. f) classe social. g) patentes do exército. h) cargo na empresa. i) número de quilômetros percorridos entre a sua casa e o trabalho. j) tempo, em segundos, que cada trabalhador de uma indústria leva para montar determinado equipamento. 4) Diga se variáveis são discretas, contínuas, ordinais ou nominais: salários, sexo dos filhos, número de peças defeituosas produzidas por uma máquina, altura de pessoas, grau de instrução, número de filhos, peso. 5) Uma marca de vinho branco importada é vendida na maior parte dos supermercados do país. Desejando saber o preço médio de venda, o distribuidor deseja usar uma amostragem aleatória com 45 pontos de venda. Especifique um plano de amostragem que podeser utilizado. 6) Suponha que se tenha uma tabela com a relação das 400 maiores empresas do país, no ano de 2005, por volume de vendas, listadas em ordem alfabética. Desejando uma amostra aleatória de 40 elementos. Qual o tipo de amostragem que pode-se utilizar? 7) Classifique o tipo de amostragem utilizada em cada caso: a) Em uma sala de aula composta por 60 alunos arrumados em 6 fileiras de 10 alunos cada, toma-se uma amostra de 10 alunos jogando-se um dado e escolhendo os alunos da fileira correspondente ao resultado da jogada. b) Em uma sala de aula composta por 60 alunos, toma-se uma amostra de 10 alunos escolhendo-se um valor qualquer na lista de chamada e selecionando os 10 alunos a partir daquele número. Se chegar ao fim da lista antes de completar 10 alunos, volta- se ao início da lista, até completar 10 alunos. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 27 8) Complete a tabela a seguir arredondando os números dados para a quantidade de casas decimais indicadas: Número Arred. Para 1 casa Arred. Para 2 casas Arred. Para 3 casas 0,215664 23,45977 15,0246 22,4502 3,1195 2,951009 5,6987 2,10243 8,145501 0,00924 9) O diretor de uma escola, na qual estão matriculados 280 meninos e 320 meninas, desejoso de conhecer as condições de vida extra-escolar de seus alunos e não dispondo de tempo para entrevistar todas as famílias, resolve fazer um levantamento por amostragem, em 10% dessa clientela. Obtenha, para esse diretor, os elementos componentes da amostra. 10) Em uma escola existem 250 alunos, distribuídos conforme quadro. Obtenha uma amostra proporcional estratificada de 40 alunos. Séries Número de alunos AMOSTRA 1a 35 2a 32 3a 30 4a 28 5a 35 6a 32 7a 31 8a 27 Total 250 40 11) Uma cidade X apresenta o seguinte quadro relativo às suas escolas de Ensino Fundamental. Obtenha uma amostra proporcional estratificada de 120 estudantes. Número de estudantes AMOSTRA Escolas Masculino Feminino Masc. Fem. A 80 95 B 102 120 C 110 92 D 134 228 E 150 130 F 300 290 Total 876 955 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 28 12) Classifique as variáveis em qualitativas (nominal ou ordinal) ou quantitativas (discreta ou contínua): a) número de ações negociadas por dia na bolsa de valores ao longo de 1 ano; b) número de filhos de um certo casal; c) comprimento dos pregos produzidos por uma máquina; d) número de volumes na biblioteca da faculdade; e) salário dos funcionários de uma empresa; f) cor predominante da parede externa de sua casa; g) grau de escolaridade; h) número de horas dormidas na última noite; i) tipo de comida preferida; j) cargo dos funcionários de uma empresa. 13) Em um local de exame da FUVEST existem 150 funcionários, distribuídos segundo seus cargos conforme tabela. Obtenha uma amostra proporcional estratificada de 30 funcionários. Cargo Número de funcionários Amostra Coordenadores 4 Fiscais da coordenação 15 Fiscais de sala 96 Auxiliares de Fiscais 24 Apoio 11 Total 14) Uma escola apresenta a seguinte distribuição de alunos para o ensino fundamental (EF) e ensino médio (EM): Número de estudantes AMOSTRA Série Masculino Feminino Masc. Fem. EF – 5ª 65 50 EF – 6ª 58 48 EF – 7ª 86 78 EF – 8ª 95 78 EM – 1º 150 100 EM – 2º 140 90 EM – 3º 106 56 Total Obtenha uma amostra proporcional estratificada de 130 estudantes. 15) Uma população encontra-se em três estratos, com tamanhos, respectivamente, n1 = 40, n2 = 100 e n3 = 60. Sabendo que, ao ser realizada uma amostragem estratificada proporcional, nove elementos da amostra foram retirados do 3o estrato, determine o número total de elementos da amostra. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 29 16) A tabela abaixo mostra a performance de 6 montadoras de automóveis em um determinado mês do ano de 2005. Sabendo-se que foram retiradas amostras estratificadas proporcionais, complete a tabela: Montadora de automóveis Quantidade de veículos produzidos Amostra Estratificada Proporcional A 7200 B 238 C 5100 D E 6900 483 F 182 TOTAL 2065 17) Um fabricante de computadores produz 8700 máquinas por mês. O departamento de qualidade necessita de uma amostra sistemática de 30 peças para teste. Sabendo que a 1ª máquina selecionada foi a nº 12, então as próximas 4 máquinas foram respectivamente: (considere que todas as máquinas estão numeradas de 0001 a 8700) (Justifique a resposta). a) 24, 36, 48, 60 b) 42, 72, 102, 132 c) 302, 592, 882, 1172 d) 290, 580, 870, 1160 18) A produção diária de uma indústria é de 450 peças. Uma amostra sistemática de tamanho 30 será extraída de uma produção, começando pela peça de número 10. Assinale a alternativa correspondente aos números das cinco primeiros peças: (justifique a resposta) a) 10 – 25 – 40 – 55 – 70 b) 10 – 15 – 20 – 25 – 30 c) 10 – 12 – 14 – 16 – 18 d) 10 – 20 – 30 – 40 – 50 Respostas 1) a) V b) F c) V d) F e) F 2) resposta pessoal 3) a) nominal b) discreta c) discreta d) nominal e) ordinal f) ordinal g) ordinal h) ordinal i) discreta (pode ser contínua dependendo da interpretação) j) contínua 4) continua, nominal, discreta, contínua, ordinal, discreta, contínua. 5) Proporcional ou estratificada 6) Sistemática 7) a) conglomerado b) sistemática E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 30 8) Número Arred. Para 1 casa Arred. Para 2 casas Arred. Para 3 casas 0,215664 0,2 0,22 0,216 23,45977 23,5 23,46 23,460 15,0246 15,0 15,02 15,025 22,4502 22,5 22,45 22,450 3,1195 3,1 3,12 3,120 2,951009 3,0 2,95 2,951 5,6987 5,7 5,70 5,699 2,10243 2,1 2,10 2,102 8,145501 8,1 8,15 8,146 0,00924 0,0 0,01 0,009 9) 28 homens e 32 mulheres 10) Séries Número de alunos AMOSTRA 1a 35 6 2a 32 5 3a 30 5 4a 28 4 5a 35 6 6a 32 5 7a 31 5 8a 27 4 Total 250 40 11) Número de estudantes AMOSTRA Escolas Masculino Feminino Masc. Fem. A 80 95 5 6 B 102 120 7 8 C 110 92 7 6 D 134 228 9 15 E 150 130 10 9 F 300 290 19 19 Total 876 955 57 63 12) a) contínua b) discreta c) contínua d) discreta e) contínua f) nominal g) ordinal h) discreta i) nominal j) ordinal 13) Cargo Número de funcionários Amostra Coordenadores 4 1 Fiscais da coordenação 15 3 Fiscais de sala 96 19 Auxiliares de Fiscais 24 5 Apoio 11 2 Total 150 30 14) Número de estudantes AMOSTRA Série Masculino Feminino Masc. Fem. EF – 5ª 65 50 7 5 EF – 6ª 58 48 6 5 EF – 7ª 86 78 9 8 EF – 8ª 95 78 10 8 EM – 1º 150 100 17* 12* EM – 2º 140 90 15* 10 EM – 3º 106 56 12 6 Total 700 500 76 54 15) 6+15+9 = 30 16) Montadora de automóveis Quantidade de veículos produzidos Amostra Estratificada Proporcional A 7200 504 B 3400 238 C 5100 357 D 4300 301 E 6900 483 F 2600 182 TOTAL 29500 2065 17) C 18) A E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 31 2. Organização de Dados A partir de uma pesquisa, os resultados obtidos, chamados de dados brutos, estão de forma desordenada, geralmente na mesma ordem em que foram obtidos ao longo dessa pesquisa. Para começar acompreender melhor esses dados, é necessário fazer uma organização deles de modo a se conseguir extrair algumas informações para uma análise detalhada posterior a respeito das características de estudo. A maneira mais elementar para se organizar inicialmente os dados provenientes de uma pesquisa é através da construção de tabelas, como veremos adiante. 1. ROL Chama-se ROL a sequência dos dados brutos ordenada de forma não decrescente. Exemplo: suponhamos uma pesquisa em que 10 casais foram entrevistados com relação ao número de filhos que possuíam. Os resultados obtidos, na ordem das entrevistas (dados brutos) foram: 2, 1, 1, 3, 0, 1, 0, 0, 0, 2. Para estes dados, podemos construir o ROL: 0, 0, 0, 0, 1, 1, 1, 2, 2, 3. Importante: note que o ROL possui a mesma quantidade de dados inicialmente coletados. Ou seja, em nosso exemplo anterior, obteve-se 10 valores. Logo, o ROL deve possuir 10 valores também. 2. Tabelas Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas segue as normas do Instituto Brasileiro de Geografia e Estatística (IBGE). Os principais elementos de uma tabela são: - título: descreve que tipos de dados serão apresentados na tabela; - cabeçalho: contém a descrição de cada coluna da tabela; - corpo: contém os dados agrupados por linhas; - rodapé: local onde se pode acrescentar informações complementares da tabela, tais como fonte dos dados, observações e notas. Quando trabalhamos com dados quantitativos (numéricos), basicamente podemos construir dois tipos de tabelas, de acordo com as variáveis analisadas: tabela para variáveis discretas ou tabela para variáveis contínuas. Quando a variável é contínua, surge, na tabela, um elemento que agrupa tais valores chamado de classe. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 32 3. Classes Quando temos dados brutos provenientes de uma variável contínua, devemos agrupá- los, para a construção de uma tabela, em intervalos que também são conhecidos por classes. Os tipos de classes ou intervalos estão exemplificados na tabela a seguir: Representação 1 Representação 2 Significado 5 |─ 8 [5 ; 8[ Inclui o valor a esquerda; exclui o valor à direita. 5 ─| 8 ]5 ; 8] Exclui o valor a esquerda; inclui o valor à direita. 5 |─| 8 [5 ; 8] Inclui o valor a esquerda; inclui o valor à direita. 5 ─ 8 ]5 ; 8[ Exclui o valor a esquerda; exclui o valor à direita. Exemplo: consideremos o seguinte ROL: 16, 18, 20, 20, 20, 20, 22, 23, 23, 25, 25, 26, 26, 29, 30. Vamos construir três tabelas, apenas para compararmos as formas de agrupamento de acordo com a representação utilizada: Tabela 1 Classes quantidade 15 |─ 20 2 20 |─ 25 7 25 |─| 30 6 Total 15 Tabela 2 Classes quantidade 15 ─| 20 6 20 ─| 25 5 25 ─| 30 4 Total 15 Tabela 3 Classes quantidade 15 ─| 20 6 20 ─ 25 3 25 |─| 30 6 Total 15 Embora as três tabelas estejam corretas, o mais comum é trabalharmos com um padrão, conforme ocorre nas tabelas 1 e 2. Dentre esses dois padrões, o mais comum é o da tabela 1. Note que na última classe da tabela 1, fechamos os dois extremos, visto que o valor 30 pertencia ao nosso conjunto de dados brutos representados no ROL e esse valor corresponde ao maior valor da última classe da tabela. Assim, a última classe ficou com intervalo fechado tanto a esquerda quanto a direita. Isso pode, e deve, ser feito, quando o maior valor do ROL coincidir com o valor representado na última classe evitando que precisemos criar uma nova classe para inserir um único valor. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 33 4. Amplitude de classe Consideremos a tabela 1 apresentado no exemplo anterior. Perceba que todas as classes possuem o mesmo tamanho. A primeira classe é 15 |─ 20. O limite inferior da primeira classe é 15. O limite superior da primeira classe é 20. A amplitude de classe corresponde à diferença entre o limite superior e inferior. Ou seja: amplitude de classe = 20-15 = 5. 5. Amplitude total Ainda com relação à tabela 1, vamos observar os extremos da tabela. O mínimo é 15, enquanto que o máximo vale 30. Portanto, a amplitude total da tabela é 30 - 15 = 15. 6. Frequências Frequências simples ou absolutas (fi) - é o número de vezes que se observa determinado valor. A soma de todas as frequências absolutas corresponde ao tamanho total da amostra (n): ∑ = nfi Frequências relativas (fri) – são os valores das razões (quociente) entre as frequências simples e a frequência total multiplicada por 100 para que os dados sejam apresentados em porcentagem: 100. n fif ri = Frequência Acumulada Simples (Fi) – valores obtidos adicionando a cada frequência absoluta os valores das frequências anteriores. Algumas vezes esta frequência é representada através da notação fac. Fk = f1 + f2 + …+fk Frequência Acumulada Relativa (Fri) – É a frequência acumulada da classe, dividida pela frequência total da distribuição. Multiplicando-se o resultado por 100 obteremos as frequências em porcentagem. Algumas vezes esta frequência é representada através da notação facr. 100. ∑ = fi FiFri E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 34 7. Distribuição de Frequências A tabela de dados brutos pode não ser prática para responder às questões de interesse, portanto, a partir da tabela de dados brutos, podemos construir uma nova tabela com as informações resumidas, para cada variável. Essa tabela é denominada de tabela de frequência (ou distribuição de frequência) e, como o nome indica, conterá os valores de variável e suas respectivas contagens. Exemplo 1: consideremos o quadro seguinte que mostra as notas de Estatística dos alunos de uma classe. Número 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Nota 5,0 4,0 6,0 8,0 3,0 5,0 7,0 6,0 8,0 4,0 6,0 9,0 7,0 5,0 7,0 5,0 6,0 8,0 7,0 9,0 4,0 6,0 6,0 8,0 7,0 Os dados apresentados na tabela acima estão na forma primitiva (dados brutos). Para facilitar, vamos escrever o ROL desse conjunto de dados: 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9. Agora, mostraremos, passo a passo como construir a tabela de distribuição de frequências. 1º PASSO: identificar qual é a nossa variável de estudo (xi). No caso, estamos analisando as notas dos alunos. Então, Notas correspondem aos valores que estamos observando (xi) com uma respectiva frequência absoluta (fi) que corresponde a quantidade de alunos que obteve determinada nota. Assim, montamos o esqueleto da nossa tabela, sempre lembrando de colocar os totais na última linha. Notas(xi) Nº de alunos(fi) Fi fri Fri Total 2º PASSO: verificamos no ROL quais valores foram observados, ou seja, quais as notas que existem no ROL. Marcamos, em ordem crescente, esses valores na coluna dos valores observados (xi): E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 35 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Total 3º PASSO: vamos completar a coluna das frequências absolutas (fi). A frequência absoluta de um certo valor corresponde a quantas vezes esse valor ocorreu um nosso conjunto de dados. Em nosso exemplo, a frequência absoluta corresponde a quantosalunos tirou determinada nota. Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 4,0 3 5,0 4 6,0 6 7,0 5 8,0 4 9,0 2 Total 4º PASSO: Calculamos o total da coluna fi. Para isso, basta somar todos os valores que aparecem nessa coluna. Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 4,0 3 5,0 4 6,0 6 7,0 5 8,0 4 9,0 2 Total 25 O total calculado na coluna fi deverá ser igual a quantidade de dados brutos e, também, igual a quantidade de valores presentes no ROL. Esse total (no caso do exemplo é igual a 25) geralmente é representado por n e corresponde ao tamanho da nossa amostra. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 36 5º PASSO: cálculo da frequência acumulada (Fi).Os valores dessa coluna tem como objetivo “acumular” a soma dos valores das frequências absolutas até a linha em questão. A ideia aqui é formar sempre um L, conforme veremos a seguir: o campo em verde é preenchido com a soma de todos os valores da coluna amarela. Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 5,0 4 6,0 6 7,0 5 8,0 4 9,0 2 Total 25 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 6,0 6 7,0 5 8,0 4 9,0 2 Total 25 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 8 6,0 6 7,0 5 8,0 4 9,0 2 Total 25 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 8 6,0 6 14 7,0 5 8,0 4 9,0 2 Total 25 E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 37 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 8 6,0 6 14 7,0 5 19 8,0 4 9,0 2 8% 100% Total 25 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 8 6,0 6 14 7,0 5 19 8,0 4 23 9,0 2 Total 25 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4,0 3 4 5,0 4 8 6,0 6 14 7,0 5 19 8,0 4 23 9,0 2 25 Total 25 --- Note que o total da coluna Fi não deverá ser calculado, visto que a soma dos valores (1+4+8+14+19+23+25 = 94) não possui significado algum. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 38 6º PASSO: calcularemos, agora, as frequência relativas absolutas (fri). Para calcular, devemos dividir, para cada linha da tabela, a frequência absoluta (fi) pelo total (n). O resultado da divisão poderá ser multiplicado por 100 de modo a ser apresentado na forma de porcentagem. Nos exemplos a seguir, dividimos a célula indicada em amarelo pelo total da coluna em vermelho. O resultado foi multiplicado por 100 e colocado na célula azul. Fazemos, aqui, (1 / 25) x 100 = 4%: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4,0 3 4 5,0 4 8 6,0 6 14 7,0 5 19 8,0 4 23 9,0 2 25 Total 25 --- Fazemos, aqui, (3 / 25) x 100 = 12%: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4,0 3 4 12% 5,0 4 8 6,0 6 14 7,0 5 19 8,0 4 23 9,0 2 25 Total 25 --- Fazemos, aqui, (4 / 25) x 100 = 16%: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4,0 3 4 12% 5,0 4 8 16% 6,0 6 14 7,0 5 19 8,0 4 23 9,0 2 25 Total 25 --- Prosseguimos com o mesmo procedimento até a última linha da tabela. Neste caso, fazemos (2 / 25) x 100 = 8%: E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 39 Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4,0 3 4 12% 5,0 4 8 16% 6,0 6 14 24% 7,0 5 19 20% 8,0 4 23 16% 9,0 2 25 8% Total 25 --- 100% 7º PASSO: cálculo da coluna de frequências relativas acumuladas (Fri). Esta coluna pode ser calculada com base na coluna de frequências relativas absolutas (fri), de modo análogo ao que fizemos no 5º PASSO. Veja alguns resultados: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4% 4,0 3 4 12% 16% 5,0 4 8 16% 6,0 6 14 24% 7,0 5 19 20% 8,0 4 23 16% 9,0 2 25 8% Total 25 --- 100% . . . Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4% 4,0 3 4 12% 16% 5,0 4 8 16% 32% 6,0 6 14 24% 56% 7,0 5 19 20% 76% 8,0 4 23 16% 9,0 2 25 8% Total 25 --- 100% ATENÇÃO! A soma de todas as porcentagens deverá ser exatamente igual a 100%. Caso utilize 1 ou 2 casas decimais, verifique se a soma é igual a 100,0% ou 100,00%. É errado deixar valores que somem, por exemplo, 99,99% ou 100,01%! E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 40 . . . Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4% 4,0 3 4 12% 16% 5,0 4 8 16% 32% 6,0 6 14 24% 56% 7,0 5 19 20% 76% 8,0 4 23 16% 92% 9,0 2 25 8% Total 25 --- 100% A tabela de frequências completa será: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 4% 4% 4,0 3 4 12% 16% 5,0 4 8 16% 32% 6,0 6 14 24% 56% 7,0 5 19 20% 76% 8,0 4 23 16% 92% 9,0 2 25 8% 100% Total 25 --- 100% --- Note que o total da coluna Fri não deverá ser calculado, visto que a soma das porcentagens não pode ser maior que 100%. As colunas fri e Fri não precisam, necessariamente, apresentar os valores em porcentagens. Elas podem exibir os resultados decimais (valores de 0 a 1) e possuem o mesmo significado e interpretação de quando são exibidos com o símbolo %. E s t a t í s t i c a D e s c r i t i v a P r o f . C o n r a d E . P i n h e i r o 41 Uma alternativa à construção da tabela anterior seria a de colocar os valores das frequências relativas absolutas (fri) e acumuladas (Fri) na forma decimal, ou seja, no cálculo, basta não multiplicarmos o resultado da divisão por 100 conforme explicado anteriormente. Nesse caso, todos os valores estariam dentro do intervalo de 0 a 1. Consequentemente, a soma dos valores da coluna fri seria exatamente 1. Nossa tabela ficaria: Notas(xi) Nº de alunos(fi) Fi fri Fri 3,0 1 1 0,04 0,04 4,0 3 4 0,12 0,16 5,0 4 8 0,16 0,32 6,0 6 14 0,24 0,56 7,0 5 19 0,20 0,76 8,0 4 23 0,16 0,92 9,0 2 25 0,08 1 Total 25 --- 1 --- Exemplo 2: a tabela de distribuição de frequências abaixo representa a altura de 40 jovens. Note que altura é uma variável contínua e, por isso, estamos trabalhando com os dados agrupados em classes: classes fi fri Fi Fri 150 l─ 154 4 10,0% 4 10,0% 154 l─ 158 9 22,5% 13 32,5% 158 l─ 162 11 27,5% 24 60,0% 162 l─ 166 8 20,0% 32 80,0% 166 l─ 170 5 12,5% 37 92,5% 170 l─ 174 3 7,5% 40 100% Total 40 100% --- --- 8. Escolha do número e tamanho de classes Spiegel (1975) apresenta algumas sugestões de como elaborar uma distribuição de frequências: “1. Determinam-se o maior e o menor número dos dados brutos e, então, calcula-se a amplitude total do rol (diferença entre o maior e o menor daqueles números). 2. Divide-se a amplitude total em um número conveniente de intervalos de classe que tenham a mesma amplitude. Se isto não é possível, usam-se intervalos de classe de amplitudes diferentes ou abertos. O número de intervalos de classe é comumente tomado entre 5 e 20, dependendo dos dados. Os intervalos de
Compartilhar