Baixe o app para aproveitar ainda mais
Prévia do material em texto
Autores: Profa. Valéria de Carvalho Prof. Emerson Flamarion da Cruz Profa. Lúcia F. de Almeida Guimarães Profa. Renata Nascimento Nogueira Estatística Descritiva Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 © Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista. Dados Internacionais de Catalogação na Publicação (CIP) C331p Carvalho, Valéria de. Probabilidade e estatística. / Valéria de Carvalho, Emerson Flamarion Cruz, Lúcia F. de Almeida Guimarães. – São Paulo: Editora Sol, 2014. 160 p., il. 1. Probabilidade. 2. Estatística. 3. Gráficos. I. Cruz, Emerson Flamarion. II. Guimarães, Lúcia F, de Almeida. III. Título. CDU 519.2 Professores conteudistas: Valéria de Carvalho / Emerson Flamarion da Cruz / Lúcia F. de Almeida Guimarães / Renata Nascimento Nogueira Valéria de Carvalho Possui graduação em Ciências, com habilitação em Matemática pela Universidade de Bauru (1987), atual Universidade Estadual Paulista Júlio de Mesquita Filho. É mestre em Educação Matemática pela Universidade Estadual de Campinas (1999) e doutora em Educação Matemática também pela Universidade Estadual de Campinas (2007). Foi professora colaboradora do Laboratório de ensino de Matemática da Universidade Estadual de Campinas e atualmente leciona na Universidade Paulista, sendo também coordenadora do curso de Matemática na modalidade EaD. Possui experiência nas áreas de Educação, com ênfase em Ensino e Tecnologias, Educação Matemática e Educação Matemática Crítica, atuando principalmente nos seguintes temas: Educação Matemática; Matemática Crítica; Educação Matemática; Tecnologias de Informação e Comunicação; Sociedade e Meio Ambiente; Educação Estatística e Tecnologias, Estatística e Cálculo. Emerson Flamarion da Cruz Possui graduação em Licenciatura Plena em Física pela Unesp/Universidade Estadual Paulista Júlio de Mesquita Filho e Mestrado em Física pela USP, Universidade de São Paulo. É docente do Ensino Médio e de cursos pré-vestibulares, com atuações nas principais instituições de ensino privado do país. Seus interesses e atuações em pesquisa envolvem os campos da Biofísica, Econofísica, Mecânica Quântica, História da Ciência e o ensino de Física. Como docente da UNIP, de 2002 a 2008, ministrou diversos cursos ligados à Engenharia e Ciências Aplicadas. Lúcia F. de Almeida Guimarães Lúcia F. de Almeida Guimarães é bacharel em Estatística, mestre e doutora em Automação pelo Departamento de Engenharia de Sistemas da Faculdade de Engenharia Elétrica e de Computação da Unicamp, tendo sido parte de seu doutorado realizado no Centro de Pesquisa em Transporte da Universidade de Montreal, Província de Quebec, Canadá. Leciona Estatística desde 1995 em vários cursos (Administração, Engenharia Elétrica, Ciência da Computação, Matemática etc.) de algumas universidades. Renata Nascimento Nogueira Graduação em física (bacharelado) pela Universidade de São Paulo (1992), mestrado em física pela Universidade de São Paulo (1995) e doutorado em física pela Universidade de São Paulo (1999). Pós-doutorado na área de ciência dos materiais, pela USP (2003) e Virginia Tech (2001). Tem dez trabalhos publicados em revistas científicas de âmbito internacional. Atua no magistério superior desde 2005, tendo lecionado disciplinas das áreas de física, matemática e estatística em diversos cursos das três grandes áreas do conhecimento. Atualmente, é horista da Universidade Paulista, da Faculdade Taboão da Serra e da Escola Brasileira Israelita Chaim Nachman Bialik. Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice-Reitor de Planejamento, Administração e Finanças Profa. Melânia Dalla Torre Vice-Reitora de Unidades Universitárias Prof. Dr. Yugo Okida Vice-Reitor de Pós-Graduação e Pesquisa Profa. Dra. Marília Ancona-Lopez Vice-Reitora de Graduação Unip Interativa – EaD Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli Material Didático – EaD Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP) Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos Projeto gráfico: Prof. Alexandre Ponzetto Revisão: Luanne Aline Batista da Silva Amanda Casale Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Sumário Estatística descritiva APRESENTAÇÃO ......................................................................................................................................................7 INTRODUÇÃO ...........................................................................................................................................................7 Unidade I 1 ESTATÍSTICA DESCRITIVA .................................................................................................................................9 1.1 População e amostra ......................................................................................................................... 10 1.2 Tabelas de Frequência ......................................................................................................................... 11 1.2.1 Variáveis .....................................................................................................................................................11 1.2.2 Tabelas de frequências e gráficos ..................................................................................................... 14 2 GRÁFICOS ........................................................................................................................................................... 22 2.1 Principais tipos de gráficos .............................................................................................................. 25 2.1.1 Gráfico de barras (horizontais) .......................................................................................................... 25 2.1.2 Gráfico de barras (horizontais) agrupadas ................................................................................... 26 2.1.3 Gráfico de colunas e colunas agrupadas ...................................................................................... 26 2.1.4 Gráfico de linhas ou gráficos lineares ou de curvas ............................................................... 27 2.1.5 Gráfico de setores (ou de pizza) ....................................................................................................... 28 2.1.6 Cartogramas.............................................................................................................................................. 29 2.1.7 Pictograma ou gráficos pictóricos ................................................................................................... 30 2.2 A representação gráfica de uma tabela de frequência ......................................................... 31 2.2.1 Variáveis qualitativas ............................................................................................................................. 31 2.2.2 Variáveis quantitativas .........................................................................................................................32 3 MEDIDAS DE POSIÇÃO E MEDIDAS DE DISPERSÃO .......................................................................... 45 3.1 Medidas de posição ............................................................................................................................. 45 3.1.1 Medidas de tendência central ........................................................................................................... 45 3.2 Medidas de dispersão ......................................................................................................................... 59 3.2.1 Variáveis qualitativas ............................................................................................................................. 60 3.2.2 Variáveis quantitativas – dados não agrupados ........................................................................ 61 3.2.3 Variáveis quantitativas – dados agrupados sem intervalos de classe ............................. 63 4 COEFICIENTE DE VARIAÇÃO (CV) ............................................................................................................... 65 4.1 Variáveis qualitativas .......................................................................................................................... 66 4.2 Variáveis quantitativas – dados não agrupados ...................................................................... 66 4.3 Variáveis quantitativas – dados agrupados sem intervalos de classe ............................ 66 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade II 5 INTRODUÇÃO AO ESTUDO DE PROBABILIDADES E OPERAÇÕES COM PROBABILIDADES ................................................................................................................................................ 80 5.1 Determinismo e aleatoriedade ........................................................................................................ 80 5.2 Definição clássica de Probabilidade .............................................................................................. 80 5.3 Probabilidade e Análise Combinatória ......................................................................................... 84 5.4 Eventos mutuamente exclusivos e a adição de probabilidades ........................................ 86 6 PROBABILIDADE CONDICIONAL, EVENTOS INDEPENDENTES E O PRODUTO DE PROBABILIDADES ................................................................................................................................................ 89 7 DISTRIBUIÇÕES DE PROBABILIDADE E BINOMINAL .......................................................................... 94 7.1 Distribuições de probabilidade ........................................................................................................ 94 7.1.1 Variáveis aleatórias ................................................................................................................................ 94 7.1.2 Tipos de distribuição ............................................................................................................................ 94 7.2 Distribuição binomial .......................................................................................................................... 95 7.2.1 Jogo de n moedas ................................................................................................................................... 96 7.2.2 Caso geral .................................................................................................................................................101 7.2.3 Aplicação ..................................................................................................................................................103 8 DISTRIBUIÇÃO UNIFORME E NORMAL DE PROBABILIDADES .....................................................106 8.1 Distribuição uniforme de probabilidades .................................................................................106 8.2 Distribuição normal de probabilidades ......................................................................................108 8.2.1 Condições de validade ........................................................................................................................108 8.2.2 A variável z ..............................................................................................................................................109 8.2.3 Distribuição normal padronizada ....................................................................................................111 7 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 APRESENTAÇÃO Caro aluno, A palavra estatística já faz parte de nossa linguagem cotidiana, bem como as estatísticas em si. Ainda que de maneira informal, todos utilizamos diversos de seus conceitos e informações estatísticas para orientar nossa leitura da realidade e, a partir disso, tomar decisões que dependam dessas informações. Um exemplo em que a presença da estatística é óbvia é a leitura de pesquisas de intenção de voto. Muitas vezes ajudam a orientar nossas escolhas ou, pelo menos, servem de tema de conversa. No entanto, nosso uso é muito mais frequente e próximo. Utilizamos intuitivamente os conceitos de média e intervalo para definir quanto tempo antes de um compromisso temos que sair de casa; o conceito de probabilidade quando compramos um presente e torcemos para que o presenteado goste; inferências ao tentar prever como certos aspectos de nossa vida devem evoluir. Pois bem, temos por objetivo ajudá-lo a compreender e a utilizar os conceitos da estatística na resolução de problemas formais, por meio das contas necessárias e, principalmente, buscando transmitir esse conhecimento de modo que você possa aplicá-lo em situações de sua vida profissional e pessoal, fazendo da estatística uma ferramenta que o ajude a tomar decisões bem fundamentadas. Nosso curso objetiva apresentar o estudante às ferramentas matemáticas e suas aplicações no universo cotidiano e profissional ligadas ao tema. Nesse sentido, é orientado mesmo à capacitação profissional do graduando em relação aos cenários, cada vez mais frequentes, em que a análise combinatória e ingredientes fundamentais da Teoria de Probabilidades são exigidos. Em linhas gerais, o material está estruturado de forma simples e direta, relevando os itens fundamentais da teoria e priorizando o aprendizado pela prática e análise de exercícios. INTRODUÇÃO A estatística pode ser definida como uma subdivisão da matemática que descreve características de conjuntos, organizando e resumindo dados a seu respeito, buscando relações entre esses conjuntos de dados e elaborando modelos de forma tal que possam ser feitas previsões a respeito de sua evolução temporal ou da de conjuntos com características similares. Cálculos combinatórios, probabilísticos e estatísticos fazem parte de nosso cotidiano, e os realizamos muitas vezes de forma tão automática, que nem nos damos conta disso. Por exemplo, ao nos depararmos com situações que exigem a tomada de decisões, analisamos, muitas vezes intuitivamente, as várias possibilidades e elegemos a mais adequada ou, em outras palavras, a que apresenta maior probabilidade de sucesso. Evidentemente, há outros cenários que exigem um rigor maior, por exemplo, projeções de cotações na bolsa de valores e cálculos estatísticos em inúmeras modalidades de pesquisas de opinião, pesquisas biomédicas, administrativas e de outros cenários nos quais a inferência estatística é utilizada como ferramenta. 8 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr amaç ão : M ár ci o - 02 /0 2/ 20 17 Todos esses exemplos já seriam suficientes para um estudo sério, motivado e atento de Análise Combinatória e Probabilidades, no entanto o elemento de maior importância é a oportunidade de ingresso em universo em que os conceitos determinísticos, arraigados em nossa forma de pensar, dão passagem a uma nova abordagem de pensamento. Uma forma de pensar que leva em conta, sem medo, todas as possibilidades (contando-as, inclusive) e utiliza as ferramentas oferecidas pela Teoria de Probabilidades como de estudo e análise, o que possibilita a aparição de padrões e comportamentos que o determinismo puro não acessa. 9 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Unidade I 1 ESTATÍSTICA DESCRITIVA A estatística pode ser considerada como uma ciência, no sentido do estudo de uma população, e como um método, quando utilizada como um instrumento por outra ciência. A palavra “estatística” não é recente e originalmente foi utilizada para denominar levantamentos. Na Antiguidade e Idade Média, nascimentos, número de habitantes e óbitos eram registrados e tabulados com finalidades bélicas e/ou tributárias. Atualmente, é considerada como um conjunto de métodos e técnicas para coleta, organização, apresentação e interpretação de dados, a fim de que conclusões, que vão além dos dados iniciais, possam ser obtidas para a tomada de decisões. Sob este aspecto, pode ser subdividida em duas grandes áreas: aquela responsável pela coleta, organização e descrição dos dados, a Estatística Descritiva, e a responsável pela análise e interpretação de dados, a Estatística Indutiva (ou Inferencial), que é fundamentada na teoria da probabilidade e compreende dois grandes tópicos: a estimação de parâmetros e os testes de hipótese. Considerando método um conjunto eficaz de meios para atingir uma determinada meta, é possível definir método estatístico como aquele constituído das seguintes fases: 1. Definição do problema: consiste em determinar corretamente o que se deseja pesquisar, ou seja, definir o problema em estudo da forma mais correta possível. 2. Planejamento: definição de quais são as informações relevantes a serem obtidas, como isso será realizado, qual o custo envolvido etc. É nesta fase que um cronograma de atividades é elaborado. 3. Coleta de dados: registro sistemático de dados, conforme o objetivo definido nas fases anteriores. A coleta normalmente é realizada de uma forma direta, em que a informação é obtida diretamente da fonte por meio de um questionário ou de uma observação. 4. Crítica e apuração dos dados: consiste em uma avaliação rigorosa dos dados em busca de erros que possam influir nas análises e conclusões e, posteriormente, no processamento desses dados por meio de contagem e agrupamento. 5. Apresentação ou exposição dos dados: é a determinação de uma forma adequada de apresentação dos dados para facilitar o tratamento e a análise estatística. Basicamente, existem duas formas de exposição: em uma tabela, que é a apresentação numérica dos dados distribuídos de um modo ordenado entre linhas e colunas, segundo regras fixadas pelo Conselho Nacional de Estatística, ou 10 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I em gráficos, que são uma representação visual dos dados numéricos com a finalidade de facilitar a compreensão dos mesmos e/ou apresentar conclusões e análises de resultados. 1.1 População e amostra O significado mais comum da palavra população é o conjunto de habitantes de certo país, estado, cidade etc. Entretanto, em estatística, o seu significado é mais amplo. Considera-se população o conjunto de todos os elementos (objetos, indivíduos, animais) que representam a totalidade dos que possuem as mesmas características definidas para um estudo. O estudo de todos os elementos de uma população é denominado censo. Geralmente, o estudo de uma população é inviável pelo seu custo ou tempo de execução e análise. Sendo assim, a pesquisa é feita com uma parte representativa da população denominada “amostra” e não com a totalidade dos indivíduos. Lembrete Portanto, amostra é uma parte representativa da população, selecionada segundo uma técnica de amostragem que garante sua veracidade e representatividade. As técnicas de amostragem usadas para a obtenção de uma amostra podem ser classificadas como: • Amostragens probabilísticas: todos os elementos da população possuem probabilidade conhecida e não zero de pertencer à amostra (selecionada ao acaso). • Amostragens não probabilísticas: não permitem a retirada de uma amostra de forma aleatória, pois, em algumas situações, a amostragem se torna obrigatória, por exemplo: ensaios de drogas, vacinas, técnicas cirúrgicas, pesquisa de opinião. Entre as técnicas de amostragem probabilística, a mais usada é a Amostragem Aleatória Simples (ou Amostragem Simples ao Acaso), empregada quando todos os elementos de uma população têm a mesma chance (probabilidade) de serem selecionados. É um procedimento que pode se tornar trabalhoso quando a população é muito grande. É aplicado quando a população é considerada homogênea, ou seja, possui pouca variabilidade. Para manter essa propriedade, todos os elementos da população devem ser enumerados e, por meio de um sorteio ou do auxílio de uma tabela de números aleatórios, devem-se selecionar os elementos que comporão a amostra desejada. Observação Portanto, a definição de uma população depende do objetivo da pesquisa que será realizada e, a partir dela, será definida a amostra e como serão a coleta e a apuração de dados. 11 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA 1.2 Tabelas de Frequência 1.2.1 Variáveis Cada característica definida como de interesse do estudo na população representa um fenômeno estatístico que se pretende analisar. Esta análise se inicia com o conceito e definição de variável. Entende-se por variável o conjunto de resultados possíveis de um fenômeno. Pode ser classificada como: • Qualitativa: seus valores representam atributos (qualidades) dos elementos em estudo. Exemplos: sexo (masculino, feminino); cor dos olhos (azuis, verdes, castanhos etc.). • Quantitativa: seus valores são resultantes de uma contagem ou mensuração e essa variável pode ser: — Contínua: assume qualquer valor dentro de dois limites. Exemplos: peso, altura. — Discreta: assume valores inteiros dentro de um conjunto de valores enumeráveis. Exemplos: número de alunos na sala de aula, idades. Exemplo: Numa sala do curso de Matemática de certa universidade há 90 alunos. Deseja-se realizar uma pesquisa para avaliar o perfil deles. O primeiro passo é obter uma amostra. Definindo-se que o tamanho da amostra será 20% da população, 18 alunos serão entrevistados. A definição de quais alunos serão entrevistados será efetuada por meio da técnica de amostragem simples: os 90 alunos serão enumerados de 1 a 90 e, a partir de um sorteio, serão definidos os que responderão ao questionário. Esse questionário possui perguntas como sexo, se a pessoa é fumante, idade, número de irmãos, altura (em metros), peso (em kg) e renda familiar. Poderíamos definir estas variáveis como: Quadro 1 Nome da variável Tipo da variável Sexo Qualitativa Fumante Qualitativa Idade Quantitativa discreta Número de irmãos Quantitativa discreta Altura (em metros) Quantitativa contínua Peso (em kg) Quantitativa contínua Renda familiar(em reais) Quantitativa contínua 12 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Exemplos de aplicação 1. Uma característica de interesse para o estudo da população é chamada de: A) Amostra. B) Conjunto de dados. C) Variável. D) Observação. E) Nenhuma das alternativas está correta. 2. Temperatura, em graus Celsius, é um exemplo de: A) Variável qualitativa. B) Variável quantitativa discreta. C) Variável quantitativa contínua. D) Variável qualitativa ou variável quantitativa, dependendo da situação. E) Esta característica não pode ser considerada uma variável. 3. Uma parte representativa da população é: A) Inferência estatística. B) Estatística descritiva. C) Um censo. D) Uma amostra. E) Nenhuma das alternativas está correta. 4. O registro acadêmico de um aluno é um exemplo de: A) Variável qualitativa. B) Variável quantitativa discreta. C) Variável quantitativa contínua. D) Variável qualitativa ou variável quantitativa, dependendo da situação. E) Esta característica não pode ser considerada uma variável. 5. Com o intuito de obter informação sobre as intenções de voto dos estudantes de uma universidade com 10 mil alunos, 900 alunos serão entrevistados. Podemos dizer que o grupo constituído dos 10 mil alunos é: A) Censo. B) Amostra. C) Observação. D) População. E) Variável em estudo. 13 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA 6. Com relação ao exercício anterior, é possível afirmar que o grupo constituído dos 900 alunos é: A) Censo. B) Amostra. C) Observação. D) População. E) Variável em estudo. 7. Um questionário foi aplicado aos estagiários de certa empresa para estudar o perfil do profissional iniciante. Entre as variáveis investigadas, constavam: idade, sexo, estado civil, número de anos que levou para se formar e a intenção de continuar os estudos. Podemos afirmar que destas cinco variáveis: A) 3 são quantitativas e 2 são qualitativas. B) 1 é qualitativa e 4 são quantitativas. C) 2 são quantitativas e 3 são qualitativas. D) Todas são quantitativas. E) 1 é quantitativa e 4 são qualitativas. 8. Quando, em uma pesquisa estatística, todos os indivíduos que possuem a característica de interesse são avaliados trata-se de: A) Estudo de caso. B) Amostra probabilística. C) Amostra não probabilística. D) Amostra aleatória. E) Censo. 9. A empresa de telefonia Olaviva pretende realizar uma pesquisa com 25.000 dos seus 300.000 clientes na cidade Sempre Feliz. Para isso, algumas informações já foram definidas como necessárias: número do telefone, tipo do telefone, número de chamadas interurbanas por mês, duração da chamada interurbana mais longa de cada mês, valor mensal da conta telefônica. Pede-se: A) Indicar a população e a amostra desta situação. B) Das variáveis citadas, indicar quais são qualitativas, quais são quantitativas discretas e quais são quantitativas contínuas. Respostas: 1. c 6. b 2. c 7. a 3. d 8. e 4. a 9. População: os 300.000 clientes da empresa na cidade. 5. d Amostra: os 25.000 clientes que serão entrevistados. 14 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Quadro 2 variável qualitativa variável quantitativa discreta variável quantitativa contínua número do telefone número de chamadas duração da chamada mais longa de cada mês tipo do telefone valor mensal da conta 1.2.2 Tabelas de frequências e gráficos Com a intenção de melhor descrever o comportamento de uma variável, é possível organizar os seus valores sob a forma de tabelas de frequência e gráficos. Tabela é o quadro que resume um conjunto de observações. É composta de elementos essenciais, que são obrigatórios em qualquer uma: • Título: define conteúdo da tabela; • Cabeçalho: parte superior que especifica o conteúdo das colunas; • Coluna indicadora: determina o conteúdo das linhas; • Corpo: linhas e colunas que contêm as informações; • Elementos complementares: devem ser colocados no rodapé da tabela, na ordem em que foram descritos: Fonte: nome da entidade que fornece os dados ou elabora a tabela, no caso de um trabalho próprio diz-se “fonte: própria”. Notas: informações de natureza geral com o objetivo de esclarecer o conteúdo da tabela. Chamadas: informações específicas com a finalidade de esclarecer ou conceituar dados numa determinada área da tabela. Estão indicadas no corpo da tabela, em números arábicos, entre parênteses. Exemplo de tabela: Tabela 1 - Produção de café no Brasil (1978-1983) Anos Quantidade (1000 ton.) 1978 (1) 2535 1979 2666 1980 2122 1981 3760 1982 2007 1983 2500 Nota: produção destinada para o consumo interno. (1) Parte exportada para a Argentina. 15 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Um professor de Estatística, com o intuito de apresentar aos seus alunos o conceito de variáveis e tabelas de frequência, realizou uma pesquisa na sua sala. Como a sala era pequena (40 alunos), um censo foi efetuado. As perguntas feitas nesta pesquisa foram: 1. Você é fumante? Sim/Não (variável qualitativa) 2. Quantos irmãos você tem? (variável quantitativa discreta) 3. Qual a sua altura (em cm)? (variável quantitativa discreta) Observação: se a altura estivesse em metros, poderia ser considerada contínua. Os resultados obtidos são apresentados a seguir: Tabela 2 1 2 3 4 5 6 7 8 9 10 fumante S N N N N N N S S N nº de irmãos 1 0 1 2 3 3 4 1 2 3 altura 187 189 156 160 178 165 173 172 187 165 11 12 13 14 15 16 17 18 19 20 fumante N S S N N N N N S N nº de irmãos 2 1 0 1 3 4 3 1 0 3 altura 178 165 155 170 168 175 163 172 177 175 21 22 23 24 25 26 27 28 29 30 fumante S S N N N S N N N N nº de irmãos 2 1 1 1 2 3 1 4 1 4 altura 167 168 176 170 178 165 163 162 177 185 31 32 33 34 35 36 37 38 39 40 fumante N S S N N N N N S N nº de irmãos 2 1 0 1 3 4 3 1 0 3 altura 168 175 165 180 158 165 163 172 167 175 A seguir, usando estas variáveis, serão construídas as tabelas de frequências adequadas. Tabelas de frequências – variáveis qualitativas A tabela de frequência de variáveis qualitativas é simples, cada linha corresponde a um possível valor da variável. A coluna de frequência será obtida em um processo de contagem. Para tal tabela define-se: 16 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I • Classe: valor que a variável assume ou intervalo de valores da variável. • Frequência simples ou absoluta de uma classe (fi): valores que representam o número real de dados da classe (intervalo ou valor). A soma das frequências absolutas é igual ao número total de observações f ni =∑( ) . • Frequência relativa (fri): é o valor percentual de uma determinada classe em relação ao número total de observações, ou seja, é a razão entre as frequências simples e total. fr f f ou fr f i i i i i n= ∑ =( ) ( )( ) Sua finalidade é auxiliar na análise das informações e/ou facilitar comparações. Assim, temos as observações: S N N N N N N S S N N S S N N N N N S N S S N N N S N N N N NS S N N N N N S N Tabela 3 - Comportamento dos alunos de Estatística do professor X com relação ao fumo Fumante Frequência absoluta Frequência relativa Sim 12 30% Não 28 70% Total 40 100% Pela tabela, é possível observar que 70% dos alunos não fumam. Tabelas de frequências – variáveis quantitativas (contínuas/discretas) Para variáveis quantitativas há dois tipos de tabela de frequências. O primeiro é muito parecido com a construção de tabelas de frequência para variáveis qualitativas e se adéqua quando a variável aleatória é quantitativa discreta com um pequeno número de valores possíveis. Neste caso, a tabela de frequência construída é sem intervalo de classe, pois considera-se que cada valor pode ser tomado como intervalo de classe, como, por exemplo, o número de irmãos. Os resultados na pesquisa para esta variável foram: 1 0 1 2 3 3 4 1 2 3 2 1 0 1 3 4 3 1 0 3 2 1 1 1 2 3 1 4 1 4 2 1 0 1 3 4 3 1 0 3 17 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA O primeiro passo para a construção de uma tabela é a ordenação dos dados, criando-se um ROL (tabela obtida com a ordenação dos dados). 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 Novas definições de colunas, com o intuito de facilitar a análise, tornam-se necessárias: • Frequência Absoluta Acumulada (faci) – a frequência absoluta acumulada de certa classe k é a soma de sua frequência absoluta com as frequências absolutas de todas as classes anteriores a ela. A última classe da tabela contém como frequência acumulada o número total dos dados: fack = + + + = = ∑f f f fk i i k 1 2 1 .. • Frequência Relativa Acumulada (fraci) – a frequência relativa acumulada de certa classe k é a soma de sua frequência relativa com as frequências relativas de todas as classes anteriores a ela. A última classe da tabela contém como frequência acumulada o total em porcentagem (100%). Tabela 4 - Número de irmãos dos alunos de Estatística do professor X. Classe Nº de irmãos fi faci fri fraci 1 0 5 5 12,5% 12,5% 2 1 14 19 35,0% 47,5% 3 2 6 25 15,0% 62,5% 4 3 10 35 25,0% 87,5% 5 4 5 40 12,5% 100% NOTA: fi - Frequência absoluta da classe i faci - Frequência acumulada da classe i fri - Frequência relativa da classe i fraci - Frequência relativa acumulada da classe i A linha 3 da tabela anterior pode ser interpretada da seguinte forma: a terceira classe da tabela é constituída pelos alunos com 2 irmãos. Há seis alunos nesta classe que correspondem a 15% do total de alunos; 25 alunos possuem, no máximo, 2 irmãos, o que corresponde a 62,5% do total. A tabela ainda fornece informações como: 18 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I • 5 alunos não possuem irmãos; • 12,5% dos alunos possuem 4 irmãos; • 25 alunos possuem, no máximo, 2 irmãos; • 37,5% dos alunos possuem, no mínimo, 3 irmãos. Quando a variável é quantitativa discreta com uma grande variação ou é quantitativa contínua é necessário trabalhar com tabela de frequência com intervalos de classe, que é uma tabela um pouco mais elaborada em sua construção. Como exemplo, citamos a altura dos alunos, cujos resultados obtidos na pesquisa foram: 187 189 156 160 178 165 173 172 187 165 178 165 155 170 168 175 163 172 177 175 167 168 176 170 178 165 163 162 177 185 168 175 165 180 158 165 163 172 167 175 Criando o ROL, obtém-se: 155 156 158 160 162 163 163 163 165 165 165 165 165 165 167 167 168 168 168 170 170 172 172 172 173 175 175 175 175 176 177 177 178 178 178 180 185 187 187 189 O número de linhas que constituirão a tabela (intervalos) e a variação de cada intervalo serão obtidos nos cálculos que serão apresentados a seguir. Passo 1: Determinar a amplitude total (At) do conjunto de dados. At = XMÁXIMO - XMÍNIMO No exemplo, 189 - 155 = 34 Passo 2: Determinar o número de classes (K) desta tabela. Seja n o número de dados observados (tamanho da amostra), define-se que: K = 5 para n ≤ 5 e K = n Caso contrário, no exemplo, como n = 40 então K = 40 = 6,3 ≅ 6 Assim, a tabela possuirá seis classes (linhas). 19 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Passo 3: Determinar a amplitude do intervalo (h), que é a diferença entre o limite superior e inferior dentro de uma classe. h = At/k No exemplo h = 34/6 = 5,7 ≅ 6 Passo 4: Calculados o número de classes e a amplitude entre elas, é possível determinar as classes, com seus respectivos intervalos: Classes: 155├─ 161 161├─ 167 167├─ 173 173├─ 179 179├─ 185 185├─ 191 Com o agrupamento dos valores das variáveis em classes, é possível simplificar a tabela de frequência sem perder informações. Atenção ao significado dos símbolos que representam os intervalos: ├─ fechado à esquerda (inclui o limite inferior) e aberto à direita (não inclui o limite superior). ─┤ aberto à esquerda (não inclui o limite inferior) e fechado à direita (inclui o limite superior). ─ aberto à esquerda e à direita (não inclui os limites). ├─┤ fechado à esquerda e à direita (inclui os limites). Antes da construção da tabela de frequência para variáveis quantitativas, é necessário definir alguns elementos que fazem parte da mesma: 1. Limites de classe: são os extremos da classe. Limite Inferior (l i) e Limite Superior (Li). Exemplo: 161├─167 li = 161 e Li =167 2. Ponto médio de uma classe (PMi): divide uma classe exatamente na metade. É o valor numérico que representa esta classe, quando houver necessidade. 20 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I PMi = (Li + li ) / 2 Exemplo: 161├─167 li= 161 e Li=167 ⇒ PMi = (167+161) / 2 = 164 3. Os outros elementos, amplitude total (At) e amplitude de uma classe (h), já foram discutidos. Tabela 5 - Altura dos alunos de Estatística do professor X. i Classe PMi fi faci fri % fraci % 1 155├─ 161 158 4 4 10,0 10,0 2 161├─ 167 164 10 14 25,0 35,0 3 167├─ 173 170 10 24 25,0 60,0 4 173├─ 179 176 11 35,0 27,5 87,5 5 179├─185 182 1 36 2,5 90 6 185├─ 191 188 4 40 10,0 100 O símbolo do percentual (%) foi colocado no cabeçalho da tabela em vez de no corpo da mesma. A linha 4 da tabela anterior pode ser interpretada da seguinte forma: a quarta classe da tabela é constituída pelos alunos entre 173 (inclusive) e 179; há 11 alunos nesta classe que correspondem a 27,5% do total de alunos; 35 alunos possuem até 179, o que corresponde a 87% do total; 176 é o valor numérico que representa esta classe. A tabela fornece informações tais como: Há 4 alunos entre 155 cm (inclusive) e 161 cm; 10% dos alunos possuem altura inferior a 161 cm; 12,5 % (=2,5% +10,0%) dos alunos possuem altura superior a 179 cm (inclusive); 35 alunos possuem altura inferior a 179 cm; 60% dos alunos possuem altura inferior a 173 cm. Lembrete As frequências são as respectivas quantidades associadas a cada valor da variável, e as frequências relativas são as mesmas quantidades consideradas percentualmente. Exemplo de aplicação Uma pesquisa sobre a renda familiar de 60 famílias foi realizada. Os dados obtidos estão “parcialmente” apresentados na tabela a seguir. Os valores das rendas familiares nas classes estão descritos em centenasde unidades monetárias. 21 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Tabela 6 i Classes PMi fi faci fri fraci 1 0├─4 9 2 4├─8 19 3 8├─12 4 4 14 25% 5 16├─20 7 6 20% 7 3 ∑=60 ∑= Complete a tabela e indique: A) A amplitude total. B) O limite superior da quinta classe. C) O ponto médio da quarta classe. D) A frequência absoluta da terceira classe. E) A frequência relativa da segunda classe. F) A frequência absoluta acumulada da quarta classe. G) A frequência relativa acumulada da sexta classe. H) O número de famílias cuja renda não atinge $1200,00. I) O percentual de famílias cuja renda não atinge $800,00. J) Número de famílias com renda salarial inferior a $400,00. K) Percentual de famílias com renda entre $800,00 (inclusive) e $2400,00. L) Número de famílias com renda salarial inferior a $1600,00. M) Número de famílias com renda salarial superior a $2400,00 (inclusive). N) Percentual de famílias com renda inferior a $1200,00. O) Percentual de famílias com renda superior a $2000,00 (inclusive). P) Até que classe estão incluídas 60% das famílias? Resolução: Tabela 7 i classes PMi fi faci fri fraci 1 0├─ 4 2 9 9 15% 15% 2 4├─ 8 6 10 19 16,7% 31,7% 3 8├─ 12 10 4 23 6,7% 38,4% 4 12├─ 16 14 15 38 25% 63,4 5 16├─ 20 18 7 45 11,7% 75,1% 6 20├─ 24 22 12 57 20% 95,1% 22 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 7 24├─ 28 26 3 60 5% 100,1%** ∑=60 ∑=100,1%** **É aceitável entre 99% e 101% devido a erros de arredondamento. O preenchimento desta tabela é efetuado com as definições de frequência absoluta simples e acumulada, bem como da frequência relativa e da relativa acumulada. Até a terceira classe, o preenchimento de fi é feito por meio da definição da frequência acumulada. Por exemplo, se a frequência acumulada da 2ª classe é 19 e a da primeira é 9, a frequência absoluta da 2ª classe é 10 (19-9). Já na quarta classe, fi pode ser obtido pela frequência relativa. Se a frequência relativa nesta classe for 25 % e o total de elementos for 60, fi será 25% de 60. A) A amplitude total ⇒ 2800-0 = 2800 B) O limite superior da quinta classe ⇒ $ 2000 C) O ponto médio da quarta classe ⇒ $ 1400 D) A frequência absoluta da terceira classe ⇒ 4 E) A frequência relativa da segunda classe ⇒ 16,7% F) A frequência absoluta acumulada da quarta classe ⇒ 38 G) A frequência relativa acumulada da sexta classe ⇒ 95,1% H) O número de famílias cuja renda não atinge $ 1200,00 ⇒ 23 famílias I) O percentual de famílias cuja renda não atinge $ 800,00 ⇒ 31,7% J) Número de famílias com renda salarial inferior a $ 400,00 ⇒ 19 K) Percentual de famílias com renda entre $ 800,00 (inclusive) e $ 2400,00 ⇒ 63,4% L) Número de famílias com renda salarial inferior a $ 1600,00 ⇒ 38 M) Número de famílias com renda salarial superior a $ 2400,00 (inclusive) ⇒ 3 N) Percentual de famílias com renda inferior a $ 1200,00 ⇒ 38,4% O) Percentual de famílias com renda superior a $ 2000,00 (inclusive) ⇒ 25% P) Até que classe estão incluídas 60% das famílias? ⇒ quarta classe 2 GRÁFICOS Têm como objetivo facilitar a compreensão de dados numéricos por meio de apresentação visual e também apresentar resultados ou conclusões de uma análise. Podem ser classificados, segundo seu objetivo, em: • Gráficos de informação: tipicamente expositivos, devem ser o mais completo possível. São destinados ao público em geral e têm a finalidade de proporcionar uma compreensão clara e rápida do objeto em estudo. 23 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA • Gráficos de análise: são os usados pela estatística. Em uma análise, estes gráficos frequentemente vêm acompanhados de uma tabela, além de um texto que procura chamar a atenção do leitor para os principais pontos apresentados tanto pelo gráfico quanto pela tabela. A elaboração de um gráfico necessita de alguns cuidados. São eles: 1. Todo gráfico deve ter título, escala e fonte, para que possa ser interpretado. 2. Cada eixo do gráfico tem que ser identificado claramente, como mostra o exemplo: 4 3 2 1 0 1 2 3 4 Porcentagem Idade Figura 1 3. O sistema de eixos cartesianos e as linhas auxiliares devem ter traçados mais leves do que a parte do gráfico que se pretende evidenciar: 4 3 2 1 0 1 2 3 4 Figura 2 4. Todo gráfico deve ser: • Simples: constituído somente das informações importantes, desconsiderando detalhes de importância secundária, assim como traços desnecessários que possam levar a erros. • Verdadeiro: expressar a verdade sobre o fenômeno em estudo. • Claro: permitir a interpretação correta dos dados em estudo. 24 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 5. A utilização indevida dos gráficos pode trazer uma ideia falsa dos dados que estão sendo analisados, chegando mesmo a confundir e pessoa. J A J O Vendas do artigo Y M ilh õe s d e Re ai s 1996 Figura 3 J F M A M J J A S O N D Vendas do artigo Y M ilh õe s d e Re ai s 1996 4 3 2 1 0 Figura 4 J F M A M J J A S O N D Vendas do artigo Y M ilh õe s d e Re ai s 1996 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Figura 5 25 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Os três gráficos anteriores, avaliados rapidamente e sem a devida atenção para as escalas, parecem três gráficos diferentes: o primeiro mostra um rápido crescimento das vendas do artigo Y e o segundo um crescimento mais moderado. Entretanto, os dois gráficos foram construídos com a mesma base de dados, mas com escalas erradas e desproporcionais. O gráfico correto seria o terceiro, no qual as escalas estão proporcionais. 2.1 Principais tipos de gráficos 2.1.1 Gráfico de barras (horizontais) Compara grandezas por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Exemplo: Chocolate com castanha Chocolate ao leite Chocolate amargo Chocolate com passas Chocolate branco Chocolate meio amargo 450 350 250 200 200 150 Vendas de chocolates em 1995 por 1000 unidades Figura 6 Neste tipo de gráfico: • As barras só diferem em comprimento e são separadas umas das outras por um espaço inferior à sua largura. • A largura, uma vez especificada, será a mesma para todas as barras. • A ordem de grandeza é normalmente decrescente (barra superior tem o maior valor) e deve ser respeitada para facilitar a leitura e a análise comparativa dos dados. 26 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 2.1.2 Gráfico de barras (horizontais) agrupadas Visa à comparação de dois ou mais itens obtidos de duas diferentes fontes. Exemplo: Chocolate com castanha Chocolate ao leite Chocolate amargoChocolate com passas Chocolate branco Chocolate meio amargo Vendas de chocolates das marcas A e B em 1995 0 100 200 300 400 500 Por 1000 unidades Marca A Marca B Figura 7 2.1.3 Gráfico de colunas e colunas agrupadas Tem o mesmo objetivo que o gráfico de barras, sendo preferível quando as legendas referentes aos retângulos são curtas. Exemplo: Vendas da roupa de marca Y por 1000 unidades 1991 1992 1993 1994 1995 1996 Q ua nt id ad e em m ilh ar es d e ite ns 250 200 150 100 50 0 Figura 8 O gráfico de colunas agrupadas permite uma melhor comparação entre as grandezas das diferentes variáveis. Exemplo: 27 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Vendas das roupas X e Y por 1000 unidades 1991 1992 1993 1994 1995 1996 Qu an tid ad e em m ilh ar es d e ite ns 250 200 150 100 50 0 Roupa Y Roupa x Figura 9 2.1.4 Gráfico de linhas ou gráficos lineares ou de curvas É utilizado para a representação de valores em função do tempo. É mais eficiente do que as colunas, quando existem intensas variações nas informações ou quando é necessária a apresentação de várias séries (diferentes grupos de dados) no mesmo gráfico. Exemplo: J F M A M J J A S O N D Vendas do artigo Y M ilh õe s d e Re ai s 1996 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Figura 10 28 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 2.1.5 Gráfico de setores (ou de pizza) É usado para representar valores absolutos ou percentuais em função de um todo. Exemplos: Ótima Boa Indiferente Ruim Péssima Opinião sobre a embalagem do novo produto Figura 11 ou ainda Opinião sobre a embalagem do novo produto Péssima 3% Ruim 16% Indiferente 16% Boa 41% Ótima 24% Figura 12 Observação É importante ressaltar que um gráfico de setores não deve possuir muitas categorias (há autores que sugerem no máximo sete), pois isso dificulta a visualização das proporções e, consequentemente, as análises. 29 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA 2.1.6 Cartogramas Representação dos dados sobre uma carta geográfica (mapa). Usados quando o objetivo é representar os dados diretamente relacionados com áreas geográficas ou políticas. Exemplos: Figura 13 30 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Figura 14 2.1.7 Pictograma ou gráficos pictóricos São gráficos cuja representação é realizada por figuras. Pela sua forma atraente e sugestiva, são os que melhor falam ao público. Exemplos: 10 15 20 25 30 1980 1990 2000 2010 Figura 15 – Crescimento da fabricação de carros na empresa XYZ nas últimas quatro décadas: 31 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA 5 15 20 25 2007 2008 2009 10 30 35 Figura 16 – Aumento da população presidiária no país A em três anos Saiba mais Leituras complementares interessantes sobre a elaboração e utilização de gráficos e tabelas são os livros Estatística usando Excel, de Juan Carlos Lapponi, e Métodos Quantitativos com Excel, de Valéria Zuma Medeiros et al. 2.2 A representação gráfica de uma tabela de frequência Normalmente, as variáveis qualitativas são representadas por meio do gráfico de setores e as quantitativas, por um histograma ou um polígono de frequência. 2.2.1 Variáveis qualitativas A figura a seguir mostra os resultados obtidos pelo professor de Estatística: Sim Não Comportamento dos alunos de Estatística do professor X com relação ao fumo Figura 17 32 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 2.2.2 Variáveis quantitativas Para as variáveis quantitativas, a distribuição de frequência pode ser graficamente representada por meio de histograma, polígono de frequência e polígono de frequência acumulada (ou Ogiva de Galton). Em todos os tipos de gráficos, as abscissas (eixo horizontal) serão os valores da variável e as ordenadas (eixo vertical) serão a frequências. Variáveis quantitativas: histograma Conjunto de retângulos superpostos, cuja base fica no eixo horizontal, de tal forma que seus pontos médios coincidem com os pontos médios da classe. A largura desses retângulos equivale à amplitude da classe e sua altura é proporcional às frequências das classes. Exemplo: 16 14 12 10 8 6 4 2 0 Fr eq uê nc ia 0 1 2 3 4 5 Número de irmãos Número de irmãos dos alunos de Estatística do professor X Figura 18 Observa-se que uma distribuição de frequência sem intervalos de classe é representada graficamente por um diagrama no qual o valor de cada variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência. 12 10 8 6 4 2 0 Fr eq uê nc ia Altura dos alunos de Estatística do professor X 158 164 170 176 182 188 Ponto médio das classes Figura 19 33 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Variáveis quantitativas: polígono de frequência Gráfico de linhas no qual as abscissas correspondem ao valor do ponto médio da classe, no caso da tabela com intervalo de classe. As ordenadas são proporcionais à frequência. Exemplos: 16 14 12 10 8 6 4 2 0 Fr eq uê nc ia 0 1 2 3 4 Número de irmãos Número de irmãos dos alunos de Estatística do professor X Figura 20 12 10 8 6 4 2 0 Fr eq uê nc ia Altura dos alunos de Estatística do professor X 158 164 170 176 182 188 Ponto médio das classes Figura 21 Variáveis quantitativas: polígono de frequência acumulada Gráfico de linhas construído a partir dos valores da frequência absoluta acumulada. Exemplos: 50 40 30 20 10 0 Fr eq uê nc ia Número de irmãos dos alunos de Estatística do professor X 0 1 2 3 4 Número de irmãos Figura 22 34 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I 45 40 35 30 25 20 15 10 5 0 Fr eq uê nc ia 158 164170 176 182 188 Ponto médio das classes Altura dos alunos de Estatística do professor X Figura 23 3 MEDIDAS DE POSIÇÃO E MEDIDAS DE DISPERSÃO 3.1 Medidas de posição A descrição geral dos valores que uma variável pode assumir dentro de um estudo é fornecida pela tabela de frequência. Entretanto, é necessária também uma análise numérica das tendências características desta distribuição, que é obtida com o cálculo dos elementos típicos da mesma (medidas de posição). As medidas de posição são subdivididas em duas categorias: • Medidas de tendência central: determinam um valor em torno do qual tende a se concentrar a maioria dos dados, ou seja, determina o valor que pode representar todos os elementos do grupo. São consideradas como medidas de tendência central: a média, a mediana e a moda. • Separatrizes: dividem o grupo de dados em subgrupos de tamanhos iguais. São separatrizes: a mediana e os quartis. Estas medidas não serão tratadas aqui. 3.1.1 Medidas de tendência central Antes da apresentação dos cálculos propriamente ditos, serão apresentadas as definições destas três medidas: Média: é a soma de todos os valores da variável dividida pela sua frequência total (número total de valores): 35 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA ú µx x= = soma de todos os valores da variavel numero total de vaalores = ∑ x n iá As fórmulas associadas com a população são sempre representadas por letras gregas e as das amostras pelo alfabeto normal. Portanto, µx é a representação da média para a população e x é a representação da média para amostra. Apesar dos diferentes símbolos, o cálculo para média é o mesmo tanto para população como para amostra. Quando o valor obtido pelo cálculo da média não existe na série que ela representa, diz-se que a média não possui existência concreta. É o valor utilizado quando há necessidade de uma medida de posição que possui maior estabilidade. E pode substituir todos os valores da variável, ou seja, é o valor assumido pela variável caso fosse necessário como constante. Moda: é o valor que ocorre com maior frequência em uma série de valores. É utilizada quando se deseja o valor mais típico da distribuição como medida de posição. Mediana: valor que ocupa a posição central dos dados ordenados, ou seja, divide a série de valores ordenados exatamente na metade. É utilizada quando se deseja obter o ponto que divide a distribuição em partes iguais ou quando há valores extremos que afetam de uma maneira acentuada a média. Observação As tabelas de frequência das variáveis obtidas pelo professor de Estatística serão utilizadas na definição das fórmulas para obtenção dos valores das medidas de tendência central. 3.1.1.1 Variáveis qualitativas Tabela 8 - Comportamento dos alunos de Estatística do professor X com relação ao fumo Fumante Frequência absoluta Frequência relativa Sim 12 30% Não 28 70% Total 40 100% 36 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Média: não há valores que possam ser somados. Portanto, não existe média para valores qualitativos. Moda: Mo = Não. Mediana: não há valores que possam ser ordenados. Portanto, não existe mediana para valores qualitativos. 3.1.1.2 Variáveis quantitativas – dados não agrupados A) 3,4,4,4,5,6,6,7,8,9 n=10 (quantidade de elementos) Média: x = + + + + = = 3 4 4 9 10 56 10 5 6 ... , Moda: Mo=4 Mediana: o cálculo da mediana para dados não agrupados é um pouco mais elaborado e definido como a seguir. Dada uma série ordenada com n elementos, a mediana será: Se n ímpar: o valor do termo que estiver na posição n +1 2 Se n par: a média aritmética dos valores dos termos que ocuparem as posições n e n 2 2 1+ No exemplo acima, n=10 (par) Assim n 2 10 2 = = 5ª posição e n 2 + 1 = 5 + 1 = 6ª posição. Portanto, a mediana será a média aritmética dos valores que estão na quinta e na sexta posição. POSIÇÃO: 1 2 3 4 5 6 7 8 9 10 VALOR: 3 4 4 4 5 6 6 7 8 9 Mediana: Md = 5 6 2 5 5 + = , B) 2,3,4,4,5,6,6,7,8 n=9 Média: x = + + + + = = 2 3 4 8 10 45 9 5 ... Moda: Mo = 4,6 37 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Mediana: No exemplo acima n=9 (ímpar) Assim n +( ) = +( ) = = 1 2 9 1 2 10 2 5 Portanto, a mediana será o valor que está na quinta posição dos dados ordenados. POSIÇÃO: 1 2 3 4 5 6 7 8 9 VALOR: 2 3 4 4 5 6 6 7 8 Mediana: Md = 5 C) 3,4,5,6,7,8,9 n = 7 Média: x = + + + + = = 3 4 5 9 10 42 7 6 ... Moda: Mo = não existe Mediana: No exemplo acima, n = 7 (ímpar) Assim n +( ) = +( ) = =1 2 7 1 2 8 2 4 Portanto, a mediana será o valor que está na quinta posição dos dados ordenados. POSIÇÃO: 1 2 3 4 5 6 7 VALOR: 3 4 5 6 7 8 9 Mediana: Md = 6 3.1.1.3 Variáveis quantitativas – dados agrupados sem intervalos de classe Tabela 9 - Número de irmãos dos alunos de Estatística do Professor X Classe Nº de irmãos fi faci xi* fi 1 0 5 5 0 2 1 14 19 14 3 2 6 25 12 4 3 10 35 30 5 4 5 40 20 total 40 76 38 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Média Considerando que a frequência indica a quantidade de cada valor da variável, a média ponderada para os dados agrupados em tabelas sem intervalos de classe pode ser calculada usando a seguinte fórmula: x x f f x f n i i i i i = = ∑ ∑ ∑ Uma coluna a mais é inserida na tabela com o intuito de facilitar os cálculos, assim, a média fica: x= 76 40 =1,9 Sendo x uma variável discreta (número de irmãos) do valor obtido para média, conclui-se que o número de irmãos mais frequente (ou em média, ou em sua maioria) é de aproximadamente 2. Observação: se o resultado obtido fosse x = 3.2, diríamos: o número de irmãos mais frequente (ou em média, ou em sua maioria) é de aproximadamente 3, porém, existe uma leve tendência para 4 irmãos. Moda: os dados já estão agrupados, é só considerar o valor com maior frequência. No exemplo, Mo = 1 Mediana: pela definição, a mediana divide o conjunto de dados exatamente na metade, sendo assim o seu cálculo associado com a frequência acumulada: numa tabela de frequência de dados sem intervalos de classe, a mediana é o valor da variável que possui frequência acumulada imediatamente superior à metade da soma das frequências. No exemplo n = 40 e n/2 = 20, a 3ª classe é que possui o valor da frequência acumulada imediatamente superior a 20 (n/2). Portanto, a mediana é Md = 2. 3.1.1.4 Variáveis quantitativas – dados agrupados com intervalos de classe Tabela 10 - Altura dos alunos de Estatística do professor X i classe PMi fi faci xi* fi 1 155├─161 158 4 4 632 2 161├─167 164 10 14 1640 3 167├─173 170 10 24 1700 4 173├─179 176 11 35,0 1936 5 179├─185 182 1 36 182 6 185├─191 188 4 40 752 TOTAL 40 6842 39 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Média O raciocínio para o cálculo da média na tabela de frequência com intervalo de classe é o mesmo que o da tabela de frequência sem intervalode classe. O ponto médio (PMi) irá representar o valor da variável para o intervalo de classe, assim a expressão para o cálculo da média é: x x f f PM f f i i i i i i = = ∑ ∑ ∑ ∑ * * Uma coluna a mais é inserida na tabela com o intuito de facilitar os cálculos, assim, a média fica: x = = 6842 40 171 05, Portanto, do valor obtido para a média conclui-se que a altura mais frequente (ou em média, ou em sua maioria) dos alunos é de aproximadamente de 171 cm, com uma pequena tendência para 172 cm. Moda: como será calculada para uma tabela de frequência com intervalo, define-se classe modal como sendo aquela que apresenta a maior frequência e moda bruta como o ponto médio da classe modal. Portanto, para o exemplo acima: Classe Modal 173├─ 179 e Moda Bruta 176 cm. Deve-se deixar claro que há para o cálculo da moda outros métodos mais elaborados, que não serão discutidos aqui. Mediana: a mediana divide o conjunto de dados exatamente na metade e a dificuldade para o cálculo dessa medida em uma tabela de frequência com intervalos de classe consiste em determinar o ponto do intervalo em que ela está compreendida. Assim, define-se classe mediana como sendo aquela correspondente à frequência acumulada imediatamente superior à metade da soma das frequências e é nela que se encontra a mediana. Portanto, para o exemplo acima: 40/2 = 20 ⇒ i = 3 e a Classe Mediana 167├─173. Há 24 valores incluídos nas três primeiras classes. Deseja-se determinar o valor que ocupa a 20ª posição, por meio de um cálculo de interpolação: Md LI f fac anterior h f i = + − ∑ 2 ( ) * , onde: LI = limite inferior da classe 40 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I fac (anterior) = a frequência acumulada anterior à classe mediana f = a frequência absoluta da classe mediana h = amplitude da classe mediana No exemplo, temos que fi∑ = = 2 40 2 20 . Logo, a classe mediana é de ordem 3. Então LI = 167; fac (anterior) = 14; f = 10 e h = 6. Portanto, Md = + −( ) = + = + =167 20 14 6 10 167 36 10 167 3 6 170 6 * , , Observações • O cálculo da moda nas tabelas de frequência de variáveis qualitativas está associado com a coluna da frequência absoluta; já o cálculo da mediana, com a coluna da frequência acumulada absoluta. • A expressão matemática da média aritmética sofre a influência de todos os dados. A média é o valor típico do conjunto de dados, podendo substituir todos os valores desse conjunto sem alterar o total. Por ser altamente influenciada pelos valores discrepantes (extremos), em certas situações, é preferível trabalhar com a mediana, que não sofre a influência desses valores. Por exemplo, numa pesquisa salarial, a mediana tende a “refletir melhor” a realidade social, principalmente quando as distâncias entre os que ganham pouco e os que ganham muito são enormes. • A média, mediana e a moda são medidas de tendência central (posição), porque dão o valor do ponto em torno do qual os dados se distribuem. Lembrete Cuidado com a média aritmética, ela requer interpretação. Por exemplo, se a pessoa A tira nota 10 (dez) em uma prova e a pessoa B tira 0 (zero), cada uma delas, em média, terá nota 5,0? Exemplos de aplicação 1. (enem 2009). Brasil e França têm relações comerciais há mais de 200 anos. Enquanto a França é a 5.ª nação mais rica do planeta, o Brasil é a 10.ª, e ambas se destacam na economia mundial. No entanto, devido a uma série de restrições, o comércio entre esses dois países ainda não é adequadamente explorado, como mostra a tabela seguinte, referente ao período 2003-2007. 41 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Tabela 11 Investimentos bilaterais (em milhões de dólares) Ano Brasil na França França no Brasil 2003 367 825 2004 357 485 2005 354 1.458 2006 539 744 2007 280 1.214 Disponível em www.cartacapital.com.br. Acesso em 7 jul. 2009. Os dados da tabela mostram que, no período considerado, os valores médios dos investimentos da França no Brasil foram maiores que os investimentos do Brasil na França em um valor: A) inferior a 300 milhões de dólares. B) superior a 300 milhões de dólares, mas inferior a 400 milhões de dólares. C) superior a 400 milhões de dólares, mas inferior a 500 milhões de dólares. D) superior a 500 milhões de dólares, mas inferior a 600 milhões de dólares. E) superior a 600 milhões de dólares. 2. (enem 2009). Na tabela, são apresentados dados da cotação mensal do ovo extra branco vendido no atacado, em Brasília, em reais, por caixa de 30 dúzias de ovos, em alguns meses dos anos 2007 e 2008. Tabela 12 Mês Cotação Ano Outubro R$ 83,00 2007 Novembro R$ 73,10 2007 Dezembro R$ 81,60 2007 Janeiro R$ 82,00 2008 Fevereiro R$ 85,30 2008 Março R$ 84,00 2008 Abril R$ 84,60 2008 De acordo com esses dados, o valor da mediana das cotações mensais do ovo extra branco nesse período era igual a: A) R$ 73,10. B) R$ 81,50. C) R$ 82,00. 42 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I D) R$ 83,00. E) R$ 85,30. 3. A revista de negócios de maior circulação informou que os salários anuais de seus leitores têm média de $80.000,00 u.m., mediana de $60.000,00 u.m. e uma moda de $70.000,00. Das afirmações abaixo, determine quais são verdadeiras (V) e quais são falsas (F): ( ) O salário mais frequente é de $80.000,00 ( ) 50% dos leitores possuem salário superior a $80.000,00 ( ) O salário mais frequente é de $60.000,00 ( ) 50% dos leitores possuem salário superior a $60.000,00 ( ) O salário mais frequente é de $70.000,00 ( ) 50% dos leitores possuem salário inferior a $70.000,00 4. As concentrações de óxido de nitrogênio e hidrocarbono (em µg/m3) foram determinadas em uma área urbana, em locais e horários específicos. Os dados são mostrados a seguir: Tabela 13 Dia Óxido de nitrogênio Hidrocarbono 1 61 66 2 84 83 3 81 83 4 72 76 5 61 68 6 97 96 7 84 81 Determine a média, a mediana e a moda para o Hidrocarbono. 5. A distribuição dos salários de uma empresa é dada na tabela a seguir: Tabela 14 salário (em r$) número de funcionários 500,00 20 1.000,00 10 1.500,00 10 2.000,00 20 43 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA 2.500,00 15 3.000,00 6 50.000,00 5 10.000,00 3 15.000,00 1 Determine a média, a mediana e a moda para os salários. 6. Por engano, um professor omitiu uma nota no conjunto de notas de 8 alunos. Se as sete notas restantes são 5,1; 3,4; 8,2; 8,5; 7,0; 5,5; 9,1 e a média das 8 notas é 7,0, qual o valor da nota omitida? 7. Em certo ano, uma empresa pagou a cada um dos seus 30 estagiários um salário médio mensal de R$ 1.200,00, a cada um dos seus 56 assistentes juniores R$ 2.300,00, a cada um dos seus 40 assistentes seniores R$ 3.100,00 e R$ 4.300,00 a cada um dos seus gerentes. Qual o salário médio mensal destes 150 funcionários? 8. Uma amostra de 8 estudantes, do sexo masculino, foi extraída ao acaso entre os alunos do primeiro ano de um colégio. A tabela a seguir mostra os valores obtidos para os pesos arredondados em kg. Determine as medidas de tendência central para esta variável. Peso (Kg) 70 72 66 74 62 65 67 65 9. Vários casaisde certa cidade foram entrevistados. Uma das perguntas dessa entrevista era sobre o número de anos que estavam casados. O histograma a seguir representa o resultado desta questão: Fr eq uê nc ia s Histograma 0 5 10 15 20 25 30 35 40 Classes 6 10 10 15 9 8 4 2 Figura 24 44 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Pede-se: A) Determine o número de casais da pesquisa. B) Construa a tabela de frequência. C) Indique: C 1) Número de casais com até 15 anos de casamento. C 2) Percentual de casais com mais de 30 anos (inclusive) de casamento. C 3) Número de casais entre 10 (inclusive) e 25 anos de casamento. C 4) Percentual de casais com até 5 anos de casamento. C 5) Número de casais com mais de 20 anos (inclusive) de casamento. C 6) Número de casais com 15 anos de casamento. D) Calcule as medidas de posição. 10. Para a distribuição de frequência abaixo, calcule a média, a mediana e a moda: Tabela 15 xi fi 0 16 1 11 2 18 3 7 4 2 Respostas 1. d 2. d 3. f, f, f, v, v, f 4. Tabela 16 Hidrocarbono Dados ordenados 66 66 83 68 83 76 76 81 68 83 96 83 81 96 553 Média: 553/7 = 79 45 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Moda: não existe Mediana: n = 7 ⇒ (n+1)/2 = 8/2 = 4. Elemento na 4ª posição dos dados ordenados. Portanto, Md = 81. 5. Tabela 17 salário (em R$) número de funcionários fac xi*fi 500,00 20 20 10000 1.000,00 10 30 10000 1.500,00 10 40 15000 2.000,00 20 60 40000 2.500,00 15 75 37500 3.000,00 6 81 18000 50.000,00 5 86 250000 10.000,00 3 89 30000 15.000,00 1 90 15000 total 90 425500 A) Média: 425500 90 ⇒ R$ 4.727,8 B) Mediana: f 2 = 90 2 =45i∑ ⇒ a frequência acumulada imediatamente superior a 45 é 60. Portanto, o valor da mediana é R$ 2.000,00. C) Moda: a maior frequência é 20 e existem dois salários com esta frequência. Portanto, a moda: R$ 500,00 e R$ 2.000,00. 6. n 8= = ⇒ = ⇒ = + + + + + + + ⇒ = + ⇒ ∑ x x x n x x xi 7 4 7 5 1 3 4 8 2 8 5 7 5 5 9 1 8 56 46 8 , , , , , , , , == 9 2, Portanto, a nota faltante é 9,2. 7. 46 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I Tabela 18 xi = salário fi xi *fi 1200 30 36000 2300 56 128800 3100 40 124000 4300 ? = 24* 103200 total 150 392000 *150 –(30+56+40)= 24 Média = 392000/150 = 2613,33 8. Peso (Kg) 70 72 66 74 62 65 67 65 ordenados 62 65 65 66 67 70 72 74 Média: x x n i = = + + + = = ∑ 62 65 74 8 541 8 67 63 ... , Moda = 65 Mediana ⇒ n = 8 então é a média entre os elementos que estão na 4ª. e 5ª. posições: Md=(66+67)/2 = 66,5 9. 47 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Fr eq uê nc ia s Histograma 0 5 10 15 20 25 30 35 40 Classes 6 10 10 15 9 8 4 2 Figura 25 Pede-se: A) Determine o número de casais da pesquisa No histograma, o eixo da ordenada corresponde à frequência de cada classe, que está representada na parte superior dos retângulos que compõem este gráfico. Somando esses valores: 6+10+10+15+9+8+4+2 = 64. B) Construa a tabela de frequência Tabela 19 i classe PMi fi faci fri % fraci % 1 0├─ 5 2,5 6 6 9,4 9,4 2 5├─ 10 7,5 10 16 15,6 25,0 3 10├─ 15 12,5 10 26 15,6 40,6 4 15├─ 20 17,5 15 41 23,4 64,1 5 20├─ 25 22,5 9 50 14,1 78,1 6 25├─ 30 27,5 8 58 12,5 90,6 7 30├─ 35 32,5 4 62 6,3 96,9 8 35├─ 40 37,5 2 64 3,1 100,0 TOTAL 64 100 C) Responda: C.1) Número de casais com até 15 anos de casamento: 26 casais. C.2) Percentual de casais com mais de 30 anos (inclusive) de casamento: 9,4% (6,3%+3,1%). 48 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 Unidade I C.3) Número de casais entre 10 anos (inclusive) e 25 de casamento: 34 casais (10 + 15 + 9) ou (50 - 16). C.4) Percentual de casais com até 5 anos de casamento: 9,4%. D) Calcule as medidas de posição Tabela 20 i classe PMi fi faci xi *fi 1 0├─ 5 2,5 6 6 15 2 5├─ 10 7,5 10 16 75 3 10├─ 15 12,5 10 26 125 4 15├─ 20 17,5 15 41 262,5 5 20├─ 25 22,5 9 50 202,5 6 25├─ 30 27,5 8 58 220 7 30├─ 35 32,5 4 62 130 8 35├─ 40 37,5 2 64 75 TOTAL 64 1105 Média: x = = 1105 64 17 3, Moda: Mo = 15 (elemento com maior frequência – coluna de fi) Mediana: fi∑ = = 2 64 2 32 , a classe cuja frequência acumulada é imediatamente superior a 32 é a classe mediana = 15├─ 20 Md=LI+ f 2 -fac(anterior) *h f =15+ 64 2 -26 *5 15 =15 i∑ ++ 32-26 *5 15 = 15+ 6 *5 15 =15+ 30 15 =15+2=17 [ ] [ ] 3.2 Medidas de dispersão As medidas de tendência central não são suficientes para descrever os dados de forma adequada. Considere três séries: X = 70, 70, 70, 70, 70 ⇒ x = 350 70 = 70 49 Re di m en sio na m en to - R ev isã o: C ar la - D ia gr am aç ão : M ár ci o - 02 /0 2/ 20 17 ESTATÍSTICA DESCRITIVA Y = 68, 69, 70, 71, 72 ⇒ y = 350 70 = 70 Z = 5, 15, 50, 120, 160 ⇒ z = 350 70 = 70 Pela média não é possível destacar o grau de homogeneidade ou de heterogeneidade que existe nos valores que compõem as séries, ou melhor, não é possível avaliar o quanto os dados estão próximos ou distantes. Define-se dispersão ou variabilidade como a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central. No exemplo anterior, a série X possui variabilidade nula em torno da média e a série Y possui menor variabilidade, que a série Z. As principais medidas de dispersão são: Amplitude: diferença entre o maior e o menor valor observado (AT = XMÁXIMO –XMÍNIMO). Não é considerada uma boa medida de variabilidade por considerar somente os valores extremos, desconsiderando os valores intermediários. Variância é definida como a média da soma dos quadrados dos desvios em relação à média aritmética, portanto, leva em consideração todos os valores em estudo. É definida de forma diferente para população e amostra. A variância da população é representada pelo símbolo σ2 e a variância para amostra é S2. São definidas pelas seguintes expressões matemáticas: População: σ2 i x 2 i 2 i 2 = x -m n = x n - x n ( ) ∑ ∑ ∑ Amostra: S x x n x x n n x n x n n i i i i i2 2 2 2 2 2 1 1 1 1 = −( ) − = − ( ) − = − − ( ) − ∑ ∑ ∑ ∑ ∑ * ( ) A única alteração entre as duas expressões matemáticas é que o denominador na população é n e na amostra é n-1. Uma das justificativas para essa diferença é que, como a amostra trabalha com uma parte representativa da população, ela está mais sujeita a erros e, diminuindo o denominador (n-1), aumenta-se o valor obtido pela variância como uma forma de prever esses erros. Desvio padrão é a raiz quadrada da variância. Sendo a variância calculada
Compartilhar