Baixe o app para aproveitar ainda mais
Prévia do material em texto
As autoras e a editora empenharam-se para citar adequadamente e dar o devido crédito a todos os detentores dos direitos autorais de qualquer material utilizado neste livro, dispondo-se a possíveis acertos caso, inadvertidamente, a identificação de algum deles tenha sido omitida. Não é responsabilidade das autoras nem dos autores a ocorrência de eventuais perdas ou danos a pessoas ou bens que tenham origem no uso desta publicação. Apesar dos melhores esforços das autoras, do editor e dos revisores, é inevitável que surjam erros no texto. Assim, são bem-vindas as comunicações de usuários sobre correções ou sugestões referentes ao conteúdo ou ao nível pedagógico que auxiliem o aprimoramento de edições futuras. Os comentários dos leitores podem ser encaminhados à LTC — Livros Técnicos e Científicos Editora pelo e-mail ltc@grupogen.com.br. Direitos exclusivos para a língua portuguesa Copyright © 2017 by LTC — Livros Técnicos e Científicos Editora Ltda. Uma editora integrante do GEN | Grupo Editorial Nacional Reservados todos os direitos. É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na internet ou outros), sem permissão expressa da editora. Travessa do Ouvidor, 11 Rio de Janeiro, RJ — CEP 20040-040 Tels.: 21-3543-0770 / 11-5080-0770 Fax: 21-3543-0896 ltc@grupogen.com.br www.ltceditora.com.br Designer de capa: Nilton Masoni Produção digital: Geethik CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ M393i Mattos, Viviane Leite Dias de Introdução à estatística: aplicações em ciências exatas / Viviane Leite Dias de Mattos,Andréa Cristina Konrath, Ana Maria Volkmer de Azambuja. – 1. ed. – Rio de Janeiro : LTC, 2017. Inclui apêndice Inclui bibliografia e índice ISBN 978-85-216-3354-9 1. Estatística. I. Konrath, Andréa Cristina. II. Azambuja, Ana Maria Volkmer de. III. Título. 16-37255 CDD: 519.5 CDU: 519.2 1 1.1 1.2 1.3 1.3.1 1.4 1.4.1 1.4.2 1.4.3 1.4.4 1.5 1.6 2 2.1 2.2 2.2.1 2.2.2 2.3 2.4 2.5 2.6 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 SUMÁRIO Prefácio Introdução Breve histórico da estatística Por que estudar estatística? A pesquisa estatística Fases da pesquisa estatística Explorando conceitos da estatística População e amostra Tipos de variáveis Confiabilidade dos dados Arredondamento de dados Software estatístico Considerações finais Aplicações Representação Tabular Descrição e exploração de dados Tabelas de frequências Dados qualitativos Dados quantitativos Dados quantitativos discretos Tipos de frequências Dados quantitativos contínuos Considerações finais Aplicações Representação Gráfica Introdução Tipos de gráficos Diagramas Diagrama em colunas Diagrama em barras Diagrama em setores Diagrama polar Diagrama em linhas Histograma Polígono de frequência Ogiva 3.12 3.13 3.14 3.15 3.16 4 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 4.3.8 4.3.9 4.4 4.4.1 4.4.2 4.4.3 4.5 4.6 5 5.1 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.3 5.3.1 5.4 5.5 6 6.1 6.2 6.3 6.3.1 6.3.2 6.3.3 6.3.4 Ramo e folhas Diagrama de dispersão Diagrama de Pareto Escala logarítmica Considerações finais Aplicações Medidas de Posição Introdução Medidas de posição Medidas de tendência central Média aritmética simples Média aritmética ponderada Propriedades da média aritmética Média harmônica Média geométrica Relação entre médias Moda Mediana Utilização das medidas de tendência central Separatrizes ou quantis Quartis Decis Percentis ou centis Cálculo das medidas para dados agrupados Considerações finais Aplicações Medidas de Dispersão Introdução Medidas de dispersão absoluta Amplitude total Desvio médio Variância Desvio padrão Desvio interquartílico Medidas de dispersão relativa Coeficiente de variabilidade Dados agrupados Considerações finais Aplicações Propriedades de uma Distribuição Introdução Momentos Assimetria Coeficiente de assimetria de Pearson Coeficiente de assimetria de Yule Coeficiente de assimetria de Kelley Coeficiente de assimetria de Fisher 6.4 6.4.1 6.4.2 6.5 6.6 6.6.1 6.6.2 6.6.3 6.6.4 6.7 6.8 6.9 7 7.1 7.2 7.3 7.4 7.5 7.6 8 8.1 8.2 8.3 8.3.1 8.3.2 8.3.3 8.4 8.5 9 9.1 9.2 9.3 9.4 9.5 Curtose Coeficiente de curtose a partir dos momentos Coeficiente percentílico de curtose Outlier ou valor fora do padrão Métodos gráficos para avaliação de algumas propriedades Histograma Ramo e folhas Box plot ou diagrama de caixas Diagrama dos quantis Transformações matemáticas Transformação z Considerações finais Aplicações Análises de Correlação Introdução Diagrama de dispersão Coeficiente de correlação linear de Pearson Correlação linear por postos ou Spearman Coeficiente de contingência modificado Considerações finais Aplicações Análise Exploratória de Dados Introdução Análise exploratória de dados O caso da montadora Toyord Variáveis qualitativas: modelo adquirido e opcionais solicitados Variáveis quantitativas: idade do cliente e renda declarada Associação entre variáveis qualitativas e quantitativas Teste de resistência em concreto Considerações finais A Estatística Utilizando o Software R Importância de um software estatístico O software R Comandos básicos A Estatística com a utilização do software R Considerações finais Apêndice I – Lista de símbolos Apêndice II – Considerações sobre quantis Apêndice III – Respostas Anexo – Banco de dados: Megamontadora Toyord Referências PREFÁCIO Este livro, introdutório ao aprendizado da Estatística, é resultado de nossa experiência como professoras em Instituições de Ensino Superior, onde ministramos disciplinas de Probabilidade e Estatística, oferecidas a cursos de graduação e pós-graduação em diversas áreas do conhecimento. Ele foi elaborado com o objetivo de apresentar os conteúdos de maneira amigável, sem se afastar muito do rigor matemático. Apresenta técnicas de Estatística Descritiva, que são usadas para organizar e resumir informações, e faz algumas considerações sobre Análise Exploratória de Dados e Análise de Correlação. Além da abordagem conceitual formal, o livro apresenta diversas aplicações, principalmente nas áreas de Ciências Exatas e Engenharia, em sua maioria oriundas de atividades extraclasse desenvolvidas nas disciplinas ministradas. Os conteúdos estão organizados em nove capítulos, complementados por apêndices, anexo, índice remissivo e referências bibliográficas. Em cada capítulo, procurou-se fazer a construção do conhecimento estatístico mostrando os fundamentos dos diversos conceitos e técnicas, com respectivas fórmulas e cálculos, de maneira simples e objetiva, mas não superficial. Os diversos conceitos são apresentados acompanhados de exemplos, com a respectiva solução passo a passo. Aplicações elaboradas a partir de um banco de dados também foram propostas. Ao final de cada capítulo, foi feita uma síntese, evidenciando os principais conceitos apresentados, que é seguida de uma lista de exercícios com algumas aplicações práticas. A obra pode servir como livro-texto ou como referencial bibliográfico para disciplinas de Estatística, oferecidas a cursos de graduação e pós-graduação que abordem os conteúdos apresentados. Também pode ser utilizado por professores do ensino médio, assim como por profissionais que tomam decisões baseadas em informações. Gostaríamos de agradecer a todas as pessoas que contribuíram direta ou indiretamente para a elaboração deste texto. Entre elas, destacamos Débora Spenassato, autora do capítulo sobre o software R, e Leonardo da Costa Coelho, que revisou os exercícios. Também gostaríamos de agradecer a todos os nossos alunos pela apresentação de suas dúvidas e questionamentos durante nossas aulas e, em especial, àqueles que disponibilizaram dados de seus trabalhos didáticos. Também gostaríamos de solicitar aos leitores que entrem em contato conosco para dar sua opinião sobre o texto, além de sugestões, críticas e correções de eventuais erros. Isso certamente contribuirá para a melhoriada próxima edição. O contato com as autoras pode ser feito pelos e-mails: vivianemattos@furg.br; andrea.ck@ufsc.br; anaazambuja@furg.br. 1.1 1 INTRODUÇÃO Breve histórico da estatística Não se sabe ao certo a origem da palavra estatística. Ela pode ter vindo da expressão latina statisticum collegium, que significa “Conselho de Estado”; da palavra italiana statista, que significa “homem de Estado” ou “político”; ou da palavra latina status, que significa “Estado”. Acredita-se que tenha sido introduzida, inicialmente, pelo alemão Gottfried Achenwall (1719- 1772), um importante continuador dos estudos de Hermann Conrig (1606-1681) (ESTATÍSTICA UFRN, 2012). Gottfried, que era filósofo, historiador, economista, jurista e estatístico, determinou os objetivos da estatística e suas relações com as demais ciências. Essa primeira definição para a estatística versava, até aquele período, sobre a coleta, análise e organização de dados para serem fornecidos ao Estado, os quais quase exclusivamente demográficos e econômicos. Somente em 1797 a palavra estatística apareceu como vocabulário na Enciclopédia Britânica (ESTATÍSTICA UFRN, 2012). Desde a Antiguidade, vários povos já faziam estimativas, coletando e organizando dados referentes a número de nascimentos e óbitos, número de habitantes, assim como de riquezas pessoais e sociais. No antigo Egito, por exemplo, os faraós fizeram uso sistemático da informação de caráter estatístico, conforme evidenciam pesquisas arqueológicas. Algo similar acontecia com as civilizações pré-colombianas dos Maias, Astecas e Incas. Do mesmo modo, na China, no Japão, na Índia Antiga e na cidade de Roma, foram encontrados registros de recenseamentos, com o objetivo principal de conhecer a população, principalmente para fins tributários e militares (FERREIRA; TAVARES, 2013). Conforme Bédarida et al. (1987), apud Ferreira e Tavares (2013), pode-se atribuir ao grego Aristóteles o princípio da estatística descritiva, pois ele não se contentava apenas com a descrição da cidade, do país, do governo ou do Estado de um modo distinto e único, mas se preocupava com a comparação de Atenas a outros Estados. No século XVI, o estudo dos acontecimentos sociais adquiriu aspecto científico, as tabelas tornaram-se mais complexas e completas, surgiram representações gráficas e o cálculo de probabilidades. A estatística passou a ser utilizada para tirar conclusões e não apenas como coleta de informação. Começou a se tornar uma área do conhecimento independente do Estado. Os denominados “jogos de azar”, apesar de usados desde as Civilizações Antigas, como mostram vários documentos de tipo arqueológico ou histórico, nunca haviam sido objeto de estudo até a Idade Média (FERREIRA; TAVARES, 2013). Segundo esses autores, a abordagem matemática do acaso, do azar e do risco só se iniciou há pouco mais de 500 anos. A disciplina que assim foi constituída, a Teoria das Probabilidades, nasceu das tentativas de quantificação dos riscos dos seguros e de avaliar as possibilidades de se ganhar em jogos de azar. No século XVI, os algebristas Pacioli, Cardano e Tartáglia elaboraram as primeiras notações matemáticas sobre jogos de azar, limitando-se a resolver alguns problemas com dados estritamente numéricos, não elaborando teoremas. No século XVII, o primeiro grande problema das probabilidades foi proposto a Pascal pelo Cavaleiro de Meré. Tratava-se de um jogo envolvendo três dados, e cuja lógica dos resultados Meré não conseguia entender. Pascal iniciou uma troca de correspondência com Fermat, apresentando-lhe o problema; ambos, separadamente, chegaram a uma solução. A solução que Fermat apresentou era mais abrangente que a de Pascal, razão pela qual o primeiro método geral do cálculo de probabilidades é atribuído a Fermat. Esse marco abriu caminho para o advento da estatística moderna por meio da “Lei dos Grandes Números” (FERREIRA; TAVARES, 2013). Huygens (1629-1695) introduziu o conceito de “valor médio” ou “esperança” em 1654. Nesse mesmo ano, ocorreu o desenvolvimento da geometria analítica e da teoria das probabilidades, conduzido por Abraham de Moivre (1667-1754). Na 1.2 área da Teoria das Probabilidades, os estudiosos que mais se destacaram foram Jacob Bernoulli, Thomas Bayes e Pierre Simon Laplace (FERREIRA; TAVARES, 2013). Data do século XVIII o surgimento de duas escolas, uma na Alemanha e outra na Inglaterra. A Escola Descritiva Alemã, como ficou conhecida, teve como representante Gottfried Achenwall (1712-1772), a quem se atribui a criação do termo estatística. Entretanto, a palavra utilizada na escola alemã denotava apenas o método utilizado nos estudos destinados à descrição dos Estados políticos (FERREIRA; TAVARES, 2013). A segunda escola, a Escola de Aritméticos Políticos, foi fundada na Inglaterra e desenvolvia estudo numérico dos fenômenos políticos e sociais. Nessa escola, surgiram alguns nomes importantes como John Graunt e William Petty. O trabalho realizado por John Graunt (1620-1674) foi o estudo da mortalidade na cidade de Londres e suas causas sociais e políticas, bem como o estudo da natalidade, tendo William Petty como colaborador durante três anos. Eles são considerados os precursores para o advento da estatística moderna do início do século XX, uma vez que foram os primeiros a tentar tirar conclusões e raciocinar a partir de dados numéricos. Podem-se citar ainda William Farr (1807-1883), o primeiro a contribuir para a estatística médica, e Edmond Halley (1656-1742) e Richard Price (1723-1791), que criaram os fundamentos da ciência atuária. O surgimento da estatística moderna se deu em meados do século XIX. Os alemães Helmert (1843-1917) e Wilhelm Lexis (1837-1914), o dinamarquês Thorvald Nicolai Thiele (1838-1910) e o inglês Francis Ysidro Edgeworth (1845-1926) conseguiram resultados interessantes para o desenvolvimento da inferência estatística – muitos desses resultados, porém, só foram entendidos posteriormente. No entanto, para Ferreira e Tavares (2013), o avanço determinante dessa ciência se deve a Francis Galton (1822-1911), Karl Pearson (1857-1936), William S. Gosset (1876-1937) e, principalmente, a Ronald A. Fisher (1890-1962). Francis Galton é considerado o fundador da Escola Biométrica, tendo introduzido o conceito estatístico de correlação e a sua medição por um coeficiente. Seus trabalhos eram fundamentados na medição quantitativa a partir da lei normal de Gauss. Karl Pearson, matemático britânico, inicialmente se dedicou ao estudo da evolução de Darwin, aplicando os métodos estatísticos e desenvolvendo a teoria de Galton. Pearson foi o fundador da Biometrika, revista até hoje conhecida internacionalmente. Dentre as contribuições de Pearson, podemos citar o estudo das distribuições de frequência que não seguem o modelo normal. Ele também instituiu o “método dos momentos” como método de estimação de parâmetros de uma distribuição e o sistema de “curvas de frequência”, bastante utilizado na descrição matemática dos fenômenos naturais. Ressalta-se que seus estudos levaram ao desenvolvimento da regressão e da correlação múltiplas. Além disso, desenvolveu a teoria da correlação aplicada aos problemas de hereditariedade e da evolução, bem como o Teste qui-quadrado (FERREIRA; TAVARES, 2013). Outro matemático importante para a evolução da estatística moderna é o inglês William Sealey Gosset, mais conhecido como Student. Ele trabalhou como químico na Cervejaria Guinness, onde fez várias experiências relacionadas com o controle de qualidade da cerveja. Com a necessidade de manipular dados oriundos de pequenas amostras, extraídas para melhorar a qualidade da bebida, Gosset desenvolveu o Teste t de Student, fundamentado na distribuição de probabilidades. Mais tarde, seu trabalho seria reconhecido por Fisher, mas não por Pearson, para quem as pequenas amostras não tinham importância (FERREIRA; TAVARES, 2013). Um importante estatístico, considerado um dos fundadores da estatística moderna, foi Ronald Aylmer Fisher (1890-1962). Formado em astronomia pela Universidadede Cambridge em 1912, contribuiu valiosamente para o desenvolvimento da estatística, bem como para o da Genética. Seus trabalhos estavam voltados à teoria da evolução e seleção, sobretudo em genética. Ele introduziu conceitos de planejamento de experimentos, aleatorização e análise da variância, que, nos dias atuais, são bastante utilizados (FERREIRA; TAVARES, 2013). De acordo com Rao (1999) apud Memória (2004), na segunda metade do século passado aconteceu uma mudança na pesquisa estatística, fundamentada basicamente em modelos, para a utilização de métodos não paramétricos, aplicáveis a amostras provenientes de qualquer distribuição, e para métodos paramétricos robustos, não influenciados por valores atípicos ou pela contaminação de dados. Embora os métodos não paramétricos, baseados em estatísticas de postos (rank), sejam de fácil utilização, não têm a eficiência dos métodos paramétricos. Nas últimas décadas, a estatística tem se aperfeiçoado muito, principalmente em função do desenvolvimento da computação, que atua como agente facilitador na operacionalização de diversas análises. Por que estudar estatística? Conforme a definição do Aurélio (2008), estatística é a parte da matemática em que se investigam os processos de 1.3 obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões, possibilitando a realização de predições com base nesses dados. Para Crespo (2002), a estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. De acordo com Reis e Lino (2013), para o estatístico Paul Velleman, a estatística é a ciência que permite obter conclusões a partir de dados. Conforme a ENCE – Escola Nacional de Ciências Estatísticas (2012), o que modernamente se conhece como ciências estatísticas, ou simplesmente estatística, é um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o planejamento do experimento/levantamento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações. O desenvolvimento e o aperfeiçoamento de técnicas estatísticas de obtenção e análise de informações permitem o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do conhecimento, tornando-se uma poderosa ferramenta para a tomada de decisão. Esses conceitos fazem com que a estatística seja um instrumento de trabalho importantíssimo, fundamental para a realização de pesquisas nas mais diversas áreas que envolvam dados/informações, permitindo, dessa forma, o desenvolvimento da ciência. A estatística fornece um conjunto de métodos e técnicas que não só facilita a leitura e o entendimento dos dados como permite fazer análises mais específicas e profundas, fazendo interpretações, inferências e previsões, além de tirar conclusões. Assim, pelas suas características, pode ser aplicada em todas as áreas da ciência. Na área tecnológica, a corrida espacial criou diversos problemas relacionados à posição de astronaves, cujos cálculos dependem de teorias estatísticas mais avançadas. Essas informações, tais como sinais de satélite, são recebidas de forma aleatória e incerta (ENCE, 2012). Na engenharia agronômica, a estatística tem sido utilizada de forma constante em diferentes aplicações. A Empresa Brasileira de Pesquisas Agropecuárias (EMBRAPA) utiliza métodos estatísticos visando ao aprimoramento de produtos agrícolas para definir quais os modos mais eficientes de produzir alimentos (IGNÁCIO, 2010). Técnicas estatísticas também são empregadas na área da saúde, permitindo definir a eficiência de um novo tratamento no combate a determinada doença, por exemplo. Estas possibilitam a identificação de situações críticas, exercendo papel fundamental no estudo da evolução e incidência de doenças, como, por exemplo, a AIDS (ENCE, 2012). De acordo com Ignácio (2010), em diversos setores da indústria, tais como farmacêutico, químico, siderúrgico, têxtil e alimentício, entre outros, as técnicas estatísticas são utilizadas desde a fase de definição dos produtos até a produção final, por meio de pesquisas de mercado, controle de qualidade dos processos envolvidos, análise de custos e previsão de vendas. Outro exemplo é o levantamento de informações sociais, demográficas e econômicas, realizado pelo IBGE (2013), que envolve estatísticas de âmbito social e demográfico, estatísticas da agropecuária, estatísticas econômicas e índices de preços. Dessa forma, estuda-se estatística porque é uma ferramenta essencial na tomada de decisão. Segundo Doane e Seward (2012), Jon Kettenring, presidente da American Statistical Association, disse: “eu gosto de pensar na estatística como a ciência de aprendizagem a partir dos dados”. De modo geral, pode-se dizer que a estatística se divide em duas partes: a estatística descritiva, que se preocupa com a descrição de dados, organizando-os e resumindo-os, e a estatística inferencial, que cuida da análise e interpretação dos dados propriamente ditas. O ponto central da análise estatística moderna é a tomada de decisões sob condições de incerteza, possibilitada pela estatística inferencial, que permite que suas conclusões transcendam os dados analisados. As técnicas utilizadas com essa finalidade baseiam-se na teoria da probabilidade. A pesquisa estatística Alguns autores, entre os quais Crespo (2002) e Reis e Lino (2013), classificam a pesquisa estatística em pesquisa de levantamento e pesquisa por experimento. Na pesquisa de levantamento são observadas as características ou fenômenos presentes na população, com mínima intervenção por parte do pesquisador. Nesse tipo de pesquisa, não é possível evidenciar relações de causa e efeito, apenas se medem as variáveis em estudo, sendo possível somente afirmar relações entre elas. Na pesquisa experimental, o pesquisador tem um controle sobre as condições de pesquisa, conseguindo eliminar quase todas as causas de variação mediante um planejamento do experimento (REIS; LINO, 2013). Dessa forma, a pesquisa experimental é o único tipo de pesquisa que permite selecionar as variáveis capazes de influenciar a característica em estudo e 1.3.1 a) b) c) d) e) f) 1.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. definir as formas de controle e de observação dos efeitos que essas variáveis produzem nessa característica. Fases da pesquisa estatística Quando se pretende empreender um estudo estatístico, existem diversas fases da pesquisa que devem ser desenvolvidas para a obtenção dos resultados finais do estudo. Essas etapas ou operações são chamadas fases da pesquisa estatística. Com base em Crespo (2002), são elas: definição do problema: determinação do que se quer pesquisar; planejamento: definição dos procedimentos necessários para o desenvolvimento da pesquisa; coleta de dados: obtenção, reunião e registro sistemático de dados, podendo ser direta ou indireta; apuração dos dados: resumo dos dados, mediante a sua contagem ou agrupamento; apresentação dos dados: pode ser por meio de tabelas, gráficos ou medidas; análise e interpretação dos dados: conclusões que auxiliam na resolução do problema. Conforme apresentado, a estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise dos dados, bem como na obtenção de conclusões válidas e na tomada de decisões baseadas nas análises (SPIEGEL, 2009). Explorando conceitos da estatística De acordo com Reis (2012), a megamontadora fictícia Toyord conduz regularmente pesquisas de mercado com os clientes que compraram carros zero km diretamente de suas concessionárias. O objetivo é avaliar a satisfação dos clientes em relação aos diferentes modelos, design e adequação ao perfil. A última pesquisa foi encerrada em julho de 2010: foram 250 clientes entrevistados de um total de 30.000 que adquiriram veículos novos no ano de 2012. A pesquisarestringiu-se aos modelos mais vendidos e que já estão no mercado há dez anos. As dez variáveis pesquisadas foram: modelo adquirido: a) o compacto Chiconaultla, b) o sedan médio DeltaForce3, c) a perua familiar Valentiniana, d) a van SpaceShuttle ou e) o esportivo LuxuriousCar; opcionais: a) inexistentes (apenas os itens de série), b) ar-condicionado e direção hidráulica, c) ar-condicionado, direção hidráulica e trio elétrico, d) ar-condicionado, direção hidráulica, trio elétrico e freios ABS; opinião sobre o design: se os clientes consideram o design do veículo comprado a) ultrapassado, b) atualizado ou c) adiante dos concorrentes; opinião sobre a concessionária onde comprou o veículo (incluindo atendimento na venda, manutenção programada e eventuais problemas imprevistos): a) muito insatisfatória, b) insatisfatória, c) não causou impressão, d) satisfatória ou e) bastante satisfatória; opinião geral sobre o veículo adquirido: a) muito insatisfeito, b) insatisfeito, c) satisfeito ou d) bastante satisfeito; renda declarada pelo cliente em salários mínimos; número de pessoas geralmente transportadas no veículo; quilometragem mensal média percorrida com o veículo; percepção do cliente de há quantos anos o veículo comprado teve a sua última remodelação de design, em anos completos (se há menos de um ano, o entrevistador anotou zero); idade do cliente em anos completos. O banco de dados anexo apresenta informações sobre os 250 consumidores investigados no último levantamento realizado pela montadora Toyord. Na primeira coluna desse banco de dados foi registrado o código atribuído a cada consumidor. Essas informações serão utilizadas para exemplificar alguns dos conceitos apresentados ao longo deste texto. 1.4.1 1.4.2 População e amostra População é o conjunto de todos os itens, objetos ou pessoas, enfim, entes que se pretende analisar – razão pela qual devem apresentar pelo menos uma propriedade em comum. Uma população pode ser formada por pessoas, famílias, estabelecimentos comerciais ou industriais, contas-correntes, peças de uma linha de produção ou qualquer outro tipo de elemento. Quando se analisa uma parte dessa população, tem-se uma “amostra”, que é subconjunto do todo. A amostra é definida previamente e obtida com a consideração de alguns critérios, a fim de que seja significativa (quanto ao número de elementos) e se mostre representativa, apresentando as mesmas propriedades da população. As melhores técnicas de amostragem são aquelas que usam a ideia de aleatoriedade. O banco de dados anexo apresenta alguns dados sobre o perfil de 250 clientes da montadora de automóveis Toyord: uma amostra. Ao se realizar um levantamento de dados, deve ser definido se este será realizado em toda a população (“censo”) ou em uma amostra dessa população (“levantamento por amostragem”). De maneira geral, opta-se pelo levantamento por amostragem por ser mais rápido e mais econômico. É bastante usual representar as observações de uma característica presente em toda a população por uma medida denominada de “parâmetro”, obtida a partir de um conjunto de observações de todo o grupo, ou seja, a população. Os mais utilizados para representar a população são: a média (µ), a variância (σ2) e a proporção de sucesso (π). Tratando-se de uma amostra, tem-se a “estatística”, que é uma medida obtida para um subconjunto de observações ou amostra. As estatísticas mais usuais para representar dados amostrais são as mesmas usadas para representar populações: a média ( ), a variância (s2) e a proporção de sucesso (p), sendo representadas, entretanto, por símbolos distintos por apresentarem propriedades diferentes: um parâmetro é uma constante, enquanto uma estatística é uma variável aleatória. Tipos de variáveis Variáveis são características estudadas em uma população ou amostra que podem assumir diferentes valores numéricos ou categóricos. Dados ou observações são as informações inerentes às variáveis que caracterizam os elementos que constituem a população ou a amostra em estudo. Por exemplo: quilometragem é uma variável; 530 km é um dado. Uma variável é “qualitativa” quando seus resultados são expressos por atributos. Esses dados não têm a preocupação com a quantificação, mas com a descrição das características, pois o ato de medir consiste em enquadrar o elemento mensurado em uma classe ou categoria. Uma variável “qualitativa” pode ser classificada em “nominal” ou “ordinal”, conforme a escala utilizada para a categorização, que se diferenciam pela existência (“ordinal”) ou não (“nominal”) de hierarquia entre as categorias. Em uma escala nominal, existe apenas a possibilidade de estabelecimento de relação de semelhança ou diferença entre os elementos mensurados. Já na escala ordinal, além desse tipo de relação, também é possível estabelecer relação de superioridade ou inferioridade entre os elementos mensurados. Modelo do carro adquirido (Chiconaultla, SpaceShuttle, Deltaforce3...) é exemplo de variável qualitativa nominal. Se dois clientes adquiriram o modelo SpaceShuttle, eles possuem carros semelhantes (mesmo modelo). Se um outro cliente adquiriu o modelo Chiconaultla, ele possui um carro de modelo diferente. Opinião geral sobre o veículo (muito insatisfeito, insatisfeito, satisfeito, bastante satisfeito) é exemplo de variável qualitativa ordinal. Se um cliente está satisfeito e outro está bastante satisfeito, é possível concluir não apenas que eles apresentam níveis de satisfação diferentes, como também que o primeiro está menos satisfeito que o segundo. Outro tipo de variável é a “quantitativa”, quando o resultado da mensuração é um número. Se os valores numéricos puderem ser enumerados, a variável é dita “discreta”; caso contrário, “contínua”. Em geral, é possível dizer que as medições dão origem a variáveis contínuas e as contagens ou enumerações originam variáveis discretas. Quantidade de pessoas geralmente transportadas no veículo {0,1,2,3,4,5}, quantidade de funcionários {0,1,2,...500}, quantidade de itens defeituosos/hora em uma linha de produção {0,1,2,3,...100}, quantidade de itens/dia produzidos por uma máquina {0,1,2,3,...1.000}, quantidade de pessoas/hora que acessam determinado site {0,1,2,3...} são exemplos de variáveis discretas. Idade (em anos) dos funcionários de uma empresa {18 ≤ x ≤ 65}, salário (em unidades monetárias) dos mesmos {640,00 ≤ x ≤ 15.000,00}, tensão de ruptura (em MPa) de corpos de prova de concreto {10 ≤ x ≤ 12}, comprimento (em cm) de blocos cerâmicos {18 ≤ x ≤ 20}, tempo (em minutos) de permanência em um site {0 ≤ x ≤ 10} são exemplos de variáveis contínuas. 1.4.3 Ao mensurar quantitativamente uma variável, podem ser utilizadas as escalas “intervalar” ou “de razão”, e o que as diferencia é o significado do valor zero. A escala intervalar apresenta zero relativo (o resultado da mensuração é zero de acordo com determinados critérios), enquanto a escala de razão apresenta zero absoluto (o zero representa o nada). A temperatura, medida em graus centígrados, é um exemplo de escala intervalar. Quando a temperatura for zero grau centígrado, não significa que não existe temperatura: ela existe e, de acordo com determinados critérios, seu valor é zero. No caso de graus centígrados, o zero grau está associado à temperatura de solidificação da água. Nesse tipo de escala, além de ser possível estabelecer relação de semelhança/diferença e superioridade/inferioridade, é possível comparar a intensidade das diferenças entre dois resultados. Considere, por exemplo, as temperaturas: t1 = 2°C, t2 = 4°C e t3 = 8°C. É possível definir que: – t1 ≠ t2 ≠ t3; – t1 < t2 < t3; – (t3 – t2) = 2(t2 – t1). A distância medida em centímetros é um exemplo de escala de razão. Quando a distância for zero centímetro, isso significa que ela não existe. Nesse tipo de escala, além das relações já citadas, também é possível comparar os valores entre si, estabelecendo relações de dobro, triplo, metade etc. Sejam três distâncias: d1 = 2 cm, d2 = 4 cm e d3 = 8 cm. É possível definirque: – d1 ≠ d2 ≠ d3; – d1 < d2 < d3; – (d3 – d2) = 2(d2 – d1); – d2 = 2d1. Confiabilidade dos dados Ao resumir um conjunto de dados, deve-se observar se são consistentes, ou seja, verificar se os resultados estão de acordo com o esperado, ou se alguma mudança relativamente forte pode ter ocorrido. Muitas vezes, tem-se uma expectativa em relação aos dados, porém os resultados e a análise se apresentam diferentes do esperado. Tal fato de forma alguma invalida o estudo, mas muito provavelmente contradirá uma ou mais hipóteses iniciais. Durante a coleta de dados, deve-se sempre ter em mente que estes dependem do método utilizado. Muitas vezes, especialmente na área da Engenharia, os dados são coletados por meio de um equipamento de medição, que é um dos elementos que constituem um sistema de medição. O pesquisador deve saber como usá-lo corretamente, além de saber como analisar e interpretar os resultados. Entretanto, devido às diversas fontes de variação que afetam um sistema de medição, leituras repetidas sobre a mesma peça, por exemplo, podem não produzir um mesmo e idêntico resultado. Dessa forma, os efeitos das distintas fontes de variação sobre o sistema de medição devem ser avaliados. Uma das ferramentas utilizadas com essa finalidade são os estudos de “repetibilidade” e “reprodutibilidade” (R&R). Nos estudos de R&R, o instrumento de medição é utilizado para medir, repetidas vezes, a grandeza de interesse. Conforme o VIM (2012), podemos definir a repetibilidade como: condição de medição num conjunto de condições, as quais incluem o mesmo procedimento de medição, os mesmos operadores, o mesmo sistema de medição, as mesmas condições de operação e o mesmo local, assim como medições repetidas no mesmo objeto ou em objetos similares durante um curto período de tempo. Já a reprodutibilidade é definida como: condição de medição num conjunto de condições, as quais incluem diferentes locais, diferentes operadores, diferentes sistemas de medição e medições repetidas no mesmo objeto ou em objetos similares (VIM, 2012). A repetibilidade estima a variabilidade dos resultados obtidos por um mesmo operador, usando o mesmo equipamento de medição segundo um mesmo procedimento. Pode-se interpretar a repetibilidade como a menor variabilidade que pode ser entregue por um sistema de medição. Uma repetibilidade ruim pode estar relacionada à manutenção falha ou à falta de robustez do equipamento de medição, local inadequado para a realização da medição, ou, ainda, a uma variação dentro da própria amostra. Por outro lado, a reprodutibilidade avalia, caso diferentes operadores sejam envolvidos no estudo, a variabilidade das 1.4.4 a) b) 1.5 médias das medições feitas por operador. Tem-se, assim, uma indicação da robustez do sistema de medição, do grau de treinamento dos operadores, da uniformidade dos métodos empregados pelos operadores (AMERICAN SOCIETY FOR QUALITY CONTROL, 2010). Em suma, o pesquisador deve estar bastante atento aos seus dados e, em especial, a como foram coletados. Arredondamento de dados Arredondar um número significa reduzir a quantidade de algarismos significativos após a vírgula. Esse procedimento deve ser feito de maneira padronizada para diminuir os erros por arredondamento, principalmente quando o volume de números a arredondar é grande. Essa padronização, determinada pelo Instituto Nacional de Pesos e Medidas (INPM, 1965), conforme a Portaria no 36, de 3 de agosto de 1965, estabelece as regras apresentadas a seguir: Regra 1: Quando o primeiro algarismo a ser desprezado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplo 1.1: 2,34856 = 2,3 Exemplo 1.2: 8,1213 = 8,121 Regra 2: Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer. Exemplo 1.3: 2,2734 = 2,3 Exemplo 1.4: 7,586 = 7,59 Regra 3: Se o algarismo à direita do último dígito que se pretende representar for igual a 5, tem-se as seguintes situações: acrescenta-se uma unidade ao último dígito representado e desprezam-se os demais dígitos à direita se este dígito for ímpar; somente são desprezados os demais dígitos à direita se este dígito for originalmente par ou zero. Exemplo 1.5: 4,1415926 = 4,142 Exemplo 1.6: 11,625 = 11,62 Observação 1.1: Cabe lembrar que não se devem realizar arredondamentos sucessivos. Software estatístico O software estatístico é de suma importância tanto no meio acadêmico como no empresarial, quer pela sua facilidade de utilização, quer pela eficiência no tratamento de grandes conjuntos de dados. Atualmente, há uma concordância entre os educadores de que as disciplinas de estatística devem ser auxiliadas por algum tipo de tecnologia para reduzir a necessidade de execução de cálculos manuais e fornecer aos alunos o acesso a conjuntos de dados de casos práticos e situações reais (BECKER, 1996; MALTBY, 2001; SCHUYTEN; THAS, 2007; VERZANI, 2008; GOULD, 2010). Entretanto, o uso de um software estatístico, em processos de aprendizagem, deve ser fundamentado por certo conhecimento das técnicas estatísticas envolvidas ou conduzido por quem possui esses conhecimentos (ALVES; CUNHA, 2013). Existem diversos softwares estatísticos, alguns de uso gratuito. Entre os gratuitos destacam-se: INSTAT, Biostat, R e SEstatNet. Entre os pagos destacam-se: Minitab, SAS, SPSS e Statistica. O INSTAT é um pacote estatístico geral. É simples o suficiente para ser útil no ensino da estatística, como também pode auxiliar a pesquisa que requer uma análise de dados. Tem sido amplamente utilizado no Reino Unido e em outros lugares por uma série de empresas, institutos de pesquisa, escolas, faculdades e universidades. Também tem sido utilizado como apoio em cursos de estatística e cursos relacionados a agricultura, saúde e climatologia (INSTAT, 2013). O Biostat é um software desenvolvido por professores da Universidade Federal do Pará e possui vários pacotes estatísticos de fácil aplicabilidade para iniciantes. De acordo com Ayres et al. (2007), autores do software, seu uso é bastante facilitado, principalmente pelo help do programa, que, na verdade, é um livro de apoio. Nele podem ser encontrados diversos testes 1.6 estatísticos, dimensionamento de amostras e tipos de experimento. Ainda, para facilitar sua aprendizagem e consequente utilização, cada procedimento abordado em cada pacote vem acompanhado de um exemplo. O R é uma linguagem e um ambiente de software livre para análises estatísticas. É muito utilizado porque, além de ser um software livre, pode ser usado sem custos de licença, contendo versões para Windows, MacOS, GNU/Linux e Unix. Seu download pode ser feito diretamente da Internet por meio do site do CRAN (Comprehensive R Archive Network) – Rede Completa de Arquivos do R – no endereço: <http://www.r-project.org>. Conforme Kataoka et al. (2008), o R é o resultado de um trabalho de pesquisadores de vários locais do mundo, dos quais podem-se destacar: estatísticos, engenheiros de software, dentre outros profissionais. Nesse software, existe uma grande diversidade de pacotes que contêm um conjunto de funções que permitem ou facilitam a realização das análises estatísticas. No Capítulo 9 deste livro, podem ser encontradas algumas informações interessantes sobre a sua utilização. O SEstatNet é um ambiente on-line que pode contribuir para o processo de ensino-aprendizagem de estatística. Conforme Nassar et al. (2014), ele oferece procedimentos de descrição, estimação, testes de hipóteses e modelos de regressão para variáveis qualitativas e quantitativas. O processo dinâmico de ensino-aprendizagem possibilita, em cada sessão, que o estudante aprenda os conceitos estatísticos aplicando-os aos seus próprios dados. Além disso, a aprendizagem é livre, uma vez que os conteúdos não têm uma sequência pré-definida de apresentação (NASSAR et al., 2014). O Minitab é um software estatístico que se caracteriza pela simplicidade e interface amigável. Conforme Alves e Cunha (2013), esse software oferece um grandenúmero de procedimentos para análise estatística de dados, permitindo obter estatísticas descritivas, simulações e distribuições, inferência estatística, análise da variância, regressão, análise de dados categóricos, testes não paramétricos, análise de séries temporais, ferramentas de planejamento de experimentos e ferramentas de controle de qualidade, bem como vários tipos de gráficos. O SAS (Statistical Analysis System) é um sistema integrado de aplicações para o processamento e a análise estatística de dados. De acordo com Alves e Cunha (2013), o programa trabalha com quatro formas básicas sobre os dados: acessar, manipular, analisar e apresentar. O núcleo de todo o sistema é o SAS base, o qual permite criar tabelas e proceder à manipulação dos dados. Um de seus pontos fortes é o fornecimento de ferramentas para simulação. O SPSS (Statistical Package for the Social Sciences) é um software para análise estatística de dados. Possui uma interface muito amigável, que se utiliza de menus, janelas e caixas de diálogo e permite realizar cálculos complexos e visualizar seus resultados de forma simples. Inicialmente, o SPSS foi desenvolvido para tratar dados da área de ciências sociais, mas atualmente é muito utilizado nos meios acadêmico e empresarial (ALVES; CUNHA, 2013). É comercializado em módulos, e o mais simples, o módulo básico, permite executar tabulações, cruzamentos, gráficos, cálculo de medidas, testes de hipóteses paramétricos e não paramétricos, regressão e correlação, entre outros. O software Statistica é desenvolvido pela Statsoft. Conforme Alves e Cunha (2013), é um aplicativo que inclui estatísticas descritivas, correlações, testes t e outros testes para as diferenças entre grupos, tabelas de frequências, cruzamentos, métodos de regressão múltipla, métodos não paramétricos, rotinas de Anova/Manova, módulos de ajustamento das distribuições e um vasto conjunto de ferramentas para gráficos. Ainda contempla módulos adicionais compostos por modelos lineares/não lineares avançados, técnicas exploratórias multivariadas, gráficos para controle de qualidade, índices de capacidade de processo e planejamento de experimentos, dentre outros (ALVES; CUNHA, 2013). Esse software se destaca pela qualidade dos gráficos construídos. Existem vários softwares estatísticos. A escolha do mais indicado para auxiliar em uma análise a ser desenvolvida depende de algumas de suas propriedades, bem como do conhecimento e do bom senso do pesquisador. Considerações finais Neste capítulo foram apresentados alguns conceitos fundamentais da estatística. De maneira geral, é possível dividir a pesquisa estatística em dois tipos: pesquisa de levantamento e pesquisa por experimento, que devem obedecer a algumas fases: definição do problema, planejamento, coleta de dados, apuração e apresentação de dados e análise dos resultados. A generalização dos resultados fica a cargo da estatística indutiva ou inferencial. Foram também apresentados alguns conceitos básicos, como: população, que compreende todo o conjunto a ser pesquisado; amostra, que é um subconjunto da população; variáveis, que são as características investigadas; e dados ou observações, que são as informações obtidas. As variáveis podem ser classificadas como qualitativas (nominal ou ordinal) ou quantitativas (discreta ou contínua) e ainda podem ser classificadas em função do nível de mensuração: nominal, ordinal, intervalar e razão. Foram também apresentadas algumas considerações sobre a precisão dos dados e ferramentas que possam auxiliar o pesquisador no desenvolvimento de suas 1.3 a) b) c) d) e) f) g) 1.1 1.2 1.4 análises estatísticas: os softwares estatísticos. Vale salientar que vai do bom senso do pesquisador usufruir dessas ferramentas que não substituem o conhecimento das técnicas estatísticas utilizadas. Aplicações Conceitue, exemplificando: a) população; b) amostra. Como a pesquisa estatística pode ser classificada? Explique essa classificação. A descrição de determinadas características de um grupo pertence a que parte da estatística? Que técnicas podem ser utilizadas? Classifique as variáveis em qualitativa (nominal ou ordinal) ou quantitativa (contínua ou discreta): População: alunos de uma universidade. Variável: cor dos cabelos (louro, castanho, ruivo, preto). População: funcionários de uma empresa. Variável: escolaridade (ensino fundamental, ensino médio, ensino superior, pós-graduação). População: peças produzidas por certa máquina. Variável: diâmetro externo (2 mm ≤ x ≤ 4 mm). População: estação meteorológica de uma cidade. Variável: precipitação pluviométrica, durante um ano (250 mm ≤ x ≤ 300 mm). População: Bolsa de Valores de São Paulo. Variável: quantidade de ações negociadas (0,1,2,3,...). População: pregos produzidos por uma máquina. Variável: comprimento (1,5 cm ≤ x ≤ 2,8 cm). População: aparelhos produzidos em uma linha de montagem. Variável: número de defeitos por unidade (0,1,2,3,...). 2.1 2.2 2.2.1 2 REPRESENTAÇÃO TABULAR Descrição e exploração de dados Ao fazer um levantamento de dados, obtém-se um volume muito grande de informações que, para serem mais facilmente entendidas, precisam ser organizadas e resumidas. Para tanto, extrai-se o máximo de informação não apenas em relação à variável investigada propriamente dita, como também em relação a algumas de suas propriedades: forma da distribuição, tendência central, variabilidade, presença de lacunas e de outliers (valores fora do padrão). Nessas situações são especialmente indicadas as tabelas estatísticas, além de técnicas gráficas, como o histograma, e técnicas analíticas, que se utilizam de medidas descritivas. Tabelas de frequências Normalmente, o resumo dos dados se inicia com a construção de tabelas estatísticas. Uma tabela é uma disposição de dados sistemática, simples e clara, em linhas e colunas. Elas conseguem resumi-los em pequeno espaço, facilitando sua compreensão e análise, bem como sua comparação com outras informações. Podem ser utilizadas simplesmente em caráter informativo, em forma de síntese, como também podem consistir na primeira etapa de uma análise estatística mais sofisticada. Apresentam a vantagem de serem mais breves que as exposições descritivas e mais exatas que as representações gráficas. As tabelas são organizadas com pelo menos cinco partes: título, cabeçalho, coluna indicadora, corpo e fonte. O “título” deve ser colocado em cima da tabela, apresentando o fato estudado, o local e a época em que foram registrados os dados, da forma mais clara possível. Podem ser incluídos subtítulos que devem ser apresentados do geral para o particular. Logo abaixo do título, aparece o “cabeçalho”, indicando o que cada coluna contém, podendo ser representado por uma única linha ou várias, quando existirem subdivisões da série apresentada. Nesse caso, também se deve partir do geral para o particular. A “coluna indicadora” é a primeira coluna da tabela e indica o que cada linha contém, enquanto o “corpo” é a parte numérica da tabela, onde estão as informações propriamente ditas. Já a “fonte” é o organismo responsável pelas informações contidas na tabela, aparecendo logo abaixo desta. Quando necessário, as tabelas também podem apresentar “notas” ou “observações de rodapé”. Essas são informações de natureza geral ou específica, que servem para esclarecer ou conceituar alguma parte ou a totalidade do conteúdo da tabela. No caso de se relacionar apenas a uma parte, deverá ser indicado por um número arábico entre parênteses à esquerda do valor. Essas notas ou observações podem vir abaixo da fonte. Mais detalhes sobre formatação de tabelas podem ser encontrados em INSTITUTO PARANAENSE DE DESENVOLVIMENTO ECONÔMICO E SOCIAL (2000b). A construção de tabelas deve obedecer a alguns critérios, conforme tratem de dados qualitativos ou quantitativos. Considere os dados apresentados no anexo deste livro, já mencionados no capítulo anterior, que se referem aos dados brutos coletados e que compõem uma amostra a ser analisada. Obanco de dados fornece informações sobre clientes da montadora de automóveis Toyord e serve para ilustrar os conceitos apresentados neste capítulo. Dados qualitativos Tabela 2.1 – Fonte: Tabela 2.2 – Fonte: Dados qualitativos são dados categóricos. Para sua tabulação, basta associar cada categoria a um valor que informa o número de vezes que ela apareceu no conjunto de dados. Se a escala for nominal, a apresentação das informações é ordenada pela frequência de ocorrência das categorias (normalmente ordem decrescente); caso seja ordinal, pela hierarquia existente entre as categorias (normalmente ordem crescente). A Tabela 2.1 apresenta a distribuição de frequência dos veículos comercializados, de acordo com o modelo, ficando evidenciado que entre os 250 veículos da amostra, o modelo mais frequente foi o Chiconaultla (32,8%), seguido do DeltaForce3 (24,0%) e do SpaceShuttle (19,6%). O modelo menos comercializado foi o LuxuriousCar, apenas 23 veículos (9,2%). Em uma mesma tabela, podem ser apresentados dados referentes a duas variáveis qualitativas, sendo construídas as chamadas tabelas de contingência ou de dupla entrada. Por meio dessas, é possível representar uma distribuição conjunta de frequências, estudando a sua associação. A Tabela 2.2 apresenta uma distribuição de frequências conjunta das variáveis modelo e opinião geral sobre a qualidade do veículo adquirido. Distribuição dos veículos comercializados de acordo com o modelo, Toyord, 2012 Modelo Veículos Percentual Chiconaultla 82 32,8 DeltaForce3 60 24,0 SpaceShuttle 49 19,6 Valentiniana 36 14,4 LuxuriousCar 23 9,2 Total 250 100 Banco de dados anexo. Distribuição dos veículos comercializados de acordo com o modelo e satisfação do cliente, Toyord, 2012 Modelo Quantidade de clientes Muito insatisfeito Insatisfeito Satisfeito Muito satisfeito Total Chiconaultla 68 12 1 1 82 DeltaForce3 26 29 5 0 60 SpaceShuttle 7 26 14 2 49 Valentiniana 7 6 12 11 36 LuxuriousCar 1 5 3 14 23 Total 109 78 35 28 250 Banco de dados anexo. Ao construir uma tabela de contingência, o interesse pode estar nos percentuais de cada célula do cruzamento, sendo possível calculá-los em relação aos totais das linhas, aos totais das colunas e ao total geral. Esses valores são muito úteis para avaliar associações. Na Tabela 2.3 são apresentadas frequências percentuais calculadas em relação ao total das linhas. A análise desses valores evidencia que, na amostra investigada, composta por 250 clientes, modelo adquirido e satisfação do cliente, parecem estar associados. Os clientes que possuem o modelo Chiconaultla parecem estar mais insatisfeitos que os demais, pois 83% dos clientes que adquiriram esse modelo estão muito insatisfeitos. Já os clientes mais satisfeitos parecem ser os que adquiriram o modelo Luxurious, pois 61% estão muito satisfeitos. Tabela 2.3 – Fonte: 2.2.2 2.3 Tabela 2.4 – Distribuição dos veículos comercializados de acordo com o modelo e satisfação do usuário, Toyord, 2012 Modelo Percentual de clientes (%) Muito insatisfeito Insatisfeito Satisfeito Muito satisfeito Total Chiconaultla 83 15 1 1 100 DeltaForce3 43 48 8 0 100 LuxuriousCar 4 22 13 61 100 Valentiniana 19 17 33 31 100 SpaceShuttle 14 53 29 4 100 Total 44 31 14 11 100 Banco de dados anexo. Dados quantitativos Dados quantitativos são dados numéricos. Um conjunto de dados referente a uma variável quantitativa pode se apresentar na forma bruta, em rol ou em tabelas de frequências. Têm-se dados brutos quando os dados originais (coletados) ainda não se encontram numericamente organizados (ordenados). Os dados abaixo se referem às dez primeiras observações da idade dos clientes em anos completos, apresentadas no banco de dados no anexo deste livro. Dados brutos: {20, 20, 18, 18, 18, 21, 21, 19, 19, 19} Se os valores forem dispostos em determinada ordem, crescente ou decrescente, tem-se um rol. As dez primeiras observações referentes à idade dos clientes em anos completos, ordenadas crescentemente, fornecem o rol apresentado a seguir. Rol: {18, 18, 18, 19, 19, 19, 20, 20, 21, 21} A maneira de construir tabelas de frequência para dados quantitativos depende de os dados serem discretos ou contínuos, e, no caso de serem discretos, do fato de existirem poucos ou muitos diferentes valores. Veja as Seções 2.3 e 2.5. Dados quantitativos discretos A tabulação de dados resultantes de variáveis discretas, quando não houver uma quantidade muito grande de diferentes valores observados, pode ser feita da mesma forma que em uma distribuição de frequência de dados qualitativos ordinais. Uma das variáveis apresentadas no banco de dados anexo é o número de pessoas, geralmente transportadas no veículo. A variável “número de pessoas” é discreta, pois procede de uma contagem. A organização desses dados, mediante a construção de uma distribuição de frequência, facilita sua compreensão, conforme pode ser visualizado na Tabela 2.4. Distribuição dos veículos comercializados de acordo com a quantidade de pessoas que transporta usualmente, Toyord, 2012 Número de pessoas (xi) Número de veículos (fi) 1 19 2 35 3 47 Fonte: a) b) c) 2.4 Tabela 2.5 – 4 42 5 52 6 55 Total 250 Banco de dados anexo. Nessa tabela observa-se que, na amostra investigada, 19 veículos transportam usualmente uma pessoa, 35 veículos transportam usualmente duas pessoas, 47 veículos transportam usualmente três pessoas, e assim em diante. Por convenção, denota-se por: x (minúsculo) – a variável; f (minúsculo) – a frequência simples absoluta; o índice i para x e para f tem a finalidade de referência, indicando sua posição na tabela, ou seja, a i-ésima posição que está associada a uma categoria ou classe. Se houver k categorias ou classes, então i = 1,2,3,...,k. Na Tabela 2.4, por exemplo, x3 = 3 e f3 = 47. Pela Tabela 2.4, observa-se que 55 veículos da amostra de 250 clientes da montadora de automóveis Toyord usualmente transportam seis pessoas. Esse é um número absoluto, resultando da contagem feita dentre os 250 clientes. Existem outros tipos de frequências, decorrentes desta frequência simples absoluta, que podem auxiliar na interpretação e análise dos dados tabulados. Tipos de frequências A frequência simples absoluta da i-ésima classe ou categoria, denotada por fi, é o número de ocorrências de uma categoria/valor em um conjunto de dados e simplesmente representa a quantidade de vezes que uma observação se repete nesse conjunto. Algumas vezes, tem-se interesse em conhecer essa frequência em termos relativos, expressando-a em relação ao total, obtendo-se a (fri). Por definição, a frequência simples relativa da i-ésima classe ou categoria é dada por: onde e k é a quantidade de categorias. Frequentemente, este valor é expresso em percentagem, bastando multiplicá-lo por 100, obtendo-se a frequência simples percentual (fpi). Por definição, a frequência simples percentual da i-ésima classe ou categoria é dada por: Salienta-se que as Expressões 2.1 e 2.2 são resultado de uma regra de três, considerando o total (soma de todas as frequências simples ou quantidade de dados) equivalente a, respectivamente, 1 ou 100%. Na Tabela 2.5 são apresentadas frequências simples relativas e frequências simples percentuais na quarta e quinta colunas, respectivamente. Distribuição dos veículos comercializados, de acordo com a quantidade de pessoas que geralmente transporta, com frequências absolutas, relativas e percentuais, simples e acumuladas Fonte: 2.5 i xi fi fri fpi (%) faci facpi (%) 1 1 19 0,076 7,6 19 7,6 2 2 35 0,14 14 54 21,6 3 3 47 0,188 18,8 101 40,4 4 4 42 0,168 16,8 143 57,2 5 5 52 0,208 20,8 195 78 6 6 55 0,22 22 250 100 Total 250 1,0 100,0 Banco de dados anexo. Observe que a soma das frequências relativas é 1, e a das frequências percentuais é 100, ou seja: Suponha que se deseja saber a quantidade de clientes que possuem veículos que transportam duas pessoas ou menos, três pessoas ou menos, e assim sucessivamente. Existe uma frequência chamada “frequênciaacumulada absoluta”, denotada por faci, que dá essa informação. Por definição, a frequência acumulada absoluta da i-ésima classe ou categoria é dada por: Na sexta coluna da Tabela 2.5 são apresentadas as frequências acumuladas absolutas. Observação 2.1: A frequência acumulada da primeira classe ou categoria, localizada na primeira linha do corpo da tabela, será sempre igual à frequência simples absoluta da mesma linha, e a frequência acumulada da última linha da tabela será sempre igual ao total de dados observados. Assim como na frequência simples absoluta, é possível conhecer o valor relativo e o valor percentual da frequência acumulada, denominados, respectivamente, de “frequência acumulada relativa” (facri) e “frequência acumulada percentual” (facpi), determinadas por: Na sétima coluna da Tabela 2.5 são apresentadas as frequências acumuladas percentuais. A interpretação dos dados é de suma importância por possibilitar um melhor entendimento das informações, o que é facilitado pela utilização dessas frequências. Por exemplo, pelas informações da quarta linha da Tabela 2.5, é possível afirmar que, dentre os 250 clientes, 42 possuem veículo que transporta exatamente quatro pessoas; 16,8% dos clientes possuem veículo que transporta exatamente quatro pessoas; 143 clientes possuem veículo que transporta até quatro pessoas; 57,2% dos clientes possuem veículo que transporta até quatro pessoas. Dados quantitativos contínuos Tabela 2.6 – Fonte: Até o presente momento, foi apresentada uma forma de organizar e resumir dados discretos. Para dados contínuos, deve-se recorrer a tabelas de frequência com “intervalos de classe”. Essas são uma representação tabular dos dados e de suas frequências similar à que vimos na seção anterior. A diferença é que, devido à grande variabilidade de resultados, não são listados cada um dos diferentes resultados observados da variável, ordenados de forma crescente, e sim intervalos de resultados da variável ordenados de forma crescente. Essa forma de representação também é recomendada para dados discretos que podem assumir muitos diferentes valores. No exemplo considerado dos dados do banco anexo, selecionou-se a variável “idade”. Na Tabela 2.6, essa variável está distribuída em intervalos (coluna 1). A segunda coluna mostra o resultado da contagem de valores pertencentes a cada intervalo, correspondendo à frequência simples absoluta de cada classe. Distribuição da idade dos clientes que adquiriram veículos na empresa Toyord, 2012 Idades (anos) Clientes 18 ⊢ 23 12 23 ⊢ 28 30 28 ⊢ 33 47 33 ⊢ 38 59 38 ⊢ 43 54 43 ⊢ 48 37 48 ⊢ 53 9 53 ⊢ 58 2 Total 250 Banco de dados anexo. A análise das informações apresentadas como na Tabela 2.6 permite entender o fenômeno, embora perca precisão na informação. Por exemplo, a leitura da primeira linha informa que 12 clientes têm idade entre 18 e 23 anos, exclusive este último; todavia, a tabela não informa a idade exata de cada um deles. A notação usual utilizada para definir intervalo de classe são os símbolos ⊢ e . Para o primeiro símbolo (⊢), o intervalo é dito fechado à esquerda e aberto à direita, indicando que o extremo inferior pertence ao intervalo, enquanto o extremo superior não pertence. Por exemplo, na Tabela 2.6, um funcionário com 23 anos pertence ao segundo intervalo de classe da distribuição, pois esse é fechado à esquerda. Já um cliente com 28 anos não pertence a esse intervalo de classe, pois esse é aberto à direita. O outro símbolo ( ) é usualmente utilizado na última classe quando for conveniente fechá-la. Cada classe apresenta dois limites: o inferior (menor valor), representado por LIi e o superior (maior valor), representado por LSi. Para efeito de cálculo, ignora-se o fato de o intervalo que define a classe ser aberto ou fechado, o mesmo não acontecendo na hora da tabulação. Chama-se “amplitude” da i-ésima classe (Ai) a diferença entre o limite superior e o limite inferior da classe, enquanto o “ponto médio” da i-ésima classe (Pmi) é o valor central da classe, podendo ser encontrados, respectivamente, pelas Expressões 2.8 e 2.9: Observação 2.2: Frequentemente, é necessário encontrar um valor representativo de uma classe que não tenda nem para o limite superior e nem para o inferior, um valor neutro e não tendencioso. Esse valor é o seu ponto médio. Observação 2.3: Outras notações também podem ser utilizadas para definir um intervalo de classe, desde que não deem margem à dupla interpretação. A construção de uma distribuição de frequência com intervalos de classe pode seguir o seguinte algoritmo: Etapa 1 – ordenar os dados a serem tabulados; Etapa 2 – identificar o maior e menor valor para calcular a amplitude total; Etapa 3 – determinar a quantidade de classes (k) a serem utilizadas; Etapa 4 – calcular a amplitude dos intervalos de classe (h); Etapa 5 – definir as classes; Etapa 6 – determinar a frequência simples absoluta de cada classe (fi). Se for conveniente, podem ser determinados os demais tipos de frequências, bem como informações sobre as classes (limites, amplitude e ponto médio). Considere que o engenheiro responsável pelo setor de controle de qualidade da indústria de blocos cerâmicos MMT está interessado em analisar o comportamento térmico de um forno túnel utilizado no processo produtivo. A temperatura é monitorada ao longo de sua extensão em nove pontos. Na última semana, o ponto 5, localizado no início da zona de queima, apresentou os seguintes resultados, em °C, durante dois dias de monitoramento: 768 784 786 792 799 803 812 821 773 784 786 793 800 804 812 821 781 784 786 794 800 806 817 824 781 785 790 794 801 807 818 825 782 785 790 796 802 810 818 825 783 785 790 798 803 811 819 831 Para melhor entender o comportamento da temperatura, os dados devem ser tabulados. Etapa 1 – Ordenar os dados a serem tabulados Inicialmente, os dados devem passar pelo processo de ordenação. Neste exemplo, eles já se encontram ordenados. Etapa 2 – Identificar o maior e menor valor para calcular a amplitude total Mediante a ordenação dos dados, identifica-se facilmente que a menor e a maior temperatura são 768°C e 831°C, respectivamente. Xmín = X1 = 768°C Xmáx = X48 = 831°C A diferença entre as temperaturas fornecerá a amplitude total, que representa o tamanho do intervalo que contém os dados. AT = Xmáx – Xmín = 831 – 768 = 63°C Etapa 3 – Determinar a quantidade de classes (k) a serem utilizadas A quantidade de classes ou intervalos de classe (k) é determinada em função da quantidade de valores observados ou dados que serão tabulados (n). Vários critérios podem ser utilizados com essa finalidade. O mais simples é o critério da raiz, que determina essa quantidade pela expressão: O conjunto analisado é formado por 48 dados (n = 48), logo Observe que se obteve 6,93, mas é impossível trabalhar com 6,93 intervalos. Deve-se optar por 6 ou 7 intervalos. Normalmente, arredonda-se para o inteiro mais próximo. Neste caso, sete seria a quantidade recomendada. Etapa 4 – Calcular a amplitude dos intervalos de classe (h) Na organização de uma distribuição com intervalos de classe, é recomendável que todos tenham a mesma amplitude (h), e, para calculá-la, basta dividir a amplitude total (AT) pelo número de classes a serem utilizadas (k), conforme a Expressão 2.11. Dessa forma, a amplitude total fica distribuída igualmente por todas as classes. Para aplicar a Expressão 2.11, deve-se usar o valor já arredondado de k = 7; portanto, no exemplo considerado: Serão organizadas 7 classes (k) de amplitude 9 (h). Se a tabulação está sendo feita para apresentação de resultados, é aconselhável que a precisão de h seja, no mínimo, a mesma precisão dos dados. No exemplo considerado, como os dados são inteiros, é aconselhável considerar h inteiro. Etapa 5 – Definir as classes Para determinar os intervalos de classe, ou melhor, os limites inferior e superior de cada uma das classes, é preciso lembrar que cada valor da variável deve pertencer a um único intervalo. Normalmente, o primeirointervalo de classe tem início no menor valor da variável, sendo associado ao seu limite inferior (LI1). O limite superior dessa primeira classe é encontrado somando-se a amplitude da classe (h) a esse limite inferior. O limite inferior da segunda classe é igual ao limite superior da primeira classe. Os demais limites são determinados da mesma maneira, ou seja: Desse modo, da segunda classe em diante, o limite inferior de uma classe é o limite superior da classe imediatamente anterior a esta, e assim sucessivamente. Observe que as sequências de limites inferiores e limites superiores de uma distribuição de frequências formarão progressões aritméticas de razão h. Considerando os dados relativos à variável “temperatura”, o limite inferior da primeira classe é 768, e o limite superior, 768 + h = 768 + 9 = 777. Assim, obtém-se o primeiro intervalo de classe 768 ⊢ 777. O limite superior dessa classe (777) é o inferior da segunda classe, que terá como limite superior 777 + h = 777 + 9 = 786, ou seja, a segunda classe será 777 ⊢ 786, e assim sucessivamente. Os intervalos de classe a serem considerados nesta distribuição são:768 ⊢ 777; 777 ⊢ 786; 786 ⊢ 795; 795 ⊢ 804; 804 ⊢ Tabela 2.7 – Fonte: Tabela 2.8 – 813; 813 ⊢ 822;822 ⊢ 831, conforme apresentado na Tabela 2.7. Observe que, como não houve arredondamento no valor da amplitude de classe, o limite superior da última classe coincidiu com o maior valor dos dados, razão pela qual o intervalo foi fechado em seu limite superior, ou seja, 822 831. Etapa 6 – Determinar a frequência simples absoluta de cada classe (fi) A frequência simples absoluta do i-ésimo intervalo de classe é o número de ocorrências de todos os valores pertencentes àquele intervalo. Assim, essa frequência da primeira classe será o número de repetições dos valores pertencentes ao intervalo 768 ⊢ 777. Logo, serão contadas todas as temperaturas entre 768 e 777°C, exclusive esta última, ou seja, 768 e 773 (duas medições). A f2 será a quantidade de observações de temperaturas entre 777 e 786°C, exclusive esta última (dez medições), e assim sucessivamente. A Tabela 2.7 apresenta a distribuição de frequências simples absolutas das temperaturas do ponto 5 do forno de queima da indústria MMT. Distribuição das temperaturas no ponto 5 do forno de queima, Indústria MMT, 2013 Temperaturas (°C) Medições (fi) 768 ⊢ 777 2 777 ⊢ 786 10 786 ⊢ 795 10 795 ⊢ 804 9 804 ⊢ 813 7 813 ⊢ 822 6 822 831 4 Total 48 Fictícia. Observação 2.4: Qualquer um dos tipos de frequência apresentados anteriormente pode ser usado na construção de uma distribuição. A Tabela 2.8 apresenta, além das frequências simples absolutas, as frequências simples percentuais (fpi), as frequências acumuladas absolutas (fac) e as frequências acumuladas percentuais (facri). Também apresenta o ponto médio de cada classe. Distribuição das temperaturas no ponto 5 do forno de queima utilizando frequências absolutas e percentuais simples e acumuladas e ponto médio, Indústria MMT i Idades (anos) fi fpi (%) faci facpi (%) xi 1 768 ⊢ 777 2 4,2 2 4,2 772,5 2 777 ⊢ 786 10 20,8 12 25,0 781,5 3 786 ⊢ 795 10 20,8 22 45,8 790,5 4 795 ⊢ 804 9 18,8 31 64,6 799,5 5 804 ⊢ 813 7 14,6 38 79,2 808,5 6 813 ⊢ 822 6 12,5 44 91,7 817,5 7 822 831 4 8,3 48 100,0 826,5 Fonte: – – – 2.6 48 100 Fictícia. Esses resultados podem ser muito úteis para o entendimento dos dados. Por exemplo, com base nas informações apresentadas na segunda linha da Tabela 2.8, é possível afirmar que, dentre as 48 medições da temperatura, 10 são maiores ou iguais a 777°C e menores que 786°C; 20,8% são maiores ou iguais a 777°C e menores que 786°C; 12 medições são maiores ou iguais a 768°C e menores que 786°C, correspondendo a 25% das medições. A mesma interpretação pode ser feita para as demais classes. Observação 2.5: Outros critérios podem ser utilizados para determinar a quantidade de classes. A regra de Sturges, por exemplo, especialmente indicada para amostras de tamanho maior que 70, aconselha que k seja definido pela Expressão 2.17: No caso, no exemplo considerado, tem-se: k = 1 + 3, 3 log 48 k = 1 + 3, 3 (1,681241) k = 6,548096 = 7 Outro critério bastante utilizado consiste em considerar que, para uma amostra de tamanho n, k é o menor inteiro tal que 2k ≥ n. Neste caso, como 25 = 32 e 26 = 64, como n = 48, então k = 6. Observação 2.6: Observe que a quantidade de classes utilizada em uma tabulação deve ser definida de tal forma que os dados não fiquem muito compactados nem muito dispersos, facilitando o seu entendimento, e que o resultado encontrado para a quantidade de classes pode não ser o mesmo para todos os critérios. Em termos práticos, vários autores, entre os quais Silveira Junior et al. (1989), recomendam que essa quantidade fique entre 5 e 15 (5 ≤ k ≤ 15), obtida pelo critério que melhor se ajusta à situação a analisar, além de bom senso. Observação 2.7: O valor de h pode ser arredondado. Nesse caso, é possível que a distribuição fique com uma classe a mais ou a menos do que o recomendado inicialmente. Observação 2.8: Existe ainda um critério de determinação de classes bastante utilizado na prática. Partindo do princípio de que 5 ≤ k ≤ 15, considera-se que h pode assumir qualquer valor dentro do intervalo Nesse caso, o contexto seria utilizado para identificar o melhor valor para a amplitude das classes. No exemplo considerado, poderia assumir qualquer valor do intervalo [4,2;12,6]. Observação 2.9: Os critérios adotados para determinar intervalos de classe não são rígidos, podendo ser adaptados ao contexto em que estão sendo utilizados. Observação 2.10: Em algumas situações, é aconselhável utilizar intervalo de classe de amplitude variável, tais como: quando existir uma grande concentração de valores em determinada faixa de tal forma que se formem algumas classes com frequências muito altas e outras com frequências muito baixas ou até mesmo nulas. Nesse caso, classes com frequências muito altas podem ser segregadas e classes com frequências muito baixas ou nulas podem ser aglutinadas; quando, devido à natureza do fenômeno observado, for conveniente reunir casos semelhantes; quando, devido à natureza dos dados, for conveniente dispor os limites das classes de acordo com uma progressão geométrica. Considerações finais 2.1 2.2 ( ) ( ) ( ) ( ) ( ) ( ) 2.3 Neste capítulo, foram apresentadas algumas técnicas para organizar e sintetizar os dados coletados utilizando tabelas, o que pode ser feito para dados qualitativos e quantitativos, que seguem regras semelhantes. Para ambos os tipos de dados, frequências de vários tipos podem ser associadas a classes ou categorias. No caso de dados quantitativos, as tabelas podem ser construídas com ou sem intervalos de classe. Lembre que, na construção da distribuição de frequência com intervalos de classe, sempre há uma perda de informação, pois não se trabalha com os dados originais. No próximo capítulo, serão apresentadas técnicas gráficas utilizadas com essa mesma finalidade: organizar e sintetizar os dados coletados. Aplicações Substituir por uma tabela o trecho do relatório anual da Empresa M&T Construções: “Finalizando, conclui-se que esta empresa, em 2012, contou com a colaboração de 465 funcionários, distribuídos pelas nossas cinco unidades, localizadas em: Rio Grande, 105; Porto Alegre, 192; Pelotas, 98; Caxias do Sul, 43; e Bagé, 27. Em Bagé não existiam funcionárias, mas em Rio Grande trabalharam 51 delas, enquanto em Pelotas, apenas 13. Em Caxias do Sul, 38 eram do sexo masculino, e em Porto Alegre, 137.” (Adaptado de SILVA, E. M. et al., 2010) Considere os dados na tabela apresentada a seguir e determine: total de dados, frequências simples relativas e frequências absolutas acumuladas. i xi fi 1 2 6 2 3 2 3 4 7 4 5 12 5 6 10 6 7 9 7 8 4 Com base nos resultados obtidos, coloque V para verdadeiro ou F para falso, nas afirmações apresentadas a seguir. Foram utilizadas 50 observações. Os resultados obtidos no cálculo da frequênciasimples relativa são, por classe, respectivamente: 12%; 5%; 15%; 25%; 21%; 18%; 9%. A soma de todos os dados corresponde a 35. Os resultados obtidos no cálculo da frequência simples relativa são, por classe, respectivamente: 12,0%; 4,0%; 14,0%; 24,0%; 20,0%; 18,0%; 8,0%. Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 14; 29; 36; 45; 50. Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 15; 27; 37; 46; 50. O gestor de um site deseja conhecer o provedor utilizado pelas pessoas que o acessam. No último mês, em uma amostra de 80 usuários, foram encontrados os resultados apresentados a seguir. Construa uma distribuição com frequências simples absolutas, relativas e percentuais. Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor 1 POP 21 POP 41 IG 61 TERRA 2.4 2.5 2 TERRA 22 TERRA 42 TERRA 62 TERRA 3 TERRA 23 IG 43 TERRA 63 IG 4 IG 24 UOL 44 IG 64 POP 5 POP 25 TERRA 45 TERRA 65 IG 6 IG 26 IG 46 TERRA 66 UOL 7 UOL 27 IG 47 IG 67 IG 8 IG 28 POP 48 UOL 68 IG 9 IG 29 UOL 49 UOL 69 IG 10 TERRA 30 IG 50 POP 70 POP 11 POP 31 POP 51 IG 71 TERRA 12 TERRA 32 TERRA 52 TERRA 72 TERRA 13 TERRA 33 IG 53 TERRA 73 IG 14 IG 34 UOL 54 IG 74 POP 15 POP 35 TERRA 55 TERRA 75 IG 16 IG 36 IG 56 TERRA 76 UOL 17 UOL 37 IG 57 IG 77 IG 18 IG 38 POP 58 UOL 78 IG 19 IG 39 UOL 59 UOL 79 IG 20 TERRA 40 IG 60 POP 80 POP (SILVA, E. M. et al., 2010) Uma empresa automobilística selecionou, ao acaso, uma amostra de 40 revendedores autorizados em todo o Brasil e anotou, em determinado mês, o número de quantidades adquiridas por estes revendedores. Construa a distribuição de frequência usando intervalos de classes. 10 15 25 21 5 23 21 15 26 32 9 14 19 20 32 18 16 26 24 20 7 18 17 28 35 22 19 39 18 21 15 18 22 20 25 28 30 16 12 20 (Adaptado de ALBUQUERQUE; BRISTOT, 2011) Os valores abaixo se referem à cargas (kN) suportadas por blocos de calçamento em Ensaios de Ruptura de Blocos de Pavimentação, tipo Unistein, realizado no Laboratório de Controle Tecnológico em Materiais de Construção Civil, Concreto, Geotecnia e Pavimentos da FURG. Organizar as informações em uma tabela com frequências absolutas e percentuais. 260 126 224 230 282 194 192 249 232 213 158 183 233 226 204 274 228 263 153 220 196 221 213 213 210 253 164 194 218 110 160 228 194 218 213 180 203 207 190 232 122 232 168 242 278 174 224 280 270 248 218 156 213 168 268 233 185 151 230 177 2.6 a) ( ) b) ( ) c) ( ) d) ( ) e) ( ) f) ( ) 2.7 2.8 a) b) c) d) e) No último mês, nas planilhas do setor de controle de qualidade, foram registradas as seguintes quantidades de componentes eletrônicos com defeito em lotes de 1.000 unidades: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 6 6 9 Construa uma tabela com frequências simples e acumuladas absolutas e percentuais, e identifique as sentenças a seguir como falsas ou verdadeiras. A variável investigada, quantidade de componentes eletrônicos com defeitos em lotes de 1.000 unidades, pode assumir sete valores distintos. O menor e maior valores assumidos pela variável investigada são, respectivamente, 0 e 9. f1 = 14, e é possível interpretar que, dentre os 49 lotes analisados, em cada um de 14 lotes não houve componentes eletrônicos com defeito. fp2 = 28,57%, e é possível interpretar que, dentre os 49 lotes analisados, em 28,57% deles (em cada um) o número de componentes eletrônicos com defeito foi 1. fac3 = 38, e é possível interpretar que, dentre os 49 lotes analisados, em cada um dos 38 lotes o número de componentes eletrônicos com defeito é de, no máximo, 2. facp4 = 87,76%, e é possível interpretar que, dentre os 49 lotes analisados, em 87,76% deles o número de componentes eletrônicos com defeito foi menor ou igual a 3. Complete a distribuição de frequências apresentada a seguir com os valores de limite inferior, limite superior, ponto médio, frequência absoluta simples, frequência percentual, frequência absoluta acumulada e frequência percentual acumulada. i LIi LSi xi fi fpi (%) faci facpi (%) 1 2 2 20 10 3 35 19 4 75 5 6 6 3 7 4 8 48 (ENADE/2006) A tabela abaixo mostra como se distribui o tipo de ocupação dos jovens de 16 a 24 anos que trabalham em 5 Regiões Metropolitanas e no Distrito Federal. Das regiões estudadas, aquela que apresenta o maior percentual de jovens sem carteira assinada, dentre os jovens que são assalariados do setor privado, é: Belo Horizonte; Distrito Federal; Recife; Salvador; São Paulo. Distribuição dos jovens ocupados, de 16 a 24 anos, segundo posição na ocupação Fonte: 2.9 Regiões Metropolitanas e Distrito Federal – 2005 (em porcentagem) Regiões Metropolitanas e Distrito Federal Assalariados Autônomos Total Setor privado Empregado doméstico Outros Total Com carteira assinada Sem carteira assinada Setor público Total Trabalha para o público Trabalha para empresas Belo Horizonte 79,0 72,9 53,2 19,7 6,1 12,5 7,9 4,6 7,4 (1) Distrito Federal 80,0 69,8 49,0 20,8 10,2 9,8 5,2 4,6 7,1 (1) Porto Alegre 86,0 78,0 58,4 19,6 8,0 7,7 4,5 3,2 3,0 (1) Recife 69,8 61,2 36,9 24,3 8,6 17,5 8,4 9,1 7,1 (1) Salvador 71,6 64,5 39,8 24,7 7,1 18,6 14,3 4,3 7,2 (1) São Paulo 80,4 76,9 49,3 27,6 3,5 11,3 4,0 7,4 5,3 (1) Convênio DIEESE/Seade, MTE/FAT e convênios regionais. PED – Pesquisa de Emprego e Desemprego. Elaboração: DIEESE. (ENADE/2012) A tabela abaixo apresenta a taxa de rotatividade no mercado formal brasileiro entre 2007 e 2009. Com relação a esse mercado, sabe-se que setores como o da construção civil e o da agricultura têm baixa participação no total de vínculos trabalhistas e que os setores de comércio e serviços concentram a maior parte das ofertas. A taxa média nacional é a taxa média de rotatividade brasileira no período, excluídos transferências, aposentadorias, falecimentos e desligamentos voluntários. Taxa de rotatividade por setores de atividade econômica: 2007-2009 Setores Taxa de rotatividade (%), excluídos transferências, aposentadorias, falecimentos e desligamentos voluntários 2007 2008 2009 Total 34,3 37,5 36,0 Extrativismo mineral 19,3 22,0 20,0 Indústria de transformação 34,5 38,6 36,8 Serviço industrial de utilidade pública 13,3 14,4 17,2 Construção civil 83,4 92,2 86,2 Comércio 40,3 42,5 41,6 Serviços 37,6 39,8 37,7 Administração pública direta e autárquica 8,4 11,4 10,6 Agricultura, silvicultura, criação de animais, extrativismo vegetal 79,9 78,6 74,4 Disponível em: <http://portalmte.gov.br>. Acesso em: 12 jul. 2012 (adaptado). I. II. III. IV. a) b) c) d) e) 2.10 I. II. III. IV. a) b) c) d) e) Com base nesses dados, avalie as afirmações seguintes. A taxa média nacional é de, aproximadamente, 36%. O setor de comércio e o de serviços, cujas taxas de rotatividade estão acima da taxa média nacional, têm ativa importância na taxa de rotatividade, em razão do volume de vínculos trabalhistas por eles estabelecidos. As taxas anuais de rotatividade da indústria de transformação são superiores à taxa média nacional. A construção civil é o setor que apresenta a maior taxa de rotatividade no mercado formal brasileiro no período considerado. É correto apenas o que se afirma em: I e II; I e III; III e IV; I, II e IV; II, III e IV. (ENADE/2013) Na tabela a seguir, é apresentada a distribuição do número de empregos formais registrados em uma cidade brasileira, consideradas as variáveis setores de atividade e gênero, de acordo com a Relação Anual de Informações Sociais (RAIS). Com base nas informações da tabela apresentada, avalie as afirmações a seguir. O setor com o melhor desempenho em termos percentuais foi o da Administração Pública, com a geração de 7.490 postos de trabalho entre 2010 e 2011. De uma forma geral, comparando-se os dados de gênero, as mulheres vêm ocupando mais postos
Compartilhar