Introdução À Estatística - Aplicações Em Ciências Ex

•

FUPAC UBÁ

Tulio

12/05/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 201 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Estatística

10.193 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

As autoras e a editora empenharam-se para citar adequadamente e dar o devido crédito a todos os detentores dos direitos autorais de
qualquer material utilizado neste livro, dispondo-se a possíveis acertos caso, inadvertidamente, a identificação de algum deles tenha sido
omitida.
Não é responsabilidade das autoras nem dos autores a ocorrência de eventuais perdas ou danos a pessoas ou bens que tenham origem no
uso desta publicação.
Apesar dos melhores esforços das autoras, do editor e dos revisores, é inevitável que surjam erros no texto. Assim, são bem-vindas as
comunicações de usuários sobre correções ou sugestões referentes ao conteúdo ou ao nível pedagógico que auxiliem o aprimoramento de
edições futuras. Os comentários dos leitores podem ser encaminhados à LTC — Livros Técnicos e Científicos Editora pelo e-mail
ltc@grupogen.com.br.
Direitos exclusivos para a língua portuguesa
Copyright © 2017 by
LTC — Livros Técnicos e Científicos Editora Ltda.
Uma editora integrante do GEN | Grupo Editorial Nacional
Reservados todos os direitos. É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por
quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na internet ou outros), sem permissão expressa da editora.
Travessa do Ouvidor, 11
Rio de Janeiro, RJ — CEP 20040-040
Tels.: 21-3543-0770 / 11-5080-0770
Fax: 21-3543-0896
ltc@grupogen.com.br
www.ltceditora.com.br
Designer de capa: Nilton Masoni
Produção digital: Geethik
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
M393i
Mattos, Viviane Leite Dias de
Introdução à estatística: aplicações em ciências exatas / Viviane Leite Dias de Mattos,Andréa Cristina Konrath, Ana Maria Volkmer
de Azambuja. – 1. ed. – Rio de Janeiro : LTC, 2017.
Inclui apêndice
Inclui bibliografia e índice
ISBN 978-85-216-3354-9
1. Estatística. I. Konrath, Andréa Cristina. II. Azambuja, Ana Maria Volkmer de. III. Título.
16-37255 CDD: 519.5
CDU: 519.2
1
1.1
1.2
1.3
1.3.1
1.4
1.4.1
1.4.2
1.4.3
1.4.4
1.5
1.6
2
2.1
2.2
2.2.1
2.2.2
2.3
2.4
2.5
2.6
3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
SUMÁRIO
Prefácio
Introdução
Breve histórico da estatística
Por que estudar estatística?
A pesquisa estatística
Fases da pesquisa estatística
Explorando conceitos da estatística
População e amostra
Tipos de variáveis
Confiabilidade dos dados
Arredondamento de dados
Software estatístico
Considerações finais
Aplicações
Representação Tabular
Descrição e exploração de dados
Tabelas de frequências
Dados qualitativos
Dados quantitativos
Dados quantitativos discretos
Tipos de frequências
Dados quantitativos contínuos
Considerações finais
Aplicações
Representação Gráfica
Introdução
Tipos de gráficos
Diagramas
Diagrama em colunas
Diagrama em barras
Diagrama em setores
Diagrama polar
Diagrama em linhas
Histograma
Polígono de frequência
Ogiva
3.12
3.13
3.14
3.15
3.16
4
4.1
4.2
4.3
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7
4.3.8
4.3.9
4.4
4.4.1
4.4.2
4.4.3
4.5
4.6
5
5.1
5.2
5.2.1
5.2.2
5.2.3
5.2.4
5.2.5
5.3
5.3.1
5.4
5.5
6
6.1
6.2
6.3
6.3.1
6.3.2
6.3.3
6.3.4
Ramo e folhas
Diagrama de dispersão
Diagrama de Pareto
Escala logarítmica
Considerações finais
Aplicações
Medidas de Posição
Introdução
Medidas de posição
Medidas de tendência central
Média aritmética simples
Média aritmética ponderada
Propriedades da média aritmética
Média harmônica
Média geométrica
Relação entre médias
Moda
Mediana
Utilização das medidas de tendência central
Separatrizes ou quantis
Quartis
Decis
Percentis ou centis
Cálculo das medidas para dados agrupados
Considerações finais
Aplicações
Medidas de Dispersão
Introdução
Medidas de dispersão absoluta
Amplitude total
Desvio médio
Variância
Desvio padrão
Desvio interquartílico
Medidas de dispersão relativa
Coeficiente de variabilidade
Dados agrupados
Considerações finais
Aplicações
Propriedades de uma Distribuição
Introdução
Momentos
Assimetria
Coeficiente de assimetria de Pearson
Coeficiente de assimetria de Yule
Coeficiente de assimetria de Kelley
Coeficiente de assimetria de Fisher
6.4
6.4.1
6.4.2
6.5
6.6
6.6.1
6.6.2
6.6.3
6.6.4
6.7
6.8
6.9
7
7.1
7.2
7.3
7.4
7.5
7.6
8
8.1
8.2
8.3
8.3.1
8.3.2
8.3.3
8.4
8.5
9
9.1
9.2
9.3
9.4
9.5
Curtose
Coeficiente de curtose a partir dos momentos
Coeficiente percentílico de curtose
Outlier ou valor fora do padrão
Métodos gráficos para avaliação de algumas propriedades
Histograma
Ramo e folhas
Box plot ou diagrama de caixas
Diagrama dos quantis
Transformações matemáticas
Transformação z
Considerações finais
Aplicações
Análises de Correlação
Introdução
Diagrama de dispersão
Coeficiente de correlação linear de Pearson
Correlação linear por postos ou Spearman
Coeficiente de contingência modificado
Considerações finais
Aplicações
Análise Exploratória de Dados
Introdução
Análise exploratória de dados
O caso da montadora Toyord
Variáveis qualitativas: modelo adquirido e opcionais solicitados
Variáveis quantitativas: idade do cliente e renda declarada
Associação entre variáveis qualitativas e quantitativas
Teste de resistência em concreto
Considerações finais
A Estatística Utilizando o Software R
Importância de um software estatístico
O software R
Comandos básicos
A Estatística com a utilização do software R
Considerações finais
Apêndice I – Lista de símbolos
Apêndice II – Considerações sobre quantis
Apêndice III – Respostas
Anexo – Banco de dados: Megamontadora Toyord
Referências
PREFÁCIO
Este livro, introdutório ao aprendizado da Estatística, é resultado de nossa experiência como professoras em Instituições de
Ensino Superior, onde ministramos disciplinas de Probabilidade e Estatística, oferecidas a cursos de graduação e pós-graduação
em diversas áreas do conhecimento.
Ele foi elaborado com o objetivo de apresentar os conteúdos de maneira amigável, sem se afastar muito do rigor
matemático. Apresenta técnicas de Estatística Descritiva, que são usadas para organizar e resumir informações, e faz algumas
considerações sobre Análise Exploratória de Dados e Análise de Correlação. Além da abordagem conceitual formal, o livro
apresenta diversas aplicações, principalmente nas áreas de Ciências Exatas e Engenharia, em sua maioria oriundas de atividades
extraclasse desenvolvidas nas disciplinas ministradas.
Os conteúdos estão organizados em nove capítulos, complementados por apêndices, anexo, índice remissivo e referências
bibliográficas. Em cada capítulo, procurou-se fazer a construção do conhecimento estatístico mostrando os fundamentos dos
diversos conceitos e técnicas, com respectivas fórmulas e cálculos, de maneira simples e objetiva, mas não superficial. Os
diversos conceitos são apresentados acompanhados de exemplos, com a respectiva solução passo a passo. Aplicações
elaboradas a partir de um banco de dados também foram propostas. Ao final de cada capítulo, foi feita uma síntese,
evidenciando os principais conceitos apresentados, que é seguida de uma lista de exercícios com algumas aplicações práticas.
A obra pode servir como livro-texto ou como referencial bibliográfico para disciplinas de Estatística, oferecidas a cursos de
graduação e pós-graduação que abordem os conteúdos apresentados. Também pode ser utilizado por professores do ensino
médio, assim como por profissionais que tomam decisões baseadas em informações.
Gostaríamos de agradecer a todas as pessoas que contribuíram direta ou indiretamente para a elaboração deste texto. Entre
elas, destacamos Débora Spenassato, autora do capítulo sobre o software R, e Leonardo da Costa Coelho, que revisou os
exercícios. Também gostaríamos de agradecer a todos os nossos alunos pela apresentação de suas dúvidas e questionamentos
durante nossas aulas e, em especial, àqueles que disponibilizaram dados de seus trabalhos didáticos.
Também gostaríamos de solicitar aos leitores que entrem em contato conosco para dar sua opinião sobre o texto, além de
sugestões, críticas e correções de eventuais erros. Isso certamente contribuirá para a melhoriada próxima edição.
O contato com as autoras pode ser feito pelos e-mails:
vivianemattos@furg.br; andrea.ck@ufsc.br; anaazambuja@furg.br.
1.1
1
INTRODUÇÃO
Breve histórico da estatística
Não se sabe ao certo a origem da palavra estatística. Ela pode ter vindo da expressão latina statisticum collegium, que
significa “Conselho de Estado”; da palavra italiana statista, que significa “homem de Estado” ou “político”; ou da palavra latina
status, que significa “Estado”. Acredita-se que tenha sido introduzida, inicialmente, pelo alemão Gottfried Achenwall (1719-
1772), um importante continuador dos estudos de Hermann Conrig (1606-1681) (ESTATÍSTICA UFRN, 2012). Gottfried, que
era filósofo, historiador, economista, jurista e estatístico, determinou os objetivos da estatística e suas relações com as demais
ciências. Essa primeira definição para a estatística versava, até aquele período, sobre a coleta, análise e organização de dados
para serem fornecidos ao Estado, os quais quase exclusivamente demográficos e econômicos. Somente em 1797 a palavra
estatística apareceu como vocabulário na Enciclopédia Britânica (ESTATÍSTICA UFRN, 2012).
Desde a Antiguidade, vários povos já faziam estimativas, coletando e organizando dados referentes a número de
nascimentos e óbitos, número de habitantes, assim como de riquezas pessoais e sociais. No antigo Egito, por exemplo, os faraós
fizeram uso sistemático da informação de caráter estatístico, conforme evidenciam pesquisas arqueológicas. Algo similar
acontecia com as civilizações pré-colombianas dos Maias, Astecas e Incas. Do mesmo modo, na China, no Japão, na Índia
Antiga e na cidade de Roma, foram encontrados registros de recenseamentos, com o objetivo principal de conhecer a população,
principalmente para fins tributários e militares (FERREIRA; TAVARES, 2013).
Conforme Bédarida et al. (1987), apud Ferreira e Tavares (2013), pode-se atribuir ao grego Aristóteles o princípio da
estatística descritiva, pois ele não se contentava apenas com a descrição da cidade, do país, do governo ou do Estado de um
modo distinto e único, mas se preocupava com a comparação de Atenas a outros Estados.
No século XVI, o estudo dos acontecimentos sociais adquiriu aspecto científico, as tabelas tornaram-se mais complexas e
completas, surgiram representações gráficas e o cálculo de probabilidades. A estatística passou a ser utilizada para tirar
conclusões e não apenas como coleta de informação. Começou a se tornar uma área do conhecimento independente do Estado.
Os denominados “jogos de azar”, apesar de usados desde as Civilizações Antigas, como mostram vários documentos de
tipo arqueológico ou histórico, nunca haviam sido objeto de estudo até a Idade Média (FERREIRA; TAVARES, 2013).
Segundo esses autores, a abordagem matemática do acaso, do azar e do risco só se iniciou há pouco mais de 500 anos. A
disciplina que assim foi constituída, a Teoria das Probabilidades, nasceu das tentativas de quantificação dos riscos dos seguros e
de avaliar as possibilidades de se ganhar em jogos de azar. No século XVI, os algebristas Pacioli, Cardano e Tartáglia
elaboraram as primeiras notações matemáticas sobre jogos de azar, limitando-se a resolver alguns problemas com dados
estritamente numéricos, não elaborando teoremas.
No século XVII, o primeiro grande problema das probabilidades foi proposto a Pascal pelo Cavaleiro de Meré. Tratava-se
de um jogo envolvendo três dados, e cuja lógica dos resultados Meré não conseguia entender. Pascal iniciou uma troca de
correspondência com Fermat, apresentando-lhe o problema; ambos, separadamente, chegaram a uma solução. A solução que
Fermat apresentou era mais abrangente que a de Pascal, razão pela qual o primeiro método geral do cálculo de probabilidades é
atribuído a Fermat. Esse marco abriu caminho para o advento da estatística moderna por meio da “Lei dos Grandes Números”
(FERREIRA; TAVARES, 2013).
Huygens (1629-1695) introduziu o conceito de “valor médio” ou “esperança” em 1654. Nesse mesmo ano, ocorreu o
desenvolvimento da geometria analítica e da teoria das probabilidades, conduzido por Abraham de Moivre (1667-1754). Na
1.2
área da Teoria das Probabilidades, os estudiosos que mais se destacaram foram Jacob Bernoulli, Thomas Bayes e Pierre Simon
Laplace (FERREIRA; TAVARES, 2013).
Data do século XVIII o surgimento de duas escolas, uma na Alemanha e outra na Inglaterra. A Escola Descritiva Alemã,
como ficou conhecida, teve como representante Gottfried Achenwall (1712-1772), a quem se atribui a criação do termo
estatística. Entretanto, a palavra utilizada na escola alemã denotava apenas o método utilizado nos estudos destinados à
descrição dos Estados políticos (FERREIRA; TAVARES, 2013). A segunda escola, a Escola de Aritméticos Políticos, foi
fundada na Inglaterra e desenvolvia estudo numérico dos fenômenos políticos e sociais. Nessa escola, surgiram alguns nomes
importantes como John Graunt e William Petty. O trabalho realizado por John Graunt (1620-1674) foi o estudo da mortalidade
na cidade de Londres e suas causas sociais e políticas, bem como o estudo da natalidade, tendo William Petty como colaborador
durante três anos. Eles são considerados os precursores para o advento da estatística moderna do início do século XX, uma vez
que foram os primeiros a tentar tirar conclusões e raciocinar a partir de dados numéricos. Podem-se citar ainda William Farr
(1807-1883), o primeiro a contribuir para a estatística médica, e Edmond Halley (1656-1742) e Richard Price (1723-1791), que
criaram os fundamentos da ciência atuária.
O surgimento da estatística moderna se deu em meados do século XIX. Os alemães Helmert (1843-1917) e Wilhelm Lexis
(1837-1914), o dinamarquês Thorvald Nicolai Thiele (1838-1910) e o inglês Francis Ysidro Edgeworth (1845-1926)
conseguiram resultados interessantes para o desenvolvimento da inferência estatística – muitos desses resultados, porém, só
foram entendidos posteriormente. No entanto, para Ferreira e Tavares (2013), o avanço determinante dessa ciência se deve a
Francis Galton (1822-1911), Karl Pearson (1857-1936), William S. Gosset (1876-1937) e, principalmente, a Ronald A. Fisher
(1890-1962).
Francis Galton é considerado o fundador da Escola Biométrica, tendo introduzido o conceito estatístico de correlação e a
sua medição por um coeficiente. Seus trabalhos eram fundamentados na medição quantitativa a partir da lei normal de Gauss.
Karl Pearson, matemático britânico, inicialmente se dedicou ao estudo da evolução de Darwin, aplicando os métodos
estatísticos e desenvolvendo a teoria de Galton. Pearson foi o fundador da Biometrika, revista até hoje conhecida
internacionalmente. Dentre as contribuições de Pearson, podemos citar o estudo das distribuições de frequência que não seguem
o modelo normal. Ele também instituiu o “método dos momentos” como método de estimação de parâmetros de uma
distribuição e o sistema de “curvas de frequência”, bastante utilizado na descrição matemática dos fenômenos naturais.
Ressalta-se que seus estudos levaram ao desenvolvimento da regressão e da correlação múltiplas. Além disso, desenvolveu a
teoria da correlação aplicada aos problemas de hereditariedade e da evolução, bem como o Teste qui-quadrado (FERREIRA;
TAVARES, 2013).
Outro matemático importante para a evolução da estatística moderna é o inglês William Sealey Gosset, mais conhecido
como Student. Ele trabalhou como químico na Cervejaria Guinness, onde fez várias experiências relacionadas com o controle de
qualidade da cerveja. Com a necessidade de manipular dados oriundos de pequenas amostras, extraídas para melhorar a
qualidade da bebida, Gosset desenvolveu o Teste t de Student, fundamentado na distribuição de probabilidades. Mais tarde, seu
trabalho seria reconhecido por Fisher, mas não por Pearson, para quem as pequenas amostras não tinham importância
(FERREIRA; TAVARES, 2013).
Um importante estatístico, considerado um dos fundadores da estatística moderna, foi Ronald Aylmer Fisher (1890-1962).
Formado em astronomia pela Universidadede Cambridge em 1912, contribuiu valiosamente para o desenvolvimento da
estatística, bem como para o da Genética. Seus trabalhos estavam voltados à teoria da evolução e seleção, sobretudo em
genética. Ele introduziu conceitos de planejamento de experimentos, aleatorização e análise da variância, que, nos dias atuais,
são bastante utilizados (FERREIRA; TAVARES, 2013).
De acordo com Rao (1999) apud Memória (2004), na segunda metade do século passado aconteceu uma mudança na
pesquisa estatística, fundamentada basicamente em modelos, para a utilização de métodos não paramétricos, aplicáveis a
amostras provenientes de qualquer distribuição, e para métodos paramétricos robustos, não influenciados por valores atípicos ou
pela contaminação de dados. Embora os métodos não paramétricos, baseados em estatísticas de postos (rank), sejam de fácil
utilização, não têm a eficiência dos métodos paramétricos.
Nas últimas décadas, a estatística tem se aperfeiçoado muito, principalmente em função do desenvolvimento da
computação, que atua como agente facilitador na operacionalização de diversas análises.
Por que estudar estatística?
Conforme a definição do Aurélio (2008), estatística é a parte da matemática em que se investigam os processos de
1.3
obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar
conclusões, possibilitando a realização de predições com base nesses dados.
Para Crespo (2002), a estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões.
De acordo com Reis e Lino (2013), para o estatístico Paul Velleman, a estatística é a ciência que permite obter conclusões
a partir de dados.
Conforme a ENCE – Escola Nacional de Ciências Estatísticas (2012), o que modernamente se conhece como ciências
estatísticas, ou simplesmente estatística, é um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o
planejamento do experimento/levantamento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a
análise e a disseminação das informações. O desenvolvimento e o aperfeiçoamento de técnicas estatísticas de obtenção e análise
de informações permitem o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do
conhecimento, tornando-se uma poderosa ferramenta para a tomada de decisão.
Esses conceitos fazem com que a estatística seja um instrumento de trabalho importantíssimo, fundamental para a
realização de pesquisas nas mais diversas áreas que envolvam dados/informações, permitindo, dessa forma, o desenvolvimento
da ciência. A estatística fornece um conjunto de métodos e técnicas que não só facilita a leitura e o entendimento dos dados
como permite fazer análises mais específicas e profundas, fazendo interpretações, inferências e previsões, além de tirar
conclusões. Assim, pelas suas características, pode ser aplicada em todas as áreas da ciência.
Na área tecnológica, a corrida espacial criou diversos problemas relacionados à posição de astronaves, cujos cálculos
dependem de teorias estatísticas mais avançadas. Essas informações, tais como sinais de satélite, são recebidas de forma
aleatória e incerta (ENCE, 2012).
Na engenharia agronômica, a estatística tem sido utilizada de forma constante em diferentes aplicações. A Empresa
Brasileira de Pesquisas Agropecuárias (EMBRAPA) utiliza métodos estatísticos visando ao aprimoramento de produtos
agrícolas para definir quais os modos mais eficientes de produzir alimentos (IGNÁCIO, 2010).
Técnicas estatísticas também são empregadas na área da saúde, permitindo definir a eficiência de um novo tratamento no
combate a determinada doença, por exemplo. Estas possibilitam a identificação de situações críticas, exercendo papel
fundamental no estudo da evolução e incidência de doenças, como, por exemplo, a AIDS (ENCE, 2012).
De acordo com Ignácio (2010), em diversos setores da indústria, tais como farmacêutico, químico, siderúrgico, têxtil e
alimentício, entre outros, as técnicas estatísticas são utilizadas desde a fase de definição dos produtos até a produção final, por
meio de pesquisas de mercado, controle de qualidade dos processos envolvidos, análise de custos e previsão de vendas.
Outro exemplo é o levantamento de informações sociais, demográficas e econômicas, realizado pelo IBGE (2013), que
envolve estatísticas de âmbito social e demográfico, estatísticas da agropecuária, estatísticas econômicas e índices de preços.
Dessa forma, estuda-se estatística porque é uma ferramenta essencial na tomada de decisão. Segundo Doane e Seward
(2012), Jon Kettenring, presidente da American Statistical Association, disse: “eu gosto de pensar na estatística como a ciência
de aprendizagem a partir dos dados”.
De modo geral, pode-se dizer que a estatística se divide em duas partes: a estatística descritiva, que se preocupa com a
descrição de dados, organizando-os e resumindo-os, e a estatística inferencial, que cuida da análise e interpretação dos dados
propriamente ditas. O ponto central da análise estatística moderna é a tomada de decisões sob condições de incerteza,
possibilitada pela estatística inferencial, que permite que suas conclusões transcendam os dados analisados. As técnicas
utilizadas com essa finalidade baseiam-se na teoria da probabilidade.
A pesquisa estatística
Alguns autores, entre os quais Crespo (2002) e Reis e Lino (2013), classificam a pesquisa estatística em pesquisa de
levantamento e pesquisa por experimento. Na pesquisa de levantamento são observadas as características ou fenômenos
presentes na população, com mínima intervenção por parte do pesquisador. Nesse tipo de pesquisa, não é possível evidenciar
relações de causa e efeito, apenas se medem as variáveis em estudo, sendo possível somente afirmar relações entre elas.
Na pesquisa experimental, o pesquisador tem um controle sobre as condições de pesquisa, conseguindo eliminar quase
todas as causas de variação mediante um planejamento do experimento (REIS; LINO, 2013). Dessa forma, a pesquisa
experimental é o único tipo de pesquisa que permite selecionar as variáveis capazes de influenciar a característica em estudo e
1.3.1
a)
b)
c)
d)
e)
f)
1.4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
definir as formas de controle e de observação dos efeitos que essas variáveis produzem nessa característica.
Fases da pesquisa estatística
Quando se pretende empreender um estudo estatístico, existem diversas fases da pesquisa que devem ser desenvolvidas
para a obtenção dos resultados finais do estudo. Essas etapas ou operações são chamadas fases da pesquisa estatística. Com base
em Crespo (2002), são elas:
definição do problema: determinação do que se quer pesquisar;
planejamento: definição dos procedimentos necessários para o desenvolvimento da pesquisa;
coleta de dados: obtenção, reunião e registro sistemático de dados, podendo ser direta ou indireta;
apuração dos dados: resumo dos dados, mediante a sua contagem ou agrupamento;
apresentação dos dados: pode ser por meio de tabelas, gráficos ou medidas;
análise e interpretação dos dados: conclusões que auxiliam na resolução do problema.
Conforme apresentado, a estatística está interessada nos métodos científicos para coleta, organização, resumo,
apresentação e análise dos dados, bem como na obtenção de conclusões válidas e na tomada de decisões baseadas nas análises
(SPIEGEL, 2009).
Explorando conceitos da estatística
De acordo com Reis (2012), a megamontadora fictícia Toyord conduz regularmente pesquisas de mercado com os clientes
que compraram carros zero km diretamente de suas concessionárias. O objetivo é avaliar a satisfação dos clientes em relação
aos diferentes modelos, design e adequação ao perfil. A última pesquisa foi encerrada em julho de 2010: foram 250 clientes
entrevistados de um total de 30.000 que adquiriram veículos novos no ano de 2012. A pesquisarestringiu-se aos modelos mais
vendidos e que já estão no mercado há dez anos. As dez variáveis pesquisadas foram:
modelo adquirido: a) o compacto Chiconaultla, b) o sedan médio DeltaForce3, c) a perua familiar Valentiniana, d) a
van SpaceShuttle ou e) o esportivo LuxuriousCar;
opcionais: a) inexistentes (apenas os itens de série), b) ar-condicionado e direção hidráulica, c) ar-condicionado,
direção hidráulica e trio elétrico, d) ar-condicionado, direção hidráulica, trio elétrico e freios ABS;
opinião sobre o design: se os clientes consideram o design do veículo comprado a) ultrapassado, b) atualizado ou c)
adiante dos concorrentes;
opinião sobre a concessionária onde comprou o veículo (incluindo atendimento na venda, manutenção programada e
eventuais problemas imprevistos): a) muito insatisfatória, b) insatisfatória, c) não causou impressão, d) satisfatória
ou e) bastante satisfatória;
opinião geral sobre o veículo adquirido: a) muito insatisfeito, b) insatisfeito, c) satisfeito ou d) bastante satisfeito;
renda declarada pelo cliente em salários mínimos;
número de pessoas geralmente transportadas no veículo;
quilometragem mensal média percorrida com o veículo;
percepção do cliente de há quantos anos o veículo comprado teve a sua última remodelação de design, em anos
completos (se há menos de um ano, o entrevistador anotou zero);
idade do cliente em anos completos.
O banco de dados anexo apresenta informações sobre os 250 consumidores investigados no último levantamento realizado
pela montadora Toyord. Na primeira coluna desse banco de dados foi registrado o código atribuído a cada consumidor. Essas
informações serão utilizadas para exemplificar alguns dos conceitos apresentados ao longo deste texto.
1.4.1
1.4.2
População e amostra
População é o conjunto de todos os itens, objetos ou pessoas, enfim, entes que se pretende analisar – razão pela qual devem
apresentar pelo menos uma propriedade em comum. Uma população pode ser formada por pessoas, famílias, estabelecimentos
comerciais ou industriais, contas-correntes, peças de uma linha de produção ou qualquer outro tipo de elemento.
Quando se analisa uma parte dessa população, tem-se uma “amostra”, que é subconjunto do todo. A amostra é definida
previamente e obtida com a consideração de alguns critérios, a fim de que seja significativa (quanto ao número de elementos) e
se mostre representativa, apresentando as mesmas propriedades da população. As melhores técnicas de amostragem são aquelas
que usam a ideia de aleatoriedade. O banco de dados anexo apresenta alguns dados sobre o perfil de 250 clientes da montadora
de automóveis Toyord: uma amostra.
Ao se realizar um levantamento de dados, deve ser definido se este será realizado em toda a população (“censo”) ou em
uma amostra dessa população (“levantamento por amostragem”). De maneira geral, opta-se pelo levantamento por amostragem
por ser mais rápido e mais econômico.
É bastante usual representar as observações de uma característica presente em toda a população por uma medida
denominada de “parâmetro”, obtida a partir de um conjunto de observações de todo o grupo, ou seja, a população. Os mais
utilizados para representar a população são: a média (µ), a variância (σ2) e a proporção de sucesso (π). Tratando-se de uma
amostra, tem-se a “estatística”, que é uma medida obtida para um subconjunto de observações ou amostra. As estatísticas mais
usuais para representar dados amostrais são as mesmas usadas para representar populações: a média ( ), a variância (s2) e a
proporção de sucesso (p), sendo representadas, entretanto, por símbolos distintos por apresentarem propriedades diferentes: um
parâmetro é uma constante, enquanto uma estatística é uma variável aleatória.
Tipos de variáveis
Variáveis são características estudadas em uma população ou amostra que podem assumir diferentes valores numéricos ou
categóricos. Dados ou observações são as informações inerentes às variáveis que caracterizam os elementos que constituem a
população ou a amostra em estudo. Por exemplo: quilometragem é uma variável; 530 km é um dado.
Uma variável é “qualitativa” quando seus resultados são expressos por atributos. Esses dados não têm a preocupação com a
quantificação, mas com a descrição das características, pois o ato de medir consiste em enquadrar o elemento mensurado em
uma classe ou categoria.
Uma variável “qualitativa” pode ser classificada em “nominal” ou “ordinal”, conforme a escala utilizada para a
categorização, que se diferenciam pela existência (“ordinal”) ou não (“nominal”) de hierarquia entre as categorias. Em uma
escala nominal, existe apenas a possibilidade de estabelecimento de relação de semelhança ou diferença entre os elementos
mensurados. Já na escala ordinal, além desse tipo de relação, também é possível estabelecer relação de superioridade ou
inferioridade entre os elementos mensurados.
Modelo do carro adquirido (Chiconaultla, SpaceShuttle, Deltaforce3...) é exemplo de variável qualitativa nominal. Se dois
clientes adquiriram o modelo SpaceShuttle, eles possuem carros semelhantes (mesmo modelo). Se um outro cliente adquiriu o
modelo Chiconaultla, ele possui um carro de modelo diferente.
Opinião geral sobre o veículo (muito insatisfeito, insatisfeito, satisfeito, bastante satisfeito) é exemplo de variável
qualitativa ordinal. Se um cliente está satisfeito e outro está bastante satisfeito, é possível concluir não apenas que eles
apresentam níveis de satisfação diferentes, como também que o primeiro está menos satisfeito que o segundo.
Outro tipo de variável é a “quantitativa”, quando o resultado da mensuração é um número. Se os valores numéricos
puderem ser enumerados, a variável é dita “discreta”; caso contrário, “contínua”. Em geral, é possível dizer que as medições
dão origem a variáveis contínuas e as contagens ou enumerações originam variáveis discretas.
Quantidade de pessoas geralmente transportadas no veículo {0,1,2,3,4,5}, quantidade de funcionários {0,1,2,...500},
quantidade de itens defeituosos/hora em uma linha de produção {0,1,2,3,...100}, quantidade de itens/dia produzidos por uma
máquina {0,1,2,3,...1.000}, quantidade de pessoas/hora que acessam determinado site {0,1,2,3...} são exemplos de variáveis
discretas.
Idade (em anos) dos funcionários de uma empresa {18 ≤ x ≤ 65}, salário (em unidades monetárias) dos mesmos {640,00 ≤
x ≤ 15.000,00}, tensão de ruptura (em MPa) de corpos de prova de concreto {10 ≤ x ≤ 12}, comprimento (em cm) de blocos
cerâmicos {18 ≤ x ≤ 20}, tempo (em minutos) de permanência em um site {0 ≤ x ≤ 10} são exemplos de variáveis contínuas.
1.4.3
Ao mensurar quantitativamente uma variável, podem ser utilizadas as escalas “intervalar” ou “de razão”, e o que as
diferencia é o significado do valor zero. A escala intervalar apresenta zero relativo (o resultado da mensuração é zero de acordo
com determinados critérios), enquanto a escala de razão apresenta zero absoluto (o zero representa o nada).
A temperatura, medida em graus centígrados, é um exemplo de escala intervalar. Quando a temperatura for zero grau
centígrado, não significa que não existe temperatura: ela existe e, de acordo com determinados critérios, seu valor é zero. No
caso de graus centígrados, o zero grau está associado à temperatura de solidificação da água. Nesse tipo de escala, além de ser
possível estabelecer relação de semelhança/diferença e superioridade/inferioridade, é possível comparar a intensidade das
diferenças entre dois resultados. Considere, por exemplo, as temperaturas: t1 = 2°C, t2 = 4°C e t3 = 8°C. É possível definir que:
– t1 ≠ t2 ≠ t3;
– t1 < t2 < t3;
– (t3 – t2) = 2(t2 – t1).
A distância medida em centímetros é um exemplo de escala de razão. Quando a distância for zero centímetro, isso significa
que ela não existe. Nesse tipo de escala, além das relações já citadas, também é possível comparar os valores entre si,
estabelecendo relações de dobro, triplo, metade etc. Sejam três distâncias: d1 = 2 cm, d2 = 4 cm e d3 = 8 cm. É possível definirque:
– d1 ≠ d2 ≠ d3;
– d1 < d2 < d3;
– (d3 – d2) = 2(d2 – d1);
– d2 = 2d1.
Confiabilidade dos dados
Ao resumir um conjunto de dados, deve-se observar se são consistentes, ou seja, verificar se os resultados estão de acordo
com o esperado, ou se alguma mudança relativamente forte pode ter ocorrido. Muitas vezes, tem-se uma expectativa em relação
aos dados, porém os resultados e a análise se apresentam diferentes do esperado. Tal fato de forma alguma invalida o estudo,
mas muito provavelmente contradirá uma ou mais hipóteses iniciais.
Durante a coleta de dados, deve-se sempre ter em mente que estes dependem do método utilizado. Muitas vezes,
especialmente na área da Engenharia, os dados são coletados por meio de um equipamento de medição, que é um dos elementos
que constituem um sistema de medição. O pesquisador deve saber como usá-lo corretamente, além de saber como analisar e
interpretar os resultados. Entretanto, devido às diversas fontes de variação que afetam um sistema de medição, leituras repetidas
sobre a mesma peça, por exemplo, podem não produzir um mesmo e idêntico resultado. Dessa forma, os efeitos das distintas
fontes de variação sobre o sistema de medição devem ser avaliados.
Uma das ferramentas utilizadas com essa finalidade são os estudos de “repetibilidade” e “reprodutibilidade” (R&R). Nos
estudos de R&R, o instrumento de medição é utilizado para medir, repetidas vezes, a grandeza de interesse. Conforme o VIM
(2012), podemos definir a repetibilidade como: condição de medição num conjunto de condições, as quais incluem o mesmo
procedimento de medição, os mesmos operadores, o mesmo sistema de medição, as mesmas condições de operação e o mesmo
local, assim como medições repetidas no mesmo objeto ou em objetos similares durante um curto período de tempo. Já a
reprodutibilidade é definida como: condição de medição num conjunto de condições, as quais incluem diferentes locais,
diferentes operadores, diferentes sistemas de medição e medições repetidas no mesmo objeto ou em objetos similares (VIM,
2012).
A repetibilidade estima a variabilidade dos resultados obtidos por um mesmo operador, usando o mesmo equipamento de
medição segundo um mesmo procedimento. Pode-se interpretar a repetibilidade como a menor variabilidade que pode ser
entregue por um sistema de medição. Uma repetibilidade ruim pode estar relacionada à manutenção falha ou à falta de robustez
do equipamento de medição, local inadequado para a realização da medição, ou, ainda, a uma variação dentro da própria
amostra.
Por outro lado, a reprodutibilidade avalia, caso diferentes operadores sejam envolvidos no estudo, a variabilidade das
1.4.4
a)
b)
1.5
médias das medições feitas por operador. Tem-se, assim, uma indicação da robustez do sistema de medição, do grau de
treinamento dos operadores, da uniformidade dos métodos empregados pelos operadores (AMERICAN SOCIETY FOR
QUALITY CONTROL, 2010).
Em suma, o pesquisador deve estar bastante atento aos seus dados e, em especial, a como foram coletados.
Arredondamento de dados
Arredondar um número significa reduzir a quantidade de algarismos significativos após a vírgula. Esse procedimento deve
ser feito de maneira padronizada para diminuir os erros por arredondamento, principalmente quando o volume de números a
arredondar é grande.
Essa padronização, determinada pelo Instituto Nacional de Pesos e Medidas (INPM, 1965), conforme a Portaria no 36, de 3
de agosto de 1965, estabelece as regras apresentadas a seguir:

Regra 1: Quando o primeiro algarismo a ser desprezado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer.
Exemplo 1.1: 2,34856 = 2,3
Exemplo 1.2: 8,1213 = 8,121
Regra 2: Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer.
Exemplo 1.3: 2,2734 = 2,3
Exemplo 1.4: 7,586 = 7,59
Regra 3: Se o algarismo à direita do último dígito que se pretende representar for igual a 5, tem-se as seguintes situações:
acrescenta-se uma unidade ao último dígito representado e desprezam-se os demais dígitos à direita se este dígito for ímpar;
somente são desprezados os demais dígitos à direita se este dígito for originalmente par ou zero.
Exemplo 1.5: 4,1415926 = 4,142
Exemplo 1.6: 11,625 = 11,62
Observação 1.1: Cabe lembrar que não se devem realizar arredondamentos sucessivos.
Software estatístico
O software estatístico é de suma importância tanto no meio acadêmico como no empresarial, quer pela sua facilidade de
utilização, quer pela eficiência no tratamento de grandes conjuntos de dados. Atualmente, há uma concordância entre os
educadores de que as disciplinas de estatística devem ser auxiliadas por algum tipo de tecnologia para reduzir a necessidade de
execução de cálculos manuais e fornecer aos alunos o acesso a conjuntos de dados de casos práticos e situações reais
(BECKER, 1996; MALTBY, 2001; SCHUYTEN; THAS, 2007; VERZANI, 2008; GOULD, 2010). Entretanto, o uso de um
software estatístico, em processos de aprendizagem, deve ser fundamentado por certo conhecimento das técnicas estatísticas
envolvidas ou conduzido por quem possui esses conhecimentos (ALVES; CUNHA, 2013).
Existem diversos softwares estatísticos, alguns de uso gratuito. Entre os gratuitos destacam-se: INSTAT, Biostat, R e
SEstatNet. Entre os pagos destacam-se: Minitab, SAS, SPSS e Statistica.
O INSTAT é um pacote estatístico geral. É simples o suficiente para ser útil no ensino da estatística, como também pode
auxiliar a pesquisa que requer uma análise de dados. Tem sido amplamente utilizado no Reino Unido e em outros lugares por
uma série de empresas, institutos de pesquisa, escolas, faculdades e universidades. Também tem sido utilizado como apoio em
cursos de estatística e cursos relacionados a agricultura, saúde e climatologia (INSTAT, 2013).
O Biostat é um software desenvolvido por professores da Universidade Federal do Pará e possui vários pacotes estatísticos
de fácil aplicabilidade para iniciantes. De acordo com Ayres et al. (2007), autores do software, seu uso é bastante facilitado,
principalmente pelo help do programa, que, na verdade, é um livro de apoio. Nele podem ser encontrados diversos testes
1.6
estatísticos, dimensionamento de amostras e tipos de experimento. Ainda, para facilitar sua aprendizagem e consequente
utilização, cada procedimento abordado em cada pacote vem acompanhado de um exemplo.
O R é uma linguagem e um ambiente de software livre para análises estatísticas. É muito utilizado porque, além de ser um
software livre, pode ser usado sem custos de licença, contendo versões para Windows, MacOS, GNU/Linux e Unix. Seu
download pode ser feito diretamente da Internet por meio do site do CRAN (Comprehensive R Archive Network) – Rede
Completa de Arquivos do R – no endereço: <http://www.r-project.org>. Conforme Kataoka et al. (2008), o R é o resultado de
um trabalho de pesquisadores de vários locais do mundo, dos quais podem-se destacar: estatísticos, engenheiros de software,
dentre outros profissionais. Nesse software, existe uma grande diversidade de pacotes que contêm um conjunto de funções que
permitem ou facilitam a realização das análises estatísticas. No Capítulo 9 deste livro, podem ser encontradas algumas
informações interessantes sobre a sua utilização.
O SEstatNet é um ambiente on-line que pode contribuir para o processo de ensino-aprendizagem de estatística. Conforme
Nassar et al. (2014), ele oferece procedimentos de descrição, estimação, testes de hipóteses e modelos de regressão para
variáveis qualitativas e quantitativas. O processo dinâmico de ensino-aprendizagem possibilita, em cada sessão, que o estudante
aprenda os conceitos estatísticos aplicando-os aos seus próprios dados. Além disso, a aprendizagem é livre, uma vez que os
conteúdos não têm uma sequência pré-definida de apresentação (NASSAR et al., 2014).
O Minitab é um software estatístico que se caracteriza pela simplicidade e interface amigável. Conforme Alves e Cunha
(2013), esse software oferece um grandenúmero de procedimentos para análise estatística de dados, permitindo obter
estatísticas descritivas, simulações e distribuições, inferência estatística, análise da variância, regressão, análise de dados
categóricos, testes não paramétricos, análise de séries temporais, ferramentas de planejamento de experimentos e ferramentas de
controle de qualidade, bem como vários tipos de gráficos.
O SAS (Statistical Analysis System) é um sistema integrado de aplicações para o processamento e a análise estatística de
dados. De acordo com Alves e Cunha (2013), o programa trabalha com quatro formas básicas sobre os dados: acessar,
manipular, analisar e apresentar. O núcleo de todo o sistema é o SAS base, o qual permite criar tabelas e proceder à
manipulação dos dados. Um de seus pontos fortes é o fornecimento de ferramentas para simulação.
O SPSS (Statistical Package for the Social Sciences) é um software para análise estatística de dados. Possui uma interface
muito amigável, que se utiliza de menus, janelas e caixas de diálogo e permite realizar cálculos complexos e visualizar seus
resultados de forma simples. Inicialmente, o SPSS foi desenvolvido para tratar dados da área de ciências sociais, mas
atualmente é muito utilizado nos meios acadêmico e empresarial (ALVES; CUNHA, 2013). É comercializado em módulos, e o
mais simples, o módulo básico, permite executar tabulações, cruzamentos, gráficos, cálculo de medidas, testes de hipóteses
paramétricos e não paramétricos, regressão e correlação, entre outros.
O software Statistica é desenvolvido pela Statsoft. Conforme Alves e Cunha (2013), é um aplicativo que inclui estatísticas
descritivas, correlações, testes t e outros testes para as diferenças entre grupos, tabelas de frequências, cruzamentos, métodos de
regressão múltipla, métodos não paramétricos, rotinas de Anova/Manova, módulos de ajustamento das distribuições e um vasto
conjunto de ferramentas para gráficos. Ainda contempla módulos adicionais compostos por modelos lineares/não lineares
avançados, técnicas exploratórias multivariadas, gráficos para controle de qualidade, índices de capacidade de processo e
planejamento de experimentos, dentre outros (ALVES; CUNHA, 2013). Esse software se destaca pela qualidade dos gráficos
construídos.
Existem vários softwares estatísticos. A escolha do mais indicado para auxiliar em uma análise a ser desenvolvida depende
de algumas de suas propriedades, bem como do conhecimento e do bom senso do pesquisador.
Considerações finais
Neste capítulo foram apresentados alguns conceitos fundamentais da estatística. De maneira geral, é possível dividir a
pesquisa estatística em dois tipos: pesquisa de levantamento e pesquisa por experimento, que devem obedecer a algumas fases:
definição do problema, planejamento, coleta de dados, apuração e apresentação de dados e análise dos resultados. A
generalização dos resultados fica a cargo da estatística indutiva ou inferencial. Foram também apresentados alguns conceitos
básicos, como: população, que compreende todo o conjunto a ser pesquisado; amostra, que é um subconjunto da população;
variáveis, que são as características investigadas; e dados ou observações, que são as informações obtidas.
As variáveis podem ser classificadas como qualitativas (nominal ou ordinal) ou quantitativas (discreta ou contínua) e ainda
podem ser classificadas em função do nível de mensuração: nominal, ordinal, intervalar e razão. Foram também apresentadas
algumas considerações sobre a precisão dos dados e ferramentas que possam auxiliar o pesquisador no desenvolvimento de suas
1.3
a)
b)
c)
d)
e)
f)
g)
1.1
1.2
1.4
análises estatísticas: os softwares estatísticos. Vale salientar que vai do bom senso do pesquisador usufruir dessas ferramentas
que não substituem o conhecimento das técnicas estatísticas utilizadas.
Aplicações
Conceitue, exemplificando: a) população; b) amostra.
Como a pesquisa estatística pode ser classificada? Explique essa classificação.
A descrição de determinadas características de um grupo pertence a que parte da estatística? Que técnicas podem ser
utilizadas?
Classifique as variáveis em qualitativa (nominal ou ordinal) ou quantitativa (contínua ou discreta):
População: alunos de uma universidade.
Variável: cor dos cabelos (louro, castanho, ruivo, preto).
População: funcionários de uma empresa.
Variável: escolaridade (ensino fundamental, ensino médio, ensino superior, pós-graduação).
População: peças produzidas por certa máquina.
Variável: diâmetro externo (2 mm ≤ x ≤ 4 mm).
População: estação meteorológica de uma cidade.
Variável: precipitação pluviométrica, durante um ano (250 mm ≤ x ≤ 300 mm).
População: Bolsa de Valores de São Paulo.
Variável: quantidade de ações negociadas (0,1,2,3,...).
População: pregos produzidos por uma máquina.
Variável: comprimento (1,5 cm ≤ x ≤ 2,8 cm).
População: aparelhos produzidos em uma linha de montagem.
Variável: número de defeitos por unidade (0,1,2,3,...).
2.1
2.2
2.2.1
2
REPRESENTAÇÃO TABULAR
Descrição e exploração de dados
Ao fazer um levantamento de dados, obtém-se um volume muito grande de informações que, para serem mais facilmente
entendidas, precisam ser organizadas e resumidas. Para tanto, extrai-se o máximo de informação não apenas em relação à
variável investigada propriamente dita, como também em relação a algumas de suas propriedades: forma da distribuição,
tendência central, variabilidade, presença de lacunas e de outliers (valores fora do padrão).
Nessas situações são especialmente indicadas as tabelas estatísticas, além de técnicas gráficas, como o histograma, e
técnicas analíticas, que se utilizam de medidas descritivas.
Tabelas de frequências
Normalmente, o resumo dos dados se inicia com a construção de tabelas estatísticas. Uma tabela é uma disposição de
dados sistemática, simples e clara, em linhas e colunas. Elas conseguem resumi-los em pequeno espaço, facilitando sua
compreensão e análise, bem como sua comparação com outras informações. Podem ser utilizadas simplesmente em caráter
informativo, em forma de síntese, como também podem consistir na primeira etapa de uma análise estatística mais sofisticada.
Apresentam a vantagem de serem mais breves que as exposições descritivas e mais exatas que as representações gráficas.
As tabelas são organizadas com pelo menos cinco partes: título, cabeçalho, coluna indicadora, corpo e fonte. O “título”
deve ser colocado em cima da tabela, apresentando o fato estudado, o local e a época em que foram registrados os dados, da
forma mais clara possível. Podem ser incluídos subtítulos que devem ser apresentados do geral para o particular. Logo abaixo
do título, aparece o “cabeçalho”, indicando o que cada coluna contém, podendo ser representado por uma única linha ou várias,
quando existirem subdivisões da série apresentada. Nesse caso, também se deve partir do geral para o particular. A “coluna
indicadora” é a primeira coluna da tabela e indica o que cada linha contém, enquanto o “corpo” é a parte numérica da tabela,
onde estão as informações propriamente ditas. Já a “fonte” é o organismo responsável pelas informações contidas na tabela,
aparecendo logo abaixo desta.
Quando necessário, as tabelas também podem apresentar “notas” ou “observações de rodapé”. Essas são informações de
natureza geral ou específica, que servem para esclarecer ou conceituar alguma parte ou a totalidade do conteúdo da tabela. No
caso de se relacionar apenas a uma parte, deverá ser indicado por um número arábico entre parênteses à esquerda do valor.
Essas notas ou observações podem vir abaixo da fonte. Mais detalhes sobre formatação de tabelas podem ser encontrados em
INSTITUTO PARANAENSE DE DESENVOLVIMENTO ECONÔMICO E SOCIAL (2000b).
A construção de tabelas deve obedecer a alguns critérios, conforme tratem de dados qualitativos ou quantitativos.
Considere os dados apresentados no anexo deste livro, já mencionados no capítulo anterior, que se referem aos dados
brutos coletados e que compõem uma amostra a ser analisada. Obanco de dados fornece informações sobre clientes da
montadora de automóveis Toyord e serve para ilustrar os conceitos apresentados neste capítulo.
Dados qualitativos
Tabela 2.1 –
Fonte:
Tabela 2.2 –
Fonte:
Dados qualitativos são dados categóricos. Para sua tabulação, basta associar cada categoria a um valor que informa o
número de vezes que ela apareceu no conjunto de dados. Se a escala for nominal, a apresentação das informações é ordenada
pela frequência de ocorrência das categorias (normalmente ordem decrescente); caso seja ordinal, pela hierarquia existente entre
as categorias (normalmente ordem crescente).
A Tabela 2.1 apresenta a distribuição de frequência dos veículos comercializados, de acordo com o modelo, ficando
evidenciado que entre os 250 veículos da amostra, o modelo mais frequente foi o Chiconaultla (32,8%), seguido do DeltaForce3
(24,0%) e do SpaceShuttle (19,6%). O modelo menos comercializado foi o LuxuriousCar, apenas 23 veículos (9,2%).
Em uma mesma tabela, podem ser apresentados dados referentes a duas variáveis qualitativas, sendo construídas as
chamadas tabelas de contingência ou de dupla entrada. Por meio dessas, é possível representar uma distribuição conjunta de
frequências, estudando a sua associação. A Tabela 2.2 apresenta uma distribuição de frequências conjunta das variáveis modelo
e opinião geral sobre a qualidade do veículo adquirido.
Distribuição dos veículos comercializados de acordo com o modelo, Toyord, 2012
Modelo Veículos Percentual
Chiconaultla 82 32,8
DeltaForce3 60 24,0
SpaceShuttle 49 19,6
Valentiniana 36 14,4
LuxuriousCar 23 9,2
Total 250 100
Banco de dados anexo.
Distribuição dos veículos comercializados de acordo com o modelo e satisfação do cliente, Toyord, 2012
Modelo
Quantidade de clientes
Muito
insatisfeito
Insatisfeito Satisfeito Muito satisfeito Total
Chiconaultla 68 12 1 1 82
DeltaForce3 26 29 5 0 60
SpaceShuttle 7 26 14 2 49
Valentiniana 7 6 12 11 36
LuxuriousCar 1 5 3 14 23
Total 109 78 35 28 250
Banco de dados anexo.
Ao construir uma tabela de contingência, o interesse pode estar nos percentuais de cada célula do cruzamento, sendo
possível calculá-los em relação aos totais das linhas, aos totais das colunas e ao total geral. Esses valores são muito úteis para
avaliar associações. Na Tabela 2.3 são apresentadas frequências percentuais calculadas em relação ao total das linhas.
A análise desses valores evidencia que, na amostra investigada, composta por 250 clientes, modelo adquirido e satisfação
do cliente, parecem estar associados. Os clientes que possuem o modelo Chiconaultla parecem estar mais insatisfeitos que os
demais, pois 83% dos clientes que adquiriram esse modelo estão muito insatisfeitos. Já os clientes mais satisfeitos parecem ser
os que adquiriram o modelo Luxurious, pois 61% estão muito satisfeitos.
Tabela 2.3 –
Fonte:
2.2.2
2.3
Tabela 2.4 –
Distribuição dos veículos comercializados de acordo com o modelo e satisfação do usuário, Toyord, 2012
Modelo
Percentual de clientes (%)
Muito
insatisfeito
Insatisfeito Satisfeito Muito satisfeito Total
Chiconaultla 83 15 1 1 100
DeltaForce3 43 48 8 0 100
LuxuriousCar 4 22 13 61 100
Valentiniana 19 17 33 31 100
SpaceShuttle 14 53 29 4 100
Total 44 31 14 11 100
Banco de dados anexo.
Dados quantitativos
Dados quantitativos são dados numéricos. Um conjunto de dados referente a uma variável quantitativa pode se apresentar
na forma bruta, em rol ou em tabelas de frequências. Têm-se dados brutos quando os dados originais (coletados) ainda não se
encontram numericamente organizados (ordenados). Os dados abaixo se referem às dez primeiras observações da idade dos
clientes em anos completos, apresentadas no banco de dados no anexo deste livro.
Dados brutos: {20, 20, 18, 18, 18, 21, 21, 19, 19, 19}
Se os valores forem dispostos em determinada ordem, crescente ou decrescente, tem-se um rol. As dez primeiras
observações referentes à idade dos clientes em anos completos, ordenadas crescentemente, fornecem o rol apresentado a seguir.
Rol: {18, 18, 18, 19, 19, 19, 20, 20, 21, 21}
A maneira de construir tabelas de frequência para dados quantitativos depende de os dados serem discretos ou contínuos, e,
no caso de serem discretos, do fato de existirem poucos ou muitos diferentes valores. Veja as Seções 2.3 e 2.5.
Dados quantitativos discretos
A tabulação de dados resultantes de variáveis discretas, quando não houver uma quantidade muito grande de diferentes
valores observados, pode ser feita da mesma forma que em uma distribuição de frequência de dados qualitativos ordinais.
Uma das variáveis apresentadas no banco de dados anexo é o número de pessoas, geralmente transportadas no veículo. A
variável “número de pessoas” é discreta, pois procede de uma contagem. A organização desses dados, mediante a construção de
uma distribuição de frequência, facilita sua compreensão, conforme pode ser visualizado na Tabela 2.4.
Distribuição dos veículos comercializados de acordo com a quantidade de pessoas que transporta usualmente,
Toyord, 2012
Número de pessoas (xi) Número de veículos (fi)
1 19
2 35
3 47
Fonte:
a)
b)
c)
2.4
Tabela 2.5 –
4 42
5 52
6 55
Total 250
Banco de dados anexo.
Nessa tabela observa-se que, na amostra investigada, 19 veículos transportam usualmente uma pessoa, 35 veículos
transportam usualmente duas pessoas, 47 veículos transportam usualmente três pessoas, e assim em diante.
Por convenção, denota-se por:
x (minúsculo) – a variável;
f (minúsculo) – a frequência simples absoluta;
o índice i para x e para f tem a finalidade de referência, indicando sua posição na tabela, ou seja, a i-ésima posição que
está associada a uma categoria ou classe. Se houver k categorias ou classes, então i = 1,2,3,...,k. Na Tabela 2.4, por
exemplo, x3 = 3 e f3 = 47.
Pela Tabela 2.4, observa-se que 55 veículos da amostra de 250 clientes da montadora de automóveis Toyord usualmente
transportam seis pessoas. Esse é um número absoluto, resultando da contagem feita dentre os 250 clientes. Existem outros tipos
de frequências, decorrentes desta frequência simples absoluta, que podem auxiliar na interpretação e análise dos dados
tabulados.
Tipos de frequências
A frequência simples absoluta da i-ésima classe ou categoria, denotada por fi, é o número de ocorrências de uma
categoria/valor em um conjunto de dados e simplesmente representa a quantidade de vezes que uma observação se repete nesse
conjunto.
Algumas vezes, tem-se interesse em conhecer essa frequência em termos relativos, expressando-a em relação ao total,
obtendo-se a (fri). Por definição, a frequência simples relativa da i-ésima classe ou categoria é dada por:
onde e k é a quantidade de categorias.
Frequentemente, este valor é expresso em percentagem, bastando multiplicá-lo por 100, obtendo-se a frequência simples
percentual (fpi). Por definição, a frequência simples percentual da i-ésima classe ou categoria é dada por:
Salienta-se que as Expressões 2.1 e 2.2 são resultado de uma regra de três, considerando o total (soma de todas as
frequências simples ou quantidade de dados) equivalente a, respectivamente, 1 ou 100%.
Na Tabela 2.5 são apresentadas frequências simples relativas e frequências simples percentuais na quarta e quinta colunas,
respectivamente.
Distribuição dos veículos comercializados, de acordo com a quantidade de pessoas que geralmente transporta,
com frequências absolutas, relativas e percentuais, simples e acumuladas
Fonte:
2.5
i xi fi fri fpi (%) faci facpi (%)
1 1 19 0,076 7,6 19 7,6
2 2 35 0,14 14 54 21,6
3 3 47 0,188 18,8 101 40,4
4 4 42 0,168 16,8 143 57,2
5 5 52 0,208 20,8 195 78
6 6 55 0,22 22 250 100
Total 250 1,0 100,0
Banco de dados anexo.
Observe que a soma das frequências relativas é 1, e a das frequências percentuais é 100, ou seja:
Suponha que se deseja saber a quantidade de clientes que possuem veículos que transportam duas pessoas ou menos, três
pessoas ou menos, e assim sucessivamente. Existe uma frequência chamada “frequênciaacumulada absoluta”, denotada por
faci, que dá essa informação. Por definição, a frequência acumulada absoluta da i-ésima classe ou categoria é dada por:
Na sexta coluna da Tabela 2.5 são apresentadas as frequências acumuladas absolutas.
Observação 2.1: A frequência acumulada da primeira classe ou categoria, localizada na primeira linha do corpo da tabela, será
sempre igual à frequência simples absoluta da mesma linha, e a frequência acumulada da última linha da tabela será sempre
igual ao total de dados observados.
Assim como na frequência simples absoluta, é possível conhecer o valor relativo e o valor percentual da frequência
acumulada, denominados, respectivamente, de “frequência acumulada relativa” (facri) e “frequência acumulada percentual”
(facpi), determinadas por:
Na sétima coluna da Tabela 2.5 são apresentadas as frequências acumuladas percentuais.
A interpretação dos dados é de suma importância por possibilitar um melhor entendimento das informações, o que é
facilitado pela utilização dessas frequências. Por exemplo, pelas informações da quarta linha da Tabela 2.5, é possível afirmar
que, dentre os 250 clientes, 42 possuem veículo que transporta exatamente quatro pessoas; 16,8% dos clientes possuem veículo
que transporta exatamente quatro pessoas; 143 clientes possuem veículo que transporta até quatro pessoas; 57,2% dos clientes
possuem veículo que transporta até quatro pessoas.
Dados quantitativos contínuos
Tabela 2.6 –
Fonte:
Até o presente momento, foi apresentada uma forma de organizar e resumir dados discretos. Para dados contínuos, deve-se
recorrer a tabelas de frequência com “intervalos de classe”. Essas são uma representação tabular dos dados e de suas frequências
similar à que vimos na seção anterior. A diferença é que, devido à grande variabilidade de resultados, não são listados cada um
dos diferentes resultados observados da variável, ordenados de forma crescente, e sim intervalos de resultados da variável
ordenados de forma crescente. Essa forma de representação também é recomendada para dados discretos que podem assumir
muitos diferentes valores.
No exemplo considerado dos dados do banco anexo, selecionou-se a variável “idade”. Na Tabela 2.6, essa variável está
distribuída em intervalos (coluna 1). A segunda coluna mostra o resultado da contagem de valores pertencentes a cada intervalo,
correspondendo à frequência simples absoluta de cada classe.
Distribuição da idade dos clientes que adquiriram veículos na empresa Toyord, 2012
Idades (anos) Clientes
18 ⊢ 23 12
23 ⊢ 28 30
28 ⊢ 33 47
33 ⊢ 38 59
38 ⊢ 43 54
43 ⊢ 48 37
48 ⊢ 53 9
53 ⊢ 58 2
Total 250
Banco de dados anexo.
A análise das informações apresentadas como na Tabela 2.6 permite entender o fenômeno, embora perca precisão na
informação. Por exemplo, a leitura da primeira linha informa que 12 clientes têm idade entre 18 e 23 anos, exclusive este
último; todavia, a tabela não informa a idade exata de cada um deles.
A notação usual utilizada para definir intervalo de classe são os símbolos ⊢ e . Para o primeiro símbolo (⊢), o intervalo
é dito fechado à esquerda e aberto à direita, indicando que o extremo inferior pertence ao intervalo, enquanto o extremo superior
não pertence. Por exemplo, na Tabela 2.6, um funcionário com 23 anos pertence ao segundo intervalo de classe da distribuição,
pois esse é fechado à esquerda. Já um cliente com 28 anos não pertence a esse intervalo de classe, pois esse é aberto à direita. O
outro símbolo ( ) é usualmente utilizado na última classe quando for conveniente fechá-la.
Cada classe apresenta dois limites: o inferior (menor valor), representado por LIi e o superior (maior valor), representado
por LSi. Para efeito de cálculo, ignora-se o fato de o intervalo que define a classe ser aberto ou fechado, o mesmo não
acontecendo na hora da tabulação.
Chama-se “amplitude” da i-ésima classe (Ai) a diferença entre o limite superior e o limite inferior da classe, enquanto o
“ponto médio” da i-ésima classe (Pmi) é o valor central da classe, podendo ser encontrados, respectivamente, pelas Expressões
2.8 e 2.9:
Observação 2.2: Frequentemente, é necessário encontrar um valor representativo de uma classe que não tenda nem para o
limite superior e nem para o inferior, um valor neutro e não tendencioso. Esse valor é o seu ponto médio.
Observação 2.3: Outras notações também podem ser utilizadas para definir um intervalo de classe, desde que não deem
margem à dupla interpretação.
A construção de uma distribuição de frequência com intervalos de classe pode seguir o seguinte algoritmo:
Etapa 1 – ordenar os dados a serem tabulados;
Etapa 2 – identificar o maior e menor valor para calcular a amplitude total;
Etapa 3 – determinar a quantidade de classes (k) a serem utilizadas;
Etapa 4 – calcular a amplitude dos intervalos de classe (h);
Etapa 5 – definir as classes;
Etapa 6 – determinar a frequência simples absoluta de cada classe (fi).
Se for conveniente, podem ser determinados os demais tipos de frequências, bem como informações sobre as classes
(limites, amplitude e ponto médio).
Considere que o engenheiro responsável pelo setor de controle de qualidade da indústria de blocos cerâmicos MMT está
interessado em analisar o comportamento térmico de um forno túnel utilizado no processo produtivo. A temperatura é
monitorada ao longo de sua extensão em nove pontos. Na última semana, o ponto 5, localizado no início da zona de queima,
apresentou os seguintes resultados, em °C, durante dois dias de monitoramento:
768 784 786 792 799 803 812 821
773 784 786 793 800 804 812 821
781 784 786 794 800 806 817 824
781 785 790 794 801 807 818 825
782 785 790 796 802 810 818 825
783 785 790 798 803 811 819 831
Para melhor entender o comportamento da temperatura, os dados devem ser tabulados.
Etapa 1 – Ordenar os dados a serem tabulados
Inicialmente, os dados devem passar pelo processo de ordenação. Neste exemplo, eles já se encontram ordenados.
Etapa 2 – Identificar o maior e menor valor para calcular a amplitude total
Mediante a ordenação dos dados, identifica-se facilmente que a menor e a maior temperatura são 768°C e 831°C,
respectivamente.
Xmín = X1 = 768°C
Xmáx = X48 = 831°C
A diferença entre as temperaturas fornecerá a amplitude total, que representa o tamanho do intervalo que contém os dados.
AT = Xmáx – Xmín = 831 – 768 = 63°C
Etapa 3 – Determinar a quantidade de classes (k) a serem utilizadas
A quantidade de classes ou intervalos de classe (k) é determinada em função da quantidade de valores observados ou dados
que serão tabulados (n). Vários critérios podem ser utilizados com essa finalidade. O mais simples é o critério da raiz, que
determina essa quantidade pela expressão:
O conjunto analisado é formado por 48 dados (n = 48), logo
Observe que se obteve 6,93, mas é impossível trabalhar com 6,93 intervalos. Deve-se optar por 6 ou 7 intervalos.
Normalmente, arredonda-se para o inteiro mais próximo. Neste caso, sete seria a quantidade recomendada.
Etapa 4 – Calcular a amplitude dos intervalos de classe (h)
Na organização de uma distribuição com intervalos de classe, é recomendável que todos tenham a mesma amplitude (h), e,
para calculá-la, basta dividir a amplitude total (AT) pelo número de classes a serem utilizadas (k), conforme a Expressão 2.11.
Dessa forma, a amplitude total fica distribuída igualmente por todas as classes.
Para aplicar a Expressão 2.11, deve-se usar o valor já arredondado de k = 7; portanto, no exemplo considerado:
Serão organizadas 7 classes (k) de amplitude 9 (h). Se a tabulação está sendo feita para apresentação de resultados, é
aconselhável que a precisão de h seja, no mínimo, a mesma precisão dos dados. No exemplo considerado, como os dados são
inteiros, é aconselhável considerar h inteiro.
Etapa 5 – Definir as classes
Para determinar os intervalos de classe, ou melhor, os limites inferior e superior de cada uma das classes, é preciso lembrar
que cada valor da variável deve pertencer a um único intervalo.
Normalmente, o primeirointervalo de classe tem início no menor valor da variável, sendo associado ao seu limite inferior
(LI1).
O limite superior dessa primeira classe é encontrado somando-se a amplitude da classe (h) a esse limite inferior.
O limite inferior da segunda classe é igual ao limite superior da primeira classe.
Os demais limites são determinados da mesma maneira, ou seja:
Desse modo, da segunda classe em diante, o limite inferior de uma classe é o limite superior da classe imediatamente
anterior a esta, e assim sucessivamente. Observe que as sequências de limites inferiores e limites superiores de uma distribuição
de frequências formarão progressões aritméticas de razão h.
Considerando os dados relativos à variável “temperatura”, o limite inferior da primeira classe é 768, e o limite superior,
768 + h = 768 + 9 = 777. Assim, obtém-se o primeiro intervalo de classe 768 ⊢ 777. O limite superior dessa classe (777) é o
inferior da segunda classe, que terá como limite superior 777 + h = 777 + 9 = 786, ou seja, a segunda classe será 777 ⊢ 786, e
assim sucessivamente.
Os intervalos de classe a serem considerados nesta distribuição são:768 ⊢ 777; 777 ⊢ 786; 786 ⊢ 795; 795 ⊢ 804; 804 ⊢
Tabela 2.7 –
Fonte:
Tabela 2.8 –
813; 813 ⊢ 822;822 ⊢ 831, conforme apresentado na Tabela 2.7.
Observe que, como não houve arredondamento no valor da amplitude de classe, o limite superior da última classe
coincidiu com o maior valor dos dados, razão pela qual o intervalo foi fechado em seu limite superior, ou seja, 822 831.
Etapa 6 – Determinar a frequência simples absoluta de cada classe (fi)
A frequência simples absoluta do i-ésimo intervalo de classe é o número de ocorrências de todos os valores pertencentes
àquele intervalo. Assim, essa frequência da primeira classe será o número de repetições dos valores pertencentes ao intervalo
768 ⊢ 777. Logo, serão contadas todas as temperaturas entre 768 e 777°C, exclusive esta última, ou seja, 768 e 773 (duas
medições). A f2 será a quantidade de observações de temperaturas entre 777 e 786°C, exclusive esta última (dez medições), e
assim sucessivamente.
A Tabela 2.7 apresenta a distribuição de frequências simples absolutas das temperaturas do ponto 5 do forno de queima da
indústria MMT.
Distribuição das temperaturas no ponto 5 do forno de queima, Indústria MMT, 2013
Temperaturas (°C) Medições (fi)
768 ⊢ 777 2
777 ⊢ 786 10
786 ⊢ 795 10
795 ⊢ 804 9
804 ⊢ 813 7
813 ⊢ 822 6
822 831 4
Total 48
Fictícia.
Observação 2.4: Qualquer um dos tipos de frequência apresentados anteriormente pode ser usado na construção de uma
distribuição. A Tabela 2.8 apresenta, além das frequências simples absolutas, as frequências simples percentuais (fpi), as
frequências acumuladas absolutas (fac) e as frequências acumuladas percentuais (facri). Também apresenta o ponto médio de
cada classe.
Distribuição das temperaturas no ponto 5 do forno de queima utilizando frequências absolutas e percentuais
simples e acumuladas e ponto médio, Indústria MMT
i Idades (anos) fi fpi (%) faci facpi (%) xi
1 768 ⊢ 777 2 4,2 2 4,2 772,5
2 777 ⊢ 786 10 20,8 12 25,0 781,5
3 786 ⊢ 795 10 20,8 22 45,8 790,5
4 795 ⊢ 804 9 18,8 31 64,6 799,5
5 804 ⊢ 813 7 14,6 38 79,2 808,5
6 813 ⊢ 822 6 12,5 44 91,7 817,5
7 822 831 4 8,3 48 100,0 826,5
Fonte:
–
–
–
2.6
48 100
Fictícia.
Esses resultados podem ser muito úteis para o entendimento dos dados. Por exemplo, com base nas informações
apresentadas na segunda linha da Tabela 2.8, é possível afirmar que, dentre as 48 medições da temperatura, 10 são maiores ou
iguais a 777°C e menores que 786°C; 20,8% são maiores ou iguais a 777°C e menores que 786°C; 12 medições são maiores ou
iguais a 768°C e menores que 786°C, correspondendo a 25% das medições. A mesma interpretação pode ser feita para as
demais classes.
Observação 2.5: Outros critérios podem ser utilizados para determinar a quantidade de classes. A regra de Sturges, por
exemplo, especialmente indicada para amostras de tamanho maior que 70, aconselha que k seja definido pela Expressão 2.17:
No caso, no exemplo considerado, tem-se:
k = 1 + 3, 3 log 48
k = 1 + 3, 3 (1,681241)
k = 6,548096 = 7
Outro critério bastante utilizado consiste em considerar que, para uma amostra de tamanho n, k é o menor inteiro tal que 2k
≥ n.
Neste caso, como 25 = 32 e 26 = 64, como n = 48, então k = 6.
Observação 2.6: Observe que a quantidade de classes utilizada em uma tabulação deve ser definida de tal forma que os dados
não fiquem muito compactados nem muito dispersos, facilitando o seu entendimento, e que o resultado encontrado para a
quantidade de classes pode não ser o mesmo para todos os critérios. Em termos práticos, vários autores, entre os quais Silveira
Junior et al. (1989), recomendam que essa quantidade fique entre 5 e 15 (5 ≤ k ≤ 15), obtida pelo critério que melhor se ajusta à
situação a analisar, além de bom senso.
Observação 2.7: O valor de h pode ser arredondado. Nesse caso, é possível que a distribuição fique com uma classe a mais ou a
menos do que o recomendado inicialmente.
Observação 2.8: Existe ainda um critério de determinação de classes bastante utilizado na prática. Partindo do princípio de que
5 ≤ k ≤ 15, considera-se que h pode assumir qualquer valor dentro do intervalo Nesse caso, o contexto seria
utilizado para identificar o melhor valor para a amplitude das classes. No exemplo considerado, poderia assumir qualquer valor
do intervalo [4,2;12,6].
Observação 2.9: Os critérios adotados para determinar intervalos de classe não são rígidos, podendo ser adaptados ao contexto
em que estão sendo utilizados.
Observação 2.10: Em algumas situações, é aconselhável utilizar intervalo de classe de amplitude variável, tais como:
quando existir uma grande concentração de valores em determinada faixa de tal forma que se formem algumas classes com
frequências muito altas e outras com frequências muito baixas ou até mesmo nulas. Nesse caso, classes com frequências
muito altas podem ser segregadas e classes com frequências muito baixas ou nulas podem ser aglutinadas;
quando, devido à natureza do fenômeno observado, for conveniente reunir casos semelhantes;
quando, devido à natureza dos dados, for conveniente dispor os limites das classes de acordo com uma progressão geométrica.
Considerações finais
2.1
2.2
( )
( )
( )
( )
( )
( )
2.3
Neste capítulo, foram apresentadas algumas técnicas para organizar e sintetizar os dados coletados utilizando tabelas, o que
pode ser feito para dados qualitativos e quantitativos, que seguem regras semelhantes. Para ambos os tipos de dados,
frequências de vários tipos podem ser associadas a classes ou categorias. No caso de dados quantitativos, as tabelas podem ser
construídas com ou sem intervalos de classe. Lembre que, na construção da distribuição de frequência com intervalos de classe,
sempre há uma perda de informação, pois não se trabalha com os dados originais. No próximo capítulo, serão apresentadas
técnicas gráficas utilizadas com essa mesma finalidade: organizar e sintetizar os dados coletados.
Aplicações
Substituir por uma tabela o trecho do relatório anual da Empresa M&T Construções: “Finalizando, conclui-se que esta
empresa, em 2012, contou com a colaboração de 465 funcionários, distribuídos pelas nossas cinco unidades, localizadas
em: Rio Grande, 105; Porto Alegre, 192; Pelotas, 98; Caxias do Sul, 43; e Bagé, 27. Em Bagé não existiam funcionárias,
mas em Rio Grande trabalharam 51 delas, enquanto em Pelotas, apenas 13. Em Caxias do Sul, 38 eram do sexo
masculino, e em Porto Alegre, 137.”
(Adaptado de SILVA, E. M. et al., 2010) Considere os dados na tabela apresentada a seguir e determine: total de dados,
frequências simples relativas e frequências absolutas acumuladas.
i
xi fi
1 2 6
2 3 2
3 4 7
4 5 12
5 6 10
6 7 9
7 8 4
Com base nos resultados obtidos, coloque V para verdadeiro ou F para falso, nas afirmações apresentadas a seguir.
Foram utilizadas 50 observações.
Os resultados obtidos no cálculo da frequênciasimples relativa são, por classe, respectivamente: 12%; 5%; 15%;
25%; 21%; 18%; 9%.
A soma de todos os dados corresponde a 35.
Os resultados obtidos no cálculo da frequência simples relativa são, por classe, respectivamente: 12,0%; 4,0%;
14,0%; 24,0%; 20,0%; 18,0%; 8,0%.
Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 14; 29; 36;
45; 50.
Os resultados obtidos no cálculo da frequência acumulada absoluta são, por classe, respectivamente: 6; 8; 15; 27; 37;
46; 50.
O gestor de um site deseja conhecer o provedor utilizado pelas pessoas que o acessam. No último mês, em uma amostra de
80 usuários, foram encontrados os resultados apresentados a seguir. Construa uma distribuição com frequências simples
absolutas, relativas e percentuais.
Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor Indivíduo Provedor
1 POP 21 POP 41 IG 61 TERRA
2.4
2.5
2 TERRA 22 TERRA 42 TERRA 62 TERRA
3 TERRA 23 IG 43 TERRA 63 IG
4 IG 24 UOL 44 IG 64 POP
5 POP 25 TERRA 45 TERRA 65 IG
6 IG 26 IG 46 TERRA 66 UOL
7 UOL 27 IG 47 IG 67 IG
8 IG 28 POP 48 UOL 68 IG
9 IG 29 UOL 49 UOL 69 IG
10 TERRA 30 IG 50 POP 70 POP
11 POP 31 POP 51 IG 71 TERRA
12 TERRA 32 TERRA 52 TERRA 72 TERRA
13 TERRA 33 IG 53 TERRA 73 IG
14 IG 34 UOL 54 IG 74 POP
15 POP 35 TERRA 55 TERRA 75 IG
16 IG 36 IG 56 TERRA 76 UOL
17 UOL 37 IG 57 IG 77 IG
18 IG 38 POP 58 UOL 78 IG
19 IG 39 UOL 59 UOL 79 IG
20 TERRA 40 IG 60 POP 80 POP
(SILVA, E. M. et al., 2010) Uma empresa automobilística selecionou, ao acaso, uma amostra de 40 revendedores
autorizados em todo o Brasil e anotou, em determinado mês, o número de quantidades adquiridas por estes
revendedores. Construa a distribuição de frequência usando intervalos de classes.
10 15 25 21 5 23 21 15 26 32
9 14 19 20 32 18 16 26 24 20
7 18 17 28 35 22 19 39 18 21
15 18 22 20 25 28 30 16 12 20
(Adaptado de ALBUQUERQUE; BRISTOT, 2011) Os valores abaixo se referem à cargas (kN) suportadas por blocos de
calçamento em Ensaios de Ruptura de Blocos de Pavimentação, tipo Unistein, realizado no Laboratório de Controle
Tecnológico em Materiais de Construção Civil, Concreto, Geotecnia e Pavimentos da FURG. Organizar as informações
em uma tabela com frequências absolutas e percentuais.
260 126 224 230 282 194 192 249 232 213 158 183 233 226 204 274
228 263 153 220 196 221 213 213 210 253 164 194 218 110 160 228
194 218 213 180 203 207 190 232 122 232 168 242 278 174 224 280
270 248 218 156 213 168 268 233 185 151 230 177
2.6
a) ( )
b) ( )
c) ( )
d) ( )
e) ( )
f) ( )
2.7
2.8
a)
b)
c)
d)
e)
No último mês, nas planilhas do setor de controle de qualidade, foram registradas as seguintes quantidades de componentes
eletrônicos com defeito em lotes de 1.000 unidades:
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
2 2 2 2 3 3 3 3 3 4 4 4 6 6 9
Construa uma tabela com frequências simples e acumuladas absolutas e percentuais, e identifique as sentenças a seguir
como falsas ou verdadeiras.
A variável investigada, quantidade de componentes eletrônicos com defeitos em lotes de 1.000 unidades, pode
assumir sete valores distintos.
O menor e maior valores assumidos pela variável investigada são, respectivamente, 0 e 9.
f1 = 14, e é possível interpretar que, dentre os 49 lotes analisados, em cada um de 14 lotes não houve
componentes eletrônicos com defeito.
fp2 = 28,57%, e é possível interpretar que, dentre os 49 lotes analisados, em 28,57% deles (em cada um) o
número de componentes eletrônicos com defeito foi 1.
fac3 = 38, e é possível interpretar que, dentre os 49 lotes analisados, em cada um dos 38 lotes o número de
componentes eletrônicos com defeito é de, no máximo, 2.
facp4 = 87,76%, e é possível interpretar que, dentre os 49 lotes analisados, em 87,76% deles o número de
componentes eletrônicos com defeito foi menor ou igual a 3.
Complete a distribuição de frequências apresentada a seguir com os valores de limite inferior, limite superior, ponto médio,
frequência absoluta simples, frequência percentual, frequência absoluta acumulada e frequência percentual acumulada.
i LIi LSi xi fi fpi (%) faci facpi (%)
1 2
2 20 10
3 35 19
4 75
5 6
6 3
7 4
8 48
(ENADE/2006) A tabela abaixo mostra como se distribui o tipo de ocupação dos jovens de 16 a 24 anos que trabalham em 5
Regiões Metropolitanas e no Distrito Federal. Das regiões estudadas, aquela que apresenta o maior percentual de jovens
sem carteira assinada, dentre os jovens que são assalariados do setor privado, é:
Belo Horizonte;
Distrito Federal;
Recife;
Salvador;
São Paulo.
Distribuição dos jovens ocupados, de 16 a 24 anos, segundo posição na ocupação
Fonte:
2.9
Regiões Metropolitanas e Distrito Federal – 2005
(em porcentagem)
Regiões
Metropolitanas
e Distrito
Federal
Assalariados Autônomos
Total
Setor privado Empregado
doméstico
Outros
Total Com
carteira
assinada
Sem
carteira
assinada
Setor
público
Total Trabalha
para o
público
Trabalha
para
empresas
Belo Horizonte 79,0 72,9 53,2 19,7 6,1 12,5 7,9 4,6 7,4 (1)
Distrito Federal 80,0 69,8 49,0 20,8 10,2 9,8 5,2 4,6 7,1 (1)
Porto Alegre 86,0 78,0 58,4 19,6 8,0 7,7 4,5 3,2 3,0 (1)
Recife 69,8 61,2 36,9 24,3 8,6 17,5 8,4 9,1 7,1 (1)
Salvador 71,6 64,5 39,8 24,7 7,1 18,6 14,3 4,3 7,2 (1)
São Paulo 80,4 76,9 49,3 27,6 3,5 11,3 4,0 7,4 5,3 (1)
Convênio DIEESE/Seade, MTE/FAT e convênios regionais. PED – Pesquisa de Emprego e Desemprego.
Elaboração: DIEESE.
(ENADE/2012) A tabela abaixo apresenta a taxa de rotatividade no mercado formal brasileiro entre 2007 e 2009. Com
relação a esse mercado, sabe-se que setores como o da construção civil e o da agricultura têm baixa participação no total
de vínculos trabalhistas e que os setores de comércio e serviços concentram a maior parte das ofertas. A taxa média
nacional é a taxa média de rotatividade brasileira no período, excluídos transferências, aposentadorias, falecimentos e
desligamentos voluntários.
Taxa de rotatividade por setores de atividade econômica: 2007-2009
Setores
Taxa de rotatividade (%), excluídos transferências, aposentadorias,
falecimentos e desligamentos voluntários
2007 2008 2009
Total 34,3 37,5 36,0
Extrativismo mineral 19,3 22,0 20,0
Indústria de transformação 34,5 38,6 36,8
Serviço industrial de utilidade pública 13,3 14,4 17,2
Construção civil 83,4 92,2 86,2
Comércio 40,3 42,5 41,6
Serviços 37,6 39,8 37,7
Administração pública direta e autárquica 8,4 11,4 10,6
Agricultura, silvicultura, criação de animais,
extrativismo vegetal
79,9 78,6 74,4
Disponível em: <http://portalmte.gov.br>. Acesso em: 12 jul. 2012 (adaptado).
I.
II.
III.
IV.
a)
b)
c)
d)
e)
2.10
I.
II.
III.
IV.
a)
b)
c)
d)
e)
Com base nesses dados, avalie as afirmações seguintes.
A taxa média nacional é de, aproximadamente, 36%.
O setor de comércio e o de serviços, cujas taxas de rotatividade estão acima da taxa média nacional, têm ativa
importância na taxa de rotatividade, em razão do volume de vínculos trabalhistas por eles estabelecidos.
As taxas anuais de rotatividade da indústria de transformação são superiores à taxa média nacional.
A construção civil é o setor que apresenta a maior taxa de rotatividade no mercado formal brasileiro no período
considerado.
É correto apenas o que se afirma em:
I e II;
I e III;
III e IV;
I, II e IV;
II, III e IV.
(ENADE/2013) Na tabela a seguir, é apresentada a distribuição do número de empregos formais registrados em uma cidade
brasileira, consideradas as variáveis setores de atividade e gênero, de acordo com a Relação Anual de Informações
Sociais (RAIS). Com base nas informações da tabela apresentada, avalie as afirmações a seguir.
O setor com o melhor desempenho em termos percentuais foi o da Administração Pública, com a geração de 7.490
postos de trabalho entre 2010 e 2011.
De uma forma geral, comparando-se os dados de gênero, as mulheres vêm ocupando mais postos