Prévia do material em texto
Indaial – 2020
Métodos Quantitativos
Prof. Alexandre Luis Prim
Prof. Péricles Ewaldo Jader Pereira
2a Edição
Copyright © UNIASSELVI 2020
Elaboração:
Prof. Alexandre Luis Prim
Prof. Péricles Ewaldo Jader Pereira
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
Impresso por:
P952m
Prim, Alexandre Luis
Métodos quantitativos. / Alexandre Luis Prim; Péricles Ewaldo
Jader Pereira. – Indaial: UNIASSELVI, 2020.
198 p.; il.
ISBN 978-65-5663-224-7
ISBN Digital 978-65-5663-220-9
1. Estatística matemática. - Brasil. I. Pereira, Péricles Ewaldo Jader.
II. Centro Universitário Leonardo Da Vinci.
CDD 519.5
apresentação
Olá, acadêmico! Seja bem-vindo à disciplina de Métodos Quantitati-
vos. Este livro é importantíssimo para sua continuação no processo de for-
mação educacional e profissional. O Livro Didático de Métodos Quantitati-
vos foi elaborado de forma que seu conteúdo conceitual e prático esteja de
acordo com os conceitos modernos de estatística, proporcionando qualidade
nos seus estudos. Aqui, conheceremos os aspectos teóricos e práticos da es-
tatística. Esse conhecimento nos deixará com uma base teórica e prática para
continuarmos o restante do estudo. É importante destacarmos que a base
teórica se torna necessária para fundamentar e dar suporte para a parte prá-
tica aplicada, que usaremos tanto na vida acadêmica quando na profissional.
Neste livro, veremos conceitos modernos, como o Big Data. Compre-
enderemos e trabalharemos a aplicação dos métodos quantitativos, não só
com aplicação de fórmulas, mas também sua interpretação. Aprenderemos
a construir e interpretar os principais tipos de gráficos, além de conhecer e
calcular as medidas de posição.
Por fim, a última unidade deste livro é dedicada às medidas de disper-
são, correlação e regressão, tão importantes no dia a dia das empresas atualmen-
te. Teremos a oportunidade de praticar vários cálculos, entenderemos o motivo
deles serem usados e conseguiremos fazer suas análises e interpretações.
Acadêmico, aproveite! Esses assuntos, certamente, tornarão você um
profissional qualificado para atuar no mercado de trabalho. Ótimos estudos!
Prof. Péricles Ewaldo Jader Pereira
Prof. Alexandre Luis Prim
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi-
dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um
formato mais prático, que cabe na bolsa e facilita a leitura.
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra-
mação no texto, aproveitando ao máximo o espaço da página, o que também contribui
para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente,
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilida-
de de estudá-lo com versatilidade nas telas do celular, tablet ou computador.
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assun-
to em questão.
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de
Desempenho de Estudantes – ENADE.
Bons estudos!
NOTA
Olá acadêmico! Para melhorar a qualidade dos
materiais ofertados a você e dinamizar ainda mais
os seus estudos, a Uniasselvi disponibiliza materiais
que possuem o código QR Code, que é um código
que permite que você acesse um conteúdo interativo
relacionado ao tema que você está estudando. Para
utilizar essa ferramenta, acesse as lojas de aplicativos
e baixe um leitor de QR Code. Depois, é só aproveitar
mais essa facilidade para aprimorar seus estudos!
UNI
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela
um novo conhecimento.
Com o objetivo de enriquecer seu conhecimento, construímos, além do livro
que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você
terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen-
tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
suMário
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA ........................................................ 1
TÓPICO 1 —CONCEITOS INICIAIS ................................................................................................ 3
1 INTRODUÇÃO .................................................................................................................................... 3
2 HISTÓRIA DA ESTATÍSTICA ......................................................................................................... 4
3 APLICAÇÃO DA ESTATÍSTICA ..................................................................................................... 6
4 O MÉTODO ESTATÍSTICO .............................................................................................................. 7
4.1 FASES DO MÉTODO ESTATÍSTICO ........................................................................................... 7
5 OS TIPOS DE ESTATÍSTICA ............................................................................................................ 8
5.1 ESTATÍSTICA DESCRITIVA OU DEDUTIVA ............................................................................ 9
5.2 ESTATÍSTICA INFERENCIAL OU INDUTIVA ....................................................................... 10
5.3 PROBABILIDADE ........................................................................................................................ 11
RESUMO DO TÓPICO 1..................................................................................................................... 14
AUTOATIVIDADE .............................................................................................................................. 16
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO ...................................................................... 19
1 INTRODUÇÃO .................................................................................................................................. 19
2 DIFERENÇA: POPULAÇÃO, CENSO E AMOSTRA ................................................................. 19
2.1 POPULAÇÃO ................................................................................................................................ 19
2.2 CENSO ............................................................................................................................................ 20
2.3 AMOSTRAGEM ............................................................................................................................ 21
3 MÉTODOS DE AMOSTRAGEM ................................................................................................... 23
3.1 AMOSTRAGEM PROBABILÍSTICA .......................................................................................... 23
3.1.1 Amostra causal simples ....................................................................................................... 23
3.1.2 Amostra estratificada .......................................................................................................... 24negros.
FIGURA 9 – AMOSTRA POR QUOTAS
FONTE: Vieira (2019, p. 13)
Esse método é muito utilizado em pesquisas de opinião e pesquisa de mer-
cado por ter como grande vantagem o preço de se fazer uma pesquisa, pois uma
amostra por quotas é barata (VIEIRA, 2019). Exemplo: se a população de uma cida-
de é composta, de acordo com o Censo Demográfico, por 4/8 de jovens, 3/8 de adul-
tos e 1/8 de idosos, descontadas as crianças. Você, como pesquisador, sai às ruas da
28
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
cidade com a incumbência de entrevistar 400 pessoas selecionadas segundo a técni-
ca de amostragem por quotas. Então entreviste: 200 jovens (4/8 de 400), 150 adultos
(3/8 de 400) e 50 idosos (1/8 de 400), a sua escolha e conforme seu julgamento.
3.2.2 Amostra de voluntários
A amostra de voluntários é composta por pessoas que se ofereceram para
participar da amostra. Em geral, essas pessoas têm grande interesse no assunto. O
critério para pertencer à amostra é do pesquisado, não do pesquisador. Por essa ra-
zão, os resultados podem ser muito tendenciosos (VIEIRA, 2019). Por exemplo, se um
professor pedir que três alunos se apresentem como voluntários para explicar uma
atitude coletiva (como o fato de toda a classe ter se recusado a fazer uma prova), é
provável que os líderes se apresentem, e não o rapaz tímido que queria fazer a prova.
3.2.3 Amostra intencional ou por conveniência
Essa técnica é muito comum e consiste em selecionar uma amostra da
população que seja acessível ao pesquisador. Portanto, os indivíduos que estarão
nessa pesquisa são selecionados porque eles estão prontamente disponíveis e o
pesquisador tem fácil acesso a eles e não porque eles foram selecionados por meio
de um critério estatístico. Geralmente essa conveniência representa uma maior
facilidade operacional e baixo custo de amostragem (OCHOA, 2015). A amostra
intencional é constituída pelas unidades às quais o pesquisador tem fácil acesso.
Por exemplo, o professor que toma os alunos de sua classe como amostra de toda
a escola está usando uma amostra de conveniência (VIEIRA, 2019).
4 ERROS DE AMOSTRAGEM
Em toda a pesquisa deve existir um cuidado para que o erro não ocorra.
Quando se está trabalhando com amostras existem dois tipos de erros que podem
ocorrer, os erros amostrais, também conhecidos como erros aleatórios e os erros
não amostrais, também conhecidos como erros sistémicos.
4.1 ERROS AMOSTRAIS OU ALEATÓRIOS
Os erros amostrais ou aleatórios ocorrem quando existe uma diferença
entre o valor obtido na amostra e o parâmetro de interesse da população. Assim,
o erro aleatório aparece porque os dados são coletados de uma amostra, e não de
toda a população. Por puro acaso, o pesquisador pode tomar uma amostra que
não é representativa da população que quer estudar. Não existe garantia de que
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO
29
uma amostra de 1.000 ou 10.000 pessoas represente, verdadeiramente, a popula-
ção de onde foi retirada. O erro aleatório é inerente ao processo de amostragem.
Não existe maneira de evitá-lo (VIEIRA, 2019).
4.2 ERROS NÃO AMOSTRAIS OU SISTÉMICOS
Os erros não amostrais ou sistémicos ocorrem quando os dados amostrais
são coletados, registrados ou analisados de maneira errada, os erros sistemáticos
são muitas vezes consistentemente repetidos ao longo do tempo. Esse tipo de erro
deve poder ser minimizado, ou corrigido para que não aconteça. Um exemplo
desse tipo de erro é uma balança que pese pessoas e esteja descalibrada, isto é,
ela está registrando por exemplo um kg a mais. Nesse caso, as pesagens obtidas
serão tendenciosas. Existem outros tipos de erros não amostrais ou sistémicos,
bastante comuns, segundo Vieira (2019), são eles:
1. Falta de respostas: a amostra obtida pode não ser representativa da população
sobre a qual o pesquisador quer informações – se faltarem muitos dados. No caso
de questionários, os especialistas alertam sempre: quem responde é diferente de
quem não responde. Recomendam então que a taxa de resposta seja de pelo me-
nos 70%, isto é, pelo menos 70% dos amostrados deve responder às perguntas.
2. Viés na resposta: as pessoas às vezes dão resposta que não condiz com a ver-
dade por conveniência (quando se pergunta sobre dinheiro), porque não se
lembram (quando se pergunta a frequência de hábitos, como quantos cigarros
fumaram na semana anterior), por timidez ou exibicionismo (perguntas sobre
sexualidade), por ignorância (opinião sobre fatos políticos ou econômicos de
que elas apenas têm noção, mas não têm opinião própria). É o que se chama
viés na resposta. Difícil de detectar, o viés na resposta pode invalidar os resul-
tados da pesquisa.
3. Maneira errada de perguntar: é preciso muito treino para saber perguntar. E é sur-
preendentemente difícil formular questões de maneira clara. Às vezes, a maneira
de perguntar maximiza um tipo de resposta. Por exemplo, a questão “o senhor é
a favor da pena de morte para reduzir a violência?” possivelmente obterá mais
respostas positivas do que a questão “o senhor é a favor da pena de morte?”.
4. Cobertura insuficiente: nem sempre todos os membros da população são ade-
quadamente representados na amostra. Isso acontece quando o pesquisador
coleta uma amostra fácil de obter, como as pessoas que circulam em um sho-
pping. Elas não são representativas dos moradores da cidade.
30
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
Tendência ou viés é a divergência consistente, persistente, da estatística de
uma amostra em relação ao parâmetro que se quer estimar.
NOTA
5 CÁLCULO AMOSTRAL
Quando estamos falando em pesquisas estatísticas que trabalham com a
amostra, já vimos anteriormente que muitos cuidados são necessários para que
não se cometam erros. Pois, independentemente de nossa vontade, quando se
busca representar uma população inteira, teremos desvios da realidade, erros
de medida e outras imperfeições; isso acontece muito por conta do acaso. Ao
tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a
nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que
jovens, mais crianças do que adultos, de uma certa região para outra, e assim por
diante (AQUARELA, 2018). Esses erros já foram explicados anteriormente, como
também foi colocado que eles devem ser corrigidos ou minimizados.
Talvez a principal dúvida de quem vai trabalhar com amostra é saber a
quantidade necessária para que se represente uma população, a maneira de se
aproximar da realidade da população é fazendo o cálculo amostral. Esse cálculo
é um modelo estatístico, constituído pelos seguintes conceitos principais que são:
• Margem de erro: é a diferença entre a média encontrada na amostra para a
média da população. Dentro do cálculo de amostragem, a margem de erro en-
tra como um dos parâmetros a serem inseridos. Podemos perceber uma rela-
ção inversamente proporcional entre a margem de erro e o tamanho da amos-
tra: quanto menor for a margem de erro máxima desejada, maior terá de ser a
amostra. É o índice de variação dos resultados de uma pesquisa. Por exemplo,
um erro amostral de 5% indica que o resultado poderá variar cinco pontos per-
centuais para mais ou para menos em sua pesquisa (COMENTTO, 2019).
• Aleatoriedade: para termos os resultados mais próximos da verdadeira popu-
lação, a seleção da nossa amostra deve ser totalmente aleatória. Quanto menos
presa a nossa amostra for a um determinado grupo ou categoria, melhor a nos-
sa amostra representará a população como um todo.
• População: neste livro, já explicamos o conceito de população. Relembrando: po-
pulação, em termos estatísticos, nada mais é do que a totalidade de indivíduos
que queremos analisar. Seja o total de pessoas que moram na região do nosso
interesse, seja o total de organismos que vivem em determinado ecossistema.
• Distribuição da População: é o grau de homogeneidade da população, consi-
derando aspectos relevantes tais como nível sociocultural, gênero,idade, entre
outros. Por exemplo, uma pesquisa realizada numa cidade inteira requer um
tratamento mais heterogêneo que uma pesquisa realizada dentro de uma em-
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO
31
presa, em que a população pode estar distribuída de forma mais homogênea.
Na prática, quanto menos variada é a população, menor é a amostra necessária
(COMENTTO, 2019).
• Grau ou nível de confiança: o termo confiança, dentro das técnicas de amostra-
gem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos
uma amostra mais eficiente. Podemos pensar em confiança como um intervalo
de probabilidades, em que, quanto maior for o grau de confiança estabelecido,
maior será o intervalo de resultados possíveis dentro de uma amostra. Deli-
mitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra
poderá se desviar da verdadeira média da população, com um determinado
grau de confiança. O nível de confiança representa a probabilidade de uma
pesquisa obter os mesmos resultados se outro grupo de indivíduos em uma
mesma população fosse entrevistado (COMENTTO, 2019). Por exemplo, uma
pesquisa com nível de confiança de 95% quer dizer que se a mesma pesquisa
for repetida 100 vezes, em 95 delas o resultado obtido será o memo.
5.1 FÓRMULA DO CÁLCULO AMOSTRAL
O cálculo amostral não é um cálculo simples de se fazer, por isso, vamos
demonstrar a fórmula dele e o que cada item representa, bem como deixaremos
calculadoras on-line para que possam ser acessadas. O intuito dessa seção é ape-
nas apresentar o cálculo amostral, mas não necessariamente fazer com que você,
acadêmico, saiba calcular o tamanho amostral manualmente. Para isso, há dispo-
nível um conjunto de calculadoras on-line que facilitam o processo de identifica-
ção do tamanho amostral, veja na seção seguinte.
FIGURA 10 – FÓRMULA DO CÁLCULO AMOSTRAL
FONTE: . Acesso em: 31 jan. 2020.
Em que:
N = tamanho da população;
z = o desvio do valor médio que é aceito para se alcançar o nível de con-
fiança desejado;
e = margem de erro máxima admitida;
p = a proporção que se espera encontrar.
32
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
Como colocado anteriormente o objetivo deste livro não é fazer com que
se calcule manualmente o tamanho de uma amostra e sim demonstrar os prin-
cipais conceitos do modelo estatístico e fazê-los entender que, para se trabalhar
com amostras, esse cálculo é de fundamental importância.
DICAS
Acadêmico, indicamos alguns links que possuem a calculadora on-line gratuita:
• Survey Monkey: https://pt.surveymonkey.com/mp/sample-size-calculator/.
• Aquarela: https://www.aquare.la/o-que-e-amostragem/.
• Calcular e Converter: https://calculareconverter.com.br/calculo-amostral/.
Nos links apresentados, basta você incluir os seguintes dados: tamanho da população, nível
de confiança e margem de erro. Conforme exemplo apresentado na figura a seguir.
FIGURA 11 – CÁLCULO ON-LINE DE AMOSTRA
FONTE: . Acesso em: 31 jan. 2020.
Além desses, existem outros sites que podem ajudar a resolver o proble-
ma do cálculo amostral.
33
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• Quando falamos em população, censo e amostra dentro da estatística estamos
nos referindo a conjuntos dos quais podemos obter informações.
• A palavra população em estatística é o conjunto de elementos sobre os quais o
pesquisador quer obter informações.
• A população pode ser finita quando os seus elementos podem ser contados e
infinita quando essa contagem seja impossível.
• Populações muito grandes, mesmo que a contagem seja matematicamente pos-
sível, são consideradas infinitas.
• Censo é um dos meios de se fazer um estudo estatístico.
• O censo é o tipo de estudo estatístico que abrange todos os elementos da população.
• No Brasil, temos os censos oficiais que são feitos pelo IBGE (Instituto Brasileiro
de Geografia e Estatística).
• Existem, no Brasil, o censo demográfico, agropecuário, industrial, comercial,
entre outros.
• Um estudo estatístico que é o inverso do censo é a amostragem.
• Quando se fala em amostragem, está se falando de uma parte, um subconjunto
da população.
• Para que a amostra seja representativa ela necessariamente precisar represen-
tar a população como um todo.
• Existem métodos de amostragem chamados de probabilísticos e não probabi-
lísticos.
• Os probabilísticos seguem o princípio da equiprobabilidade, que diz que todos
os indivíduos da população têm as mesmas probabilidades de fazerem parte
da amostra.
• Os métodos probabilísticos são recomendados sempre que possível, por garan-
tirem a representatividade da amostra.
34
• Os tipos de amostras probabilísticas são: amostra causal simples, amostra es-
tratificada e a sistemática.
• Como tipos de amostras não probabilísticas tratadas neste livro temos a amostra
por quotas, amostra de voluntários e a amostra intencional ou por conveniência.
• Podem existir os erros de amostragem que são: os erros amostrais ou aleatórios
e os erros não amostrais ou sistémicos.
• Entre os erros não amostrais mais comuns temos os de falta de resposta, viés de
resposta, maneira errada de perguntar e cobertura insuficiente.
35
1 Assinale a alternativa que corresponda a palavra que é entendida como o
conjunto de elementos sobre os quais o pesquisador quer informações:
a) ( ) População.
b) ( ) Censo.
c) ( ) Dados.
d) ( ) Amostra.
2 Quando os dados de uma população podem ser contados, ela é uma população:
a) ( ) Histórica.
b) ( ) Finita.
c) ( ) Linear.
d) ( ) Estatística.
3 Com relação aos conceitos de população, censo e amostra, classifique V
para as sentenças VERDADEIRAS e F para as FALSAS:
( ) Para que se possa considerar uma parte da população como uma amos-
tra, é preciso que essa parte seja representativa do todo.
( ) O censo é o levantamento estatístico que abrange todos os elementos de
uma população.
( ) Em estatística, o termo população significa necessariamente um conjunto
de pessoas.
( ) A maior parte dos estudos estatísticos é feito por censo.
Assinale a sequência CORRETA:
a) ( ) V – V – F – F.
b) ( ) F – V – V – F.
c) ( ) V – F – F – F.
d) ( ) F – F – V – V.
4 Os métodos probabilísticos de amostragem baseiam-se em um princípio
que diz que todos os indivíduos da população têm as mesmas probabilida-
des de fazerem parte da amostra. Como é o nome desse princípio?
a) ( ) Probabilidade.
b) ( ) Inferência.
c) ( ) Dedução.
d) ( ) Equiprobabilidade.
AUTOATIVIDADE
36
5 Qual é a amostra constituída por elementos retirados inteiramente ao acaso
da população?
a) ( ) Distributiva.
b) ( ) Causal simples.
c) ( ) Causal complexa.
d) ( ) Lotérica.
6 Quando a população é composta por elementos que pertencem a categorias
distintas, uma amostra casual simples não consegue representar bem:
a) ( ) A população.
b) ( ) A estatística.
c) ( ) O censo.
d) ( ) A amostra.
7 Com relação à amostragem sistemática, classifique V para as sentenças
VERDADEIRAS e F para as FALSAS:
( ) É o método mais indicado para qualquer tamanho de população.
( ) A amostra sistemática envolve o planejamento de um sistema que permi-
ta selecionar os elementos que comporão a amostra.
( ) É método experimental de registro e influência amostral.
( ) É o método amostral mais simples existente.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – F – V.
c) ( ) F – V – F – F.
d) ( ) V – V – V – V.
8 Com relação aos tipos de censo realizados pelo IBGE, faça a devida associa-
ção.
(1) Demográfico ( ) Levantamento de dados sobre os estabelecimentos agropecuários e as
atividades neles desenvolvidas.
(2) Agropecuário ( ) Levantamento de dados sobre as características estruturais e econômi-
co-financeiras da atividade industrial.
(3) Industrial ( ) Levantamento de dados sobre as características estruturais e econômi-
co-financeiras da atividade comercial.
(4) Comercial ( ) Levantamento de dados sobre pessoas.37
9 Como se faz uma pesquisa estatística quando não se tem dinheiro para fazer
um método probabilístico?
a) ( ) Não se pode fazer pesquisa estatística sem um método probabilístico.
b) ( ) Utiliza-se o método sistemático.
c) ( ) Utiliza-se um método não probabilístico.
d) ( ) Nenhuma das alternativas.
10 Sobre o erro amostral, assinale a alternativa CORRETA:
a) ( ) O erro amostral não faz parte do processo de amostragem.
b) ( ) O erro amostral e o erro não amostral são a mesma coisa.
c) ( ) O erro amostral ocorre porque os dados são retirados de toda a população.
d) ( ) Não existe maneira de evitá-lo.
38
39
TÓPICO 3 —
UNIDADE 1
VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
1 INTRODUÇÃO
Acadêmico, chegamos ao último tópico da primeira unidade deste livro
didático. Neste tópico, entenderemos mais alguns conceitos importantes em es-
tatística. A primeira coisa que veremos é o conceito de variável, quais os tipos de
variáveis que existe, ou seja, descobriremos os grandes grupos de classificação e
ainda as subdivisões dentro desse grupo. Ainda, descobriremos a importância
das variáveis para a estatística.
Posteriormente, veremos as escalas de medida, que são formas de repre-
sentar o registro das ocorrências de uma pesquisa científica, de maneira que os
acontecimentos ou os fenômenos sejam mostrados adequadamente. Também,
neste tópico, entenderemos o que são as séries estatísticas, descobriremos como
elas são classificadas, que elementos fazem parte de uma série estatística, bem
como as diferenças de nomenclatura que existem entre elas. Finalizaremos o tó-
pico com uma leitura complementar que mostra a importância da estatística para
as empresas. Vamos lá?
2 CONCEITO DE VARIÁVEL
Variável em uma pesquisa estatística é aquilo que se está investigando,
ou seja, é o objeto da pesquisa. Por exemplo, se perguntarmos quantos livros
alguém lê por ano, a variável será: o número de livros lidos por ano; mas se
estivermos pesquisando a altura de determinado grupo de pessoas, a altura é que
será a variável; outros tipos de variáveis podem ser pesquisadas como o nível de
instrução, religião, cor dos olhos, peso, estado civil, nacionalidade, raça, número
de habitantes de um bairro, número de pessoas que moram em determinado
endereço etc. (CARVALHO; CAMPOS, 2016). Para os autores Silva, Grams e
Silveira (2018), o significado de variável em estatística é:
Uma variável em estatística é a observação de uma característica em
uma amostra ou em uma população. É uma informação que pode
variar de elemento para elemento. Essa observação pode ser um
atributo, uma contagem, uma classificação ou uma medição. São essas
características que definem os diferentes tipos de variáveis.
Os autores ainda colocam que quando é feito um questionário para uma
pesquisa, cada uma das perguntas realizadas no questionário será uma variável
40
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
dessa pesquisa, pois cada uma delas será uma característica diferente da amostra
ou da população; cada uma delas pode variar para cada um dos elementos da
amostra ou da população (SILVA; GRAMS; SILVEIRA, 2018).
3 TIPOS DE VARIÁVEIS
Inicialmente, existe uma divisão principal para as variáveis estatísticas,
que consiste em dividi-las em dois grandes grupos chamados de variáveis quan-
titativas e variáveis qualitativas (CARVALHO; CAMPOS, 2016). O primeiro é
chamado de variáveis qualitativas, esse grupo de variáveis também é conhecido
por variáveis categóricas, ou, ainda, variáveis por atributos. O segundo grupo é
chamado de variáveis quantitativas (SILVA; GRAMS; SILVEIRA, 2018).
Essa divisão facilita a nossa compreensão, pois quando estamos falando
de variáveis qualitativas, estamos falando dos atributos observados, nos diversos
exemplos de variáveis descritos anteriormente, podemos citar como exemplo de
variáveis qualitativas, a cor dos olhos, a religião, a nacionalidade, a raça, entre ou-
tros. As variáveis qualitativas são aquelas em que os atributos não são um número.
Já quando estamos falando em variáveis quantitativas, estamos nos reme-
tendo automaticamente a quantidade, por exemplo: número de carros, número
de habitantes em uma cidade ou bairro, número de residentes em determinada
casa e assim por diante. Esses dois grandes grupos que descrevemos aqui, ainda
se dividem em subgrupos, em que são mais especificados.
3.1 VARIÁVEIS QUALITATIVAS NOMINAIS
Lembrando que as variáveis qualitativas têm como resposta os atributos,
elas se classificam em nominais e ordinais. As variáveis qualitativas nominais são
aquelas em que não se consegue identificar uma ordem, uma hierarquia. São as
de mensuração mais simples, pois são apenas um atributo associado a cada um
dos resultados da variável (SILVA; GRAMS; SILVEIRA, 2018). São exemplos de
variáveis qualitativas nominais: cor dos olhos, religião, raça, sexo. O quadro a
seguir mostra um exemplo de questionário com variáveis qualitativas nominais:
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
41
QUADRO 2 – QUESTIONÁRIO COM VARIÁVEIS QUALITATIVAS NOMINAIS
FONTE: Os autores
As variáveis qualitativas nominais, quando possuírem apenas duas op-
ções de resposta, serão chamadas de variáveis qualitativas nominais dicotômi-
cas, ou simplesmente dicotômicas ou binárias. São exemplos: sexo (masculino/
feminino); respostas a um questionamento (sim/não), entre tantas outras (SILVA;
GRANS; SILVEIRA, 2018).
3.2 VARIÁVEIS QUALITATIVAS ORDINAIS
As variáveis qualitativas ordinais serão consideradas dessa forma sempre
que conseguir se estabelecer uma ordem, uma hierarquia entre as respostas obti-
das, dessa forma, é o contrário das nominais. As variáveis qualitativas ordinais,
como o próprio nome sugere, têm uma ordem nas respostas. Elas têm um atri-
buto, assim como as qualitativas nominais, mas esse atributo possui uma ordem
associada (SILVA; GRANS; SILVEIRA, 2018).
Veremos alguns exemplos para que se facilite o entendimento. Digamos
que a gente vá a um quartel do exército brasileiro para descobrirmos qual a pa-
tente dos militares que ali trabalham, ou seja, queremos saber quantos são sol-
dados, quantos são cabos, quantos são sargentos, quantos são capitães e assim
por diante. Quando perguntarmos a esses militares qual sua patente, obviamente
não responderão um valor numérico, portanto, já sabemos que é uma variável
qualitativa, mas com base nas respostas conseguiremos montar uma ordem, tanto
42
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
da menor patente para a maior quanto da maior para menor. Outro exemplo é
se quisermos descobrir o porte das empresas de determinada região (pequena,
média ou grande), ou ainda, se quisermos descobrir o nível de escolaridade das
pessoas, também existe uma ordem. O Quadro 3 mostra um exemplo de questio-
nário com variáveis qualitativas ordinais.
QUADRO 3 – EXEMPLO DE QUESTIONÁRIO COM VARIÁVEIS QUALITATIVAS ORDINAIS
FONTE: Os autores
As variáveis qualitativas ordinais também podem ser classificadas com
variáveis intervalares. Por exemplo, se, em uma pesquisa, em vez de perguntar-
mos a idade perguntarmos a faixa etária, não saberemos quantas pessoas há em
cada uma das idades, mas saberemos o intervalo em que cada um dos entrevista-
dos está (SILVA; GRANS; SILVEIRA, 2018).
3.3 VARIÁVEIS QUANTITATIVAS DISCRETAS
Para as variáveis quantitativas também temos uma subdivisão que são as
variáveis quantitativas discretas e as variáveis quantitativas contínuas. A variável
quantitativa discreta é aquela em que não se pode assumir qualquer valor, dentro
de um intervalo de valores de resultados possíveis. Por exemplo, se perguntar-
mos a uma mãe quantos filhos ela tem, ela jamais responderá que tem 2,75 filhos,
ou que tenha 3,9 filhos, ela responderá que tem três filhos ou quatro filhos.
As variáveis quantitativas discretas são variáveis que resultam de uma
contagem, portanto, podem assumir apenas valores inteiros. Uma variável que
assume um número contável de possíveis valores que podemser representados
por um número inteiro é denominada discreta (SILVA; GRANS; SILVEIRA, 2018).
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
43
Vejamos alguns exemplos: quantas pessoas moram em uma casa? Quantas car-
ros você possui? Para que essas questões sejam respondidas, teremos que nos remeter
a uma contagem. Portanto, estamos diante de uma variável quantitativa discreta.
3.4 VARIÁVEIS QUANTITATIVAS CONTÍNUAS
Diferentemente das variáveis quantitativas discretas, as variáveis
quantitativas contínuas são aquelas em que se podem assumir qualquer valor
dentro de um intervalo de resultados possíveis (CARVALHO E CAMPOS, 2016).
Já as variáveis quantitativas contínuas são resultantes de medição ou de opera-
ções matemáticas. Nesse tipo de variável, podemos ter valores fracionados, a va-
riável pode assumir qualquer valor em um intervalo numérico.
O número de casas decimais dependerá no instrumento de medida uti-
lizado para a mensuração da variável. Mesmo que os dados da variável sejam
apresentados em forma de um número inteiro, precisamos analisar se a variável
resultaria em uma medição, independentemente de o número ser apresentado
inteiro, ele será considerado contínuo (SILVA; GRANS; SILVEIRA, 2018).
Por exemplo, se for perguntado a determinadas pessoas quantos quilos
elas pesam a resposta pode vir de algumas maneiras como 63,375 kg, 74,500 kg,
mas também pode vir como 63 kg ou 74 kg. Se perguntarmos qual a temperatura
no centro de uma determinada cidade podemos ter como resposta 27,6 graus,
mas também 27 graus.
Sempre quando temos uma variável quantitativa contínua estaremos fa-
zendo uma medição. Quando temos uma variável quantitativa contínua estamos
medindo algo. Alguns exemplos: quanto tempo demora para resolver uma prova?
Qual a velocidade de um carro? Qual o valor de gastos feitos em determinado mês?
Acadêmico, para que você entenda melhor as variáveis apresentadas
neste tópico, observe a figura a seguir:
44
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
FIGURA 12 – EXEMPLO DE VARIÁVEIS
FONTE: . Acesso em: 30 set. 2019.
Embora as medidas atributo (nominal) possam ser mais fáceis de obter,
sempre que possível recomenda-se substituí-las por medidas contínuas. O maior
motivo para isto é que estatisticamente os dados contínuos são muito mais
informativos que os dados atributos; em outras palavras, o número de medidas
necessárias para se chegar na mesma conclusão é muito maior com dados tipo
atributo que com dados tipo variável (DOMENECH, [20--]).
IMPORTANTE
As variáveis quantitativas contínuas sempre refletem algum tipo de medição,
quando falamos de variáveis quantitativas contínuas estamos medindo.
4 ESCALAS DE MEDIDA
O registo das ocorrências de uma pesquisa científica necessita de formas
para representar os acontecimentos e os fenômenos adequadamente, ou seja,
formas de registar os dados, que são valores associados a cada variável. Esse
registo de valores enquadra-se em escalas de medida. Essas escalas consistem
em modos de expressar a qualidade ou a quantidade dos dados (MORAIS, 2005).
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
45
O autor também escreve que para que as escalas utilizadas possam
responder aos vários tipos de valores que os atributos assumem uma pesquisa,
elas precisam de apresentar duas propriedades:
• Exaustividade: abrangência que permite representar todos os dados possíveis.
• Exclusividade: coerência para que qualquer dado ou acontecimento só possa
ser representado de uma única forma (MORAIS, 2005).
Existem quatro classificações para as escalas de medida que são: as nominais, as
ordinais, as de intervalo e as de razão (BISQUERRA; SARRIERA; MARTÍNEZ, 2009).
4.1 ESCALAS NOMINAIS
As escalas nominais são meramente classificativas, permitindo descrever
as variáveis ou designar os sujeitos, sem recurso à quantificação. É o nível mais
simples de representação, baseado no agrupamento e classificação de elementos
para a formação de conjuntos distintos. As observações são divididas em catego-
rias segundo um ou mais dos seus atributos (MORAIS, 2005).
Nesse tipo de escala, dividem-se os indivíduos conforme sejam iguais ou
não em relação a uma característica (BISQUERRA, SARRIERA E MARTÍNEZ,
2009). Exemplos de características definidas em escalas nominais são: religião,
sexo, profissão, preferências, nacionalidade etc.
Essa escala é bem simples, pois os números servem apenas para nomear,
identificar e categorizar dados sobre pessoas, objetos ou fatos (MORAIS, 2005). Po-
demos, por exemplo, nesse tipo de escala classificar as pessoas pela cor dos cabelos.
1 – Preto.
2 – Castanho.
3 – Loiro.
4 – Branco.
A análise das respostas é feita pela contagem do número de ocorrências
em cada categoria.
4.2 ESCALAS ORDINAIS
Nas escalas ordinais, os indivíduos ou as observações distribuem-se se-
gundo uma certa ordem, que pode ser crescente ou decrescente, permitindo esta-
belecerem-se diferenciações. A escala ordinal é a avaliação de um fenômeno em
termos da sua situação dentro de um conjunto de patamares ordenados, variando
46
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
desde um patamar mínimo até um patamar máximo. Geralmente, designam-se
os valores de uma escala ordinal em termos de numerais, sendo estes apenas mo-
dos diferentes de expressar o mesmo tipo de dados (MORAIS, 2005).
O que distingue uma escala nominal da ordinal é a possibilidade de se
estabelecer ordem para as categorias nas quais os dados são classificados de
acordo com uma sequência com significado. Exemplo: tamanho das empresas de
determinada região.
1 – Microempresa.
2 – Empresa de pequeno porte.
3 – Empresa de médio porte.
4 – Empresa de grande porte.
Essa ordenação pode acontecer do menor para o maior, bem como do
maior para o menor, ou seja, ela pode ser feita da microempresa para empresa de
grande porte ou da empresa de grande porte para a empresa de pequeno porte.
Em pesquisas de opinião, uma escala muito utilizada é a escala Likert, criada
em 1932 pelo americano Rensis Likert, essa escala mede as atitudes e o grau de
conformidade com uma questão ou afirmação.
Ao invés de responder sim ou não, ao dar uma resposta em uma escala,
o respondente se mostra mais específico em o quanto ele concorda ou discorda
de uma atitude ou ação, ou o quanto ele está satisfeito ou insatisfeito com um
determinado produto. Por exemplo, podemos ordenar as respostas por meio
da escala Likert de cinco pontos se perguntarmos se uma pessoa gosta do novo
modelo de celular de uma determinada marca.
1 – Não gosta.
2 – Gosta pouco.
3 – Indiferente.
4 – Gosta.
5 – Gosta muito.
Também podemos dividir uma escala ordinal dividindo uma escala
contínua em múltiplos intervalos, por exemplo: idade dos jovens que preferem a
internet à televisão.
• Dos 6 a 12 anos.
• Dos 12 a 15 anos.
• Dos 15 aos 18 anos.
4.3 ESCALAS DE INTERVALOS
Nas escalas de intervalo são atribuídos valores numéricos aos indivíduos.
Nessa escala, a variável é utilizada para medir uma determinada característica,
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
47
além de identificar a qual classe ela pertence, também pressupõe que as diferen-
tes classes estão ordenadas sob um determinado critério. Cada observação faz
a associação do indivíduo medido a uma determinada classe, sem, no entanto,
quantificar a magnitude da diferença face aos outros indivíduos (MORAIS, 2005).
Para Bizerra, Sarriera e Martínez (2009), a maioria das variáveis quantita-
tivas em Ciências Sociais costuma ser medida em escala de intervalos, como por
exemplo: o rendimento acadêmico, as notas de uma prova, o ano do calendário, e
a escala de temperatura em graus celsius.
4.4 ESCALAS DE RAZÃO
As escalas de razão são escalas de intervalo, mas que acrescentam a existência de
um zero absoluto. Esse zero é considerado como a ausência total de qualidade de
medida e, assim,é um valor que não pode ser rebaixado na parte inferior (BIS-
QUERRA; SARRIERA; MARTINEZ, 2009).
O valor mínimo de uma escala de razão é sempre zero, muitas variáveis
quantitativas são medidas por meio dessa escala, como altura, idade, peso, dis-
tância etc. Exemplo: vendo que agora são 11h30 você logo conclui “já estou na
fila há 15 minutos!”. Quando começamos a pensar no tempo dessa maneira, pas-
samos a utilizar dados segundo uma escala de razão e não mais de intervalo. A
escala de razão é muito semelhante à escala de intervalos, porém apresenta uma
diferença fundamental: o zero tem um significado intrínseco (zero minutos, zero
pessoas na fila, zero produtos no carrinho de compras). Em todos esses casos, o
zero significa a ausência de algo.
IMPORTANTE
Em uma escala de razão, o valor mínimo sempre será zero e essa é a principal
diferença de uma escala de razão para uma escala de intervalos.
5 SÉRIES ESTATÍSTICAS
As séries estatísticas nada mais são do que tabelas nas quais são expressos
o resultado de um estudo estatístico. Quando se olha para essa tabela e se con-
segue identificar três elementos que são: o objeto do estudo, o local e a época da
pesquisa, se está diante de uma de uma série estatística. Uma série estatística é
uma maneira de se apresentar os dados estatísticos de uma forma tabulada (CAR-
VALHO; CAMPOS, 2016).
48
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
Os autores ainda explicam os elementos de uma série estatística, sendo o
primeiro um fato que é o fenômeno que foi investigado e cujos valores estão sendo
apresentados na tabela; o segundo o local, indica o campo geográfico ou a região
onde o fato aconteceu e o terceiro que é a época, que diz respeito ao período, data
ou tempo, quando a variável foi investigada (CARVALHO; CAMPOS, 2016).
Portanto, ao estarmos diante de uma série estatística, deveremos conse-
guir responder as seguintes perguntas: o quê? Quando? Onde? Essas perguntas
são respondidas pelos elementos: descrição do fato, época e local.
Em uma série estatística sempre um elemento terá variação e dependendo do ele-
mento que sofrer essa variação e dos elementos que permanecerem fixos, as séries
terão uma classificação: histórica ou temporal, geográficas, específicas, mistas ou
ainda distribuição de frequências (CARVALHO; CAMPOS, 2016).
5.1 SÉRIES HISTÓRICAS OU TEMPORAIS
Além dos nomes históricas ou temporais, essas séries podem aparecer es-
critas como séries cronológicas ou marchas. As séries históricas serão chamadas
dessa maneira as séries que o elemento que sofrerá variação é o tempo, perma-
necendo fixos o local e a descrição do fenômeno (CARVALHO; CAMPOS, 2016).
Uma série histórica ou temporal é aquela que a informação é estudada em função
do tempo (COSTA, 2015).
TABELA 1 – PRODUÇÃO DE MINÉRIO DE FERRO NO BRASIL ENTRE 1999 E 2003
FONTE: Adaptado Carvalho e Campos (2016, p. 12)
Olhando para a tabela anterior conseguimos saber qual fenômeno foi estu-
dado, qual foi o local e a época da pesquisa. Conseguimos verificar que o objeto de
estudo é fixo (produção de minério de ferro) o local é fixo (Brasil), porém, a época
da pesquisa varia de 1999 até 2003, por isso se chama série histórica ou temporal.
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
49
5.2 SÉRIES GEOGRÁFICAS
As séries geográficas são aquelas cujo elemento que varia é o local, perma-
necendo fixos o tempo e a descrição do fenômeno. As séries geográficas também
são chamadas de séries espaciais, territoriais ou de localização (CARVALHO;
CAMPOS, 2016). Vamos a um exemplo para facilitar o entendimento:
TABELA 2 – PRODUTO INTERNO BRUTO DE ALGUNS PAÍSES EM 1999
FONTE: Adaptado Carvalho e Campos (2016, p. 12)
Conseguimos facilmente verificar olhando para a tabela anterior que o
fenômeno estudado é fixo (produto interno bruto) e a época da pesquisa é 1999.
No entanto, o elemento local varia. Por isso, é uma série estatística geográfica.
5.3 SÉRIES ESPECÍFICAS
As séries específicas são aquelas cujo a descrição fenômeno sofre variação
e permanecem fixos os elementos tempo e local. Essas séries também são
conhecidas como séries especificativas ou categóricas (CARVALHO; CAMPOS,
2016). Exemplo: número de alunos que concluíram cursos na Universidade ABC
no ano de 2010, conforme a Tabela 3.
TABELA 3 – NÚMERO DE ALUNOS CONCLUINTES NA UNIVERSIDADE ABC (2010)
FONTE: Adaptado Carvalho e Campos (2016, p. 13)
Podemos observar que permanecem fixos o local da pesquisa (Universi-
dade ABC) e a época da pesquisa (2010). Contudo, existe variação em diversas
categorias, por isso, nome séries categóricas.
50
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
5.4 SÉRIES MISTAS
São aquelas séries estatísticas resultantes da combinação das séries esta-
tísticas temporais, geográficas, especificativas ou entre distribuições de frequên-
cias (CARVALHO; CAMPOS, 2016).
As séries mistas também são chamadas de séries compostas, ou ainda, de
séries de dupla entrada. Exemplo: taxas de analfabetismo de pessoas com 15 anos
ou mais, segundo a cor, nos censos demográficos de 1991 e 2000.
TABELA 4 – TAXA DE ANALFABETISMO NOS CENSOS DEMOGRÁFICOS DE 1991 E 2000
FONTE: Adaptado Carvalho e Campos (2016, p. 14)
No caso das séries mistas se consegue notar que existe uma variação nos
dois sentidos: na vertical pela cor da pele e por especificação do fenômeno que se
observa e na horizontal: que são os anos de 1991 e 2000.
5.5 DISTRIBUIÇÃO DE FREQUÊNCIA
Na distribuição de frequência, os dados são ordenados segundo um cri-
tério de magnitude, em classes ou intervalos, permanecendo fixos o fato, o local
e a época. Isso significa que apesar do fenômeno estudado ser único, este sofrerá
uma subdivisão em suas classes (CARVALHO; CAMPOS, 2016). Exemplo: quere-
mos saber a altura dos alunos do curso x em 1° de fevereiro de 2019.
TABELA 5 – ALTURA DOS ALUNOS DO CURSO X EM 01 DE FEVEREIRO DE 2019
FONTE: Adaptado Carvalho e Campos (2016, p. 14)
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
51
Nesse caso, o fenômeno estado é um só, a altura dos alunos, mas ele está
subdividindo em várias classes. Temos a classe dos alunos com altura que varia
de 1,50 até 1,60; a classe com variação de 1,60 até 1,70; a classe com variação de
1,70 até 1,80; e assim por diante. O objetivo aqui é somente demonstrar o que é
uma série estatística distribuição de frequência, visto que essa é talvez a principal
série estatística. A distribuição de frequência exige um maior aprofundamento.
Esse aprofundamento será dado na Unidade 2 deste livro didático.
52
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
ESTATÍSTICA NO MUNDO EMPRESARIAL
Guilherme Gonçalves
APLICAÇÕES EMPRESARIAIS
Para um Executivo ou profissional nas áreas empresariais, raciocinar es-
tatisticamente nos dias de hoje é tão necessário quanto a habilidade de comando.
Com a evolução das informações nas empresas, a questão que se coloca hoje não
se refere mais a sua escassez, mas como ler e interpretar as informações disponí-
veis. As necessidades atuais estão requerendo: identificar situações problemáticas
através de análise de clima organizacional; utilizar a montante de dados armaze-
nados nos computadores de suas empresas para entender melhor o que acontece
em seus negócios e melhorar a qualidade de suas decisões; entender o compor-
tamento das vendas de produtos ou serviços; identificar causas de defeitos ou
motivadoras da baixa qualidade; entender o comportamento dos clientes frente a
empresa e aos seus produtos.
Portanto, diante da necessidade de tomada de decisões diante de incertezas
do mundo empresarial, coloca-se a Estatística como ferramenta importantíssima,
talvez a que possa trazer melhores contribuições aos administradores ao lidarem
com informações e com os mais diversos problemas encontrados nesse universo.
Não é então de se surpreender que a Estatística seja largamente aplicável
em praticamente todas as áreas das mais diversas atividades econômicas/empre-
sariais e utilizadasna obtenção de conclusões válidas e na tomada de decisões
razoáveis baseadas em análise e interpretação de dados. Entre as aplicações no
campo da gestão podemos destacar:
RESUMO
A Estatística nos dias de hoje é uma ferramenta indispensável para qual-
quer profissional que necessita analisar informações em suas tomadas de deci-
sões diárias, seja no seu trabalho ou na sua vida pessoal. Atualmente, o ambiente
que rodeia as decisões de carácter financeiro ou de gestão tendem a ser cada vez
mais exigentes. Contudo, a utilização da estatística como suporte para a tomada
de decisões é verificada também no mundo antigo, e indícios de sua utilização são
encontrados até na Era antes de Cristo.
LEITURA COMPLEMENTAR
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
53
1 INTRODUÇÃO
Atualmente, vivemos rodeados por uma quantidade de informações tão
grande que não podemos deixar de pensar o quanto a Estatística nos é útil e o
quanto esta ciência vem configurando-se como uma das competências mais im-
portantes para quem precisa tomar decisões.
O mundo moderno vem sendo objeto de profundas e aceleradas trans-
formações econômicas, políticas e sociais que têm levado os Gestores a adotarem
estratégias diferenciadas e criativas para elevar a qualidade de suas empresas.
Essas transformações estão ocorrendo em escala mundial em um processo
jamais visto de globalização dos mercados, de formação de blocos econômicos
regionais, com uma rapidez de inovações tecnológicas que tudo somado, compõe
um cenário extremamente desafiante para a competitividade das empresas.
Esse trabalho tem por objetivo destacar a importância da estatística na
gestão das empresas e no mundo globalizado.
2 DEFINIÇÃO
Estatística é uma parte da Matemática Aplicada que fornece métodos para
a coleta, a organização, a descrição, a análise e a interpretação de dados, visando
à tomada de decisões.
Na indústria e no comércio podem-se comparar produções e volumes de
vendas em relação ao total por região, estudar a situação dos mercados e suas
tendências.
A Estatística é uma ciência que se dedica ao desenvolvimento e ao uso
de métodos para a coleta, resumo, organização, apresentação e análise de dados
(FARIAS SOARES; CÉSAR, 2003)
A palavra estatística tem origem na palavra em latim status, traduzida
como o estudo do Estado e significava, originalmente, uma coleção de informa-
ção de interesse para o estado sobre população e economia. Essas informações
eram coletadas objetivando o resumo de informações indispensáveis para os go-
vernantes conhecerem suas nações e para a construção de programas de governo.
2.1 O QUE É ESTATÍSTICA?
A palavra estatística tem origem na palavra em latim status, traduzida
como o estudo do Estado e significava, originalmente, uma coleção de informa-
ção de interesse para o estado sobre população e economia. Essas informações
eram coletadas objetivando o resumo de informações indispensáveis para os go-
vernantes conhecerem suas nações e para a construção de programas de governo.
54
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
Atualmente, vivemos rodeados por uma quantidade de informações tão
grande que não podemos deixar de pensar o quanto a Estatística nos é útil e o
quanto esta ciência vem configurando-se como uma das competências mais im-
portantes para quem precisa tomar decisões.
Não podemos escapar dos dados, assim como não podemos evitar o uso
de palavras. Tal como as palavras, os dados não se interpretam a si mesmos, mas
devem ser lidos com entendimento. Da mesma maneira que um escritor pode
dispor as palavras em argumentos convincentes ou frases sem sentido, assim
também os dados podem ser convincentes, enganosos ou simplesmente inócuos.
A instrução numérica, a capacidade de acompanhar e compreender argumentos
baseados em dados, é importante para qualquer um de nós. O estudo da estatís-
tica é parte essencial de uma formação sólida (MOORE, 2000).
3 IMPORTÂNCIA DA ESTATÍSTICA
A Estatística é a ciência que coleta, organiza e interpreta dados utilizando
técnicas para lidar com a variabilidade, ou seja, é uma coleção de métodos utili-
zados para converter dados brutos em informações que auxiliem na tomada de
decisão, podendo resolver quase todos os problemas da vida real que envolvam
conjuntos de dados.
A Estatística é de suma importância para empresários, administradores, ges-
tores, para comparar grupos de variáveis relacionadas entre si e obter um quadro
simples e resumido das mudanças significativas nas áreas relacionadas como preços
de matérias primas, cadastros, preços de produtos acabados, preço final de produtos,
financeiro, marketing, volume físico dos produtos, controle de qualidade.
O controle de qualidade de produtos não constitui novidade; é ele, de
fato, tão antigo como a própria indústria. Durante muito tempo foi realizado sob
a forma tradicional denominada "inspeção". Somente a partir de 1920, no entanto,
é que se verificou o desenvolvimento do Controle Estatístico da Qualidade, cuja
aplicação vem se tornando generalizada nos países industrializados.
A grande contribuição da estatística não se baseia tanto no fato de levar um
grupo de estatísticos altamente qualificados para uma indústria, mas no fato de criar
uma geração de físicos, matemáticos e químicos com uma mentalidade estatística, os
quais irão, de algum modo, dar uma ajuda no desenvolvimento e no direcionamento
dos processos de produção no futuro (WALTER SHEWART, 1891-1967).
A questão da competitividade é sobremaneira importante nos mais di-
versos níveis com que pode ser analisada, ou seja, em nível de nação, de setor
econômico e de empresas. Em particular, interessa a questão olhada sob a ótica
das organizações que necessitam aprimorar a própria competitividade para so-
breviver e vencer neste ambiente cada vez mais desafiador.
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
55
A necessidade de se oferecer um produto ou serviço pleno de condições
competitivas surge como sendo vital para a sobrevivência de uma Empresa. Tal
condição tem como princípio a gestão empresarial, baseando-se na gestão de pes-
soas e processo em busca da qualidade total. A procura de clientes não mais se
resume em ter um baixo preço, e sim produtos e serviços que forneça com quali-
dade aquilo a que se propõe, e a aplicação da Estatística é primordial nestes casos.
O conhecimento de estatística é fundamental no ambiente empresarial,
seja na análise de conjunto de dados, seja na previsão de variáveis.
4 CONCLUSÃO
Desejo demostrar a importância da estatística e como é importante o seu
estudo e compreensão por parte dos empreendedores. Assim, não só a gestão
empresarial, com a otimização dos fatores de produção, somados as ferramen-
tas de qualidade e produtividade são suficientes, se estas não contarem com um
suporte dos métodos estatísticos para controle e mensuração dos resultados e
informações obtidas.
Através disto, os administradores, tomam frente de novas situações de
negócios e necessitam de tomadas de decisões rápidas, precisas, eficientes e efica-
zes. Dá para até tomar nota da receita de como satisfazer clientes, e competir com
empresas mundiais no mercado globalizado, cada indivíduo dentro da corpora-
ção necessita de fatores determinantes de sucesso para sua carreira, para assim
garantir seu sustento pôr muito mais tempo, e emprego efetivo ou não até o fim
de sua vida.
Já se dizia há um século que raciocinar estatisticamente será um dia tão
necessário quanto à habilidade de ler e escrever.
FONTE: GONÇALVES, G. Estatística no mundo empresarial. 2012. Disponível em: https://admi-
nistradores.com.br/artigos/estatistica-no-mundo-empresarial. Acesso em: 31 jan. 2020.
56
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• A variável em uma pesquisa estatística é aquilo que se está investigando, ou
seja, o objeto da pesquisa.
• Uma variável em estatística é a observação de uma característica em uma amos-
tra ou em uma população. É uma informação que podevariar de elemento para
elemento.
• Em um questionário cada uma das perguntas é uma variável.
• As variáveis estatísticas são divididas em dois grandes grupos chamados de
variáveis qualitativas e variáveis quantitativas.
• As variáveis qualitativas estão ligadas a qualidade, categorias ou atributos.
• Já as variáveis quantitativas estão ligadas a quantidade, ou seja, a números.
• Dentro do grupo de variáveis qualitativas temos as nominais e as ordinais.
• No grupo de variáveis quantitativas temos as discretas e as contínuas.
• As escalas de medida são formas de representar o registro de ocorrências de
uma pesquisa científica. Elas são divididas em escalas nominais, ordinais, de
intervalos, e ainda, as escalas de razão.
• As séries estatísticas nada mais são do que tabelas nas quais são expressos o
resultado de um estudo estatístico.
• Existem as séries estatísticas conhecidas como históricas ou temporais que tam-
bém são chamadas de cronológicas ou de marchas.
• As séries estatísticas chamadas de geográficas também são chamadas de séries
espaciais, territoriais ou de localização.
• Um outro tipo de séries estatísticas existentes são as específicas, que também
são conhecidas como especificativas ou categóricas.
57
• Quando as séries estatísticas são combinadas, isto é, resultam de uma combina-
ção das séries estatísticas temporais, geográficas, especificativas ou entre distri-
buições de frequências são chamadas de séries mistas, compostas e de séries de
dupla entrada.
• Ainda existe a distribuição de frequência, série estatística mais importante em que
os dados são ordenados por um critério de magnitude em classes ou intervalos.
Ficou alguma dúvida? Construímos uma trilha de aprendizagem
pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao
AVA, e veja as novidades que preparamos para seu estudo.
CHAMADA
58
1 Em uma pesquisa estatística é tudo aquilo que se está investigando, ou seja,
o objeto da pesquisa. Esse é o conceito de:
a) ( ) Série.
b) ( ) Investigação.
c) ( ) Variável.
d) ( ) Amostra.
2 Variável é uma informação que pode variar de elemento para elemento.
Nesse sentido, os tipos diferentes tipos de variável são definidos pelo que?
a) ( ) Pelas características, podendo ser um atributo, uma contagem, uma
classificação ou medição.
b) ( ) Pelas pesquisas, podendo ser um item, uma multiplicação, uma classi-
ficação ou medição.
c) ( ) Pelos questionários, podendo ser um resumo, um conto, ou medição.
d) ( ) Pelas próprias variáveis, podendo ser um atributo, uma contagem,
uma classificação ou medição.
3 Com relação aos dois grandes grupos de divisão principal das variáveis,
classifique V para as sentenças VERDADEIRAS e F para as FALSAS.
( ) Os dois grandes grupos de classificação das variáveis são finitas e infinitas.
( ) As variáveis são divididas primeiramente em qualitativas e quantitativas.
( ) Quando estamos falando em variáveis qualitativas estamos nos referindo
à quantidade.
( ) As variáveis quantitativas estão associadas a números.
Assinale a sequência CORRETA:
a) ( ) V – V – F – F.
b) ( ) F – V – V – F.
c) ( ) F – V – F – V.
d) ( ) F – F – V – V.
4 As variáveis qualitativas têm como resposta os atributos, elas se classificam em:
a) ( ) Nominais e cardinais.
b) ( ) Ordinais e contínuas.
c) ( ) Contínuas e discretas.
d) ( ) Nominais e ordinais.
AUTOATIVIDADE
59
5 Quando as variáveis qualitativas nominais têm só duas opções de resposta,
elas são chamadas de variáveis:
a) ( ) Ordinais.
b) ( ) Discretas.
c) ( ) Complementares.
d) ( ) Dicotômicas.
6 Existe um tipo de variável que têm um atributo associado a uma ordem.
Esse tipo de variável é chamado de:
a) ( ) Ordinal.
b) ( ) Dicotômica.
c) ( ) Nominal.
d) ( ) Amostra.
7 Com relação aos tipos as variáveis quantitativas, classifique V para as sen-
tenças VERDADEIRAS e F para as FALSAS.
( ) As variáveis quantitativas não tem subdivisão como as variáveis qualitativas.
( ) As variáveis quantitativas discretas são variáveis que resultam de uma
contagem.
( ) As variáveis quantitativas contínuas são resultantes de medição ou de
operações matemáticas.
( ) As variáveis quantitativas estão associadas a números.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – F – F.
c) ( ) F – V – V – V.
d) ( ) V – V – F – F.
8 Com relação às escalas de medida, faça a devida associação:
(1) Escalas nominais ( ) O valor mínimo desse tipo de escala é sempre zero.
(2) Escalas Ordinais ( ) São exemplos de utilização desse tipo de escala: o ano no calen-
dário e a temperatura em graus centígrados
(3) Escalas de Intervalos ( ) Esse tipo de escala é meramente classificativo, sem recurso de
quantificação.
(4) Escalas de Razão ( ) Geralmente nesse tipo de escala existe a possibilidade de se
estabelecer uma ordem
60
9 Quando se olha para uma tabela e se consegue identificar o objeto do estu-
do, o local e a época da pesquisa, se está diante:
a) ( ) De uma tabela estatística.
b) ( ) De uma tabela objetiva.
c) ( ) De uma série estatística.
d) ( ) De uma série numeral.
10 As séries estatísticas cujo elemento que varia é o local, é chamada de:
a) ( ) Dupla entrada.
b) ( ) Histórica.
c) ( ) Específicas.
d) ( ) Geográficas.
61
UNIDADE 2 —
DADOS, GRÁFICOS
E MEDIDAS DE POSIÇÃO
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• identificar os tipos de dados existentes;
• organizar e estruturar dados para análise gráfica;
• representar dados de forma gráfica para auxílio na tomada de decisões;
• realizar a leitura e interpretação visual e de gráficos;
• analisar a descrição e frequência dos dados;
• avaliar medidas de posição e suas implicações para modelos estatísticos.
Esta unidade está dividida em três tópicos. No decorrer da unidade
você encontrará autoatividades com o objetivo de reforçar o conteúdo
apresentado.
TÓPICO 1 – BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
TÓPICO 2 – GRÁFICOS ESTATÍSTICOS
TÓPICO 3 – MEDIDAS DE POSIÇÃO
Preparado para ampliar seus conhecimentos? Respire e vamos
em frente! Procure um ambiente que facilite a concentração, assim absorverá
melhor as informações.
CHAMADA
62
63
UNIDADE 2
1 INTRODUÇÃO
Olá, acadêmico! A partir de agora, abordaremos sobre os processos de
coleta e análise dos dados. Além disso, aprenderemos sobre a elaboração e a in-
terpretação gráfica dos dados e as diferentes formas de representação.
Você já imaginou quantos dados históricos são armazenados para auxiliar
os gestores na tomada de decisões no presente e com repercussões no furuto?
Pois é. Há estudiosos que apontam um crescimento exponencial na criação e na
utilização dos dados virtuais, de modo que, ao longo dos últimos dez anos, foram
criados mais dados do que em toda a história humana. Sem dúvida, esse proces-
so foi permitido devido ao avanço tecnológico em criação e armazenamento de
dados virtualizados.
Assim, organizações públicas e privadas se beneficiam desse volume de
dados virtuais para agilizar processos administrativos. Com isso, essas organi-
zações podem fazer uso dos dados para planejar, executar e tomar decisões mais
assertivas quanto à oferta de produtos e serviços. A partir dessa necessidade, o
armazenamento de dados vem sendo um tema amplamente discutido, de movo
que não limite a operação de negócios. A partir disso, surgiu o termo Big Data
(Grande Base de Dados).
Por meio de um Big Data, empresas podem ter maiores evidências nos
dados de comportamentos passados, fornecendo um suporte para os planos e de-
cisões do presente de movo a influenciar o futuro. Para que se possa transformar
dados e informações úteis para a tomada de decisão, faz-se necessário a organi-
zação e a estruturação dos dados. Esses dados podem ser obtidos de diversas fon-
tes, como preferências, gostos, comportamentos, disposição a pagar, entre outros
fatores dos clientes e potenciais consumidores.
Portanto, estetópico se apropria de termos discutidos na Unidade 1 para
avançar com a discussão sobre a organização de dados, estutura, Big Data e dis-
tribuição de frequência. Por isso, temos, à disposição, vários materiais para lhe
auxiliar nesta caminhada, além da nossa central de atendimento. Lembre-se: não
basta saber, é preciso saber fazer! Bons estudos!
TÓPICO 1 —
BIG DATA, DADOS
E DISTRIBUIÇÃO DE FREQUÊNCIA
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
64
2 BIG DATA
Big Data ou, em português, Grande Base de Dados, refere-se a um amplo
conjunto de dados em constante crescimento, ou seja, uma base de dados que acu-
mula informações ao longo do tempo. Isso abrange um amplo volume de informa-
ções que são criadas e coletadas de diferentes origens, sendo, portanto, frequente-
mente caracterizado por múltiplas fontes de diferentes formatos (SEGAL, 2019).
A maioria dos dados são armazenadas em base de dados computacionais
sendo analisadas com a utilização de um software específico que seja capaz de pro-
cessar um grande volume de dados. Com os dados disponíveis, analistas ou profis-
sionais especializados, como o caso de estatísticos, podem analisar as relações dos
dados por padrões de comportamentos, tais como dados demográficos e histórico
de compras, se fabrica interna ou externamente, dentre outras. Em síntese, esses
dados permitem que empresas avaliem tendências para a tomada de decisão (SE-
GAL, 2019).
O conceito do Big Data pode ser avaliado dentro de uma terminologia
chamada de 6 Vs (seis “V”) (NISHADI, 2018), conforme apresentado na Figura
1. Esse tema tem sido amplamente discutido na indústria da computação como
fatores determinantes que definem o Big Data, no qual, inicialmente, o modelo foi
criado com os termos volume, velocidade e variedade da informação. Posterior-
mente, foram adicionados os termos de veracidade, variabilidade e valores dos
dados como fatores de definição de um Big Data (LEE, 2017). Cada termo tem por
significado:
• Volume: refere-se ao montante de dados que um negócio cria, manipula e
gerencia.
• Velocidade: refere-se à velocidade no qual os dados são gerados e processados.
• Variedade: abrange os diversos tipos de dados, como dados contínuos,
intervalos entre outros.
• Veracidade: consiste na acurácia (precisão) e confiabilidade dos dados.
• Variabilidade: refere-se na variação existente dentro de uma variável.
• Valor (value): aborda sobre o valor que os dados podem fornecer a um negócio,
como ter acesso a informações para uma tomada de decisão (NISHADI, 2018).
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
65
FIGURA 1 – MODELO DOS 6 Vs DO BIG DATA
FONTE: Nishadi (2018, p. 1147)
Os dados passam por um período de ciclo de vida. De acordo com a Fi-
gura 2, os dados são coletados em um primeiro momento (coleta de dados). Na
sequência, os dados devem ser armazenados em uma grande base de dados (ar-
mazenamento de dados). Após, os dados são tratados e analisados (análise de
dados). Por fim, esses dados permitem conclusões e criação de novos conheci-
mentos (criação de conhecimento).
FIGURA 2 – CICLO DE VIDA DOS DADOS
FONTE: Nishadi (2018, p. 1147)
Como destacado na figura anterior, os analistas de dados avaliam o rela-
cionamento de um amplo conjunto de dados. Esses testes podem ser variados,
mas, em síntese, buscam avaliar a correlação existente entre dados, possíveis
tendências, grupos, similaridades, diferenças entre grupos, entre outros aspectos
(SEGAL, 2019). Entretanto, para que todo esse processo possa gerar novos conhe-
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
66
cimentos, faz-se necessário compreender os conceitos dos dois tipos de dados –
dados estruturados e não estruturados na seção a seguir.
3 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS
De acordo com Lock, Lock e Lock (2017), estima-se que a quantidade de
dados novos é dobrada a cada dois anos, ou seja, mais do que a soma de dados
gerados ao longo dos últimos cinco mil anos. Um dos principais motivos é a dis-
ponibilidade desses dados compartilhados na internet, mas, sobretudo, da cone-
xão de dispositivos físicos – chamados de Internet das Coisas (ou Internet of things
em inglês) com as redes virtuais.
Por sua vez, a coleta e análise eficazes dos dados são ferramentas que po-
dem levar organizações a obterem informações decisivas (LOCK; LOCK; LOCK,
2017). Os dados em si são chamados de precedentes a informação, ou seja, refe-
rem-se a uma coleção de observações, sejam por meio de medidas, gêneros, res-
postas de pesquisa etc. (TRIOLA, 2014). Os dados apresentam-se de forma bruta,
sem qualquer significado aparente (LOCK; LOCK; LOCK, 2017).
Para gerar alguma informação, os dados precisam ser coletados, organi-
zados, tratados e analisados. Obviamente, os tipos de análise dependem do tipo
de informação que se deseja gerar, entretanto, o processo de coleta, organização
e tratamento ocorre de forma similar. Apenas com relação à origem dos dados,
estes podem ser classificados em dados estruturados e não estruturados, como
será visto no subtópico a seguir.
3.1 DADOS ESTRUTURADOS
Os dados estruturados referem-se aos dados obtidos em fontes previa-
mente organizadas e padronizadas. A formatação dos dados antes da coleta de
dados é o que caracteriza essa classificação. A natureza destes dados é, geralmen-
te, em ordem numérica (SEGAL, 2019). Esses dados podem ser obtidos por meio
de relatórios de sistemas de gerenciamento de organizações (ERPs), dados de
sistema, organização de planilhas entre outros.
TABELA 1 – DADOS ESTRUTURADOS
Código Nome Idade (anos) Grau
1 João 18 Bacharel
2 Davi 31 Doutor
3 Roberto 51 Doutor
4 Ricardo 26 Mestre
5 Maicon 19 Tecnólogo
FONTE: Adaptado de Cardoso (2007)
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
67
Como é possível perceber na Tabela 1, os dados estão organizados em
um formato padronizado, caracterizando-o em uma classificação de dados es-
truturados. Portanto, suponha que, mensalmente, uma organização consulta um
relatório com os empregados, levando em conta que o software está programado
para fornecer relatórios neste layout e que, em todas as situações, os relatórios
apresentam o código de colaborador, nome, idade e formação. Apesar desse for-
mato de dados fornecer informações prontas para análise, ele possui limitações
de dados e uma geração limitada de informações quando comparados com a clas-
sificação de dados não estruturados (LEE, 2017).
3.2 DADOS NÃO ESTRUTURADOS
Por sua vez, os dados não estruturados referem-se a dados obtidos sem
uma formatação pré-definida, ou seja, um conjunto de dados é obtido e requer
uma “organização” ou “separação” dos dados úteis para análise. Esse conjunto
de dados se diferencia do anterior por haver um conjunto de etapas adicionais na
coleta, organização e preparação dos dados para a análise (LEE, 2017).
Dessa maneira, os dados não estruturados requerem algumas etapas de
organização de dados após a sua coleta. Veja como exemplo, a Tabela 2, na qual é
apresentado um texto com dados sem qualquer padronização e formatação. Essa
formatação pode ser classificada por meio de uma linguagem de programação
computacional capaz de minimamente organizar os dados – chamado de dados
semiestruturados (CARDOSO, 2007).
TABELA 2 – DADOS NÃO ESTRUTURADOS
Dados não estruturados Dados semiestruturados
A universidade possui 5600 alunos.
O número de identificação de João
é o número 1, ele tem 18 anos e já é
Bacharel. O número de identificação
de Davi é o número 2, ele tem 31 anos
e é Doutor. Roberto é o número 3, ele
tem 51 anos e também possui o mesmo
diploma que Davi.
João
18
Bacharel
Davi
31
Doutor
…
FONTE: Cardoso (2007, p. 11)
Os dados não estruturados podemser coletados de diversas fontes, como
redes sociais e outras páginas da web ao qual podem ser transformados em in-
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
68
formações. Em geral, esse tipo de dados é recomendado para organizações que
necessitam avaliar o comportamento dos seus clientes, como preferências, neces-
sidades e desejos (SEGAL, 2019). Todavia, o que fazer com os dados coletados?
Na sequência, abordaremos sobre a organização de dados.
4 ORGANIZAÇÃO DOS DADOS
Após a coleta de dados, faz-se necessário a organização dos casos e variá-
veis em uma base de dados. Entretanto, o que significa casos e variáveis?
Os casos são os respondentes da pesquisa, ou seja, os dados que são obtidos a
partir da aplicação de um instrumento de pesquisa. Por sua vez, as variáveis correspondem
a uma característica registrada ou avaliada para cada caso (LOCK; LOCK; LOCK, 2017).
DICAS
Para tornar mais clara a diferença entre casos e variáveis, note o exemplo
no Quadro 1. Perceba que existem cinco respondentes de uma pesquisa. Os dados
apresentados estão em um quadro, em que há variáveis em cada coluna, enquan-
to casos para denominar as linhas dos respondentes. Logo, no exemplo aplicado,
os casos são as respostas fornecidas pelos respondentes, sendo apresentados na
horizontal, enquanto as variáveis referem-se nas colunas.
QUADRO 1 – EXEMPLO DE CASOS E VARIÁVEIS COM DADOS ESTRUTURADOS
Sexo Idade (anos) Peso (kg)
Respondente 1 Masc 18 105
Respondente 2 Fem 25 58
Respondente 3 Fem 21 56
Respondente 4 Masc 85 75
Respondente 5 Fem ? 77
FONTE: Os autores
Exemplo de casos e variáveis com dados não estruturados: imagine o
mesmo exemplo do Quadro 1, mas com texto corrido. Leve em conta que os cinco
respondentes participaram de forma voluntária uma pesquisa. O primeiro res-
pondente era homem, tinha 18 anos de idade e pesava 105 kg. O segundo era do
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
69
sexo feminino, com 25 anos e 58 kg. Na sequência, uma outra respondente com
21 anos e 58 kg. O quarto respondente era um homem de 85 anos com 75 kg. Por
último, uma mulher não revelou sua idade, mas indicou seu peso de 77 kg.
Como analisar esses dados? Como perceber as variações existentes nos da-
dos? Mesmo que esse exemplo apresente apenas cinco casos, isso pode levar a dificul-
dades de interpretação. A partir dessa necessidade, a organização dos dados consiste
em organizá-los em uma base de dados, quadro ou tabela, conforme apresentado
no Quadro 1. Portanto, como primeira etapa do tratamento de dados, você deverá
organizar seus dados em um formato que permita análises estatísticas. Usualmen-
te, o Microsoft Excel e/ou similar são indicados para tal atividade uma vez que são
ferramentas de fácil manipulação desses tipos de dados. Os formatos CVS e TXT são
indicados para um futuro processo de importação em software de análise estatística.
Após realizado a organização dos dados em bases de dados, deve-se pro-
ceder uma análise unidirecional, ou seja, uma análise dos casos por variáveis.
Os termos missing values e outliers são importantes neste momento. O que esses
termos se referem? Enquanto o termo missing values refere-se aos valores não for-
necidos pelo respondente (valores faltantes), os outliers representam os valores
que estão fora de padrão (valores distorcidos) (HAIR et al., 2009).
Vamos tomar o Quadro 1 para esclarecer esses conceitos. Note que há dois
outliers, sendo um referente a idade – respondente 4 por ter idade muito acima
dos demais (85 anos), enquanto o outro possui um peso relativamente acima dos
demais – respondente 1 por seu peso (105 kg). Portanto, a depender do objetivo
da pesquisa, sugere-se que esses outliers sejam removidos da amostra para asse-
gurar dados normalizados. Caso essas variáveis não sejam determinantes para a
pesquisa e não devem interferir nos resultados, esses casos podem ser mantidos.
Independentemente do motivo, note que o quinto respondente não forne-
ceu sua idade. Essa é uma situação de missings value (valor faltante). Essa situação
remete a uma decisão referente a esse caso, sendo possível aplicar um conjunto
de técnicas para tratar esses dados:
• Excluir: consiste em excluir o respondente da amostra uma vez que não forne-
ceu informações completas. Essa técnica é sugerida quando há falta de dados
em várias variáveis.
• Aplicar média: consiste em aplicar a média de todos os respondentes de uma
variável para o caso com dados faltantes. A vantagem da técnica é de apro-
veitamento de parte dos dados, porém, não se sabe exatamente o motivo da
ausência de dados (que também pode revelar algum motivo oculto). A técnica
é sugerida quando poucos dados estão faltantes (HAIR et al., 2009).
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
70
5 DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO
A distribuição de frequência demonstra a distribuição de uma amostra em
relação às classes ou grupos (CRESPO, 2017). Ou seja, quantos respondentes há
em cada classe ou quantas respostas repetidas se encontram em uma determinada
classe. Essa análise deve ser feita inicialmente para avaliar a distribuição por classes
de um conjunto de dados, se, por exemplo, há algum viés ou tendência nos dados.
Para iniciar essa discussão, vamos, primeiramente, abordar o conceito de
tabela primitiva ROL a partir de um exemplo aplicado. Suponha a pesquisa vo-
luntária abordada no subtópico anterior com cinco respondentes adicionais, con-
forme Quadro 2.
QUADRO 2 – DADOS DE PESQUISA VOLUNTÁRIA
Sexo Idade (anos) Peso (kg)
Respondente 1 Masc 18 105
Respondente 2 Fem 25 58
Respondente 3 Fem 21 56
Respondente 4 Masc 85 75
Respondente 5 Fem ? 77
Respondente 6 Masc 45 85
Respondente 7 Masc 29 76
Respondente 8 Masc 17 65
Respondente 9 Fem 53 59
Respondente 10 Fem 61 67
FONTE: Os autores
Com base no quadro anterior, qual a menor idade? Qual a maior idade? Qual
o menor peso? Qual o maior peso? Para responder essas questões você deverá pro-
curar os valores dentro do quadro, e inclusive a probabilidade de erro na informação
é relativamente alta. Essa análise se chama ROL e é apresentada na seção a seguir.
5.1 ANÁLISE ROL
A tabela primitiva ROL considera a ordenação destes dados (seja crescen-
te ou decrescente). Veja, por exemplo, o quadro a seguir:
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
71
QUADRO 3 – QUADRO ROL REFERENTE DADOS DE IDADE E PESO
Idade (anos) 17 18 21 25 29 45 53 61 85 ?
Peso (kg) 56 58 59 65 67 75 76 77 85 105
FONTE: Os autores
Como você pode perceber, o Quadro 3 apresenta os mesmos dados do Qua-
dro 2, mas de forma ordenada por idade e peso. Note que essa ordenação denomi-
nada ROL facilita a compreensão do valor mínimo, máximo e amplitude dos dados.
Logo, torna-se mais fácil e assertiva responder as questões realizadas anteriormente:
• Qual a menor idade? 17.
• Qual a maior idade? 85.
• Qual o menor peso? 56.
• Qual o maior peso? 105.
Além disso, é comum analisar a quantidade de indivíduos segundo uma variá-
vel que, nesse caso, poderia ser idade ou peso, como exemplo. Denomina-se frequência
o número de indivíduos que possui características de uma variável (CRESPO, 2017).
Por exemplo, pode se elaborar um quadro com a distribuição de frequência:
QUADRO 4 – DISTRIBUIÇÃO DE FREQUÊNCIA POR IDADE
Idade (anos) Frequência
17 1
18 1
21 1
25 1
29 1
45 1
53 1
61 1
85 1
FONTE: Os autores
Note que, nesse exemplo, há nove intervalos de classe, quando medidos pela
idade do indivíduo. Mas, como fazer essa análise em um volume de dados maior?
É possível classificar esses dados em intervalos de análise e, a partir disso, avaliar a
distribuição por intervalos. No entanto, como calcular os intervalos de classe?
É comum dividir os intervalos em grupos de mesmo tamanho, exceto se
há algum interesse do pesquisador em avaliar algum intervalo em específico ou
dar ênfase em algum grupo. Suponha que desejamos definir quatro classes de
grupos de indivíduos. Isso pode levara duas maneiras de se estruturar os in-
tervalos de classe, uma vez que há indivíduos em diferentes momentos de suas
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
72
vidas, e considerando uma amostra com jovens, adultos, meia-idade e idosos.
Para delimitar esses intervalos, será necessário calcular a amplitude total (AT)
para obter a amplitude por classe (h), e a relação com o número de classes (k).
Discutiremos essas etapas na sequência e, após, apresentaremos dois métodos de
delimitação de intervalos de frequência.
5.2 NÚMERO OU INTERVALOS DE CLASSE
“Classes de frequência ou, simplesmente, classes, são intervalos de va-
riação da variável” (CRESPO, 2017, p. 32). Refere-se ao número de intervalos de
classe que o pesquisador deseja delimitar sua amostra. O cálculo de intervalos
de classe tem por objetivo reduzir a distribuição de frequência em grupos me-
nores. Como no Quadro 4 apresenta-se nove intervalos de classe (k=9), suponha
que o pesquisador deseja reduzi-lo para quatro intervalos (k=4) para facilitar a
distribuição e compreensão da amostra. Por fim, a símbolo “k” é atribuído para
representar o número de intervalos de classe.
Esse cálculo é realizado apenas em variáveis contínuas e qualitativas (gê-
nero, idade, cargo etc.) para delimitar intervalos de classificação dos responden-
tes e seus respectivos perfis. As variáveis categóricas não necessitam desse trata-
mento, pois já possuem intervalos pré-estabelecidos.
NOTA
Variáveis categóricas são medidas em uma escala nominal, no qual as cate-
gorias identificam a sociedade da classe ou de grupo, como gênero e escolaridade.
5.3 AMPLITUDE TOTAL DA DISTRIBUIÇÃO
A amplitude total (AT) refere-se na diferença entre o limite superior da últi-
ma classe (limite superior máximo) e o limite inferior da primeira classe (limite infe-
rior mínimo) (CRESPO, 2017). O cálculo é realizado por meio da seguinte fórmula:
AT = L(máx) - l(mín).
Suponha o exemplo de idade do quadro 4:
AT = 85 – 17 anos.
AT = 68 anos
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
73
5.4 AMPLITUDE DE UM INTERVALO DE CLASSE
A amplitude de um intervalo de classe (h) refere-se na medida do inter-
valo que define a classe (CRESPO, 2017). Como o número de classes (k) desejado
pelos pesquisadores é 4, a amplitude de cada classe (h) é de:
h = AT / k.
h = 68 / 4.
h = 17 anos de idade.
Logo, tem-se a seguinte distribuição por frequência:
QUADRO 5 – DISTRIBUIÇÃO DE FREQUÊNCIA EM QUATRO INTERVALOS DE CLASSES
Classe Frequência
17 - 34 5
34 - 51 1
51 - 68 2
68 - 85 1
FONTE: Os autores
5.5 TIPOS DE FREQUÊNCIA
As frequências podem ser caracterizadas em simples (f) ou relativas (fr), e
também frequência simples acumulada (F) e frequência relativa acumulada (Fr).
Enquanto as frequências simples “são os valores que realmente representam o
número de dados de cada classe”, as frequências relativas “são os valores das
razões entre as frequências simples e a frequência total” (CRESPO, 2017, p. 35).
Veja a aplicação desses dois conceitos no Quadro 6:
QUADRO 6 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA
Classe f fr
17 - 34 5 0,55
34 - 51 1 0,11
51 - 68 2 0,22
68 - 85 1 0,11
Total T=9 T=1
FONTE: Os autores
Perceba que o Quadro 6 demonstra a aplicação da distribuição por frequ-
ência simples e frequência relativa. Para obter o valor da frequência relativa basta
dividir o valor da frequência de uma classe pelo número total da amostra (9). Por
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
74
exemplo, no cálculo da primeira classe obteve-se: 5 / 9 = 0,55. Por fim, a soma da
frequência relativa deve-se obter o número inteiro 1, ou se transformado em per-
centual deverá alcançar 100%.
Por outro lado, a frequência acumulada (F) considera a soma dos valores
ao longo das classes, enquanto a frequência acumulada agrupa os valores ao
longo de cada classe. Veja a aplicação no Quadro 7:
QUADRO 7 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA
Classe f fr F Fr
17 - 34 5 0,55 5 0,55
34 - 51 1 0,11 6 0,67
51 - 68 2 0,22 8 0,89
68 - 85 1 0,11 9 1
Total T=9 T=1 T=9 -
FONTE: Os autores
Essas técnicas podem ser utilizadas manualmente ou com o uso de algum
software especializado. É comum utilizar o MS Excel para facilitar o manuseio de
dados, vejamos no próximo subtópico.
6 ANÁLISE DE FREQUÊNCIA COM MS EXCEL
O MS Excel pode facilitar o processo de análise de frequência. Esse sof-
tware oferece um amplo conjunto de fórmulas que reduzem o tempo de conso-
lidação de informações de uma amostra. A seguir, são destacadas algumas das
funcionalidades do MS Excel:
a) Contar valores: essa função é utilizada para verificar o número de respondentes
(n).
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
75
FIGURA 3 – FREQUÊNCIA COM MS EXCEL: N
FONTE: Os autores
b) Mínimo: apresenta o limite inferior, ou seja, o valor mais baixo da variável.
FIGURA 4 – FREQUÊNCIA COM MS EXCEL: MÍNIMO
FONTE: Os autores
c) Máximo: apresenta o limite superior, ou seja, o valor mais alto da variável.
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
76
FIGURA 5 – FREQUÊNCIA COM MS EXCEL: MÁXIMO
FONTE: Os autores
d) Frequência: indica a quantidade de casos de uma amostra a partir de um limite
superior. Por exemplo, ao mencionar o valor 10, por exemplo, a fórmula ras-
treia e indica quantos casos possuem valor até 10. Veja a aplicação a seguir:
FIGURA 6 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA ACUMULADA
FONTE: Os autores
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
77
O Excel indica apenas a frequência acumulada, ou seja, o valor máximo de
cada classe é atribuído para obter o volume de casos em cada classe. Para identificar
a frequência por classe basta calcular a diferença entre elas. Por fim, a frequência
relativa e a frequência relativa acumulada são calculadas através da relação entre
a frequência de uma classe pelo valor total. Veja essas etapas nas Figuras 7, 8 e 9:
FIGURA 7 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA RELATIVA ACUMULADA
FONTE: Os autores
FIGURA 8 – FREQUÊNCIA COM MS EXCEL: DISTRIBUIÇÃO DE FREQUÊNCIA
FONTE: Os autores
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
78
FIGURA 9 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA RELATIVA
FONTE: Os autores
CASES DE EMPRESAS QUE USAM BIG DATA
Veja exemplos reais de empresas que usam Big Data para sair na
frente da concorrência! Empresas que usam Big Data com toda certeza pos-
suem um grande diferencial. Não é de hoje que as empresas buscam cada
vez mais tecnologias. Com tantos avanços, uma empresa deve estar antena-
da se não quiser ficar obsoleta rapidamente. No entanto, o Big Data ainda
é pouco explorado, especialmente no Brasil. Muitos nem sabem do que se
trata. A verdade é: as poucas empresas que investiram no uso do Big Data
tiveram resultados expressivos. Confira agora 5 cases incríveis! Eles deixam
muito claro como o uso correto do Big Data pode ser uma enorme vantagem
competitiva para uma empresa:
1 – TARGET
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
79
A Target é a segunda maior retail store (rede de varejo) dos Estados
Unidos, ficando atrás apenas do Walmart. O case dessa marca ficou extre-
mamente conhecido por ter realizado algo incrível: prever quais clientes
estavam grávidas. Até hoje, há um grande debate sobre privacidade e até
onde é correto utilizar as informações dos clientes para tal ações. Contudo,
é inegável a genialidade do uso do Big Data. A equipe de análise de dados
da rede criou modelos para entender e conhecer a fundo os hábitos de com-
pra de seus clientes. Dessa forma, foi possível criar perfis de comprador,
baseando-se em suas compras e dados demográficos, idade e até a situação
da vida pessoal da pessoa. Assim, a empresa poderia oferecer ofertas de
produtos que cada perfil estava mais propenso a comprar. Foi assim que
passaram a mapear quais clientes estavam grávidas, e até qual o mês da
gestação, baseando-se nos hábitos de compra.3.1.3 Amostra sistemática ............................................................................................................. 25
3.2 AMOSTRAGEM NÃO PROBABILÍSTICA ............................................................................... 27
3.2.1 Amostra por quotas ............................................................................................................. 27
3.2.2 Amostra de voluntários ...................................................................................................... 28
3.2.3 Amostra intencional ou por conveniência ........................................................................ 28
4 ERROS DE AMOSTRAGEM ........................................................................................................... 28
4.1 ERROS AMOSTRAIS OU ALEATÓRIOS .................................................................................. 28
4.2 ERROS NÃO AMOSTRAIS OU SISTÉMICOS ......................................................................... 29
5 CÁLCULO AMOSTRAL ................................................................................................................... 30
5.1 FÓRMULA DO CÁLCULO AMOSTRAL ................................................................................. 31
RESUMO DO TÓPICO 2..................................................................................................................... 33
AUTOATIVIDADE .............................................................................................................................. 35
TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS ............................................. 39
1 INTRODUÇÃO .................................................................................................................................. 39
2 CONCEITO DE VARIÁVEL ............................................................................................................ 39
3 TIPOS DE VARIÁVEIS .................................................................................................................... 40
3.1 VARIÁVEIS QUALITATIVAS NOMINAIS ............................................................................... 40
3.2 VARIÁVEIS QUALITATIVAS ORDINAIS ................................................................................ 41
3.3 VARIÁVEIS QUANTITATIVAS DISCRETAS ........................................................................... 42
3.4 VARIÁVEIS QUANTITATIVAS CONTÍNUAS ........................................................................ 43
4 ESCALAS DE MEDIDA ................................................................................................................... 44
4.1 ESCALAS NOMINAIS ................................................................................................................. 45
4.2 ESCALAS ORDINAIS .................................................................................................................. 45
4.3 ESCALAS DE INTERVALOS ...................................................................................................... 46
4.4 ESCALAS DE RAZÃO ................................................................................................................. 47
5 SÉRIES ESTATÍSTICAS ................................................................................................................... 47
5.1 SÉRIES HISTÓRICAS OU TEMPORAIS ................................................................................... 48
5.2 SÉRIES GEOGRÁFICAS .............................................................................................................. 49
5.3 SÉRIES ESPECÍFICAS .................................................................................................................. 49
5.4 SÉRIES MISTAS ............................................................................................................................. 50
5.5 DISTRIBUIÇÃO DE FREQUÊNCIA .......................................................................................... 50
LEITURA COMPLEMENTAR ............................................................................................................ 52
RESUMO DO TÓPICO 3..................................................................................................................... 56
AUTOATIVIDADE .............................................................................................................................. 58
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO ........................................... 61
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA ............................. 63
1 INTRODUÇÃO .................................................................................................................................. 63
2 BIG DATA ........................................................................................................................................... 64
3 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS ........................................................... 66
3.1 DADOS ESTRUTURADOS ......................................................................................................... 66
3.2 DADOS NÃO ESTRUTURADOS ............................................................................................... 67
4 ORGANIZAÇÃO DOS DADOS .................................................................................................... 68
5 DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO .............................. 70
5.1 ANÁLISE ROL .............................................................................................................................. 70
5.2 NÚMERO OU INTERVALOS DE CLASSE ............................................................................... 72
5.3 AMPLITUDE TOTAL DA DISTRIBUIÇÃO .............................................................................. 72
5.4 AMPLITUDE DE UM INTERVALO DE CLASSE .................................................................... 73
5.5 TIPOS DE FREQUÊNCIA ............................................................................................................ 73
6 ANÁLISE DE FREQUÊNCIA COM MS EXCEL .......................................................................... 74
RESUMO DO TÓPICO 1..................................................................................................................... 83
AUTOATIVIDADE .............................................................................................................................. 84
TÓPICO 2 —TÍTULO DO TÓPICO 2 UNIDADE 1....................................................................... 87
1 INTRODUÇÃO .................................................................................................................................. 87
2 TIPOS DE GRÁFICOS ...................................................................................................................... 88
2.1 BARRAS OU COLUNAS ............................................................................................................. 89
2.2 LINHAS .......................................................................................................................................... 90
2.3 GRÁFICO DE PIZZA ................................................................................................................... 92
2.4 DISPERSÃO OU SCATTERPLOT............................................................................................... 93
2.5 DIAGRAMA DE CAIXAS OU BOXPLOT ................................................................................ 94
2.6 HISTOGRAMA ............................................................................................................................. 95
2.7 ÁREA .............................................................................................................................................. 97
2.8 RADAR ...........................................................................................................................................Apesar de ter gerado muita
polêmica, foi evidente o aumento da assertividade das ofertas e maior nú-
mero de compras e fidelizações.
2 – AMERICAN EXPRESS
A American Express, mais conhecida como Amex, é uma das mais
famosas empresas de serviços financeiros dos Estados Unidos. Imagine a
quantidade de dados que uma empresa desse nicho possui? Pensando em
como tirar proveito disso, a empresa passou a utilizar a análise de dados e
o machine learning (aprendizagem da máquina) para tomar importantes
decisões. Uma das soluções alcançadas foi detectar fraudes com muito mais
facilidade. Com esse recurso, eles percebem padrões que correspondem a
transações fraudulentas, pensando em detectar rapidamente para minimizar
perdas. Assim, os algoritmos, através do machine learning, aprendem o
padrão de consumo de cada usuário. Sempre que há algum tipo de transação
que foge do usual, o usuário e a empresa são notificados.
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
80
Isso fez com que a empresa economizasse milhões! Mas eles não
pararam por aí. Com o Big Data, viram uma grande oportunidade de di-
versificar ainda mais os serviços oferecidos ao usuário, não se limitando
ao crédito. Hoje, a empresa oferece um aplicativo que analisa os dados de
compras anteriores e, em seguida, recomenda restaurantes na área que o
usuário provavelmente desfrutará. Além disso, oferecem cupons e ofertas
em outros estabelecimentos e produtos.
3 – AMAZON
A Amazon é uma empresa transnacional de comércio dos Estados
Unidos. Hoje, é uma empresa que vende de tudo um pouco. Ela tem se
destacado cada vez mais pelo uso inteligente de tecnologia e Big Data. Re-
centemente, se tornou a segunda empresa americana a alcançar o valor de
mercado de US$ 1 trilhão, o que deixa claro sua força. E nada disso teria
sido possível sem o uso dos dados. Os algoritmos criados pela Amazon
possuem principalmente a função de levar as ofertas mais personalizadas
possível para cada pessoa. Resultado: cliente satisfeito, empresa vendendo
mais. Através de Machine Learning (aprendizagem da máquina) e do ar-
mazenamento em cloud computing (computação nas nuvens), eles apren-
dem como cada consumidor se comporta. É possível até prever que tipo de
mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar
ideias de produtos para os clientes sem que eles tenham sequer pedido! É
interessante ressaltar que a Amazon tem investido também em disponibili-
zar a mesma tecnologia que usam para outros e-commerces. Dessa maneira,
comprovam sua eficácia em diversos níveis e mostram ainda como expan-
dir a oferta de serviços com o Big Data.
TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA
81
4 – DELTA AIRLINES
No ramo da aviação, muitas vezes é difícil encontrar pontos que fa-
çam uma empresa realmente se diferenciar da outra. Pensando em como ir
além, a empresa Delta pensou em como resolver uma das maiores dores dos
passageiros quando viajam: bagagem extraviada. Com uma solução simples,
porém muito inteligente e eficaz, eles pensaram em um sistema que permite
cada passageiro acompanhar onde está sua bagagem. Além de deixar as pes-
soas mais tranquilas, ajudou a evitar grandes dores de cabeça para a empresa.
Pode parecer simples, mas esse recurso é sim uma utilização muito inteligen-
te do Big Data. São mais de 130 milhões de bagagens despachadas por ano,
um grande volume de informações com cada uma delas. Isso mostra como
o Big Data não está distante de nossa realidade: pode ser utilizado por qual-
quer tipo de empresa, sem gastar milhões de reais. Uma solução barata e que
diferenciou a Delta como uma empresa centrada no consumidor.
5 – SHELL
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
82
Pra quem pensa que empresas que usam Big Data são apenas as
mais novas ou muito ligadas ao digital, está muito enganado. A Shell, uma
das maiores empresas petrolíferas do mundo passou a usar o Big Data para
reduzir consideravelmente seus gastos de operação. Para perfurar um lo-
cal para extração de petróleo, além de muito caro ocasiona em um grande
impacto ambiental. Para minimizar os riscos e diminuir custos, é preciso
estudar bem quais áreas estão propensas a entregarem melhor resultado.
Assim, com a análise, a Shell monitora as ondas sísmicas de baixa freqüên-
cia abaixo da superfície da Terra. Essas ondas se registram de maneira di-
ferente nos sensores enquanto viajam pela crosta terrestre. Dessa forma,
podem prever o tamanho provável dos recursos de petróleo e gás.
FONTE: . Acesso em: 1º
dez. 2019.
83
Neste tópico, você aprendeu que:
• O Big Data consiste em um grande base de dados onde são acumulados dados
de múltiplas variáveis ao longo do tempo. O Big Data pode auxiliar empresas
a tomarem decisões pautadas em dados históricos.
• Uma base de dados pode ser formada com dados estruturados assim como
não estruturados. Enquanto os dados estruturados são criados e armazenados
de forma padronizada, os dados não estruturados são dados que precisam de
etapas de tratamento e organização em base de dados para posterior análise.
• A organização de dados torna-se fundamental para análise estatística posterior. Os
conceitos de Outlier e Missing values foram apresentados como etapas de análise
univariada, ou seja, para cada variável. Enquanto o outlier refere-se nos dados que
fogem dos padrões normais, os missing values são os dados faltantes em casos.
• A distribuição de frequência refere-se na distribuição de casos ou respondentes
por intervalos de classes. Em caso de variáveis contínuas e qualitativas, torna-se
necessário a definição de classes. Os conceitos de intervalos de classe, amplitude
total, amplitude por intervalo de classe, e tipos de frequência foram discutidos.
RESUMO DO TÓPICO 1
84
1 Qual é o conceito que se refere a um amplo conjunto de dados em constante
crescimento?
a) ( ) Big Bang.
b) ( ) Planilha.
c) ( ) Big Data.
d) ( ) Grande planilha.
2 O termo Outlier é amplamente utilizado na área da estatística. Sobre o con-
ceito do termo, assinale a alternativa CORRETA:
a) ( ) Representam os valores que estão fora de padrão.
b) ( ) Valores de casos não respondidos.
c) ( ) Variáveis sem resposta.
d) ( ) Valores dentro do desvio padrão.
3 O termo Missing value é amplamente utilizado na área da estatística. Sobre
o conceito do termo, assinale a alternativa CORRETA:
a) ( ) Dados faltantes em uma ou mais variáveis.
b) ( ) Dados incorretos em uma ou mais variáveis.
c) ( ) Valores preenchidos com omissão da verdade pelo respondente.
d) ( ) Valores fora do padrão.
4 Há um tipo de dado que é obtido de diversas fontes e sem formatação pré-
via. Sobre o exposto, assinale a alternativa CORRETA:
a) ( ) Dados estruturados.
b) ( ) Dados não estruturados.
c) ( ) Dados organizados.
d) ( ) Dados não organizados.
5 Com relação aos elementos de distribuição e frequência, classifique V para
as alternativas verdadeiras e F para as falsas.
a) ( ) Frequência refere-se ao número de variáveis existentes em um banco
de dados.
b) ( ) Amplitude total corresponde ao número de casos.
c) ( ) Intervalo de classes consiste na variação existente de uma classe.
d) ( ) Frequência relativa refere-se na razão entre a frequência de uma classe
sobre o total.
AUTOATIVIDADE
85
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – F – V.
c) ( ) F – V – V – F.
d) ( ) V – V – F – F.
6 Com relação aos tipos de frequência, associe as assertivas a seguir:
(a ) Frequência.
(b ) Frequência relativa.
(c ) Frequência acumulada.
(d) Frequência relativa acumulada.
( ) São os valores das razões entre as frequências simples e a frequência total.
( ) Agrupa os valores ao longo de cada classe.
( ) São os valores que realmente representam o número de dados de cada classe.
( ) Considera asoma dos valores ao longo das classes.
Assinale a alternativa CORRETA:
a) ( ) a – b – c – d.
b) ( ) b – d – a – c.
c) ( ) b – c – a – d.
d) ( ) d – a – b – c.
7 A análise de frequências pode ser estruturada no software MS Excel. Clas-
sifique V para sentenças verdadeiras e F para as falsas:
( ) A função =FREQUENCIA() retorna o número de classes.
( ) A função =FREQUENCIA() retorna a frequência acumulada.
( ) A função =MAXIMO() retorna o maior valor absoluto de uma amostra.
( ) A função =MINIMO() retorna a frequência mínima de uma amostra.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – F – V.
c) ( ) F – V – V – F.
d) ( ) V – V – F – F.
8 Qual é o nome do termo que se refere à medida do intervalo que define a
classe?
a) ( ) Amplitude máxima.
b) ( ) Amplitude de um intervalo de classe.
c) ( ) Amplitude total.
d) ( ) Amplitude mínima.
86
9 O que o termo amplitude total indica?
a) ( ) A diferença entre o limite superior da última classe e o limite inferior
da primeira classe.
b) ( ) A soma de frequência das classes.
c) ( ) O número total das classes.
d) ( ) A diferença entre o limite superior em relação ao limite inferior da pri-
meira classe.
10 Qual é o nome do termo que considera a ordenação destes dados (seja cres-
cente ou decrescente)?
a) ( ) Análise ROA.
b) ( ) Análise ROE.
c) ( ) Análise ROCE.
d) ( ) Análise ROL.
87
UNIDADE 2
1 INTRODUÇÃO
Qual a importância de mostrar uma informação de forma gráfica? Talvez
você já tenha se deparado com uma situação em que os dados aparentemente não
mostravam claramente uma informação, seja por meio de tabelas, quadros ou sínte-
se. Entretanto, ao apresentar uma informação de forma visual, como um gráfico, por
exemplo, isso facilita a compreensão do receptor da informação. Dessa maneira, o
propósito de um gráfico é auxiliar na compreensão dos dados (MOORE et al., 2006).
Por exemplo, suponha que uma empresa está avaliando as vendas efetivadas
em um determinado período de tempo. Para tanto, a notificação foi passada aos só-
cios da empresa da seguinte maneira: o Produto A vendeu 1.000 unidades no período
1; 800 unidades no período 2; e 500 unidades no período 3. O Produto B vendeu 1.300
unidades no período 1; 1.500 no período 2; e 1.800 no período 3. Por fim, o Produto C
vendeu 750 unidades no período 1; 700 no período 2; e 400 no período 3.
Agora, suponha essa mesma informação pudesse ser comunicada aos só-
cios de forma organizada e sumarizada da seguinte forma:
FIGURA 10 – EXEMPLO REPRESENTAÇÃO GRÁFICA
FONTE: Os autores
TÓPICO 2 —
GRÁFICOS ESTATÍSTICOS
88
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
Qual das duas formas apresenta a informação de maneira mais comuni-
cativa? Certamente, sua resposta será a representação gráfica. A construção de
gráficos e tabelas auxilia na organização, sumarização, descrição e apresentação
dos dados (MARTINS; DOMINGUES, 2011). A seguir, apresentaremos diferentes
tipos de gráficos, suas interpretações, e a elaboração por meio do MS Excel.
2 TIPOS DE GRÁFICOS
Conceitualmente, “o gráfico estatístico é uma forma de apresentação dos
dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público
em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os
gráficos falam mais rápido à compreensão que as séries” (CRESPO, 2017, p. 30).
Os seguintes dados serão utilizados para explorar a aplicação em diferen-
tes tipos de gráficos. Suponha que seis indivíduos fizeram parte de um experi-
mento, fornecendo a idade, peso e Índice de Massa Corpórea (IMC) ao longo de
três períodos. Veja dados no Quadro 8:
QUADRO 8 – DADOS DOS ENTREVISTADOS
Nome Gênero Altura Idade_1 Peso_1 Idade_2 Peso_2 Idade_3 Peso_3 IMC_1 IMC_2 IMC_3
Frida Fem 1,69 25 68 26 72 27 75 23,8 25,2 26,3
Maria Fem 1,74 30 65 31 66 32 68 21,5 21,8 22,5
Joana Fem 1,57 32 58 33 58 34 57 23,5 23,5 23,1
José Masc 1,87 40 83 41 85 42 88 23,7 24,3 25,2
Luiz Masc 1,71 25 91 26 98 27 105 31,1 33,5 35,9
Jessica Fem 1,72 20 54 21 53 22 52 18,3 17,9 17,6
FONTE: Os autores
Note que, no exemplo anterior, o gênero é uma variável qualitativa, enquanto
as demais são variáveis quantitativas contínuas (idade, peso, IMC). Além disso, as va-
riáveis quantitativas contínuas são apresentadas em três horizontes de tempo. Devi-
do aos dados serem logitudinais (em três séries de tempo), pode-se elaborar gráficos
que mostram essa evolução no tempo, chamados de gráficos temporais.
“Um gráfico temporal de uma variável mostra as observações em função do
tempo em que elas foram medidas. Ponha sempre o tempo na escala horizontal do
gráfico e a variável que você estiver medindo na vertical” (MOORE et al., 2006, p. 48).
89
TÓPICO 2 — GRÁFICOS ESTATÍSTICOSGRÁFICOS ESTATÍSTICOS
2.1 BARRAS OU COLUNAS
Os gráficos de Barras ou Colunas mostram as frequências de observações
para cada nível, ou classe, da variável em estudo (MARTINS; DOMINGUES,
2011). Baseado no método cartesiano, esses tipos de gráficos consideram a relação
de duas variáveis – eixo x e y. Note que, na Figura 11, há um gráfico que avalia a
relação entre os nomes dos indivíduos na horizontal (eixo x) com a idade (eixo y).
FIGURA 11 – GRÁFICO DE COLUNAS
FONTE: Os autores
Conforme apresentado na Figura 11, é possível comparar a idade dos
indivíduos que compõe a amostra. É possível interpretar que o José é o indivíduo
mais velho da amostra, enquanto Jéssica a mais jovem. Também é possível
verificar a variação da amostra por gêneros – masculino (25 a 40 anos) e feminino
(20 a 32 anos), logo, as mulheres que participaram da pesquisa possuem maior
homogeneidade quanto à idade.
Por sua vez, o Gráfico de Barras apenas inverte os eixos x e y em relação ao
Gráfico de Colunas. Note que, na Figura 12, tem-se a relação dos indivíduos com
o peso no período 1. É possível interpretar que o Luiz é o mais pesado (91 kg),
enquanto a Jéssica possui o menor peso (54 kg). Além disso, também é possível
perceber que os homens são mais pesados do que as mulheres, apresentando
uma variação de 83 a 91 kg, enquanto as mulheres de 54 a 68 kg.
90
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
FIGURA 12 – GRÁFICO DE BARRAS
FONTE: Os autores
Os gráficos de colunas e barras são indicados para apresentação de dados de
uma variável por indivíduos ou grupos de classes. Também são sugeridos em caso de
apresentação de dados temporais, pois é possível criar colunas ou barras por períodos.
NOTA
Dados temporais são os dados apresentados em um horizonte de tempo, ou
seja, de forma longitudinal.
2.2 LINHAS
Um Gráfico de Linha “faz uso de duas retas perpendiculares; as retas são
os eixos coordenados e os pontos de intersecção, a origem. O eixo horizontal é
denominado eixo das abscissas (ou eixo dos x) e o vertical, eixo das ordenadas
(ou eixo dos y)” (CRESPO, 2017, p. 31).
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
91
FIGURA 13 – GRÁFICO DE LINHAS
FONTE: Os autores
A Figura 13 indica o Índice de Massa Corpórea de seis indivíduos pesqui-
sados aleatoriamente. A partir desse gráfico, é possível perceber os indivíduos
que estão fora dos limites do IMC, bem como a evolução ao longo dos perío-
dos. Conforme o índice de IMC disponível pela Organização Mundial da Saúde
(OMS), é possível perceber com o gráfico de linhas, que o Luiz e a Jéssica estão
fora dos limites de especificação. Além disso, ambos estão com tendência de piora
ao longo dos três períodos apresentados.
QUADRO 9 – TABELA PADRÃO IMC
IMC Classificação
Abaixo de 18,5 Baixo peso
Entre 18,6 e 24,9 Peso Normal
Entre 25 e 29,9 Sobrepeso
Entre 30 e 34,9 Obesidade grau I
Entre 35 e 39,9 Obesidade grau II
Acima de 40 Obesidade grau
III
FONTE: Adaptado de Organização Mundial da Saúde (2019)
92
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
Os gráficos de linhas são indicados para apresentação de dados temporais de
uma ou mais variáveis.Desta forma, é possível avaliar tendências e projeções futuras.
2.3 GRÁFICO DE PIZZA
O Gráfico de Pizza, também chamado de gráfico em setores, “é empregado
sempre que desejamos ressaltar a participação do dado no total” (CRESPO, 2017,
p. 35). Para elaborar um gráfico de pizza recomenda-se a criação de uma tabela
auxiliar com dados resumidos de frequência. Por exemplo: 2 homens e 4 mulheres,
ou seja, 33% homens e 67% mulheres, conforme apresentado a seguir. Note que
os rótulos de dados estão sendo apresentados dentro do gráfico, neste caso.
FIGURA 14 – GRÁFICO DE PIZZA
FONTE: Os autores
Conforme apresentado na Figura 14, é possível interpretar que 67% dos
entrevistados foram mulheres, enquanto apenas 33% homens. Portanto, enquanto
o círculo apresenta a amostra total, as divisões representam proporcionalmente
a amplitude de cada categoria de uma variável. Esse tipo de gráfico é aplicado
sempre que se busque compreender o perfil de uma amostra de dados, população,
perfil do respondente, bem como aspectos pessoais.
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
93
2.4 DISPERSÃO OU SCATTERPLOT
Os Gráficos de Dispersão, ou também conhecidos como Diagrama de Dis-
persão ou Scatterplot, são representações gráficas de duas ou mais variáveis com
base no plano cartesiano. Portanto, o gráfico de dispersão apresenta um conjunto
de pontos e uma reta. Os pontos referem-se na intersecção entre as variáveis,
enquanto a reta demonstra a tendência dos dados, ou seja, dado o conjunto de
pontos, a linha de tendências apresentará uma projeção para comportamentos
futuros com base nas variáveis em análise.
FIGURA 15 – GRÁFICO DE DISPERSÃO
FONTE: Os autores
Conforme na Figura 15, perceba que, ao passo que aumenta a idade das
pessoas entrevistadas, o peso também aumenta proporcionalmente. Dessa forma,
é possível concluir que há uma tendência de pessoas aumentarem seus pesos com
base em comportamentos históricos de outros indivíduos, certo?
Tecnicamente, a linha de tendências apresenta a menor distância entre
os pontos, ou melhor, o ponto ótimo em que a distância dos pontos se torna
minimizada. Dessa forma, é possível ter consciência sobre o que os dados históricos
estão apresentando. Também seria possível identificar os respondentes no gráfico
em caso de valores distorcidos (outliers), entretanto, este não é o objetivo deste
gráfico na sua essência.
94
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
2.5 DIAGRAMA DE CAIXAS OU BOXPLOT
Um Gráfico de Caixas, Diagrama de Ações ou também conhecido como
Boxplot, tem por finalidade apresentar a variação de uma ou mais variáveis. Um
conjunto de elementos são fundamentais para compor um Gráfico de Caixas,
conforme apresentado na Figura 16:
• Máximo: apresenta o valor absoluto máximo da variável.
• Q3: apresenta o terceiro quartil, ou seja, o número absoluto que representa 75%
dos valores dos dados de uma variável.
• Média: apresenta o valor médio de todos os casos da variável.
• Mediana: apresenta o valor absoluto que está exatamente no centro de todos
os casos de uma variável.
• Q1: apresenta o primeiro quartil, ou seja, o número absoluto que representa
25% dos valores dos dados de uma variável.
• Mínimo: apresenta o valor absoluto mínimo da variável.
Suponha que um experimento foi realizado com uma cidadã chamada
Frida por três períodos. O experimento consistiu na avaliação do impacto da dieta
baseada em Fast-food. O peso da Frida era mensurado diariamente, e obteve-se o
seguinte quadro resumo:
QUADRO 10 – EXPERIMENTO FAST-FOOD – PESO DE FRIDA
Peso_1 Peso_2 Peso_3
Máximo 72 75 81
Q3 70 74 77
Média 68 72 75
Mediana 68 71 73
Q1 66 70 70
Mínimo 64 67 67
FONTE: Os autores
Na sequência, representaremos essas informações em um Gráfico Boxplot.
Conforme apresentado na Figura 16, perceba que os extremos representam o peso má-
ximo e mínimo da Frida em cada período. Por sua vez, a base do retângulo invertido
consiste no primeiro quartil (Q1), enquanto a parte superior indica o terceiro quartil
(Q3). Por fim, o ponto central indica a média do peso da Frida em cada período.
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
95
FIGURA 16 – GRÁFICO BOXPLOT
FONTE: Os autores
Esse tipo de gráfico pode ser interpretado por meio da comparação tem-
poral dos cinco elementos supracitados – máximo, Q3, média, mediana, Q1, e
mínimo. Dessa forma, levando em conta o exemplo aplicado de Frida, é possível
perceber que após o consumo de Fast-food houve uma tendência crescente no
peso de Frida, a partir da comparação da média, terceiro quartil, e máximo. Ain-
da, também se percebe que o peso mínimo e o primeiro quartil aumentaram no
segundo e no terceiro período se comparado ao terceiro.
Outro ponto a ser considerado no exemplo de Frida é em relação à varia-
ção de peso ao longo do tempo. Perceba que os valores de mínimo e máximo são
menores no primeiro e no segundo período quando comparados com o terceiro.
Ambas as informações interpretadas pelo gráfico também podem ser feitas de
forma analítica pelo Quadro 10, afinal, o propósito de um gráfico é auxiliar na
compreensão dos dados (MOORE et al., 2006).
2.6 HISTOGRAMA
Os Histogramas correspondem na representação gráfica da tabela de
distribuição de frequência de dados (MARTINS; DOMINGUES, 2011). De acordo
com Crespo (2017, p. 61) “o histograma é formado por um conjunto de retângulos
justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus
pontos médios coincidam com os pontos médios dos intervalos de classe”.
96
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
O Histograma permite uma análise gráfica da distribuição dos dados de
uma variável. Enquanto as colunas representam a soma das frequências, a linha
no gráfico indica a curva de frequência. A distribuição pode ser representada
visualmente em formato de sino (como apresentado na Figura 17) ao qual
representa valores superiores nas classes da região central do gráfico.
FIGURA 17 – HISTOGRAMA
FONTE: Os autores
O exemplo exposto na Figura 17 apresenta uma curva simétrica de dados,
enquanto as curvas podem se caracterizar assimétricas quando há algum padrão
de resposta em alguma classe da extremidade.
IMPORTANTE
A curva simétrica caracteriza-se por apresentar o valor máximo no ponto central e
os pontos das extremidades por terem a mesma frequência. A curva assimétrica corresponde
nas distribuições em que apresentam a cauda de um lado da ordenada mais longa que do ou-
tro, ou seja, há um padrão de respostas em algum dos extremos das classes.
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
97
2.7 ÁREA
Os Gráficos de Área são indicados quando pretende-se apresentar algum
valor cumulativo ao longo do tempo. Ou, ainda, quando se pretende contrastar
variações de uma ou mais variáveis em um ou mais períodos.
FIGURA 18 – GRÁFICO DE ÁREA
FONTE: Os autores
A interpretação do gráfico ocorre como no Gráfico de Linhas, observando
os pontos com menor e maior valor. Dessa maneira, note que, na Figura 18, o Luiz
apresenta um valor acumulado de IMC acima dos demais, enquanto a Jessica,
abaixo do esperado.
2.8 RADAR
O Gráfico de Radar tem por objetivo apresentar um conjunto de multiva-
riáveis, ou um conjunto de detalhes ou de respondentes de uma variável. Ainda
utilizando o Quadro 8, por exemplo, suponha que gostaríamos de avaliar a ha-
bilidade dos indivíduos pesquisados em relação à administração do seu IMC ao
longo de três períodos. É possível avaliá-los conforme demonstra a Figura 19:
98
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
FIGURA 19 – GRÁFICO DE RADAR
FONTE: Os autores
A interpretação do gráfico pode ser realizada por variáveis ou por res-
pondentes. Perceba que, na Figura 19, Luiz obteve a maior variação de IMC nos
três períodos. Por outro lado, note que a Maria, a Joana e o José que obtiveram
níveis aceitáveis de IMC conformepadrão fornecido pela Organização Mundial
da Saúde (ver Quadro 9).
2.9 OUTROS TIPOS DE GRÁFICOS
Outros tipos de gráficos podem ser elaborados para representação visual
de dados estatísticos, como, por exemplo, o Gráfico de Bolha, o Gráfico de Pareto,
assim como o Gráfico Dinâmico.
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
99
FIGURA 20 – GRÁFICO DE BOLHAS
FONTE: Os autores
Conforme apresentado na Figura 20, perceba que o Gráfico de Bolhas
considera o ponto de intersecção de duas variáveis (valor do IMC e período)
assim como o Gráfico de Dispersão faz, bem como o tamanho da bolha refere-se
no valor atribuído ao ponto de intersecção.
100
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
FIGURA 21 – GRÁFICO DE PARETO
FONTE: Os autores
Por sua vez, o Gráfico de Pareto agrupa o Gráfico de Colunas e o Gráfico
de Linhas em um único gráfico, em que as colunas representam valores de
classes, enquanto a linha considera o valor cumulativo das classes (do maior para
o menor). Por fim, o gráfico dinâmico é uma ferramenta do MS Excel que permite
atualização automática do gráfico com a introdução de novos dados, assim como
incluir, remover ou alterar variáveis. Essa ferramenta utiliza os procedimentos
acima mencionados, porém, atualiza o gráfico a partir da inserção de novos
dados, bem como é possível alterar alguma variável no gráfico sem a necessidade
de criar um novo gráfico.
3 ELABORAÇÃO DE GRÁFICOS EM MS EXCEL
Para criar um gráfico no MS Excel algumas etapas são mandatórias.
Independentemente do gráfico a ser elaborado, abordaremos alguns passos para
elaborar um gráfico:
• Preparação dos dados: valide se os dados estão corretos e devidamente dispo-
níveis em uma planilha do excel.
• Selecionar as variáveis desejadas: selecione apenas as variáveis de interesse em
um conjunto de dados (B1:C7).
101
TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS
FIGURA 22 – SELEÇÃO DE DADOS NO MS EXCEL
FONTE: Os autores
• Selecione o modelo de gráfico: clique em Inserir > Gráficos, e selecione a opção
que desejar. Clique em OK.
FIGURA 23 – SELEÇÃO DE GRÁFICO NO MS EXCEL
FONTE: Os autores
102
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
• Configurações: configure-o quanto os seus elementos, estilo e filtro.
FIGURA 24 – CONFIGURAÇÃO DO GRÁFICO NO MS EXCEL
FONTE: Os autores
Nesta etapa, é possível configurar:
• Elementos: eixos, títulos, rótulos, tabela de dados, barras de erros, linhas de
grade, legenda, e linha de tendências.
• Estilo: apresentação das cores do gráfico, linhas e fundo.
• Filtro: adicionar ou remover variáveis.
103
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• Há diferentes estilos de gráficos, como: o gráfico de colunas e barras, o gráfico de
linhas, o gráfico de pizza, o gráfico de dispersão ou scatterplot, o gráfico de caixas ou
boxplot, o gráfico de histograma, o gráfico de área, o gráfico de radar, entre outros.
• O gráfico de colunas e barras apresenta a frequência de observações para cada
variável, classe ou respondente.
• O gráfico de linhas apresenta a frequência de observações de uma ou mais vari-
áveis em um plano cartesiano, em que o ponto representa a intersecção de duas
variáveis enquanto a linha faz a ligação entre os pontos.
• O gráfico de pizza busca ressaltar quanto um dado ou uma variável representa
na participação total de uma amostra.
• O gráfico de dispersão ou scatterplot apresenta a intersecção de pontos entre
duas ou mais variáveis em um plano cartesiano.
• O diagrama de caixas ou boxplot expõe a variabilidade de uma ou mais vari-
áveis, por meio dos valores de máximo, terceiro quartil, média ou mediana,
primeiro quartil e mínimo.
• O histograma é um gráfico que apresenta a frequência de observações de uma
variável por respostas padrões ou classes de frequência, bem como a respectiva
distribuição de dados.
• O gráfico de área tem por objetivo apresentar dados de forma cumulativa, seja
por períodos diferentes, ou por variáveis de um mesmo respondente.
• O gráfico de radar tem por objetivo apresentar um conjunto de multivariáveis,
ou um conjunto de detalhes ou de respondentes de uma variável.
• Os gráficos de bolhas e pareto são formas adicionais de representação gráfico. O
gráfico dinâmico também foi apresentado como uma alternativa do MS Excel para
automatização e maior velocidade na representação e cruzamento de dados.
104
1 Os gráficos estatísticos são amplamente utilizados em empresas e universi-
dades. Afinal, qual é o propósito de um gráfico?
a) ( ) Auxiliar na compreensão dos dados.
b) ( ) Apontar a melhor decisão.
c) ( ) Reduzir gastos.
d) ( ) Fornecer dados para criação de tabelas e quadros.
2 O que consiste em um gráfico temporal?
a) ( ) Apresenta dados climáticos.
b) ( ) Apresenta informações ao longo do tempo.
c) ( ) Indica a melhor data e horário.
d) ( ) Aponta a projeção sobre condições climáticas.
3 Qual o tipo de gráfico mostra as frequências de observações para cada ní-
vel, ou classe, da variável em estudo?
a) ( ) Pizza.
b) ( ) Dispersão.
c) ( ) Radar.
d) ( ) Colunas.
4 Os Gráficos de Colunas ou Barras são amplamente utilizados para repre-
sentações estatísticas. Sobre o gráfico de colunas, classifique V para as sen-
tenças verdadeiras e F para as falsas:
( ) Este gráfico mostra as frequências de observações para cada nível, ou
classe, da variável em estudo.
( ) Baseia-se no plano cartesiano.
( ) Considera a intersecção entre pontos.
( ) A largura das colunas é estabelecida pelo valor dos dados.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – F – V.
c) ( ) F – V – V – F.
d) ( ) V – V – F – F.
AUTOATIVIDADE
105
5 Com relação aos tipos de gráficos, associe as assertivas a seguir:
( a ) Radar.
( b ) Bolhas.
( c ) Pizza.
(d) Pareto.
( ) As colunas representam valores de classes enquanto a linha considera o
valor cumulativo das classes.
( ) Tem por objetivo apresentar um conjunto de multivariáveis, ou um con-
junto de detalhes ou de respondentes de uma variável.
( ) O tamanho refere-se no valor atribuído ao ponto de intersecção.
( ) É empregado sempre que deseja-se ressaltar a participação do dado no total.
Assinale a alternativa CORRETA:
a) ( ) a – b – c – d.
b) ( ) b – d – a – c.
c) ( ) b – c – a – d.
d) ( ) d – a – b – c.
6 Qual é o objetivo de um gráfico?
a) ( ) É uma forma de apresentação de dados estatísticos para convencer o
leitor sobre uma melhor decisão.
b) ( ) É uma forma de apresentação dos dados estatísticos, cujo objetivo é o
de oferecer uma impressão mais rápida e viva do fenômeno em estudo.
c) ( ) É uma forma de apresentação de dados para pessoas que não tem inte-
resse pela leitura de texto extenso.
d) ( ) Facilitar o entendimento de um texto incompreensível.
7 Qual é o gráfico que tem por tem por finalidade apresentar a variação de
uma ou mais variáveis?
a) ( ) Gráfico de Bolhas.
b) ( ) Gráfico de Pareto.
c) ( ) Diagrama de Caixas ou Boxplot.
d) ( ) Gráfico de Greenwich.
8 O Gráfico de Pareto é utilizado em casos onde se busca ordenar aspectos ou
classes. Sobre o Gráfico de Pareto, classifique V para as sentenças verdadei-
ras e F para as falsas:
( ) Agrupa o gráfico de colunas e o gráfico de linhas em um único gráfico.
( ) Utiliza o gráfico de linhas de capricórnio para delimitar a frequência acu-
mulada.
( ) Integra a frequência individual com a acumulada.
( ) Deve ser elaborado em ocasiões de ausência de informação.
106
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – V – F.
c) ( ) F – V – F – V.
d) ( ) V – V – F – F.
9 Ordene a sequência para elaboração de um gráfico no software MS Excel:
( ) Seleção das variáveis com o cursor.
( ) Preparação e importação dos dados.
( ) Configuração do gráfico e seus aspectos.
( ) Seleção do modelo de gráfico pretendido.
Assinale aalternativa CORRETA:
a) ( ) 1 – 2 – 3 – 4.
b) ( ) 2 – 1 – 4 – 3.
c) ( ) 3 – 4 – 1 – 2.
d) ( ) 4 – 3 – 2 – 1.
10 Um Histograma pode ser encontrado com representação simétrica e assi-
métrica. Qual é o significado da curva assimétrica?
a) ( ) Refere-se a um histograma com dados faltantes.
b) ( ) Consistem em gráfico onde as curvas do gráfico não são homogêneas,
ou seja, as curvas das barras não apresentam padronização no arredonda-
mento das bordas.
c) ( ) Corresponde nas distribuições em que apresentam a cauda de um lado
da ordenada mais longa que do outro.
d) ( ) Apresenta a distribuição normal de dados em um histograma.
107
UNIDADE 2
1 INTRODUÇÃO
Suponha que você está sendo avaliado com relação ao seu desempenho
acadêmico. Para tanto, você realizou entregas avaliativas e espera um retorno do
docente quanto a nota e devolutiva das entregas realizadas. Quanto importaria
para você o seu desempenho? E com relação ao seu desempenho comparado
com os demais acadêmicos da mesma sala de aula? E, ainda, quanto importaria
verificar a nota que mais se repetiu na sala? Você concorda que a resposta para
essas questões são indicadores de desempenho acadêmico que podem auxiliar
tanto o acadêmico quanto o professor na estratégia pedagógica?
A partir desse contexto, estudaremos, neste tópico, as medidas de posição
– também conhecidas como média, mediana, moda e separatrizes (também
conhecidos como quartis como estudado no Tópico 2 desta unidade). As medidas
de posição são técnicas estatísticas que permitem uma avaliação descritiva de um
conjunto de dados de uma amostra (SILVA; GRAMS; SILVEIRA, 2018).
Como estudado no Tópico 1, e em partes do Tópico 2, você pode perceber
que há variáveis qualitativas (e também gráficos, como por exemplo o Histograma)
que não tem a finalidade de verificar medidas de posição, mas apenas a frequência
e sua distribuição de dados. Do contrário, as variáveis quantitativas permitem
uma análise das características descritivas da amostra (CRESPO, 2017).
2 MEDIDAS DE POSIÇÃO
As medidas de posição têm o propósito de avaliar os valores que ocupam as
posições centrais de um rol de dados (CRESPO, 2017; SILVA; GRAMS; SILVEIRA,
2018). Para tornar mais clara a sua aplicação, sugerimos retornar no subtópico “2.5
Gráfico de Caixas ou Boxplot do Tópico 2” pois este integra todas as medidas de
posição em uma representação gráfica. Na sequência, serão abordados a média arit-
mética, mediana, moda e separatrizes como principais medidas de posição central.
2.1 MÉDIA ARITMÉTICA
A média corresponde ao centro de um conjunto de dados. Como um dos
principais tipos de média, a média aritmética considera a soma do conjunto de
TÓPICO 3 —
MEDIDAS DE POSIÇÃO
108
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
dados de uma amostra ou variável pela divisão da soma da quantidade de dados
do conjunto (ou número de casos). Para calcular a média aritmética utiliza-se a
seguinte fórmula padrão:
FIGURA 25 – FÓRMULA MÉDIA
FONTE: Silva, Grams e Silveira (2018, p. 18)
Em que:
refere-se na média aritmética de um conjunto de dados;
refere-se na soma do conjunto de dados de uma amostra;
refere-se na quantidade de casos de uma amostra.
Para aplicar esta fórmula, calcularemos a média de idade do conjunto de
seis indivíduos:
QUADRO 11 – IDADE DE ENTREVISTADOS
Nome Idade_1
Frida 25
Maria 30
Joana 32
José 40
Luiz 25
Jessica 20
FONTE: Os autores
Aplicando a fórmula:
Média = (25 + 30 + 32 + 40 + 25 + 20)
6
Média = 28,67 anos
Com esse resultado é possível interpretar que a idade média dos entrevis-
tados é de 28 anos. Note que, ao passo que novos indivíduos forem adicionados
na amostra, o valor da média vai se ajustando. Portanto, o valor da média aumen-
ta quando inseridos indivíduos com idade acima de 29 anos, e abaixa quando a
idade é inferior a 29 anos.
TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO
109
2.2 MEDIANA
A mediana corresponde ao valor que se encontra na posição central de
uma série ordenada de dados (CRESPO, 2017). Em outras palavras, “é uma me-
dida de posição importante porque deixa 50% dos elementos da série abaixo do
seu valor e 50% dos elementos da série acima do seu valor” (MARTINS; DOMIN-
GUES, 2011, p. 72).
O cálculo da mediana variará para número de casos quando ímpar e par.
Para situações em que há um número ímpar de elementos, considera-se o elemen-
to central; a fórmula a ser considerada é em que: n é o número de casos de um
conjunto de dados (MARTINS; DOMINGUES, 2011).
Por outro lado, para situações em que o número de elementos for par, en-
tão, deve-se utilizar a média para obter o valor da mediana; neste caso, utiliza-se
as fórmulas e + 1. Por fim, realiza-se a média dos dois valores (MARTINS;
DOMINGUES, 2011).
Para esclarecer a sua aplicabilidade, retomaremos os dados do Quadro 11:
25 30 32 40 25 20
O primeiro passo é ordenar os valores:
20 25 25 30 32 40
Na sequência, devido o número de casos ser par (n=6), aplica-se a fórmula
e + 1 para cálculo da mediana.
1ª fórmula: 6 / 2 = 3ª posição.
2ª fórmula: 6 / 2 +1 = 4ª posição.
20 25 25 30 32 40
Por fim, calcule a média dos dois valores apontados como valores
medianos. Dessa forma, (25 + 30 / 2) = 27,5. Portanto, para o exemplo supracitado,
o valor da mediana corresponde a 27,5 anos.
Agora, considerando a aplicação da fórmula com número de casos ímpar
, suponha que os valores da amostra fossem os relatados abaixo. Qual é o
valor da mediana?
20 25 30 32 40
Considerando que há cinco casos, então, o valor central seria o terceiro
valor (5 + 1 / 2 = 3). Portanto, a mediana é de 30 anos de idade.
110
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
2.3 MODA
Denomina-se moda “o valor que ocorre com maior frequência em uma
série de valores” (CRESPO, 2017, p. 41). “É utilizada para destacar o elemento
que mais se repete num conjunto de dados” (MARTINS; DOMINGUES, 2011, p.
48). Para esclarecer a sua aplicabilidade, retomaremos os dados do Quadro 11, já
com os dados ordenados:
20 25 25 30 32 40
A moda correspondente no exemplo é de 25 anos de idade, pois é o valor
que se repete em maior quantidade de vezes. Caso houvesse uma quantidade
maior de dados, sugere-se a elaboração de uma tabela de frequência dos valores
para verificar o valor que mais se repete ao longo de um conjunto de dados
(MARTINS; DOMINGUES, 2011).
2.4 SEPARATRIZES
Além das medidas de posição, há outras nomenclaturas importantes para
a análise de um conjunto de dados. Essas medidas – quartis, percentis e decis –
são conhecidas pelo nome genérico de separatrizes ou medidas de ordenação
(CRESPO, 2017).
As medidas de ordenação “são utilizadas para fazer cortes ordenados
em uma série” visando obter informações de um conjunto de dados (MARTINS;
DOMINGUES, 2011, p. 73). Essas medidas estão relacionadas com a mediana,
uma vez que a mediana divide uma série em duas partes iguais (50% abaixo e
50% acima do seu valor). Veja essa representação na Figura 26:
FIGURA 26 – MEDIANA
FONTE: Martins e Domingues (2011, p. 41)
Por sua vez, conforme apresenta Crespo (2017), os quartis, percentis e de-
cis tem suas distinções como apresentado a seguir:
TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO
111
• Quartis: divide os valores de uma série em quatro partes iguais (quatro partes
de 25% cada).
FIGURA 27 – QUARTIS
FONTE: Martins e Domingues (2011, p. 41)
Há, portanto, três quartis:
a) O primeiro quartil (Q1): valor situado em uma série de dados em que um quar-
to dos valores (25%) é menor que ele e as demais três partes (75%) são maiores.
b) O segundo quartil (Q2): coincide com a mediana (Q2 = Mediana).
c) O terceiro quartil (Q3): valor situado em uma série de dados em que três quar-
tos de um conjunto de valores (75%) são menores que ele, e uma quarta parte
(25%) é maior.
O cálculo da posição dos quartis é baseada nas fórmulas:
FIGURA 28 – FÓRMULAS QUARTIS
FONTE:. Acesso em: 11 dez. 2019.
Sendo:
k o número do quartil.
n o número de casos de uma amostra.
112
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
O resultado dessas fórmulas apresentará a sua posição em uma série de da-
dos, ok? Lembrando que as fórmulas se aplicam distintamente em situações onde
o número de casos for par ou ímpar, assim como realizado no cálculo da mediana.
• Decis: divide os valores de uma série em dez partes iguais (dez partes com 10
% cada).
FIGURA 29 – DECIS
FONTE: Martins e Domingues (2011, p. 41)
O cálculo dos Decis é baseado na seguinte fórmula padrão:
FIGURA 30 – FÓRMULA DECIS
FONTE: Adaptado de Martins e Domingues (2011, p. 42)
Em que:
Di o número do decil.
i o número desejado do decil.
n o número de casos de uma amostra.
O resultado dessas fórmulas apresentará a sua posição em uma série de
dados
• Percentil: divide os valores de uma série em cem partes iguais (cem partes com
1% cada).
TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO
113
FIGURA 31 – PERCENTIL
FONTE: Martins e Domingues (2011, p. 42)
O cálculo dos percentis é baseado na seguinte fórmula padrão:
FIGURA 32 – FÓRMULA PERCENTIL
FONTE: Adaptado de Martins e Domingues (2011, p. 42)
Em que:
Pi o número do percentil.
i o número desejado do percentil.
n o número de casos de uma amostra.
O resultado destas fórmulas apresentará a sua posição em uma série de
dados.
Para facilitar a compreensão das técnicas de medidas de ordenação, vamos
aplicá-las em uma situação real. Suponha que há duas bases de dados, em que
uma vai de 1 a 99 (ímpar), e a outra de 1 a 100 (par). Cada número é apresentado
apenas uma vez em cada base de dados. A seguir, são apresentadas perguntas e
respostas como exemplo de aplicação dos conceitos acima expostos:
a) Qual o primeiro quartil?
Solução base ímpar (1-99) Solução base par (1-100)
Q1 = (n + 1) / 4
Q1 = (99 + 1) / 4
Q1 = 25ª posição
Q1 = (n + 2) / 4
Q1 = (100 + 2) / 4
Q1 = 25,5, ou seja, a média do valor
correspondente entre a 25ª e 26ª posição
114
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
b) Qual o segundo quartil (mediana)?
Solução base ímpar (1-99) Solução base par (1-100)
Q2 = (n + 1) / 2
Q2 = (99 + 1) / 2
Q2 = 50ª posição
Q2 = n / 2
Q2 = 100 / 2
Q2 = 50ª posição
c) Qual o terceiro quartil?
Solução base ímpar (1-99) Solução base par (1-100)
Q3 = 3 x [(n + 1) / 4]
Q3 = 3 x [(99 + 1) / 4]
Q3 = 3 x [25]
Q3 = 75ª posição
Q3 = (3n + 2) / 4
Q3 = (3 x 100 + 2) / 4
Q3 = 302 / 4
Q3 = 75,5, ou seja, a média do valor
correspondente entre a 75ª e 76ª posição
d) Qual o terceiro decil?
Solução base ímpar (1-99) Solução base par (1-100)
D3 = [i x (n + 1)] / 10]
D3 = [3 x (99 + 1)] / 10]
D3 = 300 / 10
D3 = 30ª posição
D3 = [i x (n + 1)] / 10]
D3 = [3 x (100 + 1)] / 10]
D3 = 301 / 10
D3 = 30ª posição
c) Qual o décimo quinto percentil?
Solução base ímpar (1-99) Solução base par (1-100)
P15 = (i x n) / 100
P15 = (15 x 99) / 100
P15 = 14,85 ou 15ª posição
P15 = (i x n) / 100
P15 = (15 x 100) / 100
P15 = 15ª posição
3 ANÁLISE DE DADOS EM MS EXCEL
Neste subtópico, abordaremos a aplicação dos conceitos de medida de
posição no software MS Excel. Todo esse conteúdo foi visto nos tópicos anteriores,
neste momento, você acompanhará a aplicação de tais fórmulas por meio do uso
do software MS Excel. O MS Excel é um software amplamente utilizado para
análises estatísticas, incluindo as análises de medidas de posição. A seguir,
apresentaremos a aplicação dos conceitos a partir da seguinte série de dados:
5 10 15 20 25 30 35 40 45 50
TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO
115
Por meio das fórmulas:
• Mínimo: a fórmula utilizada para cálculo é =MINIMO(). Basta inseri-la em uma
célula do MS Excel que desejar verificar o resultado.
FIGURA 33 – CÁLCULO DO MÍNIMO NO MS EXCEL
FONTE: Os autores
• Primeiro quartil: a fórmula utilizada para cálculo é =QUARTIL(). Note que,
para aplicar a fórmula, deve-se selecionar os dados da série, e na sequência
informar o quartil desejado para cálculo (“1” neste caso).
FIGURA 34 – CÁLCULO DO PRIMEIRO QUARTIL NO MS EXCEL
FONTE: Os autores
• Média aritmética: a fórmula utilizada para cálculo é =MÉDIA().
116
UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO
FIGURA 35 – CÁLCULO DA MÉDIA NO MS EXCEL
FONTE: Os autores
• Mediana (ou segundo quartil): a fórmula utilizada para cálculo é =MED().
FIGURA 36 – CÁLCULO DA MEDIANA NO MS EXCEL
FONTE: Os autores
• Terceiro quartil: a fórmula utilizada para cálculo é =QUARTIL(). Note que,
para aplicar a fórmula, deve-se selecionar os dados da série, e na sequência
informar o quartil desejado para cálculo (“3” neste caso).
TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO
117
FIGURA 37 – CÁLCULO DO TERCEIRO QUARTIL NO MS EXCEL
FONTE: Os autores
• Máximo: a fórmula utilizada para cálculo é =MAXIMO().
FIGURA 38 – CÁLCULO DO TERCEIRO QUARTIL NO MS EXCEL
FONTE: Os autores
Com a obtenção desses conceitos e aplicações, você estará apto para avan-
çar seus estudos. Destacamos que esses conceitos e aplicações são fundamentais
para os conceitos da próxima unidade, portanto, se necessário, volte algumas
páginas para exercitar os conceitos de medidas de posição e análise gráfica, e suas
aplicações. Bons estudos!
118
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• A média aritmética corresponde ao centro de um conjunto de dados.
• A mediana corresponde ao valor que se encontra na posição central de uma
série ordenada de dados.
• A moda corresponde ao valor que ocorre com maior frequência em uma série
de dados.
• Os quartis são quatro partes iguais de um conjunto de dados. O primeiro quar-
til refere-se a um valor superior, apenas 25% dos dados, enquanto a mediana
corresponde aos 50% (segundo quartil), e o terceiro quartil revela um dado
superior a 75% dos dados, porém abaixo de 25% dos valores.
• Os decis correspondem a décima parte de um conjunto de dados, enquanto os
percentis referem-se na centésima parte de um conjunto de dados.
• Por fim, foram apresentadas fórmulas de cálculo no software MS Excel como
meio para agilizar o processo de análise de medidas de posição.
Ficou alguma dúvida? Construímos uma trilha de aprendizagem
pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao
AVA, e veja as novidades que preparamos para seu estudo.
CHAMADA
119
1 Qual é o conceito de média?
a) ( ) É o centro de um conjunto de dados.
b) ( ) É a posição central de um conjunto de dados.
c) ( ) É o número que se repete com maior frequência.
d) ( ) Corresponde ao valor superior a 75% dos dados.
2 Qual é o conceito de mediana?
a) ( ) É o centro de um conjunto de dados.
b) ( ) É a posição central de um conjunto de dados.
c) ( ) É o número que se repete com maior frequência.
d) ( ) Corresponde ao valor superior a 75% dos dados.
3 Qual é o conceito de moda?
a) ( ) É o centro de um conjunto de dados.
b) ( ) É a posição central de um conjunto de dados.
c) ( ) É o número que se repete com maior frequência.
d) ( ) Corresponde ao valor superior a 75% dos dados.
4 Qual é o conceito de terceiro quartil?
a) ( ) É o centro de um conjunto de dados.
b) ( ) É a posição central de um conjunto de dados.
c) ( ) É o número que se repete com maior frequência.
d) ( ) Corresponde ao valor superior a 75% dos dados.
5 Considere a seguinte série de dados 1, 2, 3, 4 e 5. Classifique V para as
sentenças verdadeiras e F para as falsas:
( ) a média é 2.
( ) a mediana é 3.
( ) a moda é 5.
( ) o primeiro quartil é 1,5.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – V – F.
c) ( ) F – V – F – V.
d) ( ) V – V – F – F.
AUTOATIVIDADE
120
6 Considere a seguinte série de dados 1, 2, 3, 4 e 5. Classifique V para as
sentenças verdadeiras e F para as falsas:
( ) A média é 3.
( ) A mediana é3.
( ) A moda é 1.
( ) O terceiro quartil é 1,5.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – V.
b) ( ) V – F – V – F.
c) ( ) F – V – F – V.
d) ( ) V – V – F – F.
7 Com relação às medidas de posição e ordenação, associe as assertivas a
seguir:
a) Média.
b) Mediana.
c) Moda.
d) Primeiro quartil.
( ) Corresponde ao valor superior a 25% dos dados.
( ) É o centro de um conjunto de dados.
( ) É a posição central de um conjunto de dados.
( ) É o número que se repete com maior frequência.
Assinale a alternativa CORRETA:
a) ( ) a – b – c – d.
b) ( ) b – d – a – c.
c) ( ) b – c – a – d.
d) ( ) d – a – b – c.
8 Com relação às medidas de ordenação, associe as assertivas a seguir:
a) Primeiro quartil.
b) Terceiro quartil.
c) Decil.
d) Percentil.
( ) corresponde ao valor superior a 75% dos dados.
( ) representa as noventa e nove partes que dividem uma série em 100 partes
iguais.
( ) corresponde ao valor superior a 25% dos dados.
( ) representa as nove partes que dividem uma série em 10 partes iguais.
121
Assinale a alternativa CORRETA:
a) ( ) a – b – c – d.
b) ( ) b – d – a – c.
c) ( ) b – c – a – d.
d) ( ) d – a – b – c.
9 Qual o conceito de decil?
a) ( ) Representa as dez partes que dividem uma série em 9 partes iguais.
b) ( ) Representa as nove partes que dividem uma série em 10 partes iguais.
c) ( ) Representa as noventa e nove partes que dividem uma série em 100
partes iguais.
d) ( ) Representa uma parte da fração 9/9.
10 Qual é o conceito de percentil?
a) ( ) Representa as cem partes que dividem uma série em cem partes iguais.
b) ( ) Representa a fração 99/99.
c) ( ) Representa as noventa e nove partes que dividem uma série em 100
partes iguais.
d) ( ) Representa as nove partes que dividem uma série em 10 partes iguais.
122
123
UNIDADE 3 —
MEDIDAS DE DISPERSÃO,
CORRELAÇÃO E REGRESSÃO
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:
• conhecer as medidas de dispersão;
• entender sobre amplitude, variância e desvio padrão;
• aprender a distribuição dos dados;
• conhecer a relação entre as variáveis;
• compreender a diferença de correlação linear e não linear;
• analisar a correlação com ajuda do Excel;
• aprender sobre os métodos de regressão;
• entender os conceitos de regressão linear;
• descobrir a regressão múltipla;
• entender a regressão linear com o Excel.
124
PLANO DE ESTUDOS
Esta unidade está dividida em três tópicos. No decorrer da unidade
você encontrará autoatividades com o objetivo de reforçar o conteúdo
apresentado.
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
TÓPICO 2 – CORRELAÇÃO
TÓPICO 3 – REGRESSÃO LINEAR
TÓPICO 4 – REGRESSÃO MÚLTIPLA
Preparado para ampliar seus conhecimentos? Respire e vamos
em frente! Procure um ambiente que facilite a concentração, assim absorverá
melhor as informações.
CHAMADA
125
UNIDADE 3
1 INTRODUÇÃO
Na Unidade 2, nós vimos sobre as medidas de posição média, mediana,
moda, entre outras. Essas medidas descrevem apenas uma das características
dos valores numéricos de um conjunto de observações. Não se consegue com
nenhuma delas a informação sobre qual é o grau de variação ou dispersão dos
valores observados.
Nesse sentido, entra as medidas de dispersão que servem para avaliar o
quanto os dados são semelhantes e descrever então o quão distantes estão esses
dados do valor central. As medidas de tendência central que vimos na Unidade 2
são utilizadas para representar todos os números de uma lista. Já as medidas de
dispersão são aplicadas para determinar o grau de variação dos números de uma
lista em relação à média.
As medidas de dispersão analisam a distância dos números de um
conjunto de dados até a média desse conjunto. São elas: amplitude, variância e
desvio padrão (SILVA, 2020). A seguir, conheceremos as medidas de dispersão.
2 MEDIDAS DE DISPERSÃO
Você deve estar pensando: mas qual a necessidade de aprendermos as
medidas de dispersão? Daremos um exemplo para ficar mais claro.
Imagine que em determinada disciplina foram feitas quatro provas e um
aluno foi aprovado com média 5. Há várias maneiras de se chegar à média 5. O
aluno poderia ter obtido qualquer uma das seguintes combinações (ou outras) de
notas:
a) 5; 5; 5; 5.
b) 10; 6; 4; 0.
c) 0; 0; 10; 10.
Observando as possibilidades mostradas aqui, um professor poderia dizer:
• Se o aluno obteve apenas nota 5, parece que estuda só para ser aprovado.
• Se o aluno obteve notas 10; 6; 4; 0, mostra que pode ter excelente desempenho,
mas, aparentemente, abandonou os estudos.
TÓPICO 1 —
MEDIDAS DE DISPERSÃO, ASSIMETRIA E
CURTOSE
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
126
• É estranho um aluno ter notas 0; 0; 10; 10. É razoável ter uma conversa com ele.
O conhecimento sobre a variabilidade dos dados complementa a informação
dada pela média. Quaisquer que tenham sido as notas – com média 5 –, o aluno foi
aprovado. No entanto, é a variabilidade das notas que ajuda o professor a formar
uma opinião sobre o comportamento do aluno (VIEIRA, 2019). A partir deste tópico,
serão descritas medidas de dispersão: amplitude, variância, desvio-padrão.
2.1 AMPLITUDE
A amplitude de um conjunto, em Estatística, é a diferença entre o maior
elemento desse conjunto e o menor. Em outras palavras, para encontrar a
amplitude de uma lista de números, basta subtrair o menor elemento do maior
elemento (SILVA, 2020).
A amplitude é a medida de dispersão mais fácil de ser calculada e – por
conta disso – mais utilizada. Representaremos amplitude por R (VIEIRA, 2019).
Veja um exemplo: imagine que 10 alunos fizeram uma prova com 50
questões. Os números de respostas corretas, por aluno, foram respectivamente:
31; 27; 42; 35; 47; 28; 7; 45; 15; 20
A média é:
Nesse caso, olhando para os valores anteriores, conseguimos identificar o
maior número de acertos que no caso é 47, bem como também conseguimos iden-
tificar o menor número de acertos que é 7. Com esses dois dados conseguimos
calcular a amplitude. A amplitude é:
R = 47 - 7 = 40
Nesse exemplo, quando calculamos a média e a amplitude temos uma
visão de como esses dados estão distribuídos. Se um aluno que fez a prova sabe
o seu número de acertos, facilmente identificará sua posição no grupo: acima da
média, no topo da lista, no fim da fila etc.
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
127
FIGURA 1 – POSICIONAMENTO DE MÉDIA EM RELAÇÃO A AMPLITUDE
FONTE: Vieira (2019, p. 139)
Não basta, porém, calcular a amplitude para bem descrever a variabilidade
de um conjunto de dados. No cálculo da amplitude, são usados apenas os valores
extremos (máximo e mínimo). Como os demais dados não são considerados, a
amplitude pode dar ideia errada sobre a dispersão desses dados (VIEIRA, 2019).
Se tivermos um grupo de pessoas com idades diferentes conforme segue:
4; 3; 4; 3; 4; 3; 21
Podemos calcular a média e a amplitude, note que faremos isso da mesma
forma como fizemos nos cálculos das notas primeiramente calculamos a média
somando todos os valores (4+3+4+3+4+3+21) e dividindo pela quantidade de ele-
mentos disponíveis, no caso 7.
Para calcular a amplitude verificamos o maior valor, no caso a maior ida-
de que aqui é representada pelo número 21, ou seja, 21 anos e a menor idade que
aqui é representada pelo número 3, isto é, 3 anos. A Figura 2 nos mostra como
calculamos a média e a amplitude desses dados.
FIGURA 2 – MÉDIA E AMPLITUDE
FONTE: Vieira (2019, p. 140)
Olhando apenas a média (6 anos) e a amplitude (18 anos), qualquer pes-
soa diria que os dados são muito variáveis. Contudo, verifique a figura a seguir
que apresenta os valores observados sobre um eixo. Os pontos estão concentra-
dos em dois valores, 3 e 4, e há apenas um valor, 21, muito distante deles. Esse
valor os estatísticos chamam de discrepante.
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
128
FIGURA 3 – IDADES SOBRE UM EIXOFONTE: Vieira (2019, p. 141)
O valor discrepante “puxa” a média para cima e torna a amplitude muito
grande. No caso do exemplo, uma explicação para o dado discrepante poderia
ser, por exemplo, que, para estudar as idades dos alunos de uma pré-escola, al-
guém coletou a idade da professora também – o que estaria, evidentemente, er-
rado. De qualquer modo, a probabilidade de ocorrer um valor discrepante é alta
nas amostras muito grandes.
NOTA
Amplitude é a diferença entre o valor máximo e o valor mínimo de um con-
junto de dados.
2.2 VARIÂNCIA
Digamos que você necessite medir a variabilidade ou dispersão dos da-
dos, mas somente com a amplitude não conseguiu uma resposta confiável, para
isso é possível fazer o cálculo da variância. Quando temos um conjunto de dados
a variância é uma medida de dispersão que mostra o quão distante cada valor
desse conjunto está do valor central, ou seja, da média.
Quanto menor for a variância mais próximos os valores estão da média, mas
quanto maior ela é, mais os valores estão distantes da média (RIBEIRO, 2020). Consi-
dere um conjunto de dados que vai de x1 até um número qualquer, o qual chamamos
de xn. Perceba que x1, x2, …, xn são os n elementos de uma amostra em que x é a
média aritmética desses elementos. O cálculo da variância amostral é dado por:
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
129
Var. amostral = (x1 – x)² + (x2 – x)² + (x3 – x)² + ... + (xn – x)²
___________________________________
n – 1
Ou
Se quisermos calcular a variância populacional, consideraremos todos os
elementos da população, e não apenas de uma amostra. Nesse caso, o cálculo
possui uma pequena diferença. Observe:
Var. populacional = (x1 – x)² + (x2 – x)² + (x3 – x)² + ... + (xn – x)²
_______________________________________
n
Ou
IMPORTANTE
A única diferença que se têm na fórmula do cálculo da variância amostral, é
que nesse caso a divisão é feita pelo (número de elementos – 1), ou, (n -1). Já na variância
populacional a divisão é feita somente pelo (número de elementos). Fique sempre atento
ao que é solicitado no enunciado, se é amostral ou populacional.
Um exemplo, apresentado por Vieira (2019), ajuda a entender essa defi-
nição: se um jogador de basquete tiver estatura x = 1,92 m e a média de estatura
dos jogadores de seu time for x = 1,82 m, o desvio da estatura desse jogador em
relação à média do time é:
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
130
FIGURA 4 – DESVIO EM RELAÇÃO À MÉDIA
FONTE: Vieira (2019, p. 142)
Os desvios em relação à média medem a variabilidade dos dados. Quanto
maiores os desvios, maior é a variabilidade dos dados. No entanto, para julgar o
grau de variabilidade de todo o conjunto, é preciso uma só medida.
Não podemos usar a média dos desvios como medida de dispersão porque
a soma dos desvios é, necessariamente, igual a zero. Voltamos ao exemplo: se os
jogadores tiverem estaturas 1,92; 1,72; 1,82; 1,80; 1,84, a média será:
FIGURA 5 – MÉDIA DA ESTATURA DOS JOGADORES
FONTE: Vieira (2019, p. 142)
Os desvios em relação à média são:
FIGURA 6 – DESVIO EM RELAÇÃO À MÉDIA DOS JOGADORES
FONTE: Vieira (2019, p. 142)
Verifique que a soma dos desvios é igual a zero:
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
131
FIGURA 7 – SOMA DOS DESVIOS EM RELAÇÃO A MÉDIA DOS JOGADORES
FONTE: Vieira (2019, p. 142)
Isso não ocorre apenas em alguns exemplos, mas sempre. A soma dos
desvios é igual a zero porque valores com sinal positivo anulam valores com sinal
negativo. Então os desvios em torno da média têm soma igual a zero.
Para evitar os sinais negativos, elevamos todos os desvios ao quadrado e
usamos, como medida da variabilidade, a soma dos quadrados dos desvios. Ok,
mas como fazemos isso? Vamos continuar no exemplo que Vieira (2019):
A Tabela 1 mostra o procedimento para obter a soma dos quadrados dos
desvios: primeiramente, devemos achar os desvios; verificar se a soma deles é
zero (é só uma prova); calcule o quadrado de cada desvio; depois somamos os
quadrados dos desvios.
TABELA 1 – NÚMERO DO JOGADOR, ESTATURA, DESVIO EM RELAÇÃO À MÉDIA, QUADRADO
DO DESVIO
FONTE: Vieira (2019, p. 143)
Para medir a variabilidade dos desvios em torno da média calculamos a
variância.
Para entender como se calcula a variância, reveja a Tabela 1 em que estão
as estaturas (x) dos jogadores de um time de basquete, em metros, os desvios em
relação à média x – x, e os quadrados dos desvios em relação à média, (x – x)2.
Na última linha da tabela, estão a soma dos desvios e a soma dos quadrados dos
desvios. Para obter a variância, basta calcular:
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
132
FIGURA 8 – CÁLCULO DA VARIÂNCIA AMOSTRAL REPRESENTADA PELO ( )
FONTE: Vieira (2019, p. 143)
Entendendo agora o que é variância e como é calculada, veremos o desvio
padrão.
2.3 DESVIO PADRÃO
A unidade e a magnitude da variância não correspondem à unidade e à
magnitude dos dados. Quando isso acontece precisamos do desvio padrão. Isso
está parecendo um pouco confuso, não é? Para entender essa ideia, continuaremos
com o exemplo de Vieira (2019).
Imagine que um professor registrou o tempo em que três alunos fizeram
uma prova: o primeiro fez a prova em 40 minutos, o segundo em 45 e o terceiro
em 50 (VIEIRA, 2019).
A Figura 9 nos mostra a média e a variância
FIGURA 9 – MÉDIA E VARIÂNCIA
FONTE: Vieira (2019, p. 144)
Esses resultados permitem afirmar que os alunos demoraram, em média,
45 minutos para fazer a prova, com variância de 25 minutos ao quadrado. Ora,
“minutos ao quadrado” não têm qualquer sentido prático, mas essa unidade apa-
receu porque elevamos os desvios ao quadrado.
Não é, porém, difícil retornar à unidade original (minuto): é só calcular
a raiz quadrada da variância. Você obtém o desvio-padrão, uma medida de
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
133
variabilidade com a mesma unidade de medida dos dados (VIEIRA, 2019). No
exemplo, os alunos demoraram, em média, 45 minutos para fazer a prova. O
desvio-padrão é mostrado na Figura 10.
FIGURA 10 – DESVIO PADRÃO DO TEMPO MÉDIO PARA FAZER A PROVA
FONTE: Vieira (2019, p. 144)
Dessa forma, conseguimos entender que o tempo médio para se fazer a
prova medido pelo professor foi de 45 minutos com um desvio padrão de 5 mi-
nutos. Ok, mas o que isso significa?
Significa que o tempo médio para se fazer essa prova é de 45 minutos sen-
do que todos os que fizeram a prova realizaram em um tempo não diferente de
5 minutos desse tempo, isto é, no exemplo que estudamos ninguém fez a prova
em menos de 40 minutos, bem como, também, ninguém demorou mais do que 50
minutos para realizá-la.
NOTA
O desvio padrão é a raiz quadrada da variância.
5 ASSIMETRIA
É o grau de desvio ou afastamento da simetria de uma distribuição. Quan-
do a curva é simétrica, a média, a mediana e a moda coincidem, num mesmo ponto,
havendo um perfeito equilíbrio na distribuição. Quando o equilíbrio não acontece,
isto é, a média, a mediana e a moda recaem em pontos diferentes da distribuição
esta será assimétrica; enviesada a direita ou esquerda (FONSECA, 2012).
O coeficiente de assimetria permite distinguir as distribuições assimétricas.
Um valor negativo indica que a cauda do lado esquerdo da função densidade de pro-
babilidade é maior que a do lado direito. Um valor positivo para a assimetria indica
que a cauda do lado direito é maior que a do lado esquerdo. Um valor nulo indica
que os valores são distribuídos de maneira relativamente iguais em ambos os lados da
média, mas não implica necessariamente, uma distribuição simétrica (PARENTI, 2017).
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
134
Veremos isso por meio de figuras para que fique mais claro o entendimen-
to. Na Figura 11 temos uma assimetria nula, isto é, a média é igual a modaque é
igual a mediana.
FIGURA 11 – MÉDIA = MODA = MEDIANA
FONTE: Fonseca (2012, p. 148)
Já na Figura 12 temos o que se chama de assimetria positiva, isto é, quando
a curva da distribuição declina para a direita.
FIGURA 12 – ASSIMETRIA POSITIVA
FONTE: Fonseca (2012, p. 148)
Ainda pode acontecer conforme mostrado na Figura 13, a assimetria ne-
gativa, quando a curva da distribuição se declina para a esquerda.
FIGURA 13 – ASSIMETRIA NEGATIVA
FONTE: Fonseca (2012, p. 148)
TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE
135
6 CURTOSE
Quando analisamos a curtose estamos verificando apenas o grau de acha-
tamento da curva de uma distribuição de dados. Curtose é o menor ou maior
grau de “achatamento” da distribuição ou curva de frequência considerada em
relação a uma curva normal representativa da distribuição (PARENTI, 2017).
Muito embora seja comum explicar a curtose como o “grau de achata-
mento” de uma distribuição de frequências, o que as medidas de curtose buscam
indicar realmente é o grau de concentração de valores da distribuição em torno
do centro desta distribuição.
Numa distribuição uni modal, quanto maior for a concentração de valores
em torno do centro dela mesma, maior será o valor da sua curtose. Graficamente,
isso será associado a uma curva com a parte central mais afilada, mostrando um
pico de frequência simples mais destacado, mais pontiagudo, caracterizando a
moda da distribuição de forma mais nítida.
Segundo Fonseca (2012), uma distribuição nem chata nem delgada (fina e
verticalizada) se chama Mesocúrtica, já uma distribuição delgada se chama Lepto-
cúrtica e uma distribuição achatada se chama Platicúrtica. A distribuição Leptocúr-
tica apresenta uma curva de frequências mais fechada que a distribuição normal.
A Figura 14 demonstra uma distribuição Leptocúrtica.
FIGURA 14 – DISTRIBUIÇÃO LEPTOCÚRTICA
FONTE: Fonseca (2012, p. 152)
A distribuição Mesocúrtica apresenta uma curva de frequências idêntica
à da distribuição normal. A Figura 15 demonstra uma distribuição Mesocúrtica.
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
136
FIGURA 15 – DISTRIBUIÇÃO MESOCÚRTICA
FONTE: Fonseca (2012, p. 153)
A distribuição Platicúrtica apresenta uma curva de frequências mais aberta
que a da distribuição Normal. A Figura 16 demonstra uma distribuição Platicúrtica.
FIGURA 16 – DISTRIBUIÇÃO PLATICÚRTICA
FONTE: Fonseca (2012, p. 153)
Portanto, uma distribuição de frequências é:
• Mesocúrtica: quando apresenta uma medida de curtose igual à da distribuição
normal.
• Platicúrtica: quando apresenta uma medida de curtose menor que a da distri-
buição normal.
• Leptocúrtica: quando apresenta uma medida de curtose maior que a da distri-
buição normal.
Após vermos as medidas de dispersão, os tipos de assimetria e os tipos de
curtose, passaremos para o próximo tópico que é a correlação.
Se você quiser entender um pouco mais sobre curtose, assista ao vídeo Cur-
tose Estatística, no link: https://www.youtube.com/watch?v=fVKo7KtBgew.
DICAS
137
Neste tópico, você aprendeu que:
• Precisamos, além das medidas de posição, as medidas de dispersão para saber-
mos a variação dos dados em relação à média.
• Somente com as medidas de posição não conseguimos tirar conclusões sobre
diversas possibilidades.
• A amplitude que é a diferença entre o maior e o menor elemento em um con-
junto de dados.
• Para que se consiga medir a variabilidade ou dispersão dos dados, somente a
amplitude não é suficiente.
• A variância é uma medida de dispersão que mostra o quão distante cada valor
de um conjunto de dados estão da média.
• A diferença entre variância populacional e amostral.
• Quando não conseguimos ter uma unidade e magnitude da variância corres-
pondendo com à unidade e magnitude dos dados, utilizamos o desvio padrão.
• A assimetria é o grau ou afastamento da simetria de uma distribuição.
• Curtose é o menor grau de achatamento de uma distribuição.
RESUMO DO TÓPICO 1
138
1 Já conhecemos as medidas de posição ou de tendência central. No entanto,
se quisermos medir a dispersão dos dados em relação à média, precisamos
de quais medidas? Assinale a alternativa CORRETA.
a) ( ) Precisamos das medianas.
b) ( ) Precisamos da moda.
c) ( ) Precisamos das medidas de dispersão.
d) ( ) Precisamos das medidas dos dados.
2 O que é amplitude? Assinale a alternativa CORRETA.
a) ( ) É a diferença entre o maior elemento e o menor em um conjunto de dados.
b) ( ) É a diferença entre a maior e menor distribuição dos dados.
c) ( ) É a soma do menor e do maior elemento em um conjunto de dados.
d) ( ) É a multiplicação de todos os dados da pesquisa.
3 Observando o conjunto de dados (3;5;12;2;8;9;15;1;6), calcule qual sua am-
plitude? Assinale a alternativa CORRETA.
a) ( ) 1.
b) ( ) 7.
c) ( ) 14.
d) ( ) 20.
4 Se necessitarmos medir a variabilidade de um conjunto de dados e não
conseguimos essa informação somente calculando a amplitude. O que po-
demos usar? Assinale a alternativa CORRETA.
a) ( ) A média.
b) ( ) A mediana.
c) ( ) A moda.
d) ( ) A variância.
5 Se precisarmos calcular a variância populacional, o que devemos levar em
conta? Assinale a alternativa CORRETA.
a) ( ) Todos os elementos da população.
b) ( ) Todos os dados disponíveis.
c) ( ) Uma amostra da população.
d) ( ) Os primeiros cinco elementos da população.
AUTOATIVIDADE
139
6 Quando temos a média, a moda e a mediana iguais, temos que tipo de assi-
metria? Assinale a alternativa CORRETA.
a) ( ) Assimetria leve.
b) ( ) Assimetria moderada.
c) ( ) Assimetria nula.
d) ( ) Assimetria poderosa.
7 Quando a curva da distribuição declina para a direita, temos que tipo de
assimetria? Assinale a alternativa CORRETA.
a) ( ) Assimetria positiva.
b) ( ) Assimetria moderada.
c) ( ) Assimetria nula.
d) ( ) Assimetria negativa.
8 Quando a curva da distribuição declina para a esquerda, temos que tipo de
assimetria? Assinale a alternativa CORRETA.
a) ( ) Assimetria positiva.
b) ( ) Assimetria moderada.
c) ( ) Assimetria nula.
d) ( ) Assimetria negativa.
9 O que é curtose? Assinale a alternativa CORRETA.
a) ( ) Curtose é o menor ou maior grau de “achatamento” da distribuição.
b) ( ) Curtose é o menor ou melhor grau de “achatamento” da distribuição.
c) ( ) Curtose é o pior ou maior grau de “achatamento” da distribuição.
d) ( ) Curtose é o pior ou melhor grau de “achatamento” da distribuição.
10 Fazendo uma relação entre uma distribuição Mesocúrtica e a curva da dis-
tribuição normal o que conseguimos identificar?
a) ( ) Que ela é parecida em relação à distribuição normal.
b) ( ) Que ela é idêntica em relação à distribuição normal.
c) ( ) Que ela negativa em relação à distribuição normal.
d) ( ) Que ela é positiva em relação à distribuição normal.
140
141
UNIDADE 3
1 INTRODUÇÃO
Em diversas investigações, deseja-se avaliar a relação entre duas medidas
quantitativas. Por exemplo, estão as alturas de filhos relacionadas com as alturas
dos seus pais? Está o aumento de peso relacionado com a idade da pessoa?
É bastante comum investigar a existência de relação entre as variáveis en-
volvidas para saber com precisão o quanto as alterações nos resultados de uma
variável podem estar associadas à transformação nos resultados de outras variá-
veis. Isso faz parte do dia a dia das empresas e do mundo acadêmico.
Nesse tipo de investigação, podem ser usadas técnicas de análise de cor-
relação e análise de regressão. Com a primeira, investiga-se a possibilidade de
existência de associação, bem como seu sentido (direto ou inverso) e intensidade,
enquanto, com a segunda, o relacionamento é descrito por meio de uma expres-
são matemática. No Tópico 2, desta unidade, entenderemos um pouco melhor a
correlação e, nos Tópicos 3 e 4, falaremos da regressão.
Vamos lá?
2 ENTENDENDO O SIGNIFICADO DE CORRELAÇÃO
Correlação significa uma semelhança ou relação entre duas coisas, pessoas
ou ideias. É uma semelhança ou equivalência que existe entre duas hipóteses,
situações ou objetos diferentes.Quando estamos no campo da estatística e da matemática a correlação se
refere a uma medida entre duas ou mais variáveis que se relacionam.
Segundo Mattos, Azambuja e Konrath (2017), o termo correlação significa
relação nos dois sentidos e é utilizado na estatística para indicar a força que mantém
unido dois conjuntos de valores. A constatação da existência e do grau de relação
entre as variáveis é parte do estudo da correlação. Entretanto, essas técnicas
avaliam apenas a possibilidade de existência de uma associação numérica entre
os dados, não implicando uma relação de causa e efeito. Os métodos pertinentes
à análise de correlação representam uma ferramenta essencial nas mais diversas
áreas do conhecimento (MATTOS; AZAMBUJA; KONRATH, 2017).
TÓPICO 2 —
CORRELAÇÃO
142
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
Antes de continuarmos, é importante escrever que a palavra correlação
também pode ser encontrada em diversos materiais pelos seus sinônimos alguns
deles são: relação, equiparação, nexo, correspondência, analogia e conexão. Sempre
que se deparar com algumas dessas palavras verifique o contexto da frase. Enten-
dida essa parte podemos ir para o próximo subtópico, o diagrama de dispersão.
3 DIAGRAMA DE DISPERSÃO
O diagrama de dispersão ou também conhecido como gráfico de dispersão
serve para avaliar a existência de correlação entre duas variáveis ou até mesmo
verificar se ela pode ser linear ou não, e ainda ter uma ideia de sua intensidade
e sentido. É possível recorrer a uma representação gráfica muito simples: os
pares de observações das duas variáveis são plotados num diagrama cartesiano
chamado “diagrama de dispersão” (MATTOS; AZAMBUJA; KONRATH, 2017).
O gráfico de dispersão utiliza-se de coordenadas cartesianas para exibir va-
lores de um conjunto de dados. Os dados são exibidos como uma coleção de pontos.
Cada ponto determina o valor de uma variável, bem como sua posição no eixo hori-
zontal junto com outra variável e sua posição no eixo vertical (PEREIRA, 2019).
O diagrama de dispersão é construído em um sistema de eixos cartesianos,
em que o eixo horizontal é o eixo da variável x e o eixo vertical é o eixo da variável y, e
no qual cada dado (x, y) corresponde a um ponto (AKAMINE; YAMAMOTO, 2013).
Segundo Pereira (2019), o gráfico de dispersão (XY) mostra a correlação
entre duas variáveis, uma com os valores colocados em X e outra com os valores
colocados em Y. Esse tipo de gráfico é usado quando se quer observar se existe
alguma correlação entre duas variáveis. Por exemplo, quando se quer demonstrar
que as vendas de sorvete aumentam no verão, ou então que as vendas de casaco
aumentam no inverno. Nesse caso quanto mais calor faz (variável Y), maior a
venda de sorvetes (variável X). Quanto mais frio faz (variável Y), maior a venda
de casacos (variável X).
O Gráfico 1 nos mostra um exemplo de diagrama de dispersão feito por
meio das coordenadas cartesianas X e Y.
TÓPICO 2 — CORRELAÇÃO
143
GRÁFICO 1 – DIAGRAMA DE DISPERSÃO
FONTE: Fonseca (2012, p. 159)
Conforme demonstrado no Gráfico 1. O Diagrama de Dispersão é uma
ferramenta estatística que permite identificar, por meio de análises visuais gráficas,
a possível relação existente entre duas variáveis quantitativas distintas. Por meio
de coordenadas cartesianas, no qual o conjunto de dados são dispersos, pode-
se verificar o grau de influência que uma variável dependente “X” influência a
independente “Y”, ambas relacionadas a uma ou mais causas e efeitos em comum.
Segundo Mattos, Azambuja e Konrath (2017), o gráfico de dispersão dá
uma boa ideia de como as duas variáveis se relacionam.
Para que entendamos melhor, vamos a um exemplo: queremos saber
se existe alguma relação entre a idade e o tempo que a pessoa fica na frente de
aparelhos eletrônicos diariamente. Primeiramente, precisamos fazer uma coleta
de dados e colocarmos em uma tabela como aprendemos nas Unidades 1 e 2.
Coletamos informações de dez indivíduos conforme demonstrados na Tabela 2.
144
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
TABELA 2 – IDADE E TEMPO DE PERMANÊNCIA DIÁRIA EM FRENTE DE APARELHOS ELETRÔNICOS
FONTE: Mattos, Azambuja e Konrath (2017, p. 175)
Colocando os dados da tabela no diagrama de dispersão conseguimos visu-
alizar como se dá a relação entre as variáveis, como podemos verificar no Gráfico 2.
GRÁFICO 2 – Diagrama de dispersão Idade e tempo de permanência diário em frente de apare-
lhos eletrônicos
FONTE: Mattos, Azambuja e Konrath (2017, p. 175)
Olhando para o diagrama, conseguimos identificar que quanto menor a
idade maior o tempo de permanência em frente aos aparelhos eletrônicos.
TÓPICO 2 — CORRELAÇÃO
145
4 TIPOS DE CORRELAÇÃO
Como vimos anteriormente, o diagrama ou gráfico de dispersão mostra
se existe correlação entre duas variáveis, o sentido desse relacionamento e se esse
é linear ou não linear.
Embora esse diagrama forneça uma ideia do relacionamento entre duas
variáveis x e y, é interessante medir sua intensidade quantitativamente, o que
pode ser feito por um coeficiente que expresse o grau de associação entre as
variáveis (MATTOS; AZAMBUJA; KONRATH, 2017).
A seguir, daremos uma olhada nos tipos de correlação.
4.1 CORRELAÇÃO POSITIVA
Este tipo de correlação acontece quando há uma tendência crescente entre
os pontos. Conforme uma variável aumenta, a outra variável também aumenta
proporcionalmente. Uma correlação linear será considerada positiva se os valores
crescentes que estiverem no eixo x estiverem associados aos valores crescentes
no eixo y de forma linear, ou seja, se o coeficiente de correlação for maior que 0 e
menor que 1. Escreve-se dessa forma: (097
2.9 OUTROS TIPOS DE GRÁFICOS ............................................................................................... 98
3 ELABORAÇÃO DE GRÁFICOS EM MS EXCEL ...................................................................... 100
RESUMO DO TÓPICO 2................................................................................................................... 103
AUTOATIVIDADE ............................................................................................................................ 104
TÓPICO 3 —MEDIDAS DE POSIÇÃO ......................................................................................... 107
1 INTRODUÇÃO ................................................................................................................................ 107
2 MEDIDAS DE POSIÇÃO............................................................................................................... 107
2.1 MÉDIA ARITMÉTICA ............................................................................................................... 107
2.2 MEDIANA ................................................................................................................................... 109
2.3 MODA .......................................................................................................................................... 110
2.4 SEPARATRIZES .......................................................................................................................... 110
3 ANÁLISE DE DADOS EM MS EXCEL ....................................................................................... 114
RESUMO DO TÓPICO 3................................................................................................................... 118
AUTOATIVIDADE ............................................................................................................................ 119
UNIDADE 3 — MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO ................... 123
TÓPICO 1 — MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE ............................... 125
1 INTRODUÇÃO ................................................................................................................................ 125
2 MEDIDAS DE DISPERSÃO...........................................................................................................125
2.1 AMPLITUDE ............................................................................................................................... 126
2.2 VARIÂNCIA ................................................................................................................................ 128
2.3 DESVIO PADRÃO ...................................................................................................................... 132
5 ASSIMETRIA.................................................................................................................................... 133
6 CURTOSE .......................................................................................................................................... 135
RESUMO DO TÓPICO 1................................................................................................................... 137
AUTOATIVIDADE ............................................................................................................................ 138
TÓPICO 2 —CORRELAÇÃO ........................................................................................................... 141
1 INTRODUÇÃO ................................................................................................................................ 141
2 ENTENDENDO O SIGNIFICADO DE CORRELAÇÃO ......................................................... 141
3 DIAGRAMA DE DISPERSÃO ..................................................................................................... 142
4 TIPOS DE CORRELAÇÃO ............................................................................................................ 145
4.1 CORRELAÇÃO POSITIVA ........................................................................................................ 145
4.2 CORRELAÇÃO LINEAR NEGATIVA ..................................................................................... 146
4.3 CORRELAÇÃO NÃO LINEAR E CORRELAÇÃO NULA .................................................. 147
5 CÁLCULO DO COEFICIENTE DE CORRELAÇÃO ................................................................ 148
RESUMO DO TÓPICO 2................................................................................................................... 152
AUTOATIVIDADE ............................................................................................................................ 153
TÓPICO 3 —REGRESSÃO LINEAR .............................................................................................. 157
1 INTRODUÇÃO ................................................................................................................................ 157
2 REGRESSÃO LINEAR .................................................................................................................... 157
2.1 VARIÁVEL DEPENDENTE E INDEPENDENTE .................................................................. 158
2.2 COEFICIENTE ............................................................................................................................. 160
2.3 INTERVALO DE CONFIANÇA ............................................................................................... 162
2.4 RESÍDUOS ................................................................................................................................... 164
3 COEFICIENTE DE DETERMINAÇÃO ....................................................................................... 165
4 P-VALUE ............................................................................................................................................ 166
5 REGRESSÃO LINEAR COM EXCEL ........................................................................................... 167
RESUMO DO TÓPICO 3................................................................................................................... 172
AUTOATIVIDADE ............................................................................................................................ 173
TÓPICO 4 —REGRESSÃO MÚLTIPLA ......................................................................................... 175
1 INTRODUÇÃO ................................................................................................................................ 175
2 REGRESSÃO MÚLTIPLA .............................................................................................................. 175
3 REGRESSÃO MÚLTIPLA COM EXCEL ..................................................................................... 176
RESUMO DO TÓPICO 4................................................................................................................... 184
AUTOATIVIDADE ............................................................................................................................ 185
REFERÊNCIAS .................................................................................................................................... 186
1
UNIDADE 1 —
CONCEITOS BÁSICOS DE
ESTATÍSTICA
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:
• conhecer a história da estatística;
• entender onde a estatística é aplicada;
• aprender sobre o método estatístico;
• conhecer os tipos de estatística;
• compreender a diferença de população, amostra e censo;
• aprender sobre os tipos de amostra;
• entender os conceitos de variável e escala;
• descobrir os tipos de variáveis e escalas;
• conhecer as séries estatísticas;
• descobrir os tipos de séries estatísticas.
2
PLANO DE ESTUDOS
Esta unidade está dividida em três tópicos. No decorrer da unidade
você encontraráfor de - 0,75 até – 0,99, a correlação negativa será forte. Quanto
o coeficiente de correlação estiver entre - 0,50 e - 0,74, a correlação negativa é
considerada média. Quando o coeficiente estiver de - 0,25 até - 0,49, a correlação
negativa é considerada fraca. Abaixo de - 0,25 a correlação é negativa muito fraca,
chegando ao zero não existe correlação.
TABELA 4 – TIPOS DE CORRELAÇÃO NEGATIVA EM RELAÇÃO AOS SEUS COEFICIENTES
Coeficientes de Correlação (r) Tipos de Correlação
- 1,00 Correlação Negativa Perfeita.
- 0,75 até - 0,99 Correlação Negativa Forte.
- 0,50 até - 0,74 Correlação Negativa Média.
- 0,25 até - 0,49 Correlação Negativa Fraca.
Abaixo de - 0,25 Correlação Negativa Muito Fraca.
0 Não existe correlação/Correlação Nula.
FONTE: Os autores
4.3 CORRELAÇÃO NÃO LINEAR E CORRELAÇÃO NULA
A correlação não linear ocorre quando parece existir relação entre as vari-
áveis x e y, e essa relação se dá em um formato tipo curva. O Gráfico 3 nos mostra
uma correlação não linear.
GRÁFICO 3 – CORRELAÇÃO NÃO LINEAR
FONTE: EDTI (2020, s.p.)
Na correlação não linear conforme demonstrada no Gráfico 3 existe uma
relação entre as variáveis, mas se calcularmos o coeficiente de correlação linear de
Pearson ficará muito próximo de zero, indicando que não existe correlação linear
entre essas duas variáveis.
148
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
Já na correlação nula os valores das variáveis x e y ocorrem independen-
temente. Como o próprio nome diz não existe correlação entre elas, conforme
demonstrada no Gráfico 4.
GRÁFICO 4 – CORRELAÇÃO NULA
FONTE: EDTI (2020, s.p.)
Na correlação nula, quando a variável x aumenta ou diminui não existe
nenhuma variação na variável y.
IMPORTANTE
O coeficiente de correlação de Pearson tem esse nome devido ao seu criador Karl
Pearson que viveu no fim do Século XIX e início do Século XX. O pensamento de Karl Pearson
fundamentou muitos dos métodos estatísticos que são de uso comum nos dias de hoje.
5 CÁLCULO DO COEFICIENTE DE CORRELAÇÃO
Falamos, anteriormente, algumas vezes sobre os tipos de correlações pos-
síveis e sempre colocamos como referência um valor. Esse valor é o coeficiente
de correlação, como podemos notar, ele está sempre entre 0 e 1. Todavia, como
calculamos esse valor?
O grau de associação entre as variáveis pode ser avaliado por meio do
Coeficiente de dispersão, também chamado coeficiente de Correlação, ou ainda,
Coeficiente de Pearson (r). A partir deste, pode-se concluir se as interações apre-
sentam tendências fortes (quando os pontos estão muito próximos um dos ou-
tros, com r aproximadamente 1 ou -1), ou fracas (quando os pontos estão muito
dispersos, com r próximo a 0), independentemente da forma de distribuição line-
ar ou não (AKAMINE; YAMAMOTO, 2013)
TÓPICO 2 — CORRELAÇÃO
149
Além disso, o diagrama de dispersão pode ser classificado em três cate-
gorias distintas: correlação positiva; correlação negativa e correlação nula, além
dessas três categorias é importante sabermos que pode não haver correlação entre
as variáveis x e y. Todas essas categorias já vimos anteriormente. A seguir, apren-
deremos a calculá-lo.
O coeficiente de correlação linear ( r ) é dado pela fórmula mostrada na
Figura 19, em que xi e yi são respectivamente o produto de ( xi, yi).
FIGURA 19 – FÓRMULA DO CÁLCULO DO COEFICIENTE DE CORRELAÇÃO
FONTE: Akamine e Yamamoto (2013, p. 242)
Em que:
r → é o coeficiente de correlação está sempre entre -1 e 1
n → é o número de observações
xi e yi → são as observações de uma mesma linha
Essa fórmula parece bastante complexa, mas se fizermos uma tabela como
as da Unidade 2 e acrescentarmos três colunas tudo ficará mais fácil. Vamos a um
exemplo, digamos que tenhamos o seguinte problema para resolver: o gerente
de uma determinada loja quer saber se existe relação entre o investimento em
propaganda e o número de clientes que ele recebe diariamente. Para tanto, ele
coletou os seguintes dados:
TABELA 5 – INVESTIMENTO EM RELAÇÃO AO AUMENTO DO NÚMERO DE CLIENTES
Investimento (R$ 1000)* Número de clientes
10 15
12 18
14 20
16 26
18 29
20 35
*Para cada múltiplo de R$1.000,00 existe um aumento no número de clientes.
FONTE: Os autores
150
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
Primeiro passo: construir a tabela de cálculo como mostra a Tabela 6.
TABELA 6 – CÁLCULO DA CORRELAÇÃO DE PEARSON
i Xi Yi Xi * Yi Xi² Yi²
1 10 15 150 100 225
2 12 18 216 144 324
3 14 20 280 196 400
4 16 26 416 256 676
5 18 29 522 324 841
6 20 35 700 400 1225
Soma 90 143 2284 1420 3691
FONTE: Os autores
Segundo passo: substituir os dados na fórmula.
r = 0,9879
Com o resultado é possível comprovar que existe uma correlação
positiva forte entre o investimento em propaganda e o número de clientes da loja.
É possível também realizar esse tipo de cálculo utilizando softwares estatísticos
ou mesmo o Excel. A Figura 20 mostra como realizar o cálculo no Excel.
FIGURA 20 – CORRELAÇÃO DE PEARSON NO EXCEL
FONTE: Os autores
Note na Figura 21 que com a aplicação da fórmula é possível chegar ao
resultado de r = 0,9879.
TÓPICO 2 — CORRELAÇÃO
151
FIGURA 21 – RESULTADO CORRELAÇÃO DE PEARSON NO EXCEL
FONTE: Os autores
Agora que você aprendeu a calcular o coeficiente de correlação de Pearson,
faça o teste e coloque em prática no seu dia a dia de trabalho ou estudos.
152
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• Para investigar a relação ou não entre variáveis utilizamos a correlação.
• Os métodos pertinentes à análise de correlação representam uma ferramenta
essencial nas mais diversas áreas do conhecimento.
• O diagrama de dispersão também é conhecido como gráfico de dispersão.
• O diagrama de dispersão é construído em um sistema de eixos cartesianos.
• Na horizontal é o eixo da variável “x” e na vertical está o eixo “y”.
• Diagrama de dispersão é uma ferramenta estatística que permite identificar,
por meio de análises visuais gráficas, a possível relação existente entre duas
variáveis quantitativas distintas.
• Existem alguns tipos de correlação linear positiva, correlação linear negativa,
correlação não linear e correlação nula.
• O coeficiente de correlação está sempre entre -1 e 1.
• O coeficiente de correlação é calculado pela seguinte fórmula:
Em que:
r → é o coeficiente de correlação está sempre entre -1 e 1
n → é o número de observações
xi e yi → são as observações de uma mesma linha
153
1 Quando queremos investigar a possiblidade de existência de associação
que técnica utilizamos? Assinale a alternativa CORRETA.
a) ( ) Análise de correlação.
b) ( ) Análise de médias.
c) ( ) Análise de regressão.
d) ( ) Análise de componentes.
2 O que significa o termo correlação? Assinale a alternativa CORRETA.
a) ( ) Relação positiva.
b) ( ) Relação negativa.
c) ( ) Relação nula.
d) ( ) Relação nos dois sentidos.
3 O diagrama de dispersão ou também conhecido como gráfico de dispersão
serve para avaliar o que entre duas variáveis?
a) ( ) Correlação.
b) ( ) Regressão.
c) ( ) Média.
d) ( ) Desvio Padrão.
4 O diagrama de dispersão é construído em um sistema de eixos cartesianos,
em que o eixo horizontal é também conhecido como? Assinale a alternativa
CORRETA.
a) ( ) O eixo da variável x.
b) ( ) O eixo da variável y.
c) ( ) O eixo da variável b.
d) ( ) O eixo que mede x e y.
5 No diagrama de dispersão que é construído em um sistema de eixos car-
tesianos cada ponto colocado no gráfico corresponde ao que? Assinale a
alternativa CORRETA.
a) ( ) A uma linha.
b) ( ) A uma medida.
c) ( ) A um dado.
d) ( ) A um erro.
AUTOATIVIDADE
154
6 Um pesquisador realizou seis experimentos para analisar a relação entre o
tempo de exposição de um material à luz e o tempo de vida ou de resistên-
cia desse material a luz e obteve os seguintes dados:
Tempo exposição (horas) Tempo de vida (dias)
0,0 30
5,0 24
10,0 20,5
15,0 16,5
20,0 13,1
25,0 8
Calcule o coeficiente de correlação e assinale a alternativa CORRETA.
a) ( ) 0,9872.
b)( ) 0,9963.
c) ( ) -0,9963.
d) ( ) 0,9872.
7 No exercício anterior, em que o pesquisador analisou a relação entre o tem-
po de exposição do material à luz e o tempo de vida desse material ele
encontrou que tipo de correlação? Justifique sua resposta.
8 O gerente de uma loja recebeu a informação de que o seu lucro estaria re-
lacionado diretamente com a quantidade de produtos distintos que a loja
possui. Para analisar esta informação, o gerente coletou os seguintes dados:
Quantidade de produtos Lucro (R$1000)*
20 11,5
30 12,2
40 15,2
50 24,1
60 25,2
70 26,8
*Múltiplo de R$ 1000,00
Com base nos dados anteriores, calcule o coeficiente de correlação e assinale
a alternativa CORRETA.
a) ( ) 0,9557.
b) ( ) 0,9784.
c) ( ) 0,8567.
d) ( ) 0,9871.
155
9 No exercício anterior, em que o gerente de uma loja recebeu a informação
de que o seu lucro estaria relacionado diretamente com a quantidade de
produtos distintos que a loja possui foi encontrado algum tipo de correla-
ção? Justifique sua resposta.
10 Em uma determinada pesquisa, o pesquisador verificando a relação entre
duas variáveis encontrou um coeficiente de correlação r = 1,00. O que isso
significa? Assinale a alternativa CORRETA.
a) ( ) Uma correlação linear positiva fraca.
b) ( ) Uma correlação linear negativa fraca.
c) ( ) Uma correlação linear negativa perfeita.
d) ( ) Uma correlação linear positiva perfeita.
156
157
UNIDADE 3
1 INTRODUÇÃO
Neste tópico, será abordado sobre regressão linear e suas tipologias, as va-
riáveis de entrada – dependente e independente, assim como analisar e interpre-
tar os resultados da regressão. A regressão gera uma equação que indica a relação
linear entre duas variáveis, ou seja, a equação considera o comportamento linear
de uma variável em relação a outra. Com esta análise é possível confirmar hipó-
teses e ainda predizer sobre um fenômeno com base no comportamento histórico.
Por exemplo, suponha que um dono de um estabelecimento está analisando
o comportamento dos atendentes em relação às vendas efetuadas. Desta maneira, ele
se depara que um funcionário que recepciona os clientes de forma ríspida enquanto o
outro apresenta maior atenção. Após coletar um amplo conjunto de dados, o proprie-
tário percebe que existe uma correlação entre as variáveis “atendimento” e “vendas
efetuadas”. Na sequência, ele realiza uma regressão e percebe que para cada nota de
atendimento há um incremento de 12% na chance de vendas efetuadas. Além disso,
essa curva se acentua mais nos extremos chegando a refletir até 20% nas vendas de-
vido ao atendimento. Portanto, após esta análise, o proprietário decide investir em
treinamento dos funcionários para predizer e maximizar as vendas.
Diante do exemplo apresentado, perceba que a regressão pode ser utilizada
para solucionar problemas do seu dia a dia, basta planejar, coletar, e analisar dados.
No entanto, há um conjunto de detalhes que precisam ser discutidos para refinar
seus conhecimentos como os métodos de regressão, tipologia de variáveis, intervalo
de confiança, entre outros. Abordaremos esses conteúdos nos subtópicos seguintes.
2 REGRESSÃO LINEAR
Diferentemente da correlação, a regressão linear consiste em uma equação
para se estimar um valor de uma variável (y) a partir dos valores de outra variável
(x) (MCCLAVE; BENSON; SINCICH, 2009). A equação é elaborada a partir de um
plano cartesiano, considerando os valores lineares das variáveis em análise.
Por sua vez, a linha de regressão consiste no menor valor da soma dos
quadrados dos resíduos (ver imagem abaixo). Portanto, a linha reta perpassa no
centro médio dos pontos quando indicados em um gráfico de dispersão (FAR-
BER; LARSON, 2010). A regressão linear pode ser aplicada em situações onde
deseja-se avaliar a relação entre duas variáveis. Portanto, delimitar uma equação
TÓPICO 3 —
REGRESSÃO LINEAR
158
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
que demonstra quanto uma variável está relacionada a outra, bem como verificar
a qualidade da linha de regressão; isto quer dizer, se é possível confirmar uma
hipótese ou não com os resultados obtidos.
GRÁFICO 5 – RETA DE REGRESSÃO
FONTE: Farber e Larson (2010, p. 409)
Para tanto, abordaremos, na sequência, os elementos que constituem uma re-
gressão, assim como o processo de elaboração, análise e interpretação dos resultados.
2.1 VARIÁVEL DEPENDENTE E INDEPENDENTE
Uma variável, como o próprio nome indica, é algo que muda de valor, que
varia, é “tudo que pode assumir diferentes valores numéricos” (BUNCHAFT;
KELLNER, 1998, p. 16). Portanto, uma variável corresponde a um conjunto de
dados em comum sobre distintos respondentes. Por exemplo, é comum que ques-
tionários que busquem coletar dados da percepção de um respondente possuam
uma seção com dados do respondente (ou perfil do respondente), como idade,
sexo, renda média, escolaridade entre outros. Cada uma dessas informações cor-
responde a uma variável da pesquisa.
Entretanto, quais os tipos de variáveis são utilizados em uma regressão?
A formulação mais simples de uma hipótese é relacionada em apenas duas va-
riáveis, chamadas de Variável Independente (VI) e Variável Dependente (VD).
Enquanto a variável independente é controlada pelo pesquisador, seja por uma
manipulação intencional ou seleção e mensuração dos valores a serem introduzi-
dos no estudo, as variáveis dependentes são aquelas que variam de acordo com o
manuseio das variáveis independentes (BUNCHAFT; KELLNER, 1998).
Suponha que você está pesquisando os fatores que determinam a adoção
de novas tecnologias organizacionais, e, portanto, você pressupõe pesquisar a
percepção dos gestores de empresas uma vez que são eles os tomadores de deci-
TÓPICO 3 — REGRESSÃO LINEAR
159
sões. Para iniciar a pesquisa você se pergunta: quais os fatores que podem levar
as empresas a adotarem novas tecnologias? Sob o ponto da pesquisa, é necessário
vasculhar a literatura vigente e entender o que já foi evidenciado a respeito da
temática. Suponha que foram encontrados estudos que indiquem três fatores de-
terminantes: percepção de baixa competitividade, e redução de custos, e melhoria
da qualidade. Na sequência, poder-se-ia criar um questionário para verificar a
percepção dos gestores organizacionais quanto a adoção de novas tecnologias,
conforme sugestão de variáveis a seguir – note que os códigos da variável podem
ser definidos pelo pesquisador:
QUADRO 1 – VARIÁVEIS DE UMA PESQUISA
Construto Variável Descrição da variável
Percepção de baixa
competitividade PER01 Minha empresa costuma entregar produtos ou serviços
após o tempo previsto.
PER02 Minha empresa possui resultado financeiro abaixo dos
concorrentes nos últimos 3 anos.
PER03 Minha empresa teve faturamento abaixo dos concorrentes
nos últimos 3 anos.
Redução de custos COS01 Novas tecnologias contribuem para redução de custos.
COS02 Custos operacionais são reduzidos quando se implementa
uma automação.
COS03 Implementação de novas tecnologias sempre reduz custos
operacionais.
Melhoria da qualidade QUA01 Automação leva a padronização de processos.
QUA02 Automação leva a padronização de produtos.
QUA03 Automação leva a padronização de serviços.
Adoção de novas
tecnologias ADO01 Minha empresa sempre adotou tecnologias emergentes.
ADO02 Minha empresa costuma ser uma das primeiras a adotar
tecnologias disruptivas.
ADO03 Minha empresa costuma desenvolver tecnologia e novas
soluções para os produtos e serviços atuais.
FONTE: Os autores
NOTA
Acadêmico, você conseguiu entender como foram criadas as siglas de cada
variável? Exemplo: PER, é a abreviação de percepção. COS, é a abreviação de redução de
custos e assim sucessivamente.
160
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
Neste exemplo, quais as variáveis dependentes? E quais as variáveis inde-
pendentes? Perceba que se deseja descobrir sobre a percepção de gestores quanto
a adoção de novas tecnologias em organizações ok? Então, neste caso, asvariáveis
de adoção de novas tecnologias (ADO01, ADO02 ou ADO03) são as variáveis
dependentes, enquanto as demais são as variáveis independentes. Após coleta de
dados, as informações do banco de dados devem ser importadas em uma plani-
lha ou software estatístico para análise da regressão.
IMPORTANTE
Lembre-se que a regressão linear abrange a relação de apenas uma variável
dependente e outra independente em uma única fórmula.
Como mencionado anteriormente, a regressão linear consiste em uma fór-
mula padrão entre uma variável dependente e outra independente. A fórmula
considera a variável dependente (Y) como a soma da constante (a), a multiplica-
ção de uma variável independente (B.x), e o erro amostral (e). A fórmula é apre-
sentada a seguir:
Y = a + Bx + e
Essa fórmula é aplicada em todas as situações em que se deseja analisar
a relação entre duas variáveis. Para situações em que há mais de uma variável
independente – denominada como regressão múltipla, estas são adicionadas na
fórmula Bx1, Bx2...Bxn. Esse conteúdo será abordado no Tópico 4 desta unidade.
2.2 COEFICIENTE
Os coeficientes representam todos os números pertencentes a uma fórmu-
la padrão, incluindo a constante e as variáveis independentes que serão direta-
mente multiplicadas (CRESPO, 2009). Após aplicar a fórmula de regressão em al-
guma situação, os resultados dos coeficientes podem ser positivos ou negativos,
e, altos ou baixos.
Quanto ao sinal do coeficiente, se este for positivo indica que uma vari-
ável independente tem um efeito em favor da variável dependente; ou seja, que
uma variável independente potencializa a variável dependente. Caso negativo,
indica uma oposição a variável dependente. Por exemplo, suponha o exemplo
anterior onde buscava-se avaliar a relação entre a percepção de fatores que levam
TÓPICO 3 — REGRESSÃO LINEAR
161
empresas a adotarem novas tecnologias. Neste caso, avaliaremos a relação entre
adoção de tecnologias (ado01) e a redução de custos devido adoção (cos01). Va-
mos abordá-los o coeficiente positivo e negativo a seguir:
Variáveis:
ADO01 – Minha empresa sempre adotou tecnologias emergentes (dependente)
COS01 – Novas tecnologias contribuem para redução de custos (independente)
Coeficiente Positivo
ado01 = 3,341 + 0,293 cos01
Sob o ponto de vista gráfico, o coeficiente positivo apresenta-se conforme
gráfico a seguir (esta imagem foi gerada a partir do software estatístico Minitab):
GRÁFICO 6 – SCATTERPLOT REGRESSÃO POSITIVA
FONTE: Os autores
Neste caso, quando a regressão aponta coeficientes positivos, a reta indica
um aumento na adoção de novas tecnologias em função da percepção dos gesto-
res quanto a redução de custos.
Coeficiente Negativo
ado01 = 4,712 - 0,7610 cos01
Sob o ponto de vista gráfico, o coeficiente negativo apresenta-se conforme
gráfico a seguir (esta imagem foi gerada a partir do software estatístico Minitab):
162
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
GRÁFICO 7 – SCATTERPLOT REGRESSÃO NEGATIVA
FONTE: Os autores
Por outro lado, a reta de regressão pode apresentar característica oposta,
conforme apresentado no gráfico anterior. Nesta ocasião, a reta indica que quan-
to maior percepção na redução de custos (cos01), menor será a adoção de novas
tecnologias na percepção dos gestores entrevistados. Note que para estes casos,
a variável independente (cos01) aparece com valor negativo na equação (ado01 =
4,712 - 0,7610 cos01).
IMPORTANTE
A reta de regressão pode ser positiva ou negativa, em que a denominação
ocorre devido à relação entre a variável dependente e independente. Além disso, os valores
dos coeficientes, se altos ou baixos, indicam a força da influência de uma variável indepen-
dente sobre a variável dependente.
2.3 INTERVALO DE CONFIANÇA
O intervalo de confiança, ou também conhecido como margem de erro,
refere-se a uma estimativa de intervalo de parâmetro populacional desconhecido
(FARBER; LARSON, 2010). Este representa o erro amostral contido nos dados de
uma pesquisa. Normalmente, utiliza-se uma probabilidade de 95% como grau
de confiança em que a amostra represente com precisão o comportamento da
população. Desta forma, 5% dos dados seriam considerados como uma margem
TÓPICO 3 — REGRESSÃO LINEAR
163
de erro proveniente da seleção da amostra. Por sua vez, quanto menor o interva-
lo de confiança, maior segurança pode-se ter quanto os resultados reais de uma
pesquisa ao replicá-lo ou generalizá-lo à uma população (MCCLAVE; BENSON;
SINCICH, 2009).
Para os coeficientes de regressão, os intervalos de confiança são elabora-
dos a partir da suposição de normalidade, também chamado de Curva de Gauss.
Em estatística, a distribuição normal, ou normalidade, representa uma represen-
tação de dados com baixa variabilidade nas respostas. Dessa maneira, quanto
maior a variabilidade dos dados de uma amostra, maior serão os limites do erro.
Portanto, os intervalos de confiança fornecem estimativas dos parâmetros de li-
mite inferior e superior caso um experimento seja realizado mais vezes (FARBER;
LARSON, 2010).
Por exemplo, suponha que a relação entre as variáveis ADO01 e COS02
indica um coeficiente de 0,833. O intervalo de confiança apontará o limite inferior:
0,451, e superior: 1,215 deste coeficiente, por exemplo. Esses valores são obtidos
em relatórios de regressão como limites de 95% inferior e superior, conforme
apresentado no exemplo a seguir (valores destacados em negrito).
TABELA 7 – INTERVALO DE CONFIANÇA
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Constante 0,166667 0,862007 0,193347 0,848083 -1,59907 1,932407
COS01 0,833333 0,186339 4,472136 0,000117 0,451635 1,215031
FONTE: Os autores
A margem de erro pode ser calculada por meio da fórmula:
Em que:
n = tamanho da amostra
σ = desvio padrão da população
z = escore z (conforme grau de confiança)
A partir do cálculo da margem de erro é possível delimitar o intervalo
para a população desconhecida a partir de uma amostra. O resultado do cálcu-
lo da fórmula de margem de erro é apresentado em valor percentual, portanto,
calcula-se a multiplicando a margem de erro cobre o coeficiente para delimitar o
limite inferior e superior do intervalo de confiança.
164
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
TABELA 8 – GRAU DE CONFIANÇA PARA CÁLCULO DA MARGEM DE ERRO
Grau de confiança desejado Escore z
80% 1,28
85% 1,44
90% 1,65
95% 1,96
99% 2,58
FONTE: Adaptado de SurveyMonkey.com (2020)
DICAS
A margem de erro depende de alguns determinantes como tamanho da po-
pulação, tamanho da amostra e grau de confiança. Você pode assumi-la como um valor
padrão (5% por exemplo), ou calculá-la a partir dos dados existentes. Um exemplo seria
utilizar uma calculadora on-line, acesse em: https://bit.ly/2DpEGBW.
2.4 RESÍDUOS
Chama-se de resíduos as diferenças entre a reta de regressão estimada em
relação aos valores observados (FARBER; LARSON, 2010). Por exemplo, suponha
que uma reta passe pelo eixo X e Y em 4 e 5 respectivamente, caso um responden-
te tiver apontado 3 e 4, isto indica que há um erro em relação a reta de regressão
(resíduo= -1), e, portanto, isso é tratado como um resíduo.
Da mesma forma como sugerida uma distribuição normal para os dados
de uma regressão, os resíduos também devem seguir consequentemente o prin-
cípio de normalidade. A análise dos resíduos é importante para se uma visão de
quais respondentes indicaram valores que se distanciam da reta de regressão, e,
portanto, pode haver algum comportamento não previsto na equação de regres-
são, como fatores de contexto por exemplo.
TÓPICO 3 — REGRESSÃO LINEAR
165
GRÁFICO 8 – PLOTAGEM DE RESÍDUOS
FONTE: Os autores
Como observado anteriormente, os resíduos são evidenciados a partir da
relação entre os valores observados (apontados pelos respondentes) e a reta de re-
gressão. Note que é possível identificar os valores observados que se distanciam em
maior escala da reta de regressão – aqueles que possuemvalores mais extremos.
3 COEFICIENTE DE DETERMINAÇÃO
O coeficiente de determinação (R²) representa um índice de qualidade da
equação da regressão e é considerado a melhor maneira de interpretar o valor da
medida de associação linear entre duas variáveis (FARBER; LARSON, 2010). O
coeficiente de determinação é “definido como a relação que mede a proporção da
variação total da variável dependente, que é explicada pela variação da variável
independente” (LAPONNI, 2005, p. 405).
O R² é um número que varia de 0 a 1, e o seu resultado indica quanto o
modelo estatístico pode explicar os valores observados. Por exemplo, um modelo
com R² = 0,705 significa que o modelo explica 70,5% da variância da variável de-
pendente a partir das variáveis independentes incluídas no modelo linear.
Na área de Ciências Sociais é comum que estimativas de regressão obte-
nham valores de R² abaixo de 25%, sinalizando a ausência de regressores no mo-
delo linear, como situações de contexto, como a estrutura organizacional, social,
econômica entre outros fatores. Por outro lado, na área de Ciências da Saúde,
regressões com R² abaixo de 0,90 podem não ser aceitos, uma vez que testes rela-
cionados à saúde exigem uma variância mínima na variável dependente.
166
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
Por outro lado, o R² deve ser utilizado com precaução por dois motivos
principais: (a) o R² tende a aumentar ao passo que há poucos dados observados, e,
(b) quando há valores crescentes de forma similar entre X e Y sem repetição tende
a resultar em R² igual a 1. Esses aspectos devem ser levados em conta na avaliação
do coeficiente de determinação.
4 P-VALUE
O P-value (probability value) ou valor de probabilidade, refere-se à proba-
bilidade de obter os resultados extremos do modelo estatístico dentro da nor-
malidade com os dados observados. Isso indica sobre a similaridade nos dados
e é amplamente utilizado para testar hipóteses. Desta forma, o p-value avalia a
significância estatística de um conjunto de dados observados, e, se, obter valor
abaixo de 0,05 indica que os dados possuem coerência e baixa variância nas extre-
midades (CRESPO, 2009).
Desta forma, o p-value representa uma forma de confirmar hipóteses. Note
que na tabela a seguir há a relação entre as variáveis ADO01 e COS01. Conforme
valor-P, pode-se confirmar a hipótese de que a redução de custos leva organiza-
ções a adoção de novas tecnologias.
TABELA 9 – TESTE DE HIPÓTESE
Coeficientes Erro
padrão Stat t valor-P 95%
inferiores 95% superiores
Constante 0,166667 0,862007 0,193347 0,848083 -1,59907 1,932407
COS01 0,833333 0,186339 4,472136 0,000117 0,451635 1,215031
FONTE: Os autores
NOTA
Se p-value for menor que 0,05 confirma-se a hipótese em teste, caso contrá-
rio, rejeita-se.
TÓPICO 3 — REGRESSÃO LINEAR
167
Uma hipótese corresponde a uma alternativa testável que pode ser provada
ou refutada como resultado de uma experimentação científica.
NOTA
5 REGRESSÃO LINEAR COM EXCEL
A regressão linear simples é um modelo matemático usado para descre-
ver a relação entre duas variáveis com o objetivo de utilizar uma delas para se
prever o valor da outra (MCCLAVE; BENSON; SINCICH, 2009). O objetivo da
análise de regressão é determinar a relação existente entre uma variável depen-
dente com outra independente (LAPPONI, 2005).
Este subtópico tem por objetivo demonstrar a aplicação da técnica de re-
gressão linear com o software Excel. Este software tem sido adotado em função
da sua acessibilidade. Antes de iniciarmos a análise de regressão propriamente
dita, vamos verificar as configurações do Excel:
Etapa 1: acesse Opções > Suplementos > Selecionar ‘Suplementos do Ex-
cel’ e clicar no botão “Ir…”.
FIGURA 22 – ETAPA 1 CONFIGURAÇÃO EXCEL
FONTE: Os autores
Etapa 2: selecionar suplemento “ferramentas de análise” e clicar em OK.
Note que um ícone foi criado na barra de ferramentas do Excel (Dados > análise
> análise de dados).
168
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
FIGURA 23 – ETAPA 2: CONFIGURAÇÃO EXCEL
FONTE: Os autores
Após o suplemento de análise de dados estiver ativo, vamos prosseguir
com os passos para aplicação da regressão linear com o software Excel. Em um
primeiro momento, deve-se criar ou importar uma base de dados ao Excel. Leve
em consideração que a base de dados deverá estar livre de erros, como dados
faltantes ou qualquer digitação incorreta.
Passo 1: criar ou importar base de dados ao Excel.
FIGURA 24 – PASSO 1 REGRESSÃO LINEAR COM EXCEL
FONTE: Os autores
TÓPICO 3 — REGRESSÃO LINEAR
169
Passo 2: acessar o painel de entrada de dados para regressão, em: Dados >
Análise > Análise de dados. Selecionar “regressão” e clicar em OK.
FIGURA 25 – PASSO 2: REGRESSÃO LINEAR COM EXCEL
FONTE: Os autores
Passo 3: selecionar dados de entrada para Y e X, nível de confiança (95%),
e demais informações sobre resíduos e probabilidade normal. Deixar a apresen-
tação de resultados em nova planilha.
NOTA
Lembrando que Y refere-se na variável dependente e X a variável independente.
Ou seja, a variável dependente é a incógnita que o pesquisador está buscando respostas.
170
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
FIGURA 26 – PASSO 3: REGRESSÃO LINEAR COM EXCEL
FONTE: Os autores
Passo 4: gerar o relatório de regressores e interpretar resultados.
FIGURA 27 – PASSO 4: REGRESSÃO LINEAR COM EXCEL
FONTE: Os autores
Os relatórios de regressão são apresentados conforme figura anterior. A
partir da relação entre as variáveis ADO01 e COS01, os resultados indicam (des-
tacados na Figura 27):
TÓPICO 3 — REGRESSÃO LINEAR
171
Coeficiente: 0,7941
R-quadrado: 0,4046
P-value: 0,00002
Intervalo de confiança: 0,4137 - 1,1746
De acordo com esses dados, é possível afirmar que a variável COS01 (No-
vas tecnologias contribuem para redução de custos) é regressora de ADO01 (mi-
nha empresa sempre adotou tecnologias emergentes). Desta forma, com este con-
junto de dados, pode-se confirmar as hipóteses e concluir que a redução de custos
é um fator determinante para adoção de tecnologias emergentes.
Por fim, este tópico apresentou a regressão linear como uma técnica es-
tatística amplamente utilizada em organizações ao avaliar o relacionamento de
variáveis. No próximo tópico, abordar-se-á a regressão múltipla, uma técnica si-
milar a regressão linear, porém considera-se no mínimo três variáveis.
172
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• A regressão linear consiste em uma equação para se estimar um valor de uma
variável (y) a partir dos valores de outra variável (x).
• A variável independente (x) é controlada pelo pesquisador.
• A variável dependente (y) é influenciada por um ou mais regressores (variáveis
independentes).
• Os coeficientes representam todos os números pertencentes a uma fórmula pa-
drão, gerados a partir de uma regressão.
• O intervalo de confiança, ou também conhecido como margem de erro, refere-
-se a uma estimativa de intervalo de parâmetro populacional desconhecido a
partir de uma amostra pesquisada.
• Resíduos correspondem a diferença dos valores empiricamente observados em
relação à reta de regressão estimada.
• O coeficiente de determinação (R²) representa como um índice de qualidade
da equação da regressão, e o seu resultado indica quanto o modelo estatístico
pode explicar os valores observados.
• O p-value (probability value), ou valor de probabilidade, refere-se à probabili-
dade de obter os resultados extremos do modelo estatístico dentro da normali-
dade com os dados observados.
173
1 Quando queremos estimar uma variável a partir de outra, qual técnica uti-
liza-se? Assinale a alternativa CORRETA.
a) ( ) Análise de correlação.
b) ( ) Análise de médias.
c) ( ) Análise de regressão.
d) ( ) Análise de componentes.
2 Quais as formas de regressão quanto ao sinal da equação? Assinale a alter-
nativa CORRETA.
a) ( ) Regressão positiva.
b) ( ) Regressão negativa.
c) ( ) Regressão nula.
d) () Regressão nos dois sentidos.
3 Qual a sigla da variável dependente? Assinale a alternativa CORRETA.
a) ( ) X.
b) ( ) Y.
c) ( ) W.
d) ( ) Z.
4 Qual a sigla da variável independente? Assinale a alternativa CORRETA.
a) ( ) X.
b) ( ) Y.
c) ( ) W.
d) ( ) Z.
5 Em regressão, qual variável o pesquisador detém controle?
a) ( ) Variável dependente.
b) ( ) Variável alternativa.
c) ( ) Variável Independente.
d) ( ) Variável explícita.
AUTOATIVIDADE
174
175
UNIDADE 3
1 INTRODUÇÃO
A regressão múltipla é considerada uma das técnicas estatísticas mais uti-
lizadas para solucionar problemas reais em organizações. Para tanto, abordar-se-
-á essa técnica neste tópico, inclusive com a aplicação do Excel.
Iniciaremos com uma questão: o que acontece se você perceber que há
mais de uma variável que faça sentido como determinante de outra? Suponha o
exemplo que foi tratado no subtópico anterior, pelo qual a pesquisa buscava ava-
liar os fatores que levam organizações a adotarem tecnologias emergentes: quais
fatores influenciam gestores a tomarem uma decisão em favor da aquisição de
novas tecnologias? Sem dúvida sua resposta deve ser: MUITOS!
No exemplo do tópico anterior, foi apresentada uma tabela contendo um
conjunto de variáveis ao qual fazem uma indicação aos fatores determinantes da
adoção de novas tecnologias. Em situações como essa, apenas a regressão múlti-
pla pode fornecer elementos para confirmação de hipóteses uma vez que inclui
três ou mais variáveis em um único modelo estatístico.
2 REGRESSÃO MÚLTIPLA
A regressão múltipla envolve três ou mais variáveis sendo compreendida
como uma extensão da regressão linear (MCCLAVE; BENSON; SINCICH, 2009).
Há ainda uma única variável dependente, porém duas ou mais variáveis inde-
pendentes. A regressão múltipla tem por objetivo estabelecer uma equação que
possa ser usada para predizer valores de y para valores previamente estabeleci-
dos nas variáveis independentes (STEVENSON, 1981).
Essa técnica deve ser utilizada quando deseja-se incluir outras variáveis
independentes no modelo com o objetivo de melhor explicar e prever o compor-
tamento da variável dependente (MARTINS; DOMINGUES, 2011). Portanto, a
única diferença para a regressão linear, corresponde-se na equação da regressão
múltipla pelo qual possui no mínimo duas variáveis independentes.
TÓPICO 4 —
REGRESSÃO MÚLTIPLA
176
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
A fórmula da regressão múltipla considera a variável dependente (Y)
como a soma da constante (a), a multiplicação das variáveis independentes (Bx1,
Bx2...Bxn), e o erro amostral (e). A fórmula é apresentada a seguir:
Y = a + Bx1 + Bx2 + Bxn... + e
Como a abordagem teórica segue o mesmo padrão da regressão linear,
vamos, na sequência, aplicar a regressão linear múltipla com o uso do Excel.
3 REGRESSÃO MÚLTIPLA COM EXCEL
As etapas para realizar uma regressão múltipla seguem passos similares
aos da regressão linear. Vamos pressupor que você já tenha configurado o seu
Excel e selecionado o suplemento de Ferramenta de análise. A seguir, são apre-
sentados os passos para realizar a regressão múltipla:
Passo 1: criar ou importar base de dados ao Excel.
NOTA
Lembre-se de que a base de dados deve estar previamente tratada, sem qual-
quer erro ou inconsistência nos dados ao importar ou criar no Excel.
TÓPICO 4 — REGRESSÃO MÚLTIPLA
177
FIGURA 28 – PASSO 1: REGRESSÃO MÚLTIPLA COM EXCEL
FONTE: Os autores
As variáveis que estão incluídas nesta base de dados são:
ADO01 – Minha empresa sempre adotou tecnologias emergentes.
COS01 – Novas tecnologias contribuem para redução de custos.
QUA01 – Automação leva a padronização de processos.
PER01 – Minha empresa costuma entregar produtos ou serviços após o
tempo previsto.
Passo 2: acessar o painel de entrada de dados para regressão, em: Dados >
Análise > Análise de dados. Selecionar “regressão” e clicar em OK.
178
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
FIGURA 29 – PASSO 2: REGRESSÃO MÚLTIPLA COM EXCEL
FONTE: Os autores
Passo 3: selecionar dados de entrada para Y (ADO01) e X (COS01, QUA01
e PER01), nível de confiança (95%), e demais informações sobre resíduos e proba-
bilidade normal. Deixar a apresentação de resultados em nova planilha.
NOTA
Lembre-se de selecionar uma única variável dependente (Y), e demais vari-
áveis independentes (X) como valores de entrada. Apenas valores numéricos devem ser
selecionados.
TÓPICO 4 — REGRESSÃO MÚLTIPLA
179
FIGURA 30 – PASSO 3: REGRESSÃO MÚLTIPLA COM EXCEL
FONTE: Os autores
Passo 4: gerar o relatório de regressores e interpretar resultados
FIGURA 31 – PASSO 4: REGRESSÃO MÚLTIPLA COM EXCEL
FONTE: Os autores
Os relatórios de regressão são apresentados conforme figura anterior.
A partir da relação entre as variáveis ADO01, COS01, QUA01 e PER01 indicam
(destacados na Figura 31):
180
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
COS01 > ADO01
Coeficiente: 0,7778
P-value: 0,0001
Intervalo de confiança: 0,6149 | 0,9406
QUA01 > ADO01
Coeficiente: 0,0097
P-value: 0,9068
Intervalo de confiança: -0,1584 | 0,1777
PER01 > ADO01
Coeficiente: -0,6957
P-value: 0,0001
Intervalo de confiança: -0,8204 | -0,5709
De acordo com esses dados, é possível afirmar que as variáveis COS01
(Novas tecnologias contribuem para redução de custos) e PER01 (Minha empresa
costuma entregar produtos ou serviços após o tempo previsto) são regressoras de
ADO01 (Minha empresa sempre adotou tecnologias emergentes) devido a signi-
ficância estatística (p-value abaixo de 0,05).
No entanto, a variável PER01 tem coeficiente negativo, indicando a ado-
ção de tecnologias emergentes ocorre em direção a entrega no prazo, ou seja,
quanto menor o processo de entrega maior será a percepção de valor dos gestores
para adoção de novas tecnologias. Por último, a variável QUA01 não apresenta
significância estatística suficiente para afirmar que a automação é um dos fatores
que motivam gestores a adotarem tecnologias emergentes.
Conforme apresentado na figura anterior, o R² apresenta-se com 0,9082
indicando que as variáveis selecionadas são capazes de explicar em 90,82% a va-
riância da variável dependente ADO01 – Minha empresa sempre adotou tecnolo-
gias emergentes. Este valor apresenta-se relativamente alto, e pode reduzir após
inclusão de outras variáveis dependentes.
TÓPICO 4 — REGRESSÃO MÚLTIPLA
181
LEITURA COMPLEMENTAR
POR QUE A ESTATÍSTICA É TÃO IMPORTANTE?
Estatística! Muita gente tem aversão a esse nome, e sente até arrepios.
Associa rapidamente a palavra àqueles cálculos intermináveis, que no final das
contas sempre dá 1 ou -1 (às vezes zero); e que gera tremenda dor de cabeça para
alunos e profissionais que não são da área, mas precisam cumprir com o apren-
dizado da disciplina.
A verdade é que seremos cada vez mais dependentes dessa ciência; e sem
dúvidas ela vai nortear a sua e a minha vida, praticamente em tudo o que formos
fazer. Talvez você já enxergue isso, ou talvez não. Ao longo do texto, vamos dar
exemplos práticos da influência da estatística no seu dia a dia.
O CAMPO DA ESTATÍSTICA
“A Estatística é uma ciência que aprende a partir dos dados”. Essa afirmação faz
sentido para você?
Embora a maioria da população, que teve contato com a estatística em al-
gum momento da vida, ache que ela é um problema; eu a vejo como uma solução.
Uma solução para melhorar a forma como vivemos; a maneira como consumi-
mos; estabelecer melhores produtos ou serviços.
Os estatísticos oferecem uma visão essencial para determinar quais da-
dos são necessários para um estudo, e possuem habilidades e competências para
afirmar o quão confiável são as suas conclusões. Solucionam problemas por meio
de técnicas e métodos de forma investigativa, aplicando critérios estatísticos cor-
retamente, e produzindo resultados precisos. Resultados gerados da incerteza do
mundo real, acompanhados com uma certa dose de probabilidade de ocorrência.
É muito importante aprender estatística porque muitasdas decisões que
tomamos na vida cotidiana são baseadas em estatísticas. As pessoas podem não
perceber, mas as estatísticas permeiam a maior parte da tomada de decisões que
fazemos todos os dias. No fundo, todo mundo tem uma compreensão intuitiva
dos princípios das estatísticas, mas ajuda muito entender os conceitos formal-
mente.
UM EXEMPLO PRÁTICO
Imagine que você vai viajar e quer alugar um quarto de hotel. Com esse
objetivo, você escolheu o Booking.com para ajudá-lo na escolha. Se você já utili-
zou o serviço, certamente percebeu algumas mensagens, como por exemplo, “10
pessoas alugaram um quarto como esse na última hora”, “1.000 pessoas estão
olhando esse quarto agora”, “temos apenas mais 1 vaga”; e aí você começa a ficar
182
UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO
maluco. Todas essas mensagens são determinadas com base na sua utilização,
em conjunto com outros consumidores, que norteiam como será seu consumo.
Não vai me dizer que você nunca reservou um quarto em um hotel e depois se
arrependeu porque achou outro melhor? São modelos estatísticos pressionando
você para que escolha rápido ou não desista da compra.
Por isso é tão importante você aprender ou ter pelo menos uma noção de
estatística. Nem tudo é intuitivo, mas com um estudo simples, você terá a possi-
bilidade de tomar decisões mais adequadas para sua vida. Mesmo que você não
seja um estatístico, analista de dados, cientista de dados, whatever. Acredite, você
precisará desenvolver esse conhecimento.
A ESTATÍSTICA FAZENDO SENTIDO NO MUNDO
Muito do que se fala hoje envolve estatísticas. Em algumas situações está
evidente, mas em outras não; e mesmo que você não queira saber sobre o assunto,
a estatística norteará cada vez mais a sua vida. Quer ver mais um exemplo simples?
Basta acessar o aplicativo do tempo no seu smartphone para ele mostrar qual
a probabilidade de chover hoje, e você em instantes, decidir se vai levar guarda-chu-
va para o trabalho, ou mesmo se vai trocar aquela sua moto (que você comprou para
driblar o trânsito) pelo carro, na chance de chegar menos molhado ao seu destino.
FAZEMOS ESCOLHAS COM BASE NO TEMPO
Esse é apenas um exemplo que você provavelmente usa no seu cotidiano,
principalmente se mora em grandes cidades. A estatística é importante por vários
motivos, e vou citar mais exemplos de como isso acontece:
TÓPICO 4 — REGRESSÃO MÚLTIPLA
183
• Campanhas políticas: a cada ano eleitoral, mais uma eleição está por vir. Você
provavelmente já conhece os estudos amostrais, a intenção de voto, e as mar-
gens de erro (noticiário). Os modelos estatísticos são capazes de prever qual
candidato tem mais chance de ganhar, e em quais lugares.
• Seguro do seu carro: você não é obrigado a ter um seguro, mas é bom ter. O
valor que você paga é precificado baseado em estatísticas de outros clientes. A
Seguradora se baseia em estatísticas de idade, estado civil, cidade, modelo do
veículo, local onde mora e trabalha, estacionamento, e muitas outras variáveis,
que geram resultados com probabilidades de acontecer.
• Testes de medicamentos: qualquer droga que esteja à venda em farmácias e
drogarias, já foi testada estatisticamente, e validada a sua eficácia. Portanto, se
você toma ou já tomou algum medicamento, a estatística já influencia sua vida.
• Consumo de produtos: um supermercado que controla seu estoque com uso de
estatísticas, é capaz de calcular o tempo certo de quando e quanto comprar. E até
mesmo de escolher um determinado local para colocar seu produto, onde aumen-
te a probabilidade de venda. Você já ouviu a história de um supermercado que
colocou cervejas do lado de fraldas? Quando as mães pediam para seus maridos
comprarem fraldas para os filhos, eles sempre voltavam com cervejas. Genial!
• Mercado de ações: se você souber usar a estatística, a ponto de construir mo-
delos, eles podem ajudar você a prever a economia, e quem sabe ser mais as-
sertivo nas suas compras e vendas de ações daquelas empresas que você nunca
sabe o que fazer com elas.
O fato é: quando você aprende estatística, você passa a entender o mun-
do de outra forma. Quando você se baseia em dados, você começa a entender
o significado mais profundo das coisas, que podem ser explicadas por meio de
números. Você passa a questionar mais os fatos.
E agora, com a popularização do big data, a inserção do cientista de dados
e o aumento gradativo da internet das coisas, a estatística nunca ficou tão ativa,
como nos últimos anos. Praticamente utilizada por todas as esferas da sociedade,
passando desde políticos a empresários, de engenheiros a biólogos.
Você sabia que em alguns países, as escolas já começaram a ensinar estatística
e linguagens de programação, ainda na fase inicial de aprendizado? E isso é necessário!
Como disse Denise Britz, em uma entrevista ao IBGE: “as pessoas precisarão
ser alfabetizadas em Estatística para poder compreender o mundo”. E ela está comple-
tamente certa!
FONTE: . Acesso em: 24 fev. 2020.
184
RESUMO DO TÓPICO 4
Neste tópico, você aprendeu que:
• A regressão múltipla envolve três ou mais variáveis sendo compreendida como
uma extensão da regressão linear.
• A regressão múltipla contém uma única variável dependente, porém duas ou
mais variáveis independentes.
• A diferença para a regressão linear corresponde-se na equação da regressão
múltipla pelo qual possui no mínimo duas variáveis independentes.
• O intervalo de confiança delimita os parâmetros superior e inferior para uma
população desconhecida com base em uma amostra conhecida.
Ficou alguma dúvida? Construímos uma trilha de aprendizagem
pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao
AVA, e veja as novidades que preparamos para seu estudo.
CHAMADA
185
1 Em modelos estatísticos com duas ou mais variáveis independentes, qual
método de regressão deve-se adotar? Assinale a alternativa CORRETA.
a) ( ) Análise de regressão simplificado.
b) ( ) Análise de regressão simples.
c) ( ) Análise de regressão linear.
d) ( ) Análise de regressão múltipla.
2 Quantas variáveis independentes são necessárias no modelo estatístico
para denominar uma regressão múltipla? Assinale a alternativa CORRETA.
a) ( ) Zero.
b) ( ) Uma.
c) ( ) Duas ou mais.
d) ( ) No mínimo três.
3 Qual é o nome do termo que indica a probabilidade de valor de um mode-
lo estar dentro das especificações de normalidade? Assinale a alternativa
CORRETA.
a) ( ) F-value.
b) ( ) T-value.
c) ( ) P-value.
d) ( ) Probit value.
4 Para obter suporte estatístico e confirmar uma hipótese, o p-value deve es-
tar apresentando valores abaixo de …?
a) ( ) 0,10.
b) ( ) 0,50.
c) ( ) 0,90.
d) ( ) 0,05.
5 Qual é o objetivo de uma regressão múltipla?
a) ( ) Estabelecer uma equação que possa ser usada para predizer valores de
y para valores dados das diversas variáveis independentes.
b) ( ) Criar uma equação matemática para descrever valores de uma variável
desconhecida.
c) ( ) Demonstrar um cálculo robusto para um problema ainda não solucionado.
d) ( ) Relacionar variáveis e verificar quanto estão estatisticamente distantes.
AUTOATIVIDADE
186
REFERÊNCIAS
AKAMINE, C. T.; YAMAMOTO, R. K. Estudo dirigido de estatística descritiva.
3. ed. São Paulo: Érica, 2013.
AQUARELA. O que é amostragem. 2018. Disponível em: https://www.aquare.
la/o-que-e-amostragem/. Acesso em: 1° set.2019.
BISQUERRA, R.; SARRIERA, J. C.; MARTÍNES, F. Introdução à estatística: enfoque
informático com o pacote estatístico SPSS. Porto Alegre: Bookman Editora, 2009.
BRUNI, A. L. Estatística aplicada à gestão empresarial. São Paulo: Atlas, 2013.
BUNCHAFT, G.; OLIVEIRA, S. R. de. Estatística sem mistérios. Petrópolis:
Vozes, 1998.
CARDOSO, J. Developing dynamic packaging applications using Semantic Web-based
integration. Semantic Web Technologies and E-Business: Toward the Integrated
Virtual Organization and Business Process Automation. IGI Global, 2007. p. 1-39.CARVALHO, S.; CAMPOS, W. Estatística básica simplificada. Rio de Janeiro:
Elsevier Brasil, 2016.
COMENTTO. Calculadora amostral. 2019. Disponível em: https://comentto.com/
calculadora-amostral/. Acesso em: 1° set. 2019.
COSTA, G. G. de O. Curso de estatística básica: teoria e prática. 2. ed. São Paulo:
Atlas, 2015.
CRESPO, A. A. Estatística fácil. 20. ed. Editora Saraiva: São Paulo, 2017.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
DOMENECH. C. Medidas tipo atributo ou variável. [20--]. Disponível em:
https://bit.ly/3hTLlTE. Acesso em: 24 fev. 2020.
ESCOLA EDTI. Diagrama de Dispersão Disponível em: https://bit.ly/327Odpe.
Acesso em 18 fev. 2020.
FARBER, B.; LARSON, R. Estatística Aplicada. 4. ed. São Paulo, 2010.
FONSECA, J. S. da; MARTINS, G. de A. Curso de estatística. 6. ed. São Paulo:
Atlas, 2012.
187
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11.
ed. Porto Alegre: Bookman, 2006.
HAIR, J. F. et al. Análise multivariada de dados. Porto Alegre: Bookman Editora, 2009.
LAPONNI, J. C. Estatística usando Excel. Rio de Janeiro: Elsevier, 2005.
LEE, I. Big data: Dimensions, evolution, impacts, and challenges. Business
Horizons, Indiana, v. 60, n. 3, p. 293-303, 2017.
LOCK, R. H. K.; LOCK, E. F.; LOCK, D. F. Estatística revelando o poder dos
dados. São Paulo: LTC Exatas Didático, 2017.
MACHADO, J. F. Método Estatístico: gestão da qualidade para melhoria
contínua. São Paulo: Saraiva, 2010.
MANN, P. S. Introdução à estatística. 8. ed. Rio de Janeiro: LTC, 2015.
MARTINS, G. de A.; DOMINGUES, O. Estatística geral e aplicada. 4. ed. São
Paulo: Atlas, 2011.
MATTOS, V. L. D.; KONRATH, A. C.; AZAMBUJA, A. M. Introdução à estatística:
aplicações em ciências exatas. Rio de Janeiro: LTC, 2017.
MCCLAVE, J. T.; BENSON, P. G.; SINCICH, T. Estatística para administração e
economia. São Paulo: Pearson Prentice Hall, 2009.
MEMÓRIA, J. M. P. Breve história da estatística. Brasília: Embrapa Informação
Tecnológica, 2004.
MOORE, D. S. et al. A prática da estatística empresarial: como usar dados para
tomar decisões. Rio de Janeiro: LTC, 2006.
MOORE, D. S. Undergraduate programs and the future of academic statistics. The
American Statistician, v. 55, n. 1, p. 1-6, 2001.
MOORE, D. S.; MCCABE, G. P.; DUCKWORTH, W. M.; SCLOVE, S. L. A prática da
estatística empresarial: como usar dados para tomar decisões. Rio de Janeiro: LTC, 2006.
MORAIS, C. Escalas de medida, estatística descritiva e inferência estatística.
Bragança: IBP, 2005.
MOTTA, V. T. Bioestatística. 2. ed. Caxias do Sul: Educs, 2006.
NAKAMURA, A. Quais as áreas de atuação para quem se forma em Estatística?
2017. Disponível em: https://bit.ly/2QPWYPE. Acesso em: 1° set. 2019.
188
NISHADI, A. S. Big Data on Cloud Computing, Challenges and Opportunities – A
Conceptual Model. International Journal of Science and Research, p. 1146-1150, 2018.
OCHOA, C. Amostragem não probabilística: amostra por conveniência. 2015.
Disponível em: https://bit.ly/3lEqUwB. Acesso em: 21 set. 2019.
ORGANIZAÇÃO MUNDIAL DA SAÚDE. Índice de massa corporal. 2019.
Disponível em: https://bit.ly/31Ro6nT. Acesso em: 21 nov. 2019.
PARENTI, T. Bioestatística. Porto Alegre: SAGAH, 2017.
PEREIRA, P. E. J. Leitura e interpretação de mapas, gráficos e imagens. Indaial:
UNIASSELVI, 2019.
PORTAL DA EDUCAÇÃO. História da Estatística. 2019. Disponível em: https://
bit.ly/2Z1pGS6. Acesso em: 1° set. 2019.
RIBEIRO, A. G. Medidas de dispersão: variância e desvio padrão. Disponível em:
https://bit.ly/3hNlYTD. Acesso em: 17 fev. 2020.
SAMPAIO, N. A.; DANELON, M. C. T. Aplicações da Estatística nas Ciências.
Rio de Janeiro: Associação Educacional Dom Bosco, 2017.
SEGAL, T. Big data. 2019. Disponível em: https://bit.ly/3hVLdTG. Acesso em: 21
nov. 2019.
SILVA, E. M. et al. Estatística. 5. ed. São Paulo: Atlas, 2018.
SILVA, J. S. F. S.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre:
SAGAH, 2018.
SILVA, L. P. M. Medidas de dispersão: amplitude e desvio. 2020. Disponível em:
https://bit.ly/3boKok6. Acesso em: 17 fev. 2020.
STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harper e
Row do Brasil, 1981.
SURVEYMONKEY. Calculadora de margem de erro. 2020. Disponível em: https://
pt.surveymonkey.com/mp/margin-of-error-calculator/. Acesso em: 17 fev. 2020.
TRIOLA, Mario F. Introdução à estatística: atualização da tecnologia. 12. ed. São
Paulo: LTC, 2014.
VIEIRA, S. Fundamentos de estatística. 6. ed. São Paulo: Atlas, 2019.autoatividades com o objetivo de reforçar o conteúdo
apresentado.
TÓPICO 1 – CONCEITOS INICIAIS
TÓPICO 2 – POPULAÇÃO, AMOSTRA E CENSO
TÓPICO 3 – VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS
Preparado para ampliar seus conhecimentos? Respire e vamos
em frente! Procure um ambiente que facilite a concentração, assim absorverá
melhor as informações.
CHAMADA
3
TÓPICO 1 —
UNIDADE 1
CONCEITOS INICIAIS
1 INTRODUÇÃO
Nos dias atuais, está sendo exigido que os alunos no nível de graduação, de
quase todas as áreas de estudo, cursem pelo menos uma disciplina relacionada com
estatística. Dessa forma, o estudo dos métodos estatísticos tem alcançado um papel
proeminente na formação educacional dos alunos que se originam de uma varieda-
de de campos de conhecimento e áreas acadêmicas distintas (MANN, 2015).
O autor também escreve que o estudo da estatística se tornou mais popular
do que nunca ao longo das últimas quatro décadas, mais ou menos. Esse fato se
deve a crescente disponibilidade de computadores e pacotes de software de estatís-
tica que fez crescer o papel da estatística como ferramenta de pesquisas empíricas.
Como resultado, a estatística é usada para pesquisas em quase todas as profissões,
desde a medicina até o esporte. Quase todos os jornais e revistas, nos dias de hoje,
contêm gráficos e relatos baseados em estudos estatísticos. Todo campo de estudos
possui sua própria terminologia. A estatística não é uma exceção (MANN, 2015).
Nesse sentido, o estudo da estatística torna-se necessário, visando contri-
buir com todos aqueles que em algum momento necessitam tomar uma decisão,
pois busca lançar alguma luz em muitos problemas de nosso dia a dia. Aproveite
ao máximo esta unidade e lembre-se da pirâmide de Glasser (1925).
FIGURA 1 – PIRÂMIDE DE APRENDIZAGEM DE GLASSER (1925)
FONTE: . Acesso em: 19 fev. 2020.
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
4
William Glasser foi um psiquiatra americano que teve suas teorias aplicadas na
educação. Segundo a pirâmide, nós aprendemos e assimilamos 10% quando lemos, 20%
quando ouvimos, cerca de 30% quando observamos e 50% quando vemos e ouvimos o
conteúdo. Porém, a efetividade aumenta cerca de 70% quando nós debatemos o conteúdo.
Por isso, temos à disposição vários materiais para lhe auxiliar nessa ca-
minhada, além da nossa central de atendimento. Lembre-se: não basta saber, é
preciso saber fazer. Mãos à obra e Bons estudos!
2 HISTÓRIA DA ESTATÍSTICA
Para entendermos a história, precisamos em um primeiro momento en-
tender de onde vem a palavra estatística. Pois bem, a palavra estatística, derivada
do termo latino status (estado), parece ter sido introduzida na Alemanha, em
1748, por Achenwall. Atualmente, a Estatística é reconhecida como uma ciência
capaz de obter, sintetizar, prever e fazer inferências a partir de dados (PORTAL
DA EDUCAÇÃO, 2019).
Todavia, antes de se chegar a essa definição aconteceu muita coisa. Desde
a remota antiguidade, os governos têm se interessado por informações sobre suas
populações e riquezas, tendo em vista, principalmente, fins militares e tributários.
O registro de informações perde-se no tempo. Na época do Imperador Confúcio,
já existiam relatos de levantamentos feitos na China, há mais de 2000 anos antes
da era cristã. No Antigo Egito, os faraós fizeram uso sistemático de informações
de caráter estatístico, conforme evidenciaram pesquisas arqueológicas. A Bíblia
também fala de aplicações estatísticas quando houve recenseamento dos judeus,
ordenado pelo Imperador Augusto (MEMÓRIA, 2004).
Os balancetes do império romano, o inventário das posses de Carlos Mag-
no, registros que Guilherme o Conquistador, invasor normando da Inglaterra, no
século XI, mandou levantar das propriedades rurais dos conquistados anglo-sa-
xões para se inteirar de suas riquezas, são alguns exemplos anteriores à emergên-
cia da estatística descritiva no século XVI, na Itália (MEMÓRIA, 2004).
Essa prática tem sido continuada nos tempos modernos, por meio dos
recenseamentos, dos quais temos um exemplo naquele que se efetua a cada de-
cênio, em nosso país, pela Fundação IBGE, órgão responsável por nossas esta-
tísticas (dados estatísticos) oficiais. Segundo Memória (2004), com o surgimen-
to do renascimento, foi despertado o interesse pela coleta de dados estatísticos,
NOTA
TÓPICO 1 —CONCEITOS INICIAIS
5
principalmente por suas aplicações na administração pública. A obra pioneira
de Francesco Sansovini (1521-1586), representante da orientação descritiva dos
estatísticos italianos, publicada em 1561, é um exemplo dessa época. Deve ser
mencionado ainda o reconhecimento por parte da Igreja Católica Romana da im-
portância dos registros de batismos, casamentos e óbitos, tornados compulsórios
a partir do Concílio de Trento (1545-1563).
Ao longo da Idade Média e até ao século XVIII a estatística foi puramente
descritiva, coexistindo duas escolas: a escola descritiva alemã, cujo representante
mais conhecido é o economista G. Achenwall (1719-1772), professor na Univer-
sidade de Gottingen, considerado pelos alemães como o pai da estatística, e a
escola dos matemáticos sociais que procuravam traduzir por leis a regularidade
observada de certos fenômenos, de carácter económico e sociológico (PORTAL
DA EDUCAÇÃO, 2019).
Embora essa escola procurasse fundamentar a formulação de previsões
com base em leis sugeridas pela experiência, a estatística confundia-se, pratica-
mente, com a demografia à qual fornecia métodos sistemáticos de enumeração
e organização. Na realidade, a necessidade sentida em todas as épocas de se co-
nhecer numérica e quantitativamente a realidade política e social tornou a análise
demográfica uma preocupação constante.
John Graunt (1620-1674), juntamente com William Petty (1623-1687), au-
tor de Political Arithmetic, e o astrónomo Edmond Halley (1656-1742) são os prin-
cipais representantes da escola inglesa, que dá um novo impulso à estatística,
fazendo-a ultrapassar um estádio puramente descritivo: analisam-se os dados na
procura de certas regularidades, permitindo enunciar leis e fazer previsões (POR-
TAL DA EDUCAÇÃO, 2019).
No entanto, a estatística para adquirir o status de disciplina científica no-
motética, isto é, ter a capacidade de postular a verdade, e não puramente ideográ-
fica ou descritiva, teve que esperar pelo desenvolvimento do cálculo das probabi-
lidades, que lhe viria a fornecer a linguagem e o aparelho conceptual permitindo
a formulação de conclusões com base em regras indutivas.
Segundo o site Portal da Educação (2019), data-se dos fins do século XIX
o desenvolvimento da estatística matemática e suas aplicações, com F. Galton
(1822-1911), K. Pearson (1857-1936) e W. S. Gosset (1876-1936), conhecido sob o
pseudónimo de Student, sendo lícito afirmar-se que a introdução sistemática dos
métodos estatísticos na investigação experimental se fica a dever, fundamental-
mente, aos trabalhos de K. Pearson e R. A. Fisher (1890-1962).
A partir de Pearson e Fisher o desenvolvimento da estatística matemática,
por um lado, e dos métodos estatísticos aplicados, por outro, têm sido tal que é
praticamente impossível se referir a nomes em particular (PORTAL DA EDUCA-
ÇÃO, 2019). Após conhecermos um pouco da história da estatística precisamos
entender onde ela é aplicada atualmente.
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
6
3 APLICAÇÃO DA ESTATÍSTICA
Estatística “é a ciência que se dedica à coleta, análise e interpretação de dados
numéricos para o estudo de fenômenos naturais, econômicos e sociais, utilizando-se
das teorias probabilísticas para explicar a frequência da ocorrência de eventos” (MO-
ORE et al., 2006, p. 5). Para Machado (2010, p. 12), estatística é a “ciência que dispões
de processos para recolher, organizar, classificar, e apresentar conjuntos de dados”.
A estatística tem como objetivo compreender uma realidade específica para to-
mada de decisões. Nakamura (2017) escreve que a estatística tem aplicaçãonas mais di-
versas áreas do conhecimento, pois diante do crescimento de setores como inteligência
de mercado e Big Data nas empresas, a relevância da estatística aumenta ainda mais.
Nas indústrias, a estatística tem muitas aplicações, desde os estudos para im-
plantação de fábricas até a avaliação das necessidades de expansão industrial; na
pesquisa e desenvolvimento de técnicas, produtos e equipamentos; nos testes de pro-
dutos; no controle da qualidade e da quantidade; no controle de estoques; na avalia-
ção de desempenho das operações; nas análises de investimentos operacionais; nos
estudos de produtividade; na previsão de acidentes de trabalho; no planejamento de
manutenção de máquinas e equipamentos de uma forma geral e específica (SAM-
PAIO; DANELON, 2017).
Os autores também colocam que na área social e administrativa a estatística
tem grande aplicação nas mais diversas áreas, como nos recursos humanos, a estatís-
tica encontra-se presente em pesquisas de compatibilização entre os conhecimentos
e habilidades dos empregados; nos estudos salariais e necessidades de treinamentos:
nas propostas de planos de avaliação de desempenho do quadro funcional; na elabo-
ração de plano de previdência complementar e de fundos de pensão, e nos estudos
de previsão de custos de seguridade social (SAMPAIO; DANELON, 2017).
Sampaio e Danelon (2017) também destacam que no estudo de marketing
e análise de mercado, a estatística oferece condições de se poder traçar um perfil
adequado para se trabalhar na monitoração e análise de mercado, nos sistemas de in-
formação de marketing, na prospecção e avaliação de oportunidades, na análise e de-
senvolvimento de produtos, nas decisões relativas a preços, na previsão de vendas,
na logística da distribuição e nas decisões de canais, no desenvolvimento e avaliação
de campanhas publicitárias, e em estudos para analisar a desempenho político de
candidatos em período eleitoral ou pré-eleitoral.
Na área financeira, na avaliação e na seleção de investimentos, no estudo e
no desenvolvimento de modelos financeiros, no desenvolvimento de informações
gerenciais, na definição, na análise e no acompanhamento de carteiras de investi-
mentos, nas análises de fluxo de caixa, na avaliação e na projeção de indicadores
financeiros, na análise das demonstrações contábeis ou financeiras, no desenvol-
vimento e no acompanhamento de produtos e serviços. Percebeu a ampla apli-
cação da estatística na resolução de problemas reais? Interessante, não é? Vamos
agora entender como funciona o método estatístico.
TÓPICO 1 —CONCEITOS INICIAIS
7
4 O MÉTODO ESTATÍSTICO
Método é uma palavra que tem derivação na língua grega – methodos. “Met”
quer dizer “através de” ou “por meio de”, e “hodós” significa “caminho”. Portanto,
a palavra método significa caminho para meta (MACHADO, 2010). Assim, sempre
que você tiver uma meta precisará de um caminho, ou seja, de um método.
O método sinaliza que as hipóteses para um problema ou para uma opor-
tunidade precisam seguir um caminho que já esteja predeterminado para que se
obtenham resultados seguros e confiáveis, embora, muitas vezes, esse caminho não
possa por si só trazer garantias de que os resultados esperados serão realmente
alcançados. O autor Machado (2010) elenca dois tipos de métodos, que fazem parte
dos métodos científicos:
• Método experimental: consiste em manter constante todas as variáveis (causas),
exceto uma, que sofrerá variações para se observar os respectivos efeitos, caso
existam. Esse método é mais usado em ciências como a física e a química. Exem-
plo: para fazer café você usa 1/2 litro de água, 3 colheres de café, um coador, 4 co-
lheres de açúcar. Se você repetir essa receita diversas vezes é provável que todas
as vezes você tenha o mesmo tipo de resultado. Todavia, se for alterado algum
dos fatores, como aumentar quantidade de água, por exemplo, o café ficará mais
aguado, se aumentar o açúcar, ficará mais doce e assim por diante.
• Método estatístico: diante da impossibilidade de manter as causas constantes
(nas ciências sociais, por exemplo), admitem-se todas essas causas presentes, va-
riando-as, registrando essas variações e procurando determinar, no resultado,
que influências cabem a cada uma delas. Esse método é o mais utilizado em
estatística. Exemplo: uma empresa teve uma queda nas vendas no mês de julho.
Os estudos indicam que esse mês foi férias escolares, aumentou o fluxo de turis-
tas na região, porém, foi mais frio, nosso concorrente baixou o preço dele, nosso
produto perdeu em qualidade. Qual desses fatores poderia ter feito as vendas
dessa empresa cair?
4.1 FASES DO MÉTODO ESTATÍSTICO
Para que se consiga responder a uma pergunta, precisamos passar por
algumas fases que o autor Machado (2010) descreve da seguinte forma:
• Primeira etapa – definição do problema e/ou da oportunidade: saber exata-
mente aquilo que se pretende pesquisar.
• Segunda etapa – planejamento: como levantar informações? Que dados deve-
rão ser obtidos? Qual levantamento deve ser utilizado? Qual é o cronograma
de atividades? Quais são os custos envolvidos? Entre outros questionamentos.
• Terceira etapa – coleta de dados: fase operacional. É o registro sistemático de
dados, com um objetivo determinado.
• Quarta etapa – apuração dos dados: resumo dos dados após contagem e agru-
pamento. São a condensação e a tabulação de dados.
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
8
• Quinta etapa – apresentação dos dados: há duas formas de apresentação, que
não se excluem mutuamente:
• Apresentação tabular: é uma apresentação numérica dos dados em linhas e
colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo
Conselho Nacional de Estatística.
• Apresentação gráfica: constitui uma apresentação geométrica que permite uma
visão rápida e clara do fenômeno.
• Sexta etapa – análise e interpretação dos dados: a última fase do trabalho esta-
tístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de
medidas e coeficientes cuja finalidade principal é descrever o fenômeno (esta-
tística descritiva). Na estatística indutiva, a interpretação dos dados se funda-
menta na teoria da probabilidade.
Para um melhor entendimento do método, vejamos a figura a seguir, nas
quais, as fases do método estatístico estão em forma de desenho para facilitar a
compreensão.
FIGURA 2 – FASES DO MÉTODO ESTATÍSTICO
FONTE: Os autores
Após verificarmos a história da estatística, sua aplicação, seu método,
bem como as fases que compõe o método estatístico é necessário entendermos os
tipos de estatística.
5 OS TIPOS DE ESTATÍSTICA
Diariamente, tomamos decisões que podem ser de natureza pessoal (que
roupa vestir, o que comer, como vou para o trabalho), relacionadas aos negócios
(comprar ou vender, solicitar ou não um orçamento), ou ainda, de qualquer outra
TÓPICO 1 —CONCEITOS INICIAIS
9
natureza. Muitas dessas decisões acabam sendo tomadas em condições de incer-
teza. Muitas vezes, as situações ou os problemas que enfrentamos no mundo real
não têm uma solução precisa ou definitiva.
O método estatístico pode nos ajudar a tomar decisões científicas e inteli-
gentes em tais situações. Decisões tomadas pela utilização de métodos estatísticos
são chamadas de suposições fundamentadas. Decisões tomadas sem a utilização
de métodos estatísticos (ou científicos) representam meras suposições e, por essa
razão, podem se revelar não confiáveis. Por exemplo, a abertura de uma grande
loja, com ou sem uma avaliação de sua necessidade, pode afetar o sucesso do
empreendimento (MANN, 2015).
Assim como quase todos os campos de estudo, a estatística apresenta dois
aspectos: o teórico e o aplicado. A estatística teórica ou estatística matemática lida
com o desenvolvimento, a derivação e a comprovação de teoremas estatísticos,
fórmulas, regras e leis. A estatística aplicada envolve as aplicações desses teore-
mas, fórmulas, regras e leis para resolver problemas da vidareal (MANN, 2015).
Nesse sentido, a estatística se divide em dois tipos: a estatística descritiva
(também conhecida como dedutiva) e a estatística indutiva (também conhecida
como estatística inferencial). Entenderemos melhor a diferença entre as duas nos
subtópicos a seguir.
5.1 ESTATÍSTICA DESCRITIVA OU DEDUTIVA
Vários conjuntos de dados que estão em seus formatos originais são de-
masiadamente extensos, especialmente aqueles coletados por órgãos federais, es-
taduais, ou ainda, de empresas que operam na bolsa de valores.
Uma consequência desse fato é que tais conjuntos de dados não são muito
proveitosos no que diz respeito a extrair conclusões ou tomar decisões. É mais
fácil tirar conclusões de diagramas e tabelas resumidas do que da versão original
de um conjunto de dados. Dessa forma, torna-se necessário reduzir os dados a
um tamanho adaptado, construindo tabelas, elaborando gráficos, ou calculando
medidas resumidas, tais como médias. A parcela da estatística que auxilia a fazer
esse tipo de análise estatística é chamada de estatística descritiva (MANN, 2015).
Portanto, se chama estatística descritiva a parte da estatística que trabalha
com a organização e apresentação dos dados. É a parte da estatística que pega os
dados brutos de uma pesquisa e os deixa organizados, por exemplo: em ordem
crescente ou decrescente.
Se quisermos saber quanto as empresas gastaram em propaganda em um
determinado ano, podemos resumir as informações em forma de um gráfico, con-
forme o exemplo mostrado na Figura 3:
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
10
FIGURA 3 – GASTO COM PROPAGANDA DE EMPRESAS AMERICANAS EM UM DETERMINADO ANO
FONTE: Mann (2015, p. 3)
O gráfico apresentado mostra os gastos incorridos por seis companhias
com propaganda, em 2011. Como ilustra o gráfico, a AT&T gastou US$1924,6 mi-
lhões com propaganda em 2011. Dessas seis empresas, a Procter & Gamble foi
a que gastou mais com propaganda em 2011, US$2949,1 milhões. Esse gráfico
descreve dados sobre os gastos dessas seis empresas com propaganda, em um
determinado ano, tal qual foram coletados e, por conseguinte, corresponde a um
exemplo de estatística descritiva.
Memória (2004) escreve que estatística descritiva é a etapa inicial da análi-
se utilizada para descrever e resumir os dados. A disponibilidade de uma grande
quantidade de dados e de métodos computacionais muito eficientes revigorou
essa área da estatística.
5.2 ESTATÍSTICA INFERENCIAL OU INDUTIVA
Uma parcela importante da estatística trata das tomadas de decisão, das infe-
rências, previsões e prognósticos sobre populações, com base em resultados obtidos
de amostras, essa área da estatística é conhecida como estatística indutiva ou inferen-
cial (MANN, 2015).
Segundo Memória (2004), é chamada estatística inferencial ou indutiva o con-
junto de técnicas que são utilizadas para que se consiga identificar relações entre
variáveis que representem ou não relação de causa ou efeito. Na estatística inferencial
se pretende inferir, ou seja, deduzir as características de uma população partindo de
dados que foram observados em uma amostra de indivíduos dessa população.
TÓPICO 1 —CONCEITOS INICIAIS
11
As estatísticas inferenciais são valiosas quando não é conveniente ou pos-
sível examinar cada membro de uma população inteira. Por exemplo, não seria
prático medir o diâmetro de todos os pregos fabricados em uma fábrica, mas é
possível medir o diâmetro de uma amostra representativa de pregos e usar essas
informações para fazer generalizações sobre os diâmetros dos pregos produzidos.
Tudo o que envolver descrição dos dados podemos chamar de estatística
descritiva ou dedutiva. Tudo o que envolver a tomada de decisão chamamos de estatísti-
ca indutiva ou inferencial.
IMPORTANTE
5.3 PROBABILIDADE
Vieira (2019) escreve que o estudo de probabilidades teve início com os jo-
gos de azar. As pessoas queriam entender a “lei” desses jogos, para ganhar dinhei-
ro nos cassinos. Contudo, os matemáticos acabaram descobrindo que não é possí-
vel prever, por exemplo, se vai ocorrer a face 6 em determinado lançamento de um
dado. Podemos apenas descobrir, por observação, que a face 6 ocorre 1/6 das vezes,
no decorrer de muitas jogadas.
Atualmente, o estudo de probabilidade vai além dos jogos de azar. Todos
nós concordamos que jogar uma moeda para decidir quem começa um jogo de
futebol evita o favoritismo. Pela mesma razão, os estatísticos recomendam escolher
ao acaso as pessoas que vão responder às pesquisas de opinião (todos os elementos
da população têm igual probabilidade de pertencer à amostra) (VIEIRA, 2019).
A probabilidade é dada pelas possibilidades de um evento ocorrer levando em
consideração o seu espaço amostral. Essa razão que é uma fração é igual ao número de
elementos do evento (numerador) sobre o número de elementos do espaço amostral
(denominador). Observe a fórmula da probabilidade a seguir (VIEIRA, 2019, p. 130):
Em que:
E é um evento.
n(E) é o número de elementos do evento.
S é espaço amostral.
n(S) é a quantidade de elementos do espaço amostral.
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
12
Para podermos calcular a probabilidade é necessário esclarecer alguns
conceitos, como o espaço amostral. “Espaço amostral é a lista com todos os resul-
tados possíveis de um procedimento” (VIEIRA, 2019, p. 130).
Por exemplo: lançar um dado e anotar o número de pontos da face su-
perior, o espaço amostral é: S = {1, 2, 3, 4, 5, 6}; retirar uma carta de um baralho
comum de 52 cartas e anotar o naipe da carta selecionada, o espaço amostral é: S
= {paus, copas, ouros, espadas}; e, lançar uma moeda e observar a face superior, o
espaço amostral é: S = {cara-coroa}.
Segundo Silva et al. (2018), os espaços amostrais podem ser finitos ou infi-
nitos. Para evitar recursos matemáticos mais sofisticados, estudaremos apenas os
espaços amostrais finitos. Já o conceito de “evento” é dado por Silva et al. (2018)
como qualquer subconjunto do espaço amostral do experimento. Portanto, um
evento é um conjunto de resultados (um subconjunto do espaço amostral) ao qual
é associado um valor de probabilidade.
Por exemplo: lançar uma moeda três vezes, teremos o seguinte evento: E =
{Cara, Coroa, Cara}, esse evento é subconjunto do espaço amostral.
Observe: ao lançarmos um dado com seis faces, qual a probabilidade de
obtermos um número que seja múltiplo de 3?
Espaço amostral: S = {1, 2, 3, 4, 5, 6}, logo: n(S) = 6.
Evento: E = {3, 6}, logo: n(E) = 2.
Aplicando a fórmula, teremos:
Os estatísticos preferem expressar valores de probabilidade por números
entre 0 e 1 porque em cálculos mais avançados isso é necessário. No entanto, na
prática, é comum aparecer probabilidades em porcentagens. Se você quiser ex-
pressar probabilidade em porcentagem, basta multiplicar o valor dado pela defi-
nição por 100 e acrescentar o símbolo de porcentagem (%) ao resultado (conforme
cálculo mostrado acima) (VIEIRA, 2019).
TÓPICO 1 —CONCEITOS INICIAIS
13
Vamos ao segundo exemplo: ao lançarmos simultaneamente dois dados,
qual a probabilidade de sair a soma 4? Espaço amostral: S = {6x6}, logo: n(S) = 36.
Evento: E= {(1, 3), (3, 1), (2, 2)} considerando os eventos em que a soma seja qua-
tro. Logo, n(E) = 3. Aplicando a fórmula teremos:
A definição dada neste tópico não permite responder perguntas como:
qual é a probabilidade de um vestibulando ser aprovado? Qual é a probabilidade
de chover amanhã? Qual é a probabilidade de uma pessoa chegar aos 100 anos?
Não se pode obter a probabilidade por conjeturas. É aí que entra a frequência
relativa (VIEIRA, 2019).
A frequência relativa fornece uma estimativa de probabilidade, mas, para
isso, é preciso que o número de eventos observados possa crescer indefinidamen-
te. E isso se torna impossível encaixar, dentro da ideia de probabilidade, afirma-
tivas como “a probabilidade de o Brasil ganhar a próxima Copa é 0,95”. Nesses
casos, é necessário usar a definição subjetiva de probabilidade.
Vieira(2019) define probabilidade subjetiva como sendo um valor entre
0 e 1, que representa um ponto de vista pessoal sobre a possibilidade de ocor-
rer determinado evento. Logo, probabilidade subjetiva é de enorme importância
quando as informações são apenas parciais e é preciso intuição.
14
Neste tópico, você aprendeu que:
• A estatística é uma palavra que deriva de um termo latino status que significa es-
tado e, ao que tudo indica, foi introduzida na Alemanha em 1748, por Achenwall.
• A estatística foi usada por grandes nomes da história como Confúcio, Carlos
Magno, Guilherme o conquistador, entre outros.
• Em todas as épocas da história se teve a necessidade de se quantificar e de se
numerar. Contudo, só a partir do final do século XIX que houve o desenvolvi-
mento da estatística matemática e suas aplicações.
• Os principais nomes da estatística são Galton (1822-1911), Pearson (1857-1936), Gos-
set (1876-1936) e Fischer (1890-1962), desses se destacam ainda Pearson e Fisher.
• Estatística é “a ciência que se dedica à coleta, análise e interpretação de dados
numéricos para o estudo de fenômenos naturais, econômicos e sociais, utili-
zando-se das teorias probabilísticas para explicar a frequência da ocorrência de
eventos” (MOORE et al., 2006, p. 5).
• A estatística é aplicada nas mais diversas áreas desde a indústria com suas
operações como nas áreas sociais, marketing, finanças e contabilidade.
• Em ciência existe o método experimental e o estatístico, o primeiro aplicado
mais na química e na física e o segundo também aplicado nas ciências sociais.
• O Método Estatístico é composto de seis fases ou etapas: 1. Definição do Pro-
blema; 2. Planejamento; 3. Coleta de Dados; 4. Apuração de Dados; 5. Apresen-
tação de Dados; e 6. Análise e Interpretação dos Dados.
RESUMO DO TÓPICO 1
15
Ficou alguma dúvida? Construímos uma trilha de aprendizagem
pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao
AVA, e veja as novidades que preparamos para seu estudo.
CHAMADA
• Os tipos de estatística são a descritiva ou dedutiva; a indutiva ou inferencial e
a probabilidade estatística que faz a ligação dos dois.
• A probabilidade é dada pelas possibilidades de um evento ocorrer levando
em consideração o seu espaço amostral. Aplica-se uma fórmula que é igual ao
número de elementos do evento (numerador) sobre o número de elementos do
espaço amostral.
16
1 A palavra estatística vem de um termo latino que significa estado. Assinale
a alternativa CORRETA que apresenta esse termo:
a) ( ) Status.
b) ( ) Stotus.
c) ( ) Strito.
d) ( ) Store.
2 Como todas as ciências, a Estatística também tem uma história. Com relação
à história da estatística, classifique V para as sentenças VERDADEIRAS e F
para as FALSAS:
( ) Guilherme, o Conquistador, invasor normando da Inglaterra, no século
XI, mandou levantar das propriedades rurais dos conquistados anglo-
saxões para se inteirar de suas riquezas.
( ) Com o surgimento do Renascimento, foi despertado o interesse pela coleta de
dados estatísticos, principalmente por suas aplicações na administração pública.
( ) Ao longo da Idade Média e até ao século XVIII a estatística não era
conhecida.
( ) A partir de Pearson e Fisher o desenvolvimento da estatística matemática,
por um lado, e dos métodos estatísticos aplicados, por outro, têm sido tal
que é praticamente impossível se referir a nomes em particular.
Assinale a sequência CORRETA:
a) ( ) V – V – F – V.
b) ( ) F – V – V – F.
c) ( ) V – F – F – F.
d) ( ) F – F – V – V.
3 Estatística “é a ciência que se dedica à coleta, análise e interpretação de
dados numéricos para o estudo de fenômenos naturais, econômicos e
sociais, utilizando-se das teorias probabilísticas para explicar a frequência
da ocorrência de eventos” (MOORE et al., 2006, p. 5). Com base nessa
definição, qual o objetivo da estatística?
a) ( ) Compreender uma realidade específica para tomada de decisões.
b) ( ) Compreender todos as realidades possíveis do mundo.
c) ( ) Monitorar a variação dos custos para verificar a movimentação dos
preços nos mercados mundiais.
d) ( ) Satisfazer todas as necessidades matemáticas da ciência.
AUTOATIVIDADE
17
4 Na área social e administrativa, a estatística tem grande aplicação. Nas
mais diversas áreas, como nos recursos humanos, a estatística encontra-se
presente em:
a) ( ) Fazer logística da distribuição de produtos e serviços.
b) ( ) Em pesquisas de compatibilização entre os conhecimentos e habilidades
dos empregados.
c) ( ) Em monitorar o mercado.
d) ( ) Fazer avaliação e desenvolvimento dos mais diversos produtos.
5 Entre as alternativas apresentadas, qual delas define a palavra método?
a) ( ) Caminho para a meta.
b) ( ) Caminho específico nos preços de bens e serviços.
c) ( ) Caminho na oferta de bens e serviços.
d) ( ) Caminho para o aumento exagerado dos produtos importados.
6 O autor Machado (2010) elenca dois tipos de métodos que fazem parte dos
métodos científicos. Com relação a esses métodos, classifique V para as
sentenças VERDADEIRAS e F para as FALSAS:
( ) O método experimental é aquele que consiste em manter constante todas
as variáveis (causas), exceto uma que sofrerá variações para se observar os
respectivos efeitos, caso existam.
( ) O método estatístico é aquele que, diante da impossibilidade de manter
as causas constantes (nas ciências sociais, por exemplo), admitem-se
todas essas causas presentes, variando-as, registrando essas variações e
procurando determinar, no resultado final, que influências cabem a cada
uma delas.
( ) No método experimental se admite que todas essas causas presentes,
variando-as, registrando essas variações e procurando determinar, no
resultado final, que influências cabem a cada uma delas.
( ) Pelo método experimental se entende a lei da oferta e da procura.
Assinale a alternativa CORRETA:
a) ( ) F – F – V – F.
b) ( ) V – F – F – V.
c) ( ) V – V – F – F.
d) ( ) F – V – V – V.
7 Com relação às etapas do método estatístico, relacionando às fases aos seus
respectivos conceitos:
(1) Definição do Problema ( ) É o registro sistemático de dados, com um objetivo determinado.
(2) Planejamento ( ) Tabular e gráfica.
(3) Coleta ( ) Saber exatamente aquilo que se pretende pesquisar.
(4) Apuração ( ) São a condensação e a tabulação de dados.
(5) Apresentação ( ) A última fase do trabalho estatístico.
(6) Análise ( ) Como levantar informações? Que dados deverão ser obtidos?
18
8 No que o método estatístico pode nos ajudar?
a) ( ) A fazer suposições não fundamentadas.
b) ( ) Em nada, pois nossa vida não é ciência.
c) ( ) A tomar decisões científicas e inteligentes em muitas situações.
d) ( ) A fazer negociações sem base fundamentada.
9 Com relação à estatística descritiva, assinale a alternativa CORRETA:
a) ( ) Parte da estatística que não organiza dados.
b) ( ) Parte da estatística que é diferente da estatística dedutiva.
c) ( ) É a mesma coisa que estatística inferencial.
d) ( ) Parte da estatística que pega os dados brutos e organiza.
10 Considere o lançamento de um dado e responda:
a) Qual a probabilidade de se obter um número par?
b) Qual a probabilidade de sair um número primo?
c) Qual a probabilidade de sair um número maior ou igual a 5?
d) Qual a probabilidade de sair um número natural?
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO
19
TÓPICO 2 —
UNIDADE 1
POPULAÇÃO, AMOSTRA E CENSO
1 INTRODUÇÃO
Imagine que uma empresa nova resolva se instalar em sua cidade, mas,
antes de fazer isso, ela queira entender os hábitos de consumo dos habitantes
dessa cidade. O que ela faz? Talvez você pense da seguinte maneira: a empresa
pode fazer um questionário e perguntar os hábitos de consumo dos habitantes
para cada um deles. Será que isso é possível?
Analisaremos, agora, a situação exposta. Em primeiro lugar, pensaremos
quantas pessoas precisariam ser contratadas e serem treinadas para entenderem
o que a empresa quer, para só depois sair perguntando. Além disso, como seriapossível contratar todos os habitantes? Praticamente impossível, pois, dependen-
do o tamanho da cidade, isso seria tremendamente custoso e muitas vezes invi-
ável de ser realizado. Concorda? Todavia, existem estudos estatísticos que são
feitos dessa maneira (porém nem todos).
Neste tópico, entenderemos quando isso acontece e quando isso não acon-
tece. O primeiro passo para entender isso é a partir de alguns conceitos. Vamos lá!
2 DIFERENÇA: POPULAÇÃO, CENSO E AMOSTRA
Quando falamos em população, censo e amostra dentro da estatística es-
tamos falando em conjuntos dos quais podemos obter informações. Essas dife-
renças conceituais trataremos a partir de agora nos próximos subtópicos.
2.1 POPULAÇÃO
Na linguagem comum do dia a dia, população significa o conjunto de ha-
bitantes de um país, uma região, uma cidade. Em estatística, a palavra população
tem significado mais geral. População é o conjunto de elementos sobre os quais o
pesquisador quer informações (VIEIRA, 2019).
A população pode ser finita ou infinita. Finita quando seus elementos po-
dem ser contados, como é o caso de alunos matriculados em uma escola, palavras
em um texto, carros que passam sobre uma ponte em determinado dia. E infinita
quando não é possível contar seus elementos, como acontece com o número de
20
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
grãos de areia em uma praia ou o número de habitantes do planeta. Portanto, na
prática, populações muito grandes para serem contadas são consideradas infini-
tas na estatística, embora sejam matematicamente finitas (VIEIRA, 2019).
Para que consigamos entender melhor o conceito, pensamos em uma pes-
quisa realizada numa sala de aula para descobrir quantos livros cada aluno lê por
ano, digamos que, dentro dessa sala de aula, se encontram 200 alunos. Para saber
essa informação, perguntaríamos a todos os alunos, a esse conjunto de alunos
damos o nome de população.
População também é conhecida como conjunto universo, pois é aquele
conjunto do qual desejamos extrair a informação e cujos elementos têm, pelo me-
nos, uma característica comum, a qual está inserida no contexto daquilo que de-
sejamos analisar (CARVALHO; CAMPOS, 2016).
Os autores ainda escrevem que o significado estatístico de população é
diferente do seu significado geográfico. Se afirmarmos somente que população é
um conjunto de pessoas, isso estará errado. Para que estivesse certo, seria preciso
que desse conjunto nós desejássemos obter a informação objeto da pesquisa, e
que essas pessoas que compõem o conjunto apresentassem ao menos uma carac-
terística comum (CARVALHO; CAMPOS, 2016).
Para que o entendimento fique mais claro vamos a um outro exemplo en-
volvendo um time de futebol. Vamos supor que estamos interessados em estudar
a altura dos jogadores de um determinado time de futebol. Para conhecermos
essa característica, devemos medir a altura dos jogadores. Essas informações ob-
tidas são chamadas de dados. Nesse caso, os dados são numéricos, como 1,66 m,
1,81 m, 1,55 m, 1,46 m etc.
Como o interesse abrange somente um time de futebol, todos os jogadores
desse time formam a população da pesquisa. Em estatística, o termo população
não significa necessariamente um conjunto de pessoas, mas pode referir-se a con-
juntos de quaisquer tipos de objetos ou itens, como carros, livros, casas, compu-
tadores etc. (AKAMINE; YAMAMOTO, 2013).
2.2 CENSO
Para se fazer um estudo estatístico, o Censo é uma das maneiras. Supo-
nhamos os exemplos das salas de aula utilizadas anteriormente: na sala de aula
onde queríamos pesquisar os quantos livros cada aluno lê por ano, tínhamos pre-
cisamente 200 estudantes. Já com relação ao time de futebol que pretendíamos
medir a altura, não falamos quantos jogadores tínhamos, mas vamos supor que
tivéssemos 30 jogadores, entre titulares, reservas e ainda alguns machucados.
Então, sabemos que a população da primeira sala de aula é de 200. Já a população
do time de futebol é 30.
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO
21
Se, em nossa pesquisa, resolvermos consultar todos os alunos, ou seja,
todos os elementos da população, fazendo o questionamento a cada um deles,
sem exceção, realizaremos um censo. O censo é o tipo de estudo estatístico que
abrange todos os elementos da população.
Os autores Akamine e Yamamoto (2013) escrevem que um levantamento
estatístico que abrange todos os elementos de uma população é denominado cen-
so. Temos, por exemplo, o censo demográfico para fazer o levantamento de dados
de todos os habitantes de um país.
No Brasil, os censos oficiais são feitos pelo Instituto Brasileiro de Geo-
grafia e Estatística (IBGE), uma fundação pública de administração federal mais
conhecida pela sigla IBGE, com sede na cidade do Rio de Janeiro. Os censos de-
mográficos são planejados para serem executados nos anos de finais zero, ou seja,
a cada dez anos. Foram feitos recenseamentos gerais em 1872, 1890, 1900, 1920,
1940, 1950, 1960, 1970, 1980, 1991, 2000 e 2010 (VIEIRA, 2019). Para melhor enten-
dimento do que é censo vejamos o quadro a seguir, que mostra os tipos de censo
realizados no Brasil segundo o IBGE.
QUADRO 1 – TIPOS DE CENSO SEGUNDO O IBGE
Censo Demográfico Levantamento de dados sobre pessoas.
Censo Agropecuário Levantamento de dados sobre os estabelecimentos agropecuá-
rios e as atividades neles desenvolvidas.
Censo Industrial Levantamento de dados sobre as características estruturais e
econômico-financeiras da atividade industrial.
Censo Comercial Levantamento de dados sobre as características estruturais e
econômico-financeiras da atividade comercial.
FONTE: Os autores
Para a realização do censo demográfico, os pesquisadores do IBGE visi-
tam todos os domicílios do país. Aplicam um questionário e depois apuram os
dados, organizam, analisam as informações coletadas e as publicam. Esses dados
podem ser encontrados nas publicações do IBGE, informações sobre número de
residentes no país por sexo e por grupo de idade, número de domicílios no país,
distribuição das famílias segundo a renda, registros de nascimentos, óbitos, casa-
mentos, divórcios etc. No entanto, nem sempre é possível fazer censo porque isso
demora tempo e consome muito dinheiro.
2.3 AMOSTRAGEM
Amostragem é o tipo de estudo estatístico que é o inverso do censo. Como
o próprio nome sugere, quando se fala em amostra ou amostragem, está se falan-
do de uma parte, um subconjunto da população, que terá a função de representar
22
UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA
o conjunto inteiro. Para que se possa considerar uma parte da população como
uma amostra, é preciso que esta parte seja representativa do todo. A característica
principal de uma amostra é a representatividade.
A amostra é uma parte da população (um subconjunto), a partir da qual se
pode auferir conclusões acerca desta mesma população. Assim, se observa o ca-
ráter de representatividade da amostra (CARVALHO; CAMPOS, 2016). A maior
parte dos estudos estatísticos é geralmente feito por meio de amostras, uma vez
que a maioria das populações é constituída por um número muito grande de ele-
mentos (indivíduos ou objetos), resultando, consequentemente, em quantidade
muito grande de dados. O processo de obter as amostras é denominado amos-
tragem (AKAMINE; YAMAMOTO, 2013). A figura a seguir torna mais claro o
entendimento de população e amostra:
FIGURA 4 – POPULAÇÃO E AMOSTRA
FONTE: Adaptado de . Acesso em: 31 jan. 2020.
NOTA
População é o conjunto de todos os elementos (indivíduos ou objetos) que
tem pelo menos uma característica em comum, e que está sob investigação ou estudo.
Amostra é qualquer subconjunto de uma população.
TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO
23
3 MÉTODOS DE AMOSTRAGEM
É chamado método de amostragem os critérios que são necessários para
selecionar os elementos que comporão uma amostra. Dependendo do critério
adotado, se terá um tipo de amostra. Esses métodos também são chamados de
técnicas de amostragemque se dividem em probabilística e não probabilística.
3.1 AMOSTRAGEM PROBABILÍSTICA
Os métodos probabilísticos de amostragem baseiam-se em um princípio
chamado equiprobabilidade, isto é, todos os indivíduos da população têm as mes-
mas probabilidades de fazerem parte da amostra. É recomendado que, sempre que
possível, seja utilizado os métodos probabilísticos, pois são os que mais garantem a
representatividade da amostra (BISQUERRA; SARRIERA; MARTÍNEZ, 2009).
Portanto, uma amostra probabilística é selecionada de tal maneira que cada
item ou pessoa da população estudada têm uma probabilidade conhecida de ser in-
cluída na amostra. A autora Vieira (2019) escreve que para obter uma amostra pro-
babilística, precisamos da lista com a identificação de cada um dos “N” elementos
que compõem a população. Depois, usamos algum tipo de procedimento aleatório
para retirar, da população, os “N” elementos que comporão a amostra.
Neste livro, abordaremos os tipos de amostra probabilísticas indicados
por essa autora, que são: a casual simples, a sistemática e a estratificada.
3.1.1 Amostra causal simples
Amostra casual simples ou amostra aleatória simples é a amostra consti-
tuída por elementos retirados inteiramente ao acaso da população. Isso significa
que todos os elementos da população têm a mesma probabilidade de ser selecio-
nados para a amostra.
Uma maneira de obter uma amostra aleatória simples é pelo método de
loteria. Para isso, atribui-se um número a cada um dos N elementos da popula-
ção. Os números são colocados em uma urna e bem misturados. Em seguida, um
pesquisador de olhos vendados seleciona n