Buscar

ANÁLISE ESTATÍSTICA DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE ESTATÍSTICA 
DE DADOS
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autoria: Amanda Souza da Silva
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD: 
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Cristiane Lisandra Danna
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Jóice Gadotti Consatti
Marcelo Bucci
 
Diagramação e Capa: 
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
 UNIASSELVI – Indaial.
SI586a
 Silva, Amanda Souza da
 Análise estatística de dados. / Amanda Souza da Silva. – Indaial: 
UNIASSELVI, 2019.
 140 p.; il.
 ISBN 978-85-7141-300-9
1.Estatística empresarial – Brasil. II. Centro Universitário Leonardo 
Da Vinci.
CDD 658.00727
Impresso por:
Sumário
APRESENTAÇÃO ..........................................................................05
CAPÍTULO 1
Análise Estatística de Dados no Mundo Corporativo ............ 7
CAPÍTULO 2
Princípios Fundamentais do Data Science
 Para Negócios ............................................................................ 49
CAPÍTULO 3
Modelagem Multivariada ........................................................... 99
APRESENTAÇÃO
Dentro de uma organização, analisar a concorrência é importante, sem 
deixar de lado a satisfação dos consumidores, compreendendo suas expectativas 
e moldando seus produtos de acordo com seus interesses, e sempre manter-
se atualizado sobre as tendências do mercado. Sem esses preceitos, uma 
empresa pode ficar obsoleta perante as inovações das demais organizações, 
não conseguindo alcançar de maneira eficiente os objetivos dos consumidores 
e, consequentemente, não atingir suas metas. Portanto, conhecer o mercado é o 
primeiro passo para realizar planejamentos estratégicos.
Para fazer planejamentos sobre o mercado deve-se levar em consideração 
as variáveis que permeiam os clientes, por exemplo, suas características 
pessoais, dados demográficos, financeiros e outros que intensificam a chance 
de uma organização alcançá-los de forma direta. Para que isso seja possível, é 
importante utilizar as técnicas de análise de dados, pois elas auxiliam na extração 
das informações e identificação de padrões.
Esses dados geram uma grande quantidade de informações que precisam 
ser processadas de forma rápida, e para isso ser possível é necessário usar uma 
ferramenta que seja capaz de realizar inferências de forma consolidada, esta 
ferramenta é denominada de Big Data Analytics. Ela auxilia uma organização a 
lidar com os dados coletados e utilizá-los para encontrar novas frentes. Isso leva a 
movimentos de negócios mais inteligentes, lucros mais altos, operações eficientes 
e clientes satisfeitos.
Logo, para que seja possível entender os conceitos, formas de coletas e 
sobre a extração desses dados, este livro tem o objetivo de abordar as técnicas de 
estatísticas e machine learning utilizadas para explorar as informações e apoiar a 
tomada de decisão da organização.
 Com base nisso, este material foi dividido em três partes. O primeiro capítulo 
fala sobre técnicas de estatística descritiva, a utilização delas em um negócio. E 
como é realizada a inferência sobre dados.
O segundo capítulo aborda os princípios e características fundamentais 
que envolvem Data Science para negócios. Data Science é altamente usado 
quando trabalhamos com um grande volume de dados. Logo, falaremos sobre as 
principais técnicas e conceitos usados nesta área de estudo. 
O terceiro capítulo trata sobre agrupamento de dados e análise multivariada. 
Este assunto é muito importante quando também temos um grande volume de 
dados, pois precisamos agrupar os dados de maneira que, no agrupamento, 
não sejam perdidas as características iniciais dos dados. O capítulo aborda as 
técnicas de como tratar esses dados de maneira a otimizar a extração e inferência 
das informações.
CAPÍTULO 1
Análise Estatística de Dados no 
Mundo Corporativo
A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes 
objetivos de aprendizagem:
� Compreender a importância e as características da análise de dados para uma 
organização.
� Compreender as principais técnicas de estatísticas utilizadas para análise de 
dados.
� Aprender a inferir sobre as informações coletadas.
� Saber usar as técnicas estatísticas para tomar decisões de um negócio.
� Saber fazer inferência sobre os dados.
8
 Análise Estatística de Dados
9
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
1 Contextualização
Conhecer as expectativas e tendências do mercado é muito importante 
para que seja viável consolidar estratégias para um negócio. Para que isto seja 
possível, a análise de dados possui um conjunto de métodos específicos capazes 
de transformar um agrupamento de dados em informações que auxiliam todos 
os setores de uma organização. A geração de dados decorre de várias fontes, 
desde a opinião de usuários, clientes, internet, e por meio de todos os setores da 
empresa. 
A análise de dados fornece suporte para extrair informações e realizar 
inferências que tragam escopo e suporte para a tomada de decisão da 
organização. Através dela podemos conhecer o perfil de cliente, tendências do 
mercado, entre outras informações de interesse para o negócio. Através das 
análises estatísticas podemos analisar o perfil de cliente e ajustar os produtos 
desenvolvidos de acordo com o perfil encontrado.
Portanto, este capítulo descreve as técnicas estatísticas usadas para extrair 
e retirar a maior quantidade de informações dos dados das organizações. Os 
métodos são úteis para realizar previsões e inferências, por exemplo, se o produto 
que se pretende lançar é compatível com o perfil de consumidores.
Com base nisso, neste capítulo abordaremos todo o processo de análise, 
consolidação dos dados, gráficos e inferência, bem como a importância de fazer 
uso dessas técnicas em uma organização. 
2 A Importância da Análise de 
Dados Para um Negócio
À medida que o mercado se torna mais impulsionado pela tecnologia e 
rapidez nas informações, a análise de dados tem um papel cada vez mais 
importante nos negócios.
Por que a análise de dados é importante?
A análise de dados é uma função organizacional interna, que vai além de 
apresentar números para a diretoria e gerência. 
Ela requer abordagens mais aprofundadas para registrar, analisar e extrair 
dados para apresentar as informações descobertas em um formato de fácil 
compreensão. 
10
 Análise Estatística de Dados
A análise de dados ajuda os gerentes de negócios a tomar decisões para 
impulsionar a empresa, melhorar a eficiência, aumentar os lucros e alcançar as 
metas organizacionais, e o seu uso traz os seguintes impactos para o negócio:
1) Melhorar a eficiência:
Todos os dados coletados pela empresa não estão relacionados apenas aos 
indivíduos externos à organização. A maioria dos dados coletados pelas empresas 
é analisada internamente. Esses dados ajudam a conhecer o desempenho dos 
funcionários e também dos negócios.
2) Compreensão do mercado:
A análise de dados permite coletar uma maior quantidade de dados de uma ampla 
variedade de consumidores. Por exemplo, verificar se os clientes da empresa 
estão satisfeitos ou não com o novo horário de atendimento da loja.
3) Redução de custos:
Com a análise de dados é possível identificar as mais eficientes formas de fazer 
negócios.Isso é uma característica bem relevante, pois ajuda na economia 
dos custos de desenvolver um produto que se adéque ao padrão esperado 
pelo consumidor ou verificar qual o melhor local para construir um novo 
empreendimento.
A análise de dados traz um impacto significativo nos custos, 
por exemplo, a empresa deseja saber antes se o produto que está 
prestes a ser desenvolvido irá atender às expectativas dos clientes, 
isto é, será mais fácil moldar o produto ao cliente, evitando possíveis 
erros e ajustes, e ao final reduz o custo de produção do produto.
4) Otimizar a tomada de decisão:
A análise de dados pode melhorar a tomada de decisão da empresa, pois ela gera 
informações em tempo rápido, eficiente, e assim é possível gerenciar os prazos 
de entrega de relatórios com facilidade.
5) Novos produtos/serviços:
Com o poder da análise de dados, as necessidades e satisfação dos clientes são 
detectadas mais rapidamente, e atendidas de uma maneira melhor. Isso ajuda a 
garantir que o produto/serviço esteja alinhado com os valores do público-alvo.
11
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
6) Conhecimento da indústria:
Com as informações inferidas pode-se conhecer de maneira aprofundada o 
comportamento da indústria e mostrar como uma empresa pode funcionar em um 
futuro próximo.
 Cite uma forma pela qual a análise de dados pode ajudar a 
melhorar o desenvolvimento da empresa.
Segundo Provost (2013), com o crescimento da quantidade de dados 
disponíveis, as empresas estão cada vez mais focadas em explorar essas 
informações para obter vantagem competitiva, pois com as informações coletadas 
podem ser feitos vários planos estratégicos que envolvam o conhecimento do 
perfil do cliente, para checar a maior probabilidade de acertar em um novo produto 
e gerar uma vantagem competitiva para o seu negócio. Podemos citar algumas 
vantagens, como:
• Acompanhamento das fases do processo de vendas.
• Conhecer os pontos fortes e fracos da organização.
• Interpretar reclamações de clientes atuais, com o intuito de captar novos 
clientes e fidelizar os antigos.
No momento em que uma corporação consegue realizar análises de dados 
e usufruir dos resultados alcançados, fica mais fácil entender todos os cenários 
em que a empresa está inserida, e isto é muito importante, pois o mercado a 
cada instante torna-se mais disputado, e verificar de modo ágil as variações que 
ocorrem deixa a organização à frente de suas concorrentes. Com a contínua 
evolução do mercado, estar à frente no processo de desenvolvimento de produtos 
e serviços inovadores com alta aceitação pelos clientes é fundamental.
Agora vamos começar a estudar como podemos fazer a análise de 
dados! Vamos começar?
A análise de dados envolve a extração de tendências, padrões e informações 
úteis a partir de um conjunto de dados existentes que serão inúteis se não forem 
analisados. É um tipo de business intelligence que é usado para obter lucros e 
aproveitar melhor os recursos da organização. Isso também pode ajudar a melhorar 
as operações gerenciais e alavancar as organizações para o próximo nível.
12
 Análise Estatística de Dados
Mas, antes que seja feita a análise de dados existe a fase de 
planejamento e coleta desses dados! É importante que seja entendida toda 
essa etapa inicial para que possamos prosseguir com os nossos estudos.
Então, antes de fazer a análise de dados, precisamos realizar o processo 
de planejamento e coleta desses dados. Podemos definir esse processo 
como pesquisa de mercado, como aborda Pinheiro (2015), sendo um esforço 
organizado para coletar informações sobre o mercado ou clientes. É uma técnica 
muito importante da estratégia de negócios. A análise de dados é realizada com 
base nos dados coletados da pesquisa de mercado.
A pesquisa de mercado é um dos principais métodos utilizados 
para manter a competitividade de uma empresa em relação aos 
concorrentes. Ela fornece informações importantes para identificar e 
analisar as necessidades, tamanho do mercado e a concorrência.
A pesquisa pode ter várias frentes e o seu foco pode estar concentrado no 
consumidor, concorrente, fornecedor ou em qualquer situação que precisa ser 
investigada. Uma definição mais formal de pesquisa de mercado, segundo a 
Associação Nacional de Empresas de Pesquisa de Mercado (ANEP):
A coleta sistemática e o registro, classificação, análise 
e apresentação objetiva de dados sobre hábitos, 
comportamentos, atitudes, valores, necessidades, opiniões e 
motivações de indivíduos e organizações dentro do contexto 
de suas atividades econômicas, sociais, políticas e cotidianas.
A pesquisa de mercado é uma maneira de obter uma visão geral dos desejos, 
necessidades e crenças dos consumidores. Também pode envolver descobrir 
como eles agem. A pesquisa pode ser usada para determinar como um produto 
pode ser comercializado. Com base nas informações colhidas da pesquisa de 
mercado é possível:
● Conhecer e monitorar o mercado consumidor e concorrente.
● Dimensionar a demanda.
● Verificar a presença do público-alvo (clientes).
● Avaliar resultados de ações de marketing.
● Identificar e dimensionar problemas ou necessidades.
● Observar tendências.
13
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
● Avaliar a satisfação dos consumidores.
● Testar produtos e estratégias antes do seu lançamento.
● Analisar as práticas da concorrência (quantidade e agressividade).
● Monitorar a dinâmica e o comportamento dos diferentes segmentos e nichos.
Fatores que podem ser investigados através de pesquisa de mercado 
incluem:
1. Informação de mercado:
Por meio das informações de mercado pode-se conhecer os preços de diferentes 
empresas no mercado, bem como a situação de oferta e demanda. 
2. Segmentação de mercado:
Dividir o mercado em subgrupos com estímulos parecidos.
3. Tendências de mercado:
Os movimentos anteriores e posteriores do mercado, durante um determinado 
período de tempo, com o propósito de determinar o tamanho do mercado.
A pesquisa de mercado ganha relevância à proporção que 
o mercado fica cada vez mais competitivo e as modificações no 
comportamento dos clientes se tornam mais rápidas e constantes, 
deixando o processo de decisão dos negócios da organização cada 
dia mais complexo. 
O investimento em pesquisa de mercado e análise de dados é fundamental no 
processo de decisões importantes da organização, e assim realizar planejamento 
estratégico, por exemplo:
● Auxiliar na preparação e lançamento de um produto, com base na coleta 
de dados sobre a satisfação de clientes em relação aos produtos e serviços 
anteriores que a organização gerou.
● A partir do feedback colhido, compreender de maneira satisfatória as 
necessidades do mercado.
● Localizar a posição que o negócio ocupa em comparação aos seus 
concorrentes.
● Ações de como visitar a concorrência para verificar os pontos fortes e fracos 
em comparação ao mercado.
14
 Análise Estatística de Dados
Essas informações são importantes para criar métodos de marketing, 
fidelização e branding, e compreender quais os produtos ou serviços que não 
estão gerando lucro para o negócio.
Portanto, para que a análise tenha bons resultados é necessário fazer um bom 
planejamento, que envolve as diretrizes e finalidades das pesquisas. Pesquisas 
desde as mais simples até as complexas devem ser elaboradas previamente para 
evitar erros de todos os tipos, desde a escolha incorreta do método a ser usado, 
até a importância das informações obtidas para o processo decisório.
A pesquisa de mercado pode ser dividida em sete etapas:
1. Definição do problema ou questões de pesquisa:
a. Objetivo – quais perguntas a pesquisa vai responder.
b. Público-alvo.
2. Desenvolvimento do plano de pesquisa:
a. Qualmétodo de pesquisa será usado.
b. Universo (é a população total que tenha a característica de interesse para ser 
investigada).
c. Amostra (é somente uma “fatia” extraída da população de interesse, em que 
são feitas análises sobre a população de interesse).
d. Cronograma.
3. Questionário de pesquisa:
a. Elaboração e revisão das perguntas.
b. Definição da forma de aplicação (correio, telefone, entrevista pessoal, e-mail, 
distribuição).
c. Teste em pequena escala.
4. Aplicação da pesquisa:
a. Seleção e treinamento dos entrevistadores (quando usado).
b. Coleta de dados junto ao mercado.
5. Tabulação dos dados:
a. Organização dos dados em tabelas e gráficos.
b. Realização de cálculos (médias, medianas etc.) e aproximações.
6. Avaliação dos resultados:
a. Análise quantitativa, qualitativa e comparativa dos resultados.
b. Realização do relatório de conclusão da pesquisa.
7. Tomar as decisões de marketing:
As pesquisas podem ser classificadas em:
● Qualitativa: usada para conhecer a percepção dos clientes sem quantificá-los. 
Nesse caso, o interesse está nas avaliações subjetivas e normalmente visa 
identificar as percepções humanas sobre produtos, serviços e empresas, a fim 
de apontar comportamentos e tendências.
15
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
● Quantitativa: procura levantar indicadores numéricos no mercado, por isso 
segue rigorosos critérios estatísticos, como: amostragem, margem de erro, 
estimativa, desvio padrão etc.
Com relação à frequência das pesquisas, temos as seguintes formas:
• Pesquisas contínuas: monitoram continuamente indicadores de mercado.
• Pesquisas “ad hoc”: usadas quando surgem questões específicas a responder.
• Cíclicas: realizadas repetidas vezes a cada determinado período de tempo.
 Os resultados de uma pesquisa de mercado geralmente são apresentados 
na forma de relatório que é construído a partir de tabelas, gráficos e comentários 
mais relevantes. As informações resultantes de uma pesquisa devem ser 
analisadas pelos gestores da empresa, ou a pessoa que tenha propriedade para 
interpretar os dados obtidos, segundo a Pesquisa de Mercado (2004). 
Bom, vimos que antes de fazer as análises dos dados, existem algumas 
fases antes que precisam ser feitas! 
Vimos qual a finalidade de se fazer um bom planejamento.
Agora, vamos estudar o que é necessário para fazer uma boa coleta de 
dados!
Para realizar as análises de forma assertiva necessita-se realizar as 
perguntas certas para consolidar quais são os objetivos que o negócio 
deseja atingir, e depois é preciso criar meios para alcançá-los. 
Então, primeiramente, deve-se definir os propósitos e expectativas da 
organização, para que depois seja feita a coleta dos dados com base no perfil do 
mercado, produto ou cliente.
Depois dessas fases serem concluídas e os dados serem consolidados por 
meio de alguma ferramenta, podemos iniciar a etapa de análise dos dados para 
que seja possível compará-los e identificar padrões. 
Mas, como pode ser feita a extração e análise de dados de forma que auxilie 
na tomada de decisão e gerar lucros para um negócio? Para isso existem alguns 
passos.
1. Realizar as perguntas certas: é necessário ter objetivos de curto, médio e 
longo prazo definidos, isto é, os atributos importantes de sucesso do negócio. 
Com base nesses atributos seremos capazes de reconhecer os pontos que 
16
 Análise Estatística de Dados
os negócios devem seguir e evitar que sejam direcionados tempo e recursos 
para atividades que ao final do processo acabem não gerando os resultados 
esperados.
A partir dos objetivos estabelecidos podemos encaminhar tempo, pessoal e 
investimentos para otimizar os lucros da empresa. 
Essas perguntas iniciais podem ser:
● Qual o perfil de cliente que a organização precisa atingir?
A partir dessa pergunta é possível inferir qual o perfil de consumidor se adéqua 
melhor ao produto que será desenvolvido.
● O produto que estamos desenvolvendo adéqua-se a este perfil de cliente?
Essa pergunta garante se o produto lançado está atraindo os consumidores 
traçados no perfil inicial, ou ele não teve um bom êxito entre os clientes esperados.
● Como adequar o produto ao perfil do cliente?
O objetivo é traçar quais as características que o produto deve ter para se encaixar 
no perfil dos consumidores.
● Quais os problemas que podem surgir?
Nesta pergunta devem ser elencados os possíveis problemas que podem surgir 
antes, durante ou depois do desenvolvimento do produto.
● Qual lucro esse produto pode gerar?
Nesta pergunta é questionado qual o lucro que o produto desenvolvido pode 
atingir, e se ele vai estar dentro do esperado.
Planejar e desenvolver o questionário correto antes de 
iniciar a coleta e análise de dados é imprescindível para o bom 
desenvolvimento da pesquisa de mercado, para tornar mais 
confiável e segura a forma como os dados vão ser consolidados e 
posteriormente inferidos.
2. Quais os objetivos de realizar uma boa análise de dados?
● Gerenciar melhor seus clientes e consumidores: para definir quais 
consumidores se encaixam de uma melhor maneira ao perfil de produtos que a 
organização produz.
● Criar soluções diferenciadas para produtos e serviços: gerar soluções com 
base no feedback dos clientes pode otimizar e diminuir o tempo de solução 
para eventuais erros de produtos e serviços.
17
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
● Responder de forma rápida às necessidades identificadas como 
problemas ou potenciais problemas do negócio: com base nesse propósito 
pode-se diminuir os custos da empresa.
● Crescer os bons resultados: consequentemente elevar os lucros da empresa.
Estas atividades são consideradamente importantes para toda gestão do 
negócio, pois em um ambiente que está cada dia mais globalizado, os dados 
ao final do processo que não gerem informações precisas direcionadas podem 
atrapalhar a gestão. Então, é imprescindível que as análises de dados estejam 
inseridas na rotina das empresas, seguindo todas as etapas do planejamento da 
pesquisa.
Para iniciar o processo é feita a fase realização do planejamento. Ela é 
dividida em cinco fases: planejamento da pesquisa, coleta e análise de dados, 
tomada de decisão e avaliação de ação, levando a outro planejamento e assim 
sucessivamente.
1. Planejamento: fase de consolidação dos objetivos da organização depois 
de realizar as perguntas referentes ao negócio, estas questões podem ser 
perfil de cliente, produto ou uma nova localização para futuras instalações da 
organização.
2. Coleta: A partir da coleta de dados, eles são agrupados de maneira que 
facilite uma posterior análise. Ela auxilia a analisar ponto a ponto os fatos 
ou fenômenos que estão ocorrendo em uma organização, sendo o ponto de 
partida para a elaboração e execução de um trabalho.
Existem várias formas de coletas dados:
1) Entrevista: segundo Gressler (2003), a entrevista consiste em uma 
conversação com o propósito de obter informações para uma investigação, 
envolvendo duas ou mais pessoas. As entrevistas são frequentemente usadas 
em pesquisa de mercado, de opinião pública. Ela é considerada uma técnica 
versátil, onde não consiste em um bate-papo informal, já que há o interesse 
em obter um conhecimento especializado. É permitido que as perguntas 
sejam elaboradas novamente, no momento em que o entrevistado não as 
compreenda da primeira vez. Essa abordagem é qualitativa.
2) Questionário: conjunto de perguntas que se faz para obter informação 
com algum objetivo em concreto. Cervo e Bervian (2002) apontam diversos 
parâmetros que caracterizam as vantagens de utilização do questionário. 
Afirmam também que o questionário é a forma mais usada para coletar dados, 
pois possibilita medir com melhor exatidão o que se deseja.18
 Análise Estatística de Dados
Questionários precisam de algumas regras para serem feitos:
● O questionário deve ter natureza impessoal para assegurar uniformidade na 
avaliação de uma situação para outra. 
● Os respondentes devem se sentir confiantes, devido ao anonimato, dessa 
forma possibilita coletar informações e respostas mais reais (o que pode não 
acontecer na entrevista).
Coletar dados não é uma tarefa muito simples, pois exige uma 
metodologia bem definida e suporte tecnológico. Então é preciso 
planejar e conhecer de maneira clara os objetivos da análise, e como 
ela pode ajudar nas decisões a serem tomadas pela empresa, antes 
de iniciar a coleta.
Depois que as fases de planejamento e coleta são encerradas, a próxima 
etapa é a consolidação e análise dos dados.
3 Análise de Dados
As medidas estatísticas permitem comparar grupos de variáveis relacionadas 
e obter um quadro simples e resumido do cenário de uma empresa, a sua aplicação 
em um negócio pode incentivar a reagir de modo inteligente aos acontecimentos 
do contexto corporativo.
Inicialmente é necessário definir quais métricas serão usadas, de modo 
que os objetivos definidos no início da fase de planejamento possam ser 
atingidos. 
Antes de começar a análise é importante discutir se os dados do estudo são 
de natureza quantitativa ou qualitativa.
1. Dados quantitativos: são usados para quantificar o problema por meio da 
geração de dados numéricos ou dados que podem ser transformados 
em estatísticas utilizáveis. São usados para quantificar atitudes, opiniões, 
comportamentos e outras variáveis definidas e generalizar os resultados 
de uma amostra populacional maior. A pesquisa quantitativa usa dados 
mensuráveis para formular fatos e descobrir padrões na pesquisa. Métodos de 
coleta de dados quantitativos incluem várias formas de pesquisas, como:
19
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
1. Pesquisas on-line.
2. Pesquisas em papel.
3. Pesquisas móveis e quiosques.
4. Entrevistas presenciais.
5. Entrevistas telefônicas.
6. Estudos longitudinais.
7. Interceptadores de sites.
Exemplos: rendimento mensal, números de clientes, quantidade de consumidores 
que aprovaram o novo produto lançado, quantidade de consumidores que não 
aprovaram o novo produto etc. 
Esses dados podem ser divididos em variáveis Discreta e Contínua:
Variável Discreta: É avaliada através dos números de contagem, podendo 
somente utilizar números inteiros. Exemplos:
● Quantidade de clientes que aprovaram o novo produto.
● Quantidade de clientes que frequentam uma loja.
● Quantidade de clientes que compraram algum serviço bancário.
● Número de viagens realizadas dentro do Brasil.
● Número de pessoas contaminadas com o vírus HIV no mundo.
Variável Contínua: São valores obtidos como resultado de medições, podendo 
assumir casos decimais. Exemplos:
● A altura média de uma população.
● O peso médio das crianças de uma turma.
● A pressão arterial de pessoas com mais de 60 anos.
Dados qualitativos/categorias
A pesquisa qualitativa é usada para revelar tendências de pensamento e 
opiniões. Os métodos de coleta de dados qualitativos variam usando técnicas não 
estruturadas ou semiestruturadas. Alguns métodos comuns incluem grupos focais 
(discussões em grupo), entrevistas individuais e participação/observações. Pode-
se definir este tipo de variável através de categorias, com o objetivo de classificar 
indivíduos ou objetos. É dividida como variáveis nominais ou ordinais.
Variável nominal
As categorias não possuem ordenações. Exemplos:
● Cor dos olhos.
● Cor da pele.
● Fumantes ou não.
20
 Análise Estatística de Dados
● Alcoólatra ou não.
● Doente ou sadio.
Variável ordinal
As categorias possuem ordenações. Exemplos:
● Escolaridade.
● Mês.
● Ano.
● Idade.
Para tabular e organizar dados quantitativos podemos usar tabelas dinâmicas 
que devem conter os campos de frequência (número de respostas de uma mesma 
alternativa) e porcentagem (relação entre as frequências). Porém, em relação aos 
dados do tipo qualitativos é necessário padronizar as respostas em categorias e 
depois incluir suas respectivas frequências e porcentagens.
Para tratar os dados coletados é preciso fazer uso de softwares específicos, 
em consequência dos grandes volumes de informações, e que sejam capazes de 
extrair informações necessárias para o negócio. As ferramentas tecnológicas são 
essenciais para a rotina de uma organização. 
O Big Data
De acordo com os sites Canal Tech e Totvs, o Big Data Analytics é uma 
potente ferramenta que auxilia na organização de como lidar com os dados e 
utilizá-los para encontrar inferências. Isso leva a movimentos de negócios mais 
inteligentes, lucros mais altos, operações eficientes e clientes satisfeitos. A ideia 
é compartilhar as perspectivas de negócios de uma maneira melhor no futuro e 
usá-las com o conceito de análise. É uma ferramenta capaz de construir análises 
complexas, com base em um grande volume de dados por meio de complexos 
algoritmos. Big Data é a expressão que descreve o grande volume de dados 
estruturados e não estruturados que podem trazer grandes impactos aos negócios 
diariamente. Ele é formado por uma variedade de aplicações usadas para analisar 
dados, transformando-os em um modelo visual, como gráficos e tabelas que 
permitem análises sofisticadas da realidade e das tendências do negócio.
Porém, ainda existem empresas que não têm a análise estatística como 
estratégia de gestão e isso pode significar a falta de atualização perante as 
tendências do mercado e seus clientes, pois a demanda do fluxo de informações 
acontece de maneira dinâmica. Sem o hábito da coleta e análise contínua de 
dados, negócios podem correr alguns riscos, como:
21
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
● Perda de espaço no mercado e clientes.
● Desenvolver produtos em desacordo com as necessidades dos clientes.
● Não conseguir fidelizar clientes.
● Oferecer um serviço que não atenda às necessidades do mercado.
Então, para que um negócio consiga manter-se de maneira competitiva no 
mercado, o uso da inteligência de negócios é fundamental, porque ela transforma 
dados em informações que têm o poder de interferir no êxito de uma organização.
E para que a atividade de analisar dados tenha ao final o resultado esperado 
é preciso que tenha uma estratégia definida e direcionada nas diversas áreas da 
empresa. Cada gestor deve direcionar suas atividades nas informações originárias 
das análises desses dados, gerando mais produtividade. A análise de dados pode 
beneficiar todas as áreas da empresa, por exemplo:
● Financeira: possui uma grande aplicabilidade das pesquisas estatísticas, pois 
se dedica a:
1. Crescimento dos lucros.
2. Análise de custos.
3. Avaliar gastos.
4. Verificar as avaliações do mercado.
5. Análises dos processos.
Portanto, é fundamental para um gestor ter uma ampla visão do negócio, 
para que possa tomar as devidas providências essenciais para o desenvolvimento 
da organização. Os números lhe fornecem interpretações com mais exatidão e 
permitem maior confiabilidade na ação.
● Produção: os métodos estatísticos utilizados podem verificar os dados 
relacionados aos produtos, aos processos ou aos funcionários. É nesta 
área em que há a necessidade de monitoramento, por exemplo, no controle 
de qualidade dos produtos. Existem gráficos, segundo Santos (2016), que 
demonstram a cada processo o avanço e as falhas de cada produto, permitindo 
parar a produção e fazer a manutenção, ou mesmo descobrir novas maneiras 
de realizar cada tarefa. 
● Marketing: a partir do marketing a empresa passa para os clientes a sua 
imagem. A estatística auxilia essa área da empresa através da análise da 
população e amostrapara avaliar a média ou aceitação do produto através 
da propaganda, ou mesmo, analisar a aceitação por parte da amostra de sua 
propaganda (SANTOS, 2016).
● Recursos humanos: no RH usa-se os dados estatísticos para as seguintes 
atividades:
22
 Análise Estatística de Dados
1. Testes.
2. Dinâmicas.
3. Avaliações qualitativas em suas atribuições.
● Gestão do desempenho: a importância da estatística na gestão é significativa, 
pois com a ajuda da estatística um gerente pode analisar:
1. Desempenho da organização em geral.
2. Produtividade dos funcionários.
3. Verificar a produtividade das unidades.
4. A tarefa concluída dos funcionários.
5. O gerente pode usar as técnicas estatísticas para melhorar a produtividade da 
força de trabalho e multiplicar a produção.
● Cenários alternativos: a tarefa ou a função de um gerente não termina após 
aumentar a produtividade dos funcionários. Um gerente tem que participar 
com os outros gerentes de diferentes departamentos para tomar decisões. 
A decisão pode ser sobre a escolha de software específico, sistemas para 
sistemas de pedidos automáticos de clientes etc.
Com base nas informações coletadas podem ser feitas várias 
estratégias que envolvam o conhecimento do perfil do cliente, e isso 
proporciona muitas vantagens, entre elas, a redução de custos, maior 
probabilidade de acertar em um novo produto e gerar uma vantagem 
competitiva para o seu negócio. Dentre as vantagens que podem 
ser citadas, trata-se do acompanhamento das fases do processo 
de vendas, conhecer os pontos fortes e fracos da organização e 
interpretar reclamações de clientes atuais, com o intuito de captar 
novos clientes e fidelizar os antigos.
4 Processo da Análise de Dados
Na seção anterior vimos como é importante fazer análise de dados e como 
ela pode conseguir extrair informações importantes para trazer vantagens ao 
negócio. Por esse motivo, fazer uso de técnicas estatísticas em uma organização 
é fundamental, devendo ser vista como uma das principais ferramentas da gestão 
de um negócio. A conclusão que podemos ter em relação a este assunto é o 
23
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
fato de que analisar dados é uma maneira de redefinir os planejamentos da 
empresa, com o propósito de transformar os indicativos em fatores que auxiliem 
nas atividades do negócio.
Então, agora, o nosso objetivo é descrever como é feito o processo da 
análise de dados. O processo tem por objetivo:
1. Elaborar toda a metodologia de como será feita a análise de dados.
2. Entender de maneira eficaz as informações coletadas do ambiente ou local de 
interesse.
3. Definir o estudo aprofundado de algum objeto de interesse, como a aceitação 
de um novo produto lançado.
Portanto, a análise de dados ou também conhecida como inferência estatística 
são métodos que têm o objetivo da coleta, redução, análise e modelagem dos 
dados, com o propósito de realizar inferências para uma população da qual 
os dados foram obtidos (MORETTIN, 2017), a fim de identificar respostas ou 
soluções.
Esses métodos utilizados são importantes nas mais variadas áreas, como:
● Ciências sociais.
● Saúde.
● Educação.
● Negócios.
Com o desenvolvimento e evolução constante dos algoritmos computacionais 
é possível coletar um maior número de informações, e assim as análises 
estatísticas tornaram-se mais robustas, podendo extrair informações de dados 
complexos. Essa evolução também é possível ser vista quando utilizamos gráficos 
que agrupam uma maior quantidade de informações para fazer inferências.
Para a implementação dessas técnicas, foram desenvolvidos pacotes 
estatísticos atualmente usados no meio acadêmico, bem como em negócios, 
bancos, órgãos do governo, assinala Morettin (2017). Esses novos softwares são 
capazes de interpretar grandes volumes de dados, incluindo operações como a 
identificação de padrões. 
Portanto, vamos definir a estatística como a ciência que fornece os princípios 
e a metodologia para coleta, organização, apresentação, resumo, análise e 
interpretação de dados. Por meio dela é possível:
1. Aumentar o lucro das empresas.
2. Aumentar a qualidade dos processos.
24
 Análise Estatística de Dados
3. Aumentar a qualidade dos produtos.
4. Minimizar custos.
5. Tomar decisões de valor político ou econômico.
6. Aumentar a análise crítica, entre outros.
5 Conceitos Básicos Estatísticos
Com o uso das técnicas estatísticas pode-se comparar grupos de variáveis 
relacionadas e ao final obter um cenário simples e resumido da real situação 
de uma empresa ou negócio. Desta forma, a aplicação da estatística na gestão 
de negócios estimula ter ideias de maneira inteligente aos acontecimentos do 
contexto corporativo.
Com base na reflexão, análise e questionamento das informações 
encontradas, os gestores têm maiores possibilidades de tomar decisões mais 
assertivas ao conduzir e controlar as organizações. Isto é, a cada momento cresce 
a importância da estatística em um negócio, principalmente quando é preciso 
tomar providências e decisões a partir de seus resultados. As técnicas estatísticas 
são frequentemente aplicadas para resolver as seguintes situações:
1. Identificar situações problemáticas.
2. Compreender as atividades que acontecem dentro da organização.
3. Melhorar a qualidade da tomada de decisão.
4. Compreender o crescimento das vendas de produtos ou serviços que a 
organização fornece para seus clientes.
5. Identificar possíveis motivos de defeitos da baixa qualidade em seus produtos/
serviços.
6. Elucidar o comportamento dos clientes em relação aos seus produtos/serviços.
7. Usar métodos de localização de anomalia para identificação de fraudes.
Um negócio é planejado para ter um bom lucro e crescer entre seus clientes. 
Para isso, o uso das análises estatísticas se faz necessário para tornar mais 
confiáveis e sólidas as atividades que envolvam a empresa. Logo, podemos 
concluir que a estatística é uma ferramenta fundamental desde o início e 
desenvolvimento das organizações, dado que não faz apenas a monitoração do 
progresso, como também para melhoria dos resultados.
A estatística ajuda na escolha das estratégias a serem adotadas na 
organização e nas técnicas de pesquisa e análise da quantidade e da qualidade 
do produto e mesmo dos possíveis lucros e perdas, levando em consideração o 
fato de os gestores sempre procurarem novas maneiras de elevar seus lucros 
25
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
e vendas, ao mesmo tempo que procuram diminuir as falhas e potenciais 
dificuldades. Os gestores usam a estatística com frequência para:
1. Aprimorar processos de negócios.
2. Aprimorar as estruturas do negócio.
3. Melhorar e aprimorar a distribuição dos sistemas.
4. Usar sempre métodos e fontes de dados diferentes, para ter uma maior 
variedade do feedback de produtos e serviços.
5. Diminuir gastos com recursos desnecessários.
Então, vamos definir as estatísticas de negócios como a ciência da boa 
tomada de decisões em face das incertezas do mercado.
A compreensão das técnicas estatísticas depende do entendimento de alguns 
conceitos básicos, que são bastante utilizados na área para a interpretação dos 
resultados. 
Agora, vamos começar a estudar alguns conteúdos importantes de 
estatística. Conforme Webster (2006):
● População: conjuntos de todos os itens ou elementos que têm pelo menos 
uma característica comum. Uma população estatística pode ser um grupo de 
elementos existentes, por exemplo, o conjunto de todos os clientes de uma 
organização. Outro grupo que pode ser citado é o hipotético, por exemplo, os 
possíveis clientes que uma empresa pode alcançar com o lançamento de um 
serviço novo.
● Parâmetro: característica que descreve a população. Porexemplo, podemos 
estar interessados pela média de clientes que frequentam uma determinada 
loja em um mês. E chegamos à conclusão de que a média é de 1.350 clientes, 
então concluímos que isso é um parâmetro, isto é, a média dos clientes.
● Amostra: subconjunto de uma parte da população que será analisada. 
A amostra é uma ferramenta fundamental e se bem aplicada permite que o 
administrador tome as decisões com confiança.
● Variável: característica da população que será analisada.
● Estimador: característica numérica estabelecida na amostra.
Os conceitos acima citados se inter-relacionam, porém é preciso entender 
suas diferenças. Vamos analisar o próximo exemplo:
Queremos analisar a quantidade de pessoas que pretendem comprar um 
determinado produto, e quantas pessoas não pretendem consumir esse novo 
produto. Temos:
26
 Análise Estatística de Dados
1. População: a quantidade de pessoas analisadas.
2. Parâmetro: a quantidade de pessoas que pertencem ao perfil do produto que 
vai ser lançado.
3. Variável: os consumidores/clientes.
4. Dados: as informações extraídas na pesquisa.
5. Amostra: neste caso seria uma subparcela do total da população para 
analisar.
Distribuição de Frequências
Depois de coletar os dados é conveniente organizá-los de forma simples 
e clara, para melhor entendimento das informações.
 Como iremos agrupar esses dados? 
Para responder essa questão vamos estudar as distribuições de frequência.
Distribuição de frequência, segundo Fonseca (1996), é uma tabela na qual 
são agrupados os dados coletados em um estudo.
Ela pode estar em formato de lista, tabela ou gráfico, mostrando a frequência 
de vários resultados de uma amostra. Cada entrada na tabela contém a frequência 
ou a contagem das ocorrências de valores dentro de um determinado grupo ou 
intervalo e, dessa forma, a tabela resume a distribuição de valores na amostra.
Uma distribuição de frequência nos mostra um agrupamento resumido de 
dados dividido em classes mutuamente exclusivas e o número de ocorrências em 
uma classe. É uma maneira de consolidar dados não organizados para mostrar 
resultados de uma pesquisa.
As distribuições de frequência são usadas para dados 
qualitativos e quantitativos.
Para uma empresa é importante usar métodos de distribuição de frequência 
para analisar os seus recursos de acordo com sua quantidade e classe, como:
1. Quantidade de funcionários que frequentaram a empresa no mês analisado. 
Assim é construída a frequência de funcionários mensal.
27
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
2. Quantidade de novos clientes durante o ano.
3. Lucros mensais da organização.
4. Quantidade de falhas no sistema por dia.
Abaixo segue a definição de cada frequência:
a) Frequência Absoluta (F): é o número de vezes que cada dado aparece na 
pesquisa.
b) Frequência Relativa ou Percentual (Fr): é o resultado da divisão entre a 
frequência absoluta pelo número total de dados.
c) Frequência Acumulada (Fa): é a soma de cada frequência com as que lhe 
são anteriores na distribuição.
Logo a seguir temos a Tabela 1 que agrupa a percentagem dos valores 
investidos mensalmente. A tabela é dividida entre os meses de abril e setembro. 
Em cada mês é mostrada a sua frequência relativa.
TABELA 1: TABELA DE FREQUÊNCIA DO VALOR INVESTIDO MENSAL
Meses
Valor Investido 
(Frequência Relativa)
Abril 9,444%
Maio 10,493%
Junho 4,197%
Julho 13,641%
Agosto 16,055%
Setembro 20,986%
Outubro 25,184%
FONTE: O autor. 
Agrupamento em classes
Quando o conjunto de valores de dados é distribuído, isto é, os dados são 
bastante dispersos, fica difícil configurar uma tabela de frequência para cada 
valor de dados, pois haverá muitas linhas na tabela. Por conta disso, agrupamos 
os dados em intervalos de classes (ou grupos) para nos ajudar a organizar, 
interpretar e analisar os dados.
28
 Análise Estatística de Dados
O tamanho da amostra para alguns estudos é elevado, então, 
para facilitar a visibilidade da tabela é comum agrupar os valores em 
intervalos de classe. Desse modo, é possível resumir e visualizar um 
conjunto de valores sem ter a necessidade de levar em conta dados 
individuais.
 A Tabela 2 mostra a frequência de salários de uma organização. A tabela é 
dividida em Frequência Absoluta, Acumulada e Relativa de cada classe.
TABELA 2: FREQUÊNCIA DE SALÁRIOS DE UMA ORGANIZAÇÃO
Salário (em reais) Freq. Absoluta (F) Freq. Acumulada (Fa) Freq. Relativa (Fr)
1000,00 |- 1500,00 18 18 0,29
1500,00 |- 2000,00 29 47 0,43
2500,00 |- 3000,00 10 57 0,14
3500,00 |- 4000,00 4 61 0,05
4500,00 |- 5000,00 2 63 0,02
5500,00 |- 6000,00 3 66 0,06
6500,00 |- 7000,00 1 67 0,014
Total 67
FONTE: O autor. 
Para definir a quantidade de classes de uma Distribuição de Frequência 
podemos usar vários critérios.
 O primeiro critério é a perspicácia do próprio pesquisador, o qual tem a 
expertise suficiente para definir o tamanho e a quantidade de classes de cada 
distribuição.
29
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
Porém, a estatística fornece outros critérios, como: 
• Regra de Sturges.
• Critério da raiz quadrada.
Os tamanhos das classes não precisam ser todos iguais!
a) Regra de Sturges: A regra é dada pela seguinte fórmula:
b) Critério da raiz quadrada: O número de classes (k) é dado por:
Uma distribuição de frequência com classe possui algumas características, 
como:
a) Limite inferior: É o valor da esquerda. Vamos abreviar o limite inferior por Li. 
Na Tabela 2 o primeiro limite inferior é: 1000.
b) Limite superior: É o valor da direita. Vamos abreviar o limite superior por Ls. 
Na Tabela 2 o primeiro limite superior é: 1500.
c) Ponto médio: O ponto médio de cada classe é obtido somando os limites 
superior e inferior da classe e dividindo o resultado por 2.
(Li - Ls)/2
d) Amplitude do conjunto de dados: A amplitude dos dados é simplesmente a 
diferença entre o maior e menor valor do conjunto de dados.
L - xmax - xmin
e) Amplitude da classe: É o tamanho correspondente ao intervalo da classe.
h - Li - Ls
30
 Análise Estatística de Dados
6 Gráficos
Para analisar os dados de um negócio de uma maneira mais clara e assertiva 
e visualizar as informações mais completas, podemos usar as ferramentas de 
construção de gráficos. Eles identificam padrões, resultados e comparam medidas 
de forma mais rápida e simples, em relação a outras medidas estatísticas. 
Os gráficos podem mostrar o desempenho do negócio em determinado 
período de tempo, evidenciando os pontos que precisam ser otimizados e 
proporcionando aos setores da organização elaborar um planejamento eficiente, 
baseando-se em dados consistentes.
Gráficos são métodos comuns para ilustrar visualmente os 
relacionamentos nos dados. A finalidade de um gráfico é apresentar 
dados que são muito numerosos ou complicados para serem 
descritos adequadamente no texto e em menos espaço. Os gráficos 
podem mostrar tendências dos dados coletados ou revelarem 
relações entre variáveis.
Para gerar gráficos é preciso seguir alguns princípios:
1. A condição básica para um gráfico é que ele seja claro e legível.
2. Fornecer uma legenda clara que descreva as informações contidas no gráfico.
3. Um gráfico pode conter várias informações, como: título, nota de rodapé, 
campo de dados, legendas e fonte. 
4. Os símbolos de plotagem precisam ser distintos, legíveis e fornecer um bom 
contraste entre a figura em primeiro plano e o plano de fundo.
Agora vamos descrever os tipos de gráficos.
a) Diagrama de dispersão: usamos para mostrar a relação entre duas variáveis. 
Por exemplo, vamos fazer o gráfico de dispersão para analisar a relação entre 
a quantidade de vendas porquantidade de clientes. Analise o Gráfico 1 a 
seguir. 
31
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
GRÁFICO 1: GRÁFICO DE DISPERSÃO QUANTIDADE 
DE VENDAS X QUANTIDADE DE CLIENTES
FONTE: O autor.
b) Gráfico de linhas: este gráfico representa os dados contínuos como tempo, 
temperatura ou pressão. Ele traça uma série de valores relacionados que 
descrevem uma mudança em Y como uma função de X.
Vamos usar um pequeno exemplo: em um banco foi avaliado o rendimento 
mensal de dois clientes chamados de João e Maria. O rendimento varia entre os 
meses de abril e outubro. Cada mês tem uma variação diferente. Então, vamos 
avaliar através de um gráfico de linhas o comportamento desses rendimentos.
GRÁFICO 2: GRÁFICO DO RENDIMENTO MENSAL
FONTE: O autor. 
32
 Análise Estatística de Dados
c) Gráfico de barras:
• Este gráfico possui colunas horizontais ou verticais. 
• Quanto maior o comprimento das barras, maior o valor. 
• Usa-se com frequência para comparar um único valor entre vários grupos, e 
comparar variável qualitativa ou quantitativa discreta. 
Com base nos exemplos dos clientes do banco vamos construir os próximos 
gráficos de barras. A seguir, o exemplo do gráfico horizontal para os rendimentos 
mensais. 
GRÁFICO 3: GRÁFICO DO RENDIMENTO MENSAL (HORIZONTAL)
FONTE: O autor.
GRÁFICO 4: GRÁFICO DO RENDIMENTO MENSAL (VERTICAL)
FONTE: O autor.
d) Histograma:
• Este gráfico não contém intervalos entre as colunas.
• Usa-se para representar dados da medição de uma variável contínua.
• Os pontos de dados individuais são agrupados em classes para mostrar a 
frequência dos dados em cada classe.
33
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
• A frequência é medida pela área da coluna.
O Gráfico 5 apresenta um exemplo de histograma do gráfico do rendimento 
mensal do cliente João.
GRÁFICO 5: GRÁFICO DO RENDIMENTO MENSAL - JOÃO
FONTE: O autor. 
e) Gráfico de setores (gráfico de pizza): No gráfico de setores o tamanho da 
fatia representa cada categoria estudada e ela é proporcional à frequência 
relativa de cada categoria. Cada fatia possui a sua respectiva percentagem. 
Agora temos o exemplo em que para os meses de abril até outubro foi 
calculada a percentagem do investimento de um determinado cliente. 
GRÁFICO 6: GRÁFICO DO RENDIMENTO MENSAL
FONTE: O autor. 
34
 Análise Estatística de Dados
É importante também escolher o tipo de gráfico correto com 
base no tipo de dados a serem apresentados.
1. Se as variáveis independentes e dependentes forem numéricas, o 
ideal é usar diagramas de linhas ou diagramas de dispersão.
2. Para variável dependente numérica, use gráficos de barras.
3. Para proporções, use gráficos de barras ou gráficos de pizza.
7 Medidas-Resumo
Depois que vimos as fases iniciais do planejamento e coleta dos dados, e as 
maneiras como esses dados podem ser agrupados e visualizados, agora chegou 
o momento de estudarmos como os métodos estatísticos descritivos podem nos 
ajudar a avaliar os dados e extrair a maior quantidade de informações possível.
Vamos lá?
Quando concluímos a fase de agrupamento dos dados entramos na outra 
etapa do processo: a análise dos dados. Nesta fase são avaliados os dados e 
extraídas as informações que neles estão contidas.
Porém, fica difícil avaliar todos os dados de uma única vez. Então, para 
facilitar nossas análises, podemos usar as medidas que resumem os dados, elas 
apresentam somente o valor que represente toda série dos dados (MORETTIN, 
2017). 
Essas medidas podem ser divididas em Medidas de Posição e Medidas de 
Dispersão.
Medidas de Posição:
 Método pelo qual é determinada a posição que um valor específico possui 
dentro de um determinado conjunto. Também denominadas como as medidas 
estatísticas que dão uma ideia condensada de todo o conjunto de dados, podendo 
ser conhecidas como medidas de localização.
35
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
Pode-se definir as medidas de dispersão como valores que 
representam a tendência de concentração dos dados observados. 
As principais medidas de tendência central são: Média, Mediana e Moda.
a) Média aritmética ( ): representa uma característica do conjunto de dados. Ela 
fornece à empresa uma situação do quanto ela se situa em relação ao mercado. 
Por exemplo, ao analisar a quantidade de roupas vendidas semanalmente em 
uma loja, podemos ter a média geral das vendas realizadas, e assim ter um 
controle maior do estoque. 
Segundo Morettin (2017), a média é dada pela soma das observações, dividida 
pelo número delas.
Por exemplo, a média aritmética desse conjunto de dados 3,4,7,8 é:
(3 + 4 + 6 + 9) / 4 = 5,5.
A fórmula do cálculo da média amostral é dada por:
b) Média Aritmética Ponderada: é calculada multiplicando cada valor do conjunto 
de dados pelo seu respectivo peso, em seguida a soma desses valores será 
dividida pela soma dos pesos. É usada quando os dados estiverem agrupados, 
isto é, na forma de distribuição de frequências.
Ou
36
 Análise Estatística de Dados
Depois que vimos a definição de média e média ponderada, vamos analisar 
alguns exemplos onde são usadas as técnicas apresentadas. 
A seguir temos uma Tabela 3 que apresenta as notas de uma turma de 
matemática depois da aplicação da prova semestral.
TABELA 3 - NOTAS
Aluno 1 6,7
Aluno 2 7
Aluno 3 8,7
Aluno 4 9,4
Aluno 5 5,3
Aluno 6 3,1
FONTE: O autor. 
Agora vamos analisar a Tabela 3 e calcular a média aritmética das notas. O 
cálculo é dado pela seguinte forma:
Vamos estudar outro exemplo de aplicação:
• Cinco baldes contêm 4 litros de água cada um. 
• Três baldes com 2 litros de água cada um.
• E ao final, dois outros contêm 5 litros de água cada um. 
Se toda essa água fosse distribuída igualmente em cada um dos 
baldes, com quantos litros ficaria cada um?
Então, como faríamos esse cálculo?
37
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
c) Mediana : Colocando os valores em ordem crescente, define-se 
mediana como o elemento que ocupa a posição central (FONSECA, 1996). A 
mediana de um conjunto de dados é o valor que divide um conjunto de dados 
(ordenados) em dois subconjuntos de mesmo número de elementos.
Obs.: No caso de o número de elementos do conjunto for ímpar, então a 
mediana será exatamente o valor “do meio”. Por exemplo, na sequência de 
dados: 13, 11, 17, 20, 18, 21 e 20. Qual o valor da mediana? Primeiramente, 
temos que ordenar os valores: 11, 13, 14, 17, 18, 20 e 21. Agora, notamos que 
o número de elementos é igual a 7, ou seja, ímpar. Então a mediana é o valor 
central, no nosso caso o valor mediano é o 17.
No caso de o número de elementos for par, então a mediana será exatamente a 
média “dos dois valores do meio”. Para a sequência de dados anterior 3, 5, 7, 9. 
Qual seria o valor mediano? É importante verificar que o número de elementos é 
par. Logo, vamos somar os elementos centrais e dividir por dois.
d) Moda : Podemos definir moda, segundo Fonseca (1996), como o valor 
(ou valores) que ocorre com maior frequência em um conjunto de dados. 
Por exemplo, o salário recebido pelo maior número de empregados em uma 
determinada organização é considerado o salário modal. 
A moda pode ser definida em unimodal, bimodal, amodal e multimodal.
• Unimodal: o conjunto de valores contém apenas uma única moda.
Exemplo: A distribuição das notas de uma turma foi: 5,4; 7,8; 9,5; 9; 4,3; 5,1; 
2,6; 8,5; 9; 9. Podemos notar que apenas a nota 9 é repetida, ou seja, o conjunto 
contém apenas uma única moda. Logo, o conjunto é unimodal.
• Bimodal: quando um valor se repete duas vezes na mesma quantidade, 
chamamos de bimodal.Exemplo: Em uma distribuição de peso de 15 pessoas: 63; 67; 70; 69; 81; 57; 63; 
73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 e 71 kg), isto é, ela é bimodal.
• Amodal: Em algumas circunstâncias no conjunto não existem valores 
repetidos, denominamos de amodal.
38
 Análise Estatística de Dados
Exemplo: O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81; 82; 
91 e 70 - este conjunto de valores não possui uma moda, então podemos chamar 
de amodal.
• Multimodal: Em uma distribuição pode acontecer de vários valores se 
repetirem.
Exemplo: Na distribuição de peso temos o conjunto de dados: 63; 67; 51; 70; 
69; 81; 57; 63; 73; 68; 51; 63; 71; 71; 71; 83; 64; 64. Nesta situação temos vários 
valores que se repetem: 51, 63, 64 e 71. Então, neste caso temos a distribuição 
multimodal.
8 Medidas de Dispersão
Na seção anterior estudamos as medidas de posição. Porém, usar 
somente as medidas de posição pode não ser muito confiável, pois os dados 
podem conter uma grande variedade de valores. Agora vamos estudar as 
medidas de posição e como elas se comportam.
Segundo Morettin (2017), resumir o conjunto de dados por uma única medida 
de posição central pode esconder informações importantes sobre a variabilidade 
do conjunto de observações. As medidas de posição servem para verificar a 
representatividade das medidas de posição, pois é muito comum encontrar 
distribuições que possuem a mesma média, porém são compostas de maneira 
diferentes (FONSECA, 1996).
Vamos analisar as distribuições:
a) 17, 17, 17, 17, 17
b) 15, 10, 10, 20, 30
A média dos conjuntos a e b é igual a 17. O conjunto “a” possui a média 
inteira concentrada em 17, enquanto os valores do conjunto “b” se dispersam em 
torno do mesmo valor. Isto é, os conjuntos contêm dispersões diferentes. 
Nesta seção iremos discutir sobre as principais medidas de dispersão. Elas 
são citadas a seguir:
a) Amplitude Total ( )
É a diferença entre o maior e o menor valor da série. Logo, podemos definir como
39
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
Exemplo: Para a série 5, 12, 15, 30, 40
Entretanto, a amplitude total é muito limitante, visto que depende 
apenas dos valores extremos, e não é afetada pela dispersão dos 
valores internos (FONSECA, 1996).
b) Desvio médio ( ): é definido como sendo a distância entre qualquer valor 
do conjunto de dados em relação à média aritmética do conjunto de dados.
 = ( x - ).
c) Desvio Padrão (S): é a medida que fornece o grau de dispersão de um 
conjunto de dados. Ele indica o quanto uma distribuição de dados é uniforme. 
Um desvio padrão elevado significa que os dados se espalham mais 
amplamente a partir da média, em que um desvio padrão baixo sinaliza 
que mais dados se alinham com a média. 
O objetivo é determinar a dispersão dos valores em relação à média. Sua 
fórmula é expressa pela raiz quadrada da média aritmética dos quadrados dos 
desvios, isto é:
Quanto mais próximo de 0 for o desvio padrão, mais homogêneos 
são os dados.
Em que:
• representa cada uma das observações do conjunto de dados;
40
 Análise Estatística de Dados
• é a média do conjunto de dados;
• n é o número total de observações do conjunto de dados.
Exemplo: A quantidade de retrovisores de moto vendidos em uma loja durante 
uma semana teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores. 
Agora vamos calcular o desvio padrão:
Então, podemos concluir que a loja pode ter vendido 2,65 retrovisores a mais ou a 
menos em torno da média.
d) Variância ( ): definimos a variância como a medida de dispersão que mostra 
a distância de cada valor do conjunto de dados em relação à média desse 
conjunto. 
A variância é o valor do desvio-padrão elevado ao quadrado, isto é,
.
Exemplo: Vamos usar os mesmos valores do exemplo anterior. Neste caso a 
variância será dada por:
É importante salientar que variância tem o propósito de mensurar o 
distanciamento de seus dados ou observações em relação à média. Com base 
nestas análises a empresa pode inferir quando seus parâmetros estão fora do 
esperado, isto é, quando um produto não está sendo produzido como especificado, 
por exemplo.
41
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
 Por exemplo, como podemos usar a variância para otimizar a 
produção de uma empresa?
 
 Em uma linha de produção de cabos de ferro pode ocorrer 
uma pane na máquina que molda o tamanho ou espessura dos 
cabos. Então, vai haver uma variação do formato dos cabos, que 
modificará o resultado final esperado. Como podemos verificar 
estatisticamente esse erro?
e) Coeficiente de Variação (cv): medida usada para comparar a variação de 
conjuntos de dados que diferem na média ou são medidos em grandezas 
diferentes (unidades de medição diferentes). O coeficiente de variação é 
definido como o quociente entre o desvio-padrão e a média, sendo expresso 
em porcentagem
Exemplo: Vamos usar os mesmos dados do exemplo dos retrovisores. Neste 
caso o coeficiente de variação é dado por:
Isto é, a variabilidade é de 18,93% dos dados em relação à média.
f) Percentis: denominamos percentis as medidas que dividem a amostra em 100 
partes iguais (FONSECA, 1996). Como citado em seções anteriores, a mediana 
divide em duas partes iguais o conjunto de dados, isto é, fraciona em 50% dos 
dados. Mas existem outras divisões dos valores que podem apresentar quaisquer 
posições em uma distribuição ordenada de dados. Como:
● 1º percentil determina o 1% menor dos dados.
● 25º percentil é o primeiro quartil.
● 50º percentil é a mediana.
● 10º percentil é o primeiro decil.
42
 Análise Estatística de Dados
Os Percentis mais usuais são chamados de Quantis.
g) Quantis: em algumas situações a média e o desvio padrão não são medidas 
adequadas para representar um conjunto de dados (MORETTIN, 2017), pois:
● Pode ser facilmente afetado por valores extremos.
● Apenas com esses dois valores não é possível ter ideia da simetria ou 
assimetria da distribuição dos dados.
Então, com o propósito de contornar esses problemas, usa-se com frequência os 
quartis, dividindo-se um conjunto de valores em quatro partes iguais. Logo:
● 1º Quartil (Q1): divide 25% dos elementos. O valor é situado de tal modo na 
série que uma quarta parte (25%) dos dados é menor que ele e as três quartas 
partes restantes (75%) são maiores.
● 2º Quartil (Q2): divide os dados em 50%, isto é, o valor da mediana. O valor 
é situado de maneira que deixa metade (50%) dos dados à esquerda dele e a 
outra metade à direita.
● 3º Quartil (Q3): é o valor situado na série, onde as três quartas partes (75%) 
dos dados são menores e uma quarta parte restante (25%) é maior.
Os quartis de um conjunto de dados podem ser representados graficamente por 
BoxPlots (MORETTIN, 2017). Um gráfico pode ser horizontal ou vertical. A Figura 
1 apresenta um exemplo de gráfico Boxplot.
FIGURA 1: BOXPLOT
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/boxplot1-700x354.png> Acesso em: 12 out. 2018.
43
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
Os limites do boxplot são calculados da seguinte forma:
Limite inferior: Q1-1,5*(Q3-Q1)
Limite superior: Q3+1,5*(Q3-Q1)
Vamos conceituar algumas características deste tipo de gráfico: 
• Boxplot é formado pelo primeiro e terceiro quartil e pela mediana.
• Os valores da amostra compreendidos entre o 1º e o 3º quartis são 
representados por um retângulo (caixa) com a mediana indicada por uma 
barra.
• Esse gráfico também pode identificar os dados de outliers.
 O espaçamento entre as diferentes partes da caixa indica o grau de 
dispersão e se a distribuição de dados é simétrica ou inclinada.O boxplot também pode ser usado para comparar dois ou mais grupos, em 
que duas ou mais caixas são colocadas lado a lado e se compara a variabilidade 
entre elas. 
Outliers
Outliers: O que são? Acesse o site para saber mais!
<https://goo.gl/v7uXge> Acesso em: 10 out. 2018.
As observações que apresentam um grande afastamento das restantes 
ou são inconsistentes com elas são habitualmente designadas por outliers. 
Estas observações são também designadas por observações “anormais”, 
contaminantes, estranhas, extremas ou aberrantes.
A diferença entre os quartis (Q3-Q1) é uma medida da 
variabilidade dos dados.
44
 Análise Estatística de Dados
Agora vamos analisar um exemplo.
A Tabela 4 contém dados retirados de uma fábrica de usinagem, e estamos 
com interesse de investigar se os dados contêm outliers.
TABELA 4: DADOS DE USINAGEM
Usinagem
903,88 1036,92 1098,04 1011,26
1020,70 915,38 1014,53 1097,79
934,52 1214,08 993,45 1120,19
860,41 1039,19 950,38 941,83
936,78 1086,98 1144,94 1066,12
FONTE: <https://goo.gl/eAgi1o> Acesso em: 14 dez. 2018.
FIGURA 2: BOXPLOT – DADOS DE USINAGEM
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.1-750x371.png> Acesso em: 12 out. 2018.
Também podemos usar vários boxplots no mesmo momento. Quando 
queremos analisar mais de uma variável é possível colocar vários no mesmo 
gráfico. 
Vamos analisar o seguinte exemplo:
Uma indústria produz uma peça automotiva cujo valor de referência é 75cm. 
Após verificar lotes com peças fora de especificação, enviaram duas equipes 
45
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
de trabalhadores (A e B) para um treinamento. Para verificar a eficiência do 
treinamento, foram selecionadas 10 peças produzidas pelas equipes A e B e 10 
peças produzidas pelas equipes C e D que não participaram do treinamento.
TABELA 5: TAMANHO DAS PEÇAS
A B C D
75,27 74,93 74,94 74,75 75,93 73,34 75,98 76,75
75,33 74,72 75,25 74,65 76,95 74,04 75,61 76,78
74,58 74,53 75,44 74,94 75,47 75 74,2 74,74
75,01 75,32 74,62 74,92 73,6 76,18 76,44 72,58
75,71 74,05 75,35 75,46 74,85 75,33 76,84 72,86
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.3-500x500.png> Acesso em: 12 out. 2018.
FONTE: <http://www.portalaction.com.br/estatistica-
basica/31-boxplot> Acesso em: 12 out. 2018.
FIGURA 3: BOX PLOT DO TAMANHO DAS PEÇAS
46
 Análise Estatística de Dados
Atividades de Estudos:
 1) Marque verdadeiro ou falso para as opções.
 População: Conjuntos de todos os elementos que possuem 
pelo menos uma característica comum. Porém, todos os seus 
elementos têm que ser novos. ( )
 Amostra: Característica que descreve a população. ( )
 Variável: Atributo que deve ser analisado da população. ( )
 Estimador: Característica numérica estabelecida na amostra. ( )
 Qual a sequência correta?
 a) FFVV. 
 b) FVVV.
 c) VVVV.
 d) FFVF.
 2) Como poderíamos classificar uma variável quantitativa:
 a) São usados para quantificar o problema por meio da geração 
de dados numéricos. 
 b) São usados para quantificar o problema por meio da geração 
de dados, onde os problemas somente podem conter duas 
variáveis.
 c) Dados quantitativos podem ser usados para dados numéricos, 
porém não pode ultrapassar o limite de 100 dados.
 d) Os estudos com variáveis quantidade não produzem resultados 
bons, por esse motivo não têm respaldo junto com a comunidade 
científica.
 3) Sobre as distribuições de frequência, marque a opção correta. 
 a) É uma forma de agrupar os dados coletados em um estudo. 
 b) É uma forma de agrupar os dados coletados do estudo, porém 
somente em formato de gráfico.
 c) Nas distribuições de frequências podemos somente usar 
tabelas de dupla entrada.
 d) As distribuições de frequências não são aconselháveis para 
usar em uma empresa, por conta da sua falta de consistência.
47
Análise Estatística de Dados no Mundo Corporativo Capítulo 1 
 4) Qual dos gráficos citados abaixo podemos usar para verificar a 
relação entre as variáveis?
 a) Dispersão. 
 b) Linha.
 c) Pizza.
 d) Coluna.
 5) Qual a medida que mostra o grau de variação dos dados?
 a) Desvio-padrão.
 b) Desvio-médio.
 c) Média.
 d) Moda.
Algumas Considerações
Este capítulo apresentou conceitos sobre a importância da análise de 
dados e como ela é fundamental para o negócio. Com base nas informações 
extraídas da análise de dados, a organização pode ficar à frente de suas 
concorrentes, acompanhar as tendências do mercado e auxiliar na tomada de 
decisão de todas as áreas da empresa. Podendo montar estratégias que têm o 
foco no cliente, produto, ou alavancar os lucros.
No início do capítulo apresentamos todos os conceitos e ferramentas 
que fornecem a pesquisa de mercado. Ela proporciona meios de consultas de 
opiniões, como entrevista e questionário, e a partir deles podemos conhecer o 
ponto vista que os consumidores podem ter de um produto que está em fase 
de desenvolvimento ou sobre o perfil de uma organização no geral. 
Depois discutimos as formas de consolidar os dados coletados e sobre os 
principais conceitos da estatística descritiva. Vimos como ela fornece técnicas 
voltadas para fazer a extração das informações e gerar relatórios confiáveis. 
Ao usar técnicas estatísticas como a média é possível fazer comparações entre 
a organização e seus concorrentes, e com a variância podemos verificar se os 
produtos produzidos estão de acordo com as especificações da empresa. 
Com os gráficos podemos analisar de forma mais simples o comportamento 
das informações e fazer inferências sobre os dados colhidos. Porém, sempre 
que utilizarmos gráficos é essencial que juntamente a eles tenha alguma 
técnica de estatística, pois é somente dessa maneira que podemos garantir a 
confiança na análise.
48
 Análise Estatística de Dados
Referências
AZEVEDO, Gustavo Carrer. Pesquisa de Mercado: São Paulo: Sebrae, 2004. 
14 slides, color. Disponível em: <http://www.portalaction.com.br/sites/default/files/
resize/EstatisticaBasica/figuras/ex3.1.3-500x500.png>. Acesso em: 12 out. 2018.
BRASIL, Critério de Classificação Econômica. Associação Nacional de Empresas 
de Pesquisa. Dados com base no levantamento socioeconômico, 2000.
CERVO, Amado; BERVIAN, Pedro A. Metodologia científica. São Paulo: 
Prentice Hall, 2002. p. 242.
DOS SANTOS, Bruna Maria et al. A importância e o uso da estatística na 
área empresarial: uma pesquisa de campo com empresas do município de Elói 
Mendes-MG, 2016.
FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de 
estatística. São Paulo: Atlas, 1996.
GRESSLER, Lori Alice. Introdução à pesquisa: projetos e relatórios. São Paulo: 
Loyola, 2003.
MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica. 
Editora Saraiva, 2017.
PINHEIRO, Roberto Meireles. Pesquisa de mercado. Editora FGV, 2015.
PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you 
need to know about data mining and data-analytic thinking. " O'Reilly Media, 
Inc.", 2013.
TECH, Canal. Big Data: Entenda as principais vantagens de utilizar na sua 
empresa. Disponível em: <https://canaltech.com.br/big-data/o-que-e-big-data>. 
Acesso em: 7 out. 2018.
TOTVS. O que é Big Data? Disponível em: <https://www.totvs.com/blog/big-
data/>. Acesso em: 7 out. 2018.
WEBSTER, A. L. Estatística aplicada à Administração e Economia; São 
Paulo: McGraw-Hill, 2006.
CAPÍTULO 2
Princípios Fundamentais do Data 
Science Para Negócios
A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes 
objetivos de aprendizagem:
� Entender os processos fundamentais e elencar suas diferenças principais, das 
ferramentas usadas no DataScience.
� Aprender as técnicas de mineração de dados.
� Aprender os fundamentos da modelagem de dados.
� Aprender sobre a técnica de modelos de regressão.
50
 Análise Estatística de Dados
51
Princípios Fundamentais do Data Science Para Negócios Capítulo 2 
1 Contextualização
A aprendizagem supervisionada pode ser usada em vários contextos como, 
por exemplo, para classificar clientes em potenciais devedores ou não devedores, 
ou prever a chance de os clientes do negócio aprovarem a atualização de um 
aplicativo interno. As técnicas de classificação e previsão são as mais usadas 
no aprendizado supervisionado, porém elas precisam de dados a priori para que 
possam fazer as análises. 
Nem sempre temos dados a priori de um evento, por exemplo, tentar 
classificar em grupos a quantidade de clientes que irão consumir o novo produto 
fabricado. Neste caso não temos os dados iniciais da qualidade e aceitação 
desse produto por parte dos clientes, pois ele é novo e não tem informação, é 
preciso um tempo para que esses dados sejam coletados e seja feita uma análise 
supervisionada. Então, nestes casos (que não são poucos) usamos o aprendizado 
não supervisionado. Essa técnica não necessita de dados a priori.
Na aprendizagem supervisionada temos uma ferramenta importante, 
chamada mineração de dados. Ela pode ser definida como o processo capaz de 
encontrar erros, padrões e correlações em grandes volumes de dados para extrair 
informações e prever resultados. Com base nesta técnica podemos avaliar lucros, 
reduzir custos e aperfeiçoar o relacionamento entre clientes e empresa. 
O processo da mineração de dados contém vários estágios que variam 
desde a aplicação da tecnologia da informação (TI), com uso de algoritmos 
automatizados e avaliação de padrões a partir da inferência realizada nos dados, 
até o conhecimento prévio dos objetivos de uma organização que um analista 
deve possuir. Este último é de grande importância, pois somente uma pessoa com 
experiência do negócio pode avaliar de maneira concreta os dados extraídos com 
a mineração.
No segundo capítulo introduzimos os conceitos de aprendizagem 
supervisionada e não supervisionada.
No terceiro capítulo abordaremos todo o processo de mineração de dados. 
Neste capítulo são introduzidas as etapas de mineração de dados, e discutimos 
os tipos comuns de tarefas de mineração. 
No quarto capítulo falaremos sobre os modelos de regressão, técnica de 
estatística usada para fazer previsões. 
52
 Análise Estatística de Dados
2 Aprendizagem Supervisionada e 
Aprendizagem não Supervisionada
Iniciaremos o capítulo com um exemplo:
Vamos considerar duas questões que podemos perguntar para os clientes de 
uma organização. A primeira é: “Nossos clientes espontaneamente se enquadram 
em diferentes grupos?” 
Por exemplo, eles se dividem em clientes que aprovam o serviço (Grupo 1) 
ou clientes que não aprovam os serviços oferecidos (Grupo 2).
A princípio não foi feito um critério de divisão ou agrupamento dos clientes. 
Eles naturalmente se enquadram nos dois grupos. Logo, para a mineração de 
dados podemos resolver esse problema a partir de uma aprendizagem não 
supervisionada. 
Agora vamos analisar a próxima pergunta. 
“É possível encontrar grupos de clientes que têm uma maior probabilidade de 
cancelar o serviço antes do vencimento de seus contratos?”
Bom, para essa pergunta temos um critério: encontrar grupos de clientes 
que têm uma maior probabilidade de cancelar o serviço antes do vencimento 
de seus contratos.
Aqui temos um grupo definido: O cliente sairá antes do contrato terminar? 
Neste caso, o agrupamento está sendo feito pelo motivo específico: tomar 
medidas com base na probabilidade de o cliente cancelar o serviço. Podemos 
chamar esse tipo de problema de mineração de dados de aprendizagem 
supervisionada.
A diferença entre essas perguntas é sutil, porém muito 
importante: 
Se já existir uma forma a priori de separar esses grupos, o 
problema pode ser formulado como um aprendizado supervisionado. 
53
Princípios Fundamentais do Data Science Para Negócios Capítulo 2 
2.1 Aprendizagem Supervisionada
Uma forma intuitiva de pensar sobre a extração de padrões de dados em uma 
maneira supervisionada é tentar segmentar a população de estudo em subgrupos 
que têm diferentes valores para a variável de destino e, segundo Provost (2013), 
dentro do subgrupo as instâncias têm valores para a variável de destino. 
A segmentação pode fornecer um conjunto de padrões de segmentações 
compreensíveis. 
Vamos analisar o seguinte exemplo:
Suponhamos que queremos fazer um estudo que envolva os profissionais de 
meia idade que moram em São Paulo, e inicialmente foi coletado que em média 
temos uma taxa de 5% de fumantes dentro dessa população.
Especificamente, o termo “profissionais de meia-idade que moram na 
cidade de São Paulo” é a definição do segmento de interesse (que faz referência 
a alguns atributos) e “uma taxa de fumantes de 5%” descreve o valor previsto 
da variável-alvo para o segmento.
Em muitos estudos o interesse é aplicar a mineração de dados quando temos 
muitos atributos e não tenho certeza exatamente do que os segmentos devem ser. 
 Exercício proposto: Em nosso problema de previsão de fumantes, 
quais são os melhores segmentos para prever o câncer de 
pulmão? 
Bom, agora vamos analisar alguns conceitos fundamentais: 
● Como podemos julgar se uma variável contém informações importantes sobre 
a variável de destino? 
● Quantas variáveis serão necessárias? 
54
 Análise Estatística de Dados
Para responder essas perguntas é necessário primeiramente analisar o 
banco de dados, e quais informações queremos extrair, ou seja, a expertise do 
pesquisador é fundamental para que sejam extraídas as variáveis de interesse do 
estudo.
Voltando ao problema dos fumantes, consideremos apenas a seleção do 
atributo mais informativo. Então, como escolheremos esse atributo?
Quais das variáveis abaixo podem ser escolhidos como atributo? 
● Histórico familiar? 
● Tipo de trabalho? 
● Local de residência?
● Renda? 
● Idade?
O primeiro passo é examinar de forma cuidadosa uma maneira útil de 
selecionar variáveis informativas e, em seguida, a partir dessa técnica, pode ser 
usada repetidamente para construir uma segmentação supervisionada. 
As variáveis multivariadas para segmentação supervisionada 
são apenas uma aplicação para selecionar variáveis informativas. 
Quando temos conjuntos muito grandes de atributos, pode ser útil 
selecionar um subconjunto de atributos informativos. Fazer isso pode reduzir 
substancialmente o tamanho de um conjunto de dados, e podemos melhorar a 
precisão do modelo resultante.
Analisaremos mais um exemplo:
O próximo exemplo pertence a Provost (2013, p. 57).
Para mostrar o uso do ganho de informação vamos usar um exemplo simples, 
do repositório de conjunto de dados de aprendizado de máquina da Universidade 
da Califórnia em Irvine. Esse conjunto de dados descreve cogumelos comestíveis 
e venenosos retirados do Audubon - Guia de Campo da Sociedade para 
Cogumelos Norte-Americanos. A partir da descrição:
55
Princípios Fundamentais do Data Science Para Negócios Capítulo 2 
● Este conjunto de dados inclui descrições de amostras hipotéticas 
correspondentes a 23 espécies de cogumelos. 
● Cada espécie é identificada como definitivamente comestível, definitivamente 
venenosa, ou de comestibilidade desconhecida e não recomendada.
● Esta última classe foi combinada com a venenosa. 
● O Guia claramente afirma que não há regra simples para determinar a 
comestibilidade de um cogumelo; 
Para mais informações sobre a pesquisa e a Universidade da 
Califórnia, em Irvine, acesse o site: <http://archive.ics.uci.edu/ml/

Outros materiais