Buscar

Aula 2 Etapas para a realização de uma análise de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Disciplina: Análise de dados
Aula 2: Etapas para a realização de uma análise de dados
Apresentação
Diariamente, os meios de comunicação apresentam informações, como: a taxa média de juros, pessoa física, foi de 6,91% ao
mês; 65% dos brasileiros, pelo menos uma vez por mês, fazem compra online; a construção civil caiu 0,8% no segundo
trimestre, ante os primeiros três meses do ano de 2018; uma pesquisa realizada com 2.225 empresas de todos os portes
mostrou que apenas 48% das empresas industriais do país utilizam pelo menos uma tecnologia digital.
Todos esses resultados foram obtidos por meio de uma análise de dados, que podem ser provenientes de fontes como:
levantamentos observacionais, levantamentos amostrais ou planejamento de experimentos.
Nessa aula, abordaremos quais são os passos necessários para a coleta e análise de dados e, também, compreenderemos
como podemos classi�cá-los de acordo com as escalas de mensuração. Além disso, analisaremos dados qualitativos por
meio de tabelas e grá�cos.
Objetivos
Identi�car fontes de obtenção de dados;
Classi�car os dados de acordo com sua escala de mensuração;
Analisar dados qualitativos.
Fontes de obtenção de dados
Quando realizamos um estudo com o objetivo de extrair informações e tomar decisões com base em dados, precisamos seguir
uma estrutura natural que nos auxilia na análise e interpretação dos dados coletados.
De�nição do
problema e
objetivos
Dados Tabelas Grá�cos Obter resultados e
tirar conclusões
 Figura 1 - Estrutura para coleta, análise e interpretação de dados
Esse passo a passo se faz necessário, pois os dados precisam ser coletados de forma planejada para que possamos fazer
análises e obter conclusões con�áveis. E cabe à ciência Estatística utilizar técnicas para coletar, organizar, descrever, analisar e
interpretar dados.
A partir da de�nição do problema e dos objetivos da pesquisa e/ou estudo é que
decidimos a fonte de levantamento dos dados.
Quando, por exemplo, estamos
interessados em realizar uma pesquisa
de intenção de voto, conhecer o per�l de
consumidores de determinado produto
ou fazer a inspeção da qualidade em um
lote de peças produzidas, realizamos
um levantamento observacional. Nesse
tipo de levantamento, as características
de interesse na pesquisa são
observadas ou medidas sem
manipulação dos elementos (pessoas,
objetos, animais etc.) que foram
estudados.
Agora, em planejamento de experimentos os elementos são manipulados para se avaliar o efeito de diferentes tratamentos.
Exemplo
Podemos citar, como exemplo, ensaios clínicos em medicina em que o objetivo é testar se um novo medicamento é e�caz ou não
no tratamento de certa doença. Ou, veri�car quais dos fatores como tempo de hidratação, dosagem de cimento, qualidade do
cimento e uso de aditivos mais interferem na resistência à compressão de um concreto.
Após a de�nição de se trabalhar com um levantamento observacional ou um planejamento de experimentos, temos que decidir
quem e quantos serão os elementos em estudo. Para isso, temos que saber os conceitos de população e amostra.
Clique nos botões para ver as informações.
População é o conjunto formado por todos os elementos que contém a característica que temos interesse em estudar.
Dessa maneira, a população pode ser todos os habitantes da cidade de São Paulo, todas as placas de computadores
manufaturadas por uma empresa em determinado tempo ou todos as pessoas que sofrem de determinada doença. Na
maioria dos estudos e pesquisas é impossível trabalhar com toda a população de interesse, pois: as populações são muito
grandes gerando custo e demora para analisar todos os seus elementos e muitas vezes há a impossibilidade física de se
examinar toda a população, como no caso de análise de sangue de uma pessoa ou em um experimento para testar a
qualidade de fósforos fabricados por um empresa. Testando todos os fósforos, teríamos um experimento destrutivo!
População 
Amostra é um subconjunto da população de interesse, geralmente com dimensão muito menor, que conterá os elementos
que serão utilizados no estudo. A seleção desses elementos dependerá de fatores como o grau de conhecimento que temos
da população e a quantidade de recursos disponíveis.
Amostra 
A área da Estatística que utiliza dados amostrais para tirar
informações e conclusões da população de interesse é
denominada Inferência Estatística. Vale ressaltar que os
resultados obtidos na aplicação de técnicas da inferência
estatística dependem da qualidade da amostra, que deve ser
representativa da população da qual foi extraída. A Figura 2
apresenta os conceitos de população, amostra e as principais
aplicações da inferência estatística utilizadas com dados
amostrais.
 Figura 2 – Principais aplicações da inferência estatística. Fonte: Elaboração própria,
com base em Portal Action.
Saiba mais
Em Portal Action - Inferência <http://www.portalaction.com.br/inferencia-0> , você aprende mais sobre essa área da estatística.
Os levantamentos amostrais podem ser obtidos por meio de técnicas probabilísticas e não
probabilísticas. As técnicas probabilísticas têm a vantagem de se poder medir a precisão da
amostra obtida. A amostragem probabilística mais usada e mais fácil para selecionar uma
amostra é a amostragem aleatória simples .1
Tipos de variáveis
Com o planejamento para a coleta dos dados bem de�nido, vem a pergunta:
O que vamos estudar de cada um desses elementos?
Essa resposta está totalmente relacionada à de�nição do problema de�nido na estrutura
apresentada na Figura 1.
A(s) característica(s) de interesse no estudo e/ou pesquisa é chamada de variável e a escolha dela(s) é feita com o objetivo de se
chegar a alguma conclusão do problema que foi de�nido. E, são as respostas obtidas para cada variável que geram os dados que
serão analisados.
Quando coletamos dados referentes à variável ou às variáveis em estudo, podemos obter respostas numéricas ou não numéricas.
É intuitivo pensar que quando as respostas são:
NUMÉRICAS
Dados
quantitativos
NÃO NUMÉRICAS
Dados
qualitativos
Como os dados são provenientes das variáveis em estudo, podemos classi�car as variáveis da mesma forma: variáveis
qualitativas (ou categóricas) ou quantitativas.
Tipos de variáveis
Variáveis
qualitativas
Qualitativas ordinais
Se existir uma ordenação
natural, elas são
classi�cadas como.
Variáveis
quantitativas
Quantitativas discretas
São resultantes de uma operação de
contagem, assumindo respostas cujos
números são inteiros.
Qualitativas nominais
Se não existir uma
ordenação natural, elas são
classi�cadas como.
Quantitativas contínuas
São resultantes de mensurações, assumindo
valores que pertencem a um intervalo de
números reais, ou seja, números decimais.
 Figura 1.3: Classificação das variáveis. Fonte: Elaborada pelo autor.
Podemos atribuir códigos numéricos às categorias de respostas de algumas variáveis
qualitativas.
Exemplo
Por exemplo, para a variável gênero podemos associar o código 1 para o sexo feminino e 2 para o sexo masculino. Mas, isto não a
torna uma variável quantitativa, ou seja, não podemos, por exemplo, calcular uma média dessas respostas, pois não
conseguiríamos interpretar o resultado obtido.
Na engenharia de qualidade, é comum a terminologia dados de atributos ou de variáveis. Os dados de atributos se referem às
variáveis quantitativas discretas e os dados de variáveis às variáveis quantitativas contínuas. Vejo o exemplo a seguir e classi�que
as variáveis. Em seguida, con�ra as respostas e con�rme se entendeu a explicação.
Atividade
1. Vamos classi�car as variáveis a seguir:
Variável quantitativa discreta Variável quantitativa contínua Variável qualitativa ordinal 
Variável qualitativa nominal Variável qualitativa nominal 
1 2 3
4 5
Gabarito comentado
a) Tipos de concretos aplicadosem projetos de construção, cujas
possíveis respostas são: convencional, usinado, armado, protendido
etc.
b) Qualidade de um produto, cujas possíveis respostas são:
conforme e não conforme.
c) Avaliação de um serviço prestado, cujas possíveis respostas são:
péssimo, regular, bom, muito, bom, excelente.
1 2 3 4 5
1 2 3 4 5
1 2 3 4 5
d) Número de peças defeituosas em um lote, cujas possíveis
respostas são: 0, 1, 2, 3...
e) Diâmetro de uma peça, cuja resposta pode assumir um valor
decimal.
1 2 3 4 5
1 2 3 4 5
Atenção
Compreender as classi�cações das variáveis é muito importante, pois as técnicas estatísticas que podemos utilizar variam de
acordo com a natureza dos dados.
Veja na �gura a seguir as técnicas que podemos utilizar para a análise exploratória dos dados.
 Figura 4: Análise exploratória de dados. Fonte: Elaborada pelo autor.
Dica
Em um primeiro momento, focamos na análise univariada, em que cada varíavel é estuda separadamente Podemos, no entanto,
ter o interesse em explorar possíveis associações entre pares de variáveis (análise bivariada), tema que vamos estudar em
próximas aulas.
Organização de dados qualitativos
O que fazer depois de coletarmos os dados (qualitativos ou
quantitativos)?
Com o conjunto de dados brutos em mãos, é chegado o momento de organizá-los e apresenta-los de forma devida.
Muitas vezes, armazenam-se os dados brutos em alguma planilha eletrônica (em que cada coluna se refere a uma variável e em
cada linha estão as respostas dos elementos que �zeram parte do estudo).
Quando o conjunto de dados se apresenta dessa maneira, �ca difícil a identi�cação de características importantes presentes nos
dados. Então, o primeiro passo para organizar e apresentar os dados com o objetivo de se conhecer o comportamento da variável
em estudo é construir uma tabela denominada distribuição de frequências.
Mas, o que é uma distribuição de frequências?
Distribuição de frequências é uma tabela em que se resumem grandes quantidades de
dados, determinando o número de vezes que cada dado ocorre (frequência) e a
porcentagem com que aparece (frequência relativa). A frequência relativa é obtida
dividindo a frequência de cada categoria pelo número total de observações.
Exemplo
Uma empresa que produz revestimentos para o teto interno de carros de passageiros tem como objetivo identi�car os defeitos
predominantes e encontrar as causas. Em uma amostra de 40 tetos que apresentaram problemas, os resultados obtidos foram:
RT TD TD FQ EXI EXI RT FQ RT EXI
FQ FQ FQ FQ EXI FQ FQ FQ FQ EXI
FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ
FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ
Em que:
RT: Rasgos no tecido.
TD: Tecido descolorido.
FQ: Placa de �bra quebrada.
EXI: Extremidades irregulares.
Exemplo
Por meio do conjunto de dados brutos, vamos organizar os dados em uma distribuição de frequências. Distribuição de
frequências dos tipos de defeitos encontrados.
Tipo de defeito Frequência Frequência Relativa (%)
Rasgos no tecido 3 7,5
Tecido descolorido 2 5,0
Placa de fibra quebrada 30 75,0
Extremidades irregulares 5 12,5
Total 40 100,0
Podemos observar, por meio da distribuição de frequências, que o defeito predominante encontrado nessa amostra é referente à
placa de �bra quebrada, correspondendo a 75% dos defeitos encontrados. Um diagrama de causa e efeito pode ajudar a
identi�car as causas potenciais para esse problema.
 (Fonte: Robert Kneschke / Shutterstock)
Métodos grá�cos
Os grá�cos apropriados para representar dados qualitativos são: barras, setores ou Diagrama de Pareto. As informações contidas
em um grá�co também estão em uma distribuição de frequências. Mas, muitas pessoas acham mais fácil interpretar grá�cos do
que tabelas. Na construção de um grá�co, devemos ter o cuidado de:
Evitar construir grá�cos com uso excessivo de �guras que podem ocultar a informação que se deseja transmitir.
Incluir título abaixo da ilustração.
Colocar título nos eixos.
Legendas explicativas devem aparecer, de preferência, à direita da �gura.
Começar a escala para o eixo vertical em zero.
Utilizar uma escala constante.
Grá�co de barras
O grá�co de barras é muito utilizado para variáveis qualitativas (categóricas), em que cada barra representa a identi�cação de
cada uma das categorias da variável em estudo. O comprimento de cada uma das barras representa a frequência absoluta ou a
frequência relativa (%) de cada categoria. As barras podem estar na posição vertical ou horizontal. As barras na posição horizontal
facilitam a leitura nos casos em que as categorias têm nomes extensos. Há, também, a possibilidade de se utilizar barras
paralelas para ilustrar respostas de duas ou mais variáveis qualitativas.
Exemplo
Uma pesquisa realizada pelo Fórum Econômico Mundial, The Future of Job Report – 2018, analisou 20 diferentes economias e 12
setores da indústria e mapeou onde e como devem surgir (ou começar a desaparecer) postos de trabalho, habilidades e
ferramentas. O grá�co a seguir apresenta os resultados obtidos na divisão de trabalho em humanos e máquinas no período 2018-
2022.
Divisão de trabalho entre humanos e máquinas
 Fonte: Adaptado de World Economic Forum <http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf> .
As informações do grá�co mostram que as empresas esperam uma mudança signi�cativa na fronteira entre humanos e
máquinas quando se trata da divisão de trabalho. Em 2018, em média, 71% do total de horas de trabalho, nos 12 setores que
participaram da pesquisa, são realizadas por humanos. Em 2022, espera-se que essa média mude para 58%.
Diagrama de Pareto
O Diagrama de Pareto é um grá�co de barras no qual as respostas da variável qualitativa aparecem em ordem decrescente de
frequência ao longo do eixo horizontal. O diagrama apresenta dois eixos: o da esquerda mostra a frequência absoluta e o da direta
mostra as porcentagens acumuladas, que são utilizadas para traçar a curva de porcentagens acumuladas. Essa curva identi�ca
as poucas respostas da variável (normalmente causas ou problemas) que merecem atenção.
Vamos construir o diagrama de Pareto para os tipos de defeitos encontrados no teto interno dos carros de passageiros.
 Figura 6: Diagrama de Pareto para os tipos de defeitos encontrados.
Observamos que o tipo de defeito que
merece atenção devido a sua alta
frequência na amostra é placa de �bra
quebrada, seguido por extremidades
irregulares (os dois defeitos, juntos,
correspondem à 87,5% dos defeitos
encontrados).
Comentário
Gabarito comentado
O Diagrama de Pareto é uma das sete ferramentas do controle estatístico de processo (CEP), sendo uma das mais úteis para a
melhoria da qualidade.
Atividade
2. Classi�que em verdadeiro ou falso cada uma das seguintes a�rmações:
a) A Inferência Estatística é uma área da Estatística que utiliza técnicas que permitem generalizar os resultados obtidos na amostra para a
população de onde ela foi extraída.
b) Independente do critério de seleção, quanto maior o tamanho da amostra mais representativa ela será.
c) Um questionário foi elaborado com o objetivo de se avaliar o serviço de atendimento ao consumidor de uma empresa de telefonia. Nele, foi
utilizada uma escala de 1 a 5, em que: 1 = Ruim; 2 = Regular; 3 = Bom; 4 = Muito bom; 5 = Excelente. O estudo foi conduzido em uma amostra
de 500 consumidores sorteados aleatoriamente de todos os consumidores que já haviam contatado o SAC da empresa. Esse tipo de
levantamento de dados corresponde a um planejamento de experimentos.
d) A �m de avaliar a intenção de voto para presidente do Brasil, 2500 eleitores foram entrevistados na cidade de São Paulo. Aqui, temos um
exemplo de amostra representativa.
e) A Estatística utilizar técnicas para coletar, organizar, descrever, analisar e interpretar dados exclusivamente quantitativos.
3. Utilize os números para correlacionar os grupos de verbosàs suas categorias de domínio cognitivo:
Qualitativa nominal Qualitativa ordinal Quantitativa discreta Quantitativa contínua 1 2 3 4
a) Número de carros produzidos por uma montadora no último
trimestre.
b) Grau de escolaridade de um funcionário.
1 2 3 4
1 2 3 4
c) Tempo de espera (horas) para atendimento em uma unidade de
pronto-atendimento, ou ainda, a temperatura corpórea de uma
pessoa.
d) Principais causas de acidentes na construção civil.
1 2 3 4
1 2 3 4
4. Uma pesquisa foi realizada com 4.000 consumidores, que efetuaram pelo menos uma compra online nos últimos seis meses,
com o objetivo de identi�car quais os principais motivos que os levaram a comprar pela internet. Os dados estão apresentados na
Tabela a seguir
Distribuição de frequências dos principais motivos apresentados para comprar pela internet
Motivos Frequência Frequência Relativa (%)
Mais baratos que na loja física 1.920 48,00
Comodidade de comprar sem sair de casa 1.200 30,00
Poder fazer as comprar no horário que quiser 680 17,00
Economia de tempo 200 5,00
Total 4.000 100,00
Com os dados apresentados:
a. Identi�que a população alvo.
b. Qual o tamanho da amostra?
c. Qual o objetivo da pesquisa? Por que nesse estudo não foi realizado um censo?
d. Classi�que e indique a variável em estudo.
e. Construa o grá�co apropriado para os dados apresentados.
Notas
Amostragem aleatória simples 1
Nesse tipo de amostragem selecionamos ao acaso, com ou sem reposição, os elementos da população que farão parte da
amostra. Portanto, precisamos que a população seja conhecida e que cada elemento seja identi�cado por um nome ou número.
A partir daí, fazemos um sorteio desses elementos, por meio de procedimentos aleatórios, até que sejam sorteadas todas as
unidades que comporão a amostra.
Referências
BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002.
LEVINE, David M.; STEPHAN, David F.; SZABAT, Kathryn A. Estatística: Teoria e Aplicações Usando Microsoft Excel em Português.
7. ed. Rio de Janeiro: LTC, 2016.
MAGALHÃES, Marcos N.; LIMA, Antonio C. P de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade
de São Paulo, 2004.
MONTGOMERY, Douglas C. Introdução ao Controle Estatístico de Qualidade. 7. ed. Rio de Janeiro: LTC, 2016.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. 5. ed. Rio de Janeiro:
LTC, 2014. Disponível em: <http:// www3.weforum.org/ docs/ WEF_ Future_ of_ Jobs_ 2018.pdf
<http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf> >. Acesso em: 17 nov. 2018.
Próxima aula
Estudo de dados quantitativos;
Conceito de medidas de posição e dispersão;
Análise exploratória de dados.
Explore mais
Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor
online por meio dos recursos disponíveis no ambiente de aprendizagem.
Acesso os sites:
Portal Action > Coleta de dados <http://www.portalaction.com.br/estatistica-basica/12-coleta-de-dados>
Portal Action > Diagrama de Pareto <http://www.portalaction.com.br/estatistica-basica/15-diagrama-de-pareto>
Leia os textos:
A elaboração de questionários na pesquisa quantitativa
<https://www.inf.ufsc.br/~vera.carmo/Ensino_2012_1/ELABORACAO_QUESTIONARIOS_PESQUISA_QUANTITATIVA.pdf>

Outros materiais