Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 1/19
Imprimir
INTRODUÇÃO
Olá! Iniciamos aqui mais uma unidade da nossa disciplina. Uma das características mais fascinantes do meio
cientí�co é a frequente utilização de conhecimentos e de métodos de outras disciplinas na composição de um
ramo de estudo. Sabemos, por exemplo, que a Matemática serve de base para a Física e que da Álgebra de
Boole deriva parte da lógica binária dos nossos computadores. Outros tantos exemplos poderiam ser
abordados, mas o que nos interessa, especi�camente, é o encontro da Estatística com o tema central desta
disciplina.
Nesta aula, trataremos das relações e das diferenças entre dados univariados e multivariados, dois conceitos de
frequente utilização na Estatística. Além disso, teremos a oportunidade de conhecer as condições e critérios
para adoção de cada uma das abordagens relacionadas a estes tipos de dados e, por �m, teremos contato com
os conceitos de causalidade e correlação entre variáveis alocadas em conjuntos de dados multivariados.
O breve exemplo desenvolvido em R servirá como apoio no entendimento do conteúdo e conduzirá você a um
estado permanente de motivação para aumentar seus conhecimentos.
APRESENTAÇÃO DA DIFERENÇA ENTRE DADOS UNIVARIADOS E
MULTIVARIADOS, CONCEITUAÇÃO E EXEMPLOS
Antes de iniciarmos nossa exploração conceitual dos conjuntos de dados que basearão nossas análises futuras,
valerá a pena investirmos algumas linhas na diferenciação dos termos univariados e multivariados. Para
começarmos, a busca pelo conceito de variável se faz conveniente: um elemento ou fenômeno variável é aquele
que apresenta mudanças em suas características durante o curso de sua ocorrência. Por exemplo, um estudo
analítico sobre as intenções de compras de uma determinada população em um determinado período
certamente nos apresentará muitas variações em seus elementos durante o curso do estudo.
Como desdobramento desta ideia temos que um dado univariado é aquele derivado de observações de apenas
uma única característica ou atributo associado ao fenômeno em estudo. Se utilizarmos apenas o dado de
intenção de gasto em nossa análise, ela terá sido realizada com base em um dado univariado. Se, no entanto,
uma análise se basear em múltiplas variáveis relacionadas simultaneamente, então estaremos diante de um
cenário de dados multivariados.
Mesmo um contexto que não nos impõe complexidades adicionais inclui tipi�cações que precisam ser visitadas.
Por causa da diversidade dos fenômenos passíveis de observação, muitos dados univariados são expressos por
números e outros tantos por meio de categorizações. O número de nascidos vivos no ano, por mil habitantes,
em determinado contexto geográ�co, compõe exemplo de um dado univariado numérico. Já os dados
univariados categorizados são derivados de observações não numéricas e são frequentemente expressos por
meio de rótulos usados para a identi�cação de um atributo. Como exemplos destes dados podemos considerar
os tipos sanguíneos (A, B, AB e O) e as inclinações político-ideológicas (progressista, conservador, liberal e
socialdemocrata, entre outras) de uma determinada amostra. Em resumo: os dados univariados numéricos
nascem de observações que se convertem em números. Já os dados univariados categorizados originam-se de
observações não numéricas e que podem ser colocadas em categorias.
Mas será mesmo que nossas futuras análises deverão ser feitas apenas com base em dados univariados?
Felizmente, a resposta é não. O maior interesse estatístico estará focado na diversidade de elementos e, neste
sentido, Manly e Alberto (2019) nos oferecem um conceito importante: uma análise multivariada é reconhecida
por agrupar diversas variáveis relacionadas simultaneamente, todas consideradas igualmente importantes, pelo
menos inicialmente. O valor potencial dessa abordagem pode ser notado por meio de um exemplo assim
Aula 1
DADOS UNIVARIADOS E MULTIVARIADOS: CONCEITOS E
APLICAÇÕES
Apresentação da diferença entre dados univariados e multivariados, conceituação e exemplos.
Discussão sobre os princípios gerais para adoção de cada abordagem de análise em conjuntos de
dados, apresentando a possibilidade de adoção das duas.
Demonstração dos conceitos de causalidade, correlação e interação entre variáveis em conjuntos
de dados multivariados: exemplos com R.
40 minutos
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 2/19
narrado pelos autores: no ano de 1898 uma forte tempestade debilitou grande quantidade de pardais, que
foram levados ao laboratório biológico de Hermon Bumpus, em uma universidade americana. No entanto, nem
todos chegaram vivos ao laboratório e o cientista pôs-se a extrair e analisar algumas medidas dos pardais a �m
de analisar as causas das suas mortes.
A partir dos dados que obteve, Bumpus concluiu que “os pássaros que morreram, morreram não por acidente,
mas porque eles eram �sicamente desquali�cados, e que os pássaros que sobreviveram, sobreviveram porque
possuíam certas características físicas”. O cientista concluiu também que “o processo de eliminação seletiva é
mais severo com indivíduos com variações elevadas em relação aos valores médios de medidas, não
importando em qual direção a variação possa ocorrer. Em outras palavras, é tão perigoso estar acima de um
certo padrão de excelência orgânica quanto estar muito abaixo dele.
Se entendermos as medidas dos pássaros como variáveis de interesse em nossa análise e a considerarmos
como nossos dados multivariados, algumas questões emergirão, ainda segundo Manly e Alberto (2019):
1. Como estão relacionadas as várias variáveis? Por exemplo, um valor grande para uma das variáveis tende a
ocorrer com valores grandes para as outras variáveis?
2. Os sobreviventes e os não sobreviventes apresentam diferenças estatisticamente signi�cantes para seus
valores médios das variáveis?
3. Os sobreviventes e não sobreviventes mostram quantidades similares de variação para as variáveis?
Agora que conhecemos as diferenças entre dados univariados e multivariados, poderemos tratar das análises
aplicadas a cada um deles.
VIDEOAULA: APRESENTAÇÃO DA DIFERENÇA ENTRE DADOS UNIVARIADOS E
MULTIVARIADOS, CONCEITUAÇÃO E EXEMPLOS
Qual o per�l de acontecimento que pode ser passível de uma análise multivariada? Quais dados podem ser
tornar aptos a compô-la? Neste vídeo trataremos de mais dois exemplos de medições que resultaram em dados
multivariados.
PRINCÍPIOS GERAIS PARA ADOÇÃO DE CADA ABORDAGEM DE ANÁLISE EM UM
CONJUNTO DE DADOS
Conforme tratamos no bloco anterior, dados univariados e multivariados estão relacionados à quantidade de
características ou aos atributos relacionados ao fenômeno que se observa. Um dado univariado é aquele
derivado de observações de apenas uma única característica deste fenômeno. Contudo, se uma análise se
basear em múltiplas variáveis relacionadas em determinado contexto, então estaremos diante de um cenário
de dados multivariados.
Como você já observou, a menção a “análise” frequentemente aparece associada aos conceitos que
apresentamos e isso não acontece por acaso. Sem a devida análise, os dados univariados ou multivariados
soariam como meros elementos factuais e, portanto, desprovido de contexto. Neste bloco nos ocuparemos com
algumas análises associadas a estes dados, com foco nas análises multivariadas, reconhecidamente mais
relevantes na criação de conhecimento e no embasamento das tomadas de decisões por parte das
organizações.
Antes de prosseguirmos será necessário revisitarmos outro conceito. De acordo com Hair et al. (2009), análise
multivariada se refere a todas as técnicas estatísticas que simultaneamenteAcesso em 1 jan.
2022.
GLEN, S.; Multicollinearity: De�nition, Causes, Examples. StatisticsHowTo.com: Elementary Statistics for the
rest of us! Disponível em: https://www.statisticshowto.com/multicollinearity/.  Acesso em: 2 jan. 2022.
KHAN ACADEMY. Revisão sobre variáveis dependentes e independentes.  Disponível em:
https://pt.khanacademy.org/math/pre-algebra/pre-algebra-equations-expressions/pre-algebra-dependent-
independent/a/dependent-and-independent-variables-
review#:~:text=A%20vari%C3%A1vel%20dependente%20%C3%A9%20o,voc%C3%AA%20gasta%20com%20os%2
0cookies.  Acesso em 1 jan. 2022.
MANLY, B. F. J., ALBERTO, J. A. N.; Métodos Estatísticos Multivariados: uma introdução. 4ª. ed. Porto Alegre:
Bookman, 2019.
REFERÊNCIAS
7 minutos
https://adenilsongiovanini.com.br/blog/variaveis-visuais-o-que-sao-e-para-que-servem/
https://www.abs.gov.au/websitedbs/D3310114.nsf/home/statistical+language+-+correlation+and+causation
http://www.de.ufpb.br/~tarciana/MPIE/ApostilaR.pdf
https://medium.com/omixdata/estat%C3%ADstica-an%C3%A1lise-de-regress%C3%A3o-linear-e-an%C3%A1lise-de-regress%C3%A3o-log%C3%ADstica-com-r-a4be254df106
https://pt.khanacademy.org/math/statistics-probability/describing-relationships-quantitative-data/introduction-to-trend-lines/a/linear-regression-review
https://support.minitab.com/pt-br/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/what-are-categorical-discrete-and-continuous-variables/
https://delphipages.live/pt/diversos/collinearity-statistics
https://www.statisticshowto.com/multicollinearity/
https://pt.khanacademy.org/math/pre-algebra/pre-algebra-equations-expressions/pre-algebra-dependent-independent/a/dependent-and-independent-variables-review#:~:text=A%20vari%C3%A1vel%20dependente%20%C3%A9%20o,voc%C3%AA%20gasta%20com%20os%20cookies
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 19/19
MONTGOMERY, D. C., PECK, E. A., VINING, G. G.; Introduction to Linear Regression Analysis. New Jersey:
Wiley, 2012.
OLIVEIRA, B. Análise Fatorial: uma importante técnica multivariada. Disponível em:
https://operdata.com.br/blog/analise-fatorial/.  Acesso em 31 dez. 2021.
YAMASHITA, G. H.  Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de
medicamentos. 2015. Dissertação (Mestrado em Engenharia de Produção). Programa de Pós-Graduação em
Engenharia de Produção da Universidade Federal do Rio Grande do Sul, 2015.  Disponível em
https://www.lume.ufrgs.br/bitstream/handle/10183/118834/000969149.pdf?sequence=1&isAllowed=y. Acesso
em 31 dez. 2021.
Aula 4
FAST, K. Information visualization: failed experiment or future revolution? In: 5th Annual Information
Architecture Summit. Austin, Texas: [s.n.], 2004.
GIOVANINI, A. Variáveis visuais: o que são e para que servem? Disponível em:
https://adenilsongiovanini.com.br/blog/variaveis-visuais-o-que-sao-e-para-que-servem/. Acesso em: 6 jan. 2022.
INTERACTION DESIGN FOUNDATION. Information visualization: an introduction to multivariate analysis. 2017.
Disponível em: https://www.interaction-design.org/literature/article/information-visualization-an-introduction-
to-multivariate-analysis. Acesso em: 6 jan. 2022.
MAITINO NETO, R. Visualização tridimensional de programas orientados a objetos. 2006. Dissertação
(Mestrado em Ciência da Computação) – Fundação Eurípides Soares da Rocha, Marília, 2006
NASCIMENTO, H. A. D.; FERREIRA, C. B. R. Uma introdução à visualização de informações. Visualidades.
Goiânia, v. 9, n. 2, p. 13-43, jul-dez. 2011.
RUSS, J. C. The image processing handbook. 4. ed. New York: CRC Press, 2002.
https://operdata.com.br/blog/analise-fatorial/
https://www.lume.ufrgs.br/bitstream/handle/10183/118834/000969149.pdf?sequence=1&isAllowed=y
https://adenilsongiovanini.com.br/blog/variaveis-visuais-o-que-sao-e-para-que-servem/
https://www.interaction-design.org/literature/article/information-visualization-an-introduction-to-multivariate-analysisanalisam múltiplas medidas sobre
indivíduos ou objetos sob investigação. Em outras palavras, qualquer análise simultânea de mais do que duas
variáveis pode ser considerada multivariada, com a ressalva de que todas as variáveis devem ser aleatórias
inter-relacionadas, de modo que seus diferentes efeitos não possam ser interpretados de forma separada.
 Por outro lado, análises aplicadas a distribuições (ou características) de uma única variável constitui o conceito
de análise univariada. Algo a ser registrado aqui é que muitas técnicas multivariadas são extensões da análise
univariada. A regressão simples, por exemplo, é estendida no caso multivariado para incluir diversas variáveis.
De forma análoga, a variável única encontrada na análise de variância é estendida para incluir múltiplas
variáveis dependentes em uma análise multivariada de variância (HAIR et al., 2009).
Videoaula: Apresentação da diferença entre dados univariados e multivariados, conceituação e exemplos
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 3/19
Usaremos a partir daqui alguns exemplos que nos ajudarão no entendimento da aplicação de uma análise
multivariada. Para isso, nos apoiaremos em um conceito muito importante: a escala de medida. É a utilização de
uma medida previamente determinada que possibilitará ao pesquisador identi�car as variações de seu
interesse nos fenômenos estudados.
As escalas de medidas não-métricas indicam a ausência ou presença de uma determinada característica no
objeto de estudo e utilizaremos a escala ordinal – um tipo de escala não-métrica – para apresentarmos o
seguinte exemplo: um pesquisador deseja conhecer os diferentes níveis de satisfação dos consumidores em
relação a diversos novos produtos e, na construção da sua análise, usou a escala ordinal, conforme ilustrado na
Figura 1.
Figura 1 | Representação do nível de satisfação do consumidor em relação a três produtos
Fonte: adaptada de Hair et al., 2009.
A medição da satisfação do cliente em uma escala ordinal signi�ca classi�car a ordem dos produtos com base
no nível de satisfação do cliente. Com base em suas posições na escala – nisso reside a ideia de ordenação –,
sabemos que o Produto A está mais bem classi�cado do que o Produto B e do que o Produto C.
Esta é apenas uma forma (bem simples, aliás) de se fazer uma análise deste tipo e no vídeo deste bloco teremos
oportunidade de conhecermos algumas outras. O próximo bloco nos oferecerá conceitos de relações,
correlação e causalidade entre conjuntos de variáveis.
VIDEOAULA: PRINCÍPIOS GERAIS PARA ADOÇÃO DE CADA ABORDAGEM DE
ANÁLISE EM UM CONJUNTO DE DADOS
Além da escala ordinal, muitas outras podem ser usadas como elementos de medição nas análises
multivariadas. Neste vídeo teremos contato com as escalas nominal e intervalar, na condição de tipos
representantes das escalas de medidas não-metricas. Além disso, o vídeo abordará as escalas de medidas
métricas.
DEMONSTRAÇÃO DOS CONCEITOS DE CAUSALIDADE, CORRELAÇÃO E
INTERAÇÃO ENTRE VARIÁVEIS EM CONJUNTOS DE DADOS MULTIVARIADOS:
EXEMPLO COM R
Chegamos ao terceiro bloco da nossa aula e o conhecimento que construímos sobre dados e análises
multivariadas já nos permite avançarmos mais um pouco em direção a outros conceitos importantes. Embora
em blocos anteriores sempre tenhamos tratado as variáveis de uma análise como entes intimamente
relacionados, não tivemos a oportunidade de abordar os fenômenos capazes criar este relacionamento.
Trataremos daqui em diante de relacionamento entre variáveis, correlação e causalidade.
Segundo Statistical (s.a.), duas ou mais variáveis são consideradas relacionadas, em um contexto estatístico, se
os seus valores mudam de forma vinculada, ou seja, na medida que o valor de uma variável aumenta ou
diminui, o valor da outra variável também muda, ainda que na direção oposta. Por exemplo, para as variáveis
"horas trabalhadas" e "rendimento conquistado", existirá uma relação entre as duas se o aumento nas horas
trabalhadas estiver associado a um aumento nos rendimentos conquistados. Em outro exemplo, se
considerarmos as duas variáveis "preço" e "poder de compra", à medida que o preço dos bens aumenta, a
capacidade de uma pessoa de comprar esses bens diminui. Simples, não é mesmo?
Já a correlação é uma medida estatística – expressa como um número – que descreve o tamanho e a direção de
uma relação entre duas ou mais variáveis. Uma correlação entre variáveis, entretanto, não signi�ca
automaticamente que a mudança em uma variável é a causa da mudança nos valores da outra variável. Por sua
Videoaula: Princípios gerais para adoção de cada abordagem de análise em um conjunto de dados
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 4/19
vez, a causalidade indica que um evento é o resultado da ocorrência do outro evento. Em outras palavras, existe
uma relação causal entre os dois eventos e isso também é conhecido como causa e efeito.
Teoricamente, a diferença entre os dois tipos de relacionamento é fácil de identi�car: uma ação ou ocorrência
pode causar outra (por exemplo, fumar provoca um aumento no risco de desenvolver câncer de pulmão) ou
pode estar correlacionada a outra (por exemplo, fumar está relacionado ao alcoolismo , mas não causa
alcoolismo).
Destas considerações se origina uma questão: por que a correlação e a causalidade são importantes em nosso
contexto? Bem, o objetivo de muitas pesquisas ou análises cientí�cas é o de identi�car até que ponto uma
variável se relaciona com outra variável. Tomemos as seguintes situações como exemplos:
Existe relação entre o nível de escolaridade de uma pessoa e sua saúde?
A campanha de marketing de uma empresa aumentou as vendas de seus produtos?
De fato, um pesquisador tenta identi�dar, por meio destas questões, se existe uma correlação entre as duas
variáveis e, em havendo, se ela pode orientar pesquisas adicionais para investigar se uma ação causa a outra. A
compreensão da correlação e a causalidade permite que políticas e programas que visam trazer o resultado
desejado sejam mais bem direcionados pelas organizações (AUSTRALIAN BUREAU OF STATISTICS, [s. d.].
Antes de �nalizarmos este bloco vale a pena termos contato com o comando em R, que retorna a correlação
entre dois conjuntos de dados. Por meio deste comando, teremos a oportunidade de desenvolvermos um
pequeno exemplo que começa com a criação de dois conjuntos de dados, respectivamente os vetores x e y
(SOUZA et al., [s. d.]):
xà reformulação das suas páginas, mas providências com
embasamento cientí�co, que implementem processos de coleta de dados, aplicações de análises e extração de
correlações entre certos eventos associados às vendas.
Por causa da sua boa desenvoltura em análise exploratória de dados, o projeto acabou �cando sob sua
responsabilidade, mas com a seguinte ressalva: um planejamento consistente, que envolvesse a plena
compreensão dos assuntos por parte da diretoria, deveria ser desenvolvido antes de qualquer ação efetiva.
Além disso, �cou claro na reunião de lançamento do projeto que todos os envolvidos deveriam compreender
como os elementos básicos de análise multivariada e de correlação poderiam ser aplicados no projeto.
Videoaula: Demonstração dos conceitos de causalidade, correlação e interação entre variáveis em conjuntos de dados multivariados:
exemplo com R
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 5/19
Assim, passados dez dias da reunião do lançamento, você deverá se reunir novamente com os desenvolvedores
do site e explicar a eles como as práticas relacionadas a variáveis multivariadas e correlações entre conjuntos de
dados podem ser aplicadas no projeto. Não se trata, contudo, de revisitar conceitos, mas de esclarecer como
eles poderão ser úteis no projeto. Com base nesta necessidade, sua missão aqui é a de preparar um breve
relatório que forneça indicações de (i) como as variáveis multivariadas, (ii) as análises que podem ser aplicadas
sobre elas e (iii) a correlação entre variáveis poderão ser utilizadas para os �ns da empreitada. Desa�o aceito?
Mãos à obra!
RESOLUÇÃO DO ESTUDO DE CASO
Segundo o exposto no Estudo de Caso, você foi designado responsável por um projeto que visa aumentar as
vendas feitas pelo site da empresa em que atua, com o uso de análise de dados, e a primeira missão a você
atribuída foi a de explicar aos desenvolvedores como certos elementos da análise exploratória de dados podem
ser usados para atingimento deste objetivo.
Em primeiro lugar, seu relatório deverá esclarecer que existem vários aspectos ou variáveis que impactam as
vendas e que elas só podem ser encontradas com a análise multivariada. E na maioria dos casos, não será
apenas uma variável. Assim, a análise multivariada servirá para fornecer indicações de desempenho de vários
aspectos da venda, incluindo categoria do produto, esforço de marketing, presença da marca no mercado,
análise da concorrência, custo do produto e várias outras variáveis. Não se esqueça de reforçar a ideia de que a
análise multivariada faz parte da análise exploratória de dados e, com base nela, será possível ter uma visão
mais profunda de diversas variáveis.
A correlação entre variáveis pode ser utilizada como meio de avaliar se uma correlação entre duas ou mais
variáveis do problema estabelecem uma correlação. Como exemplo, pode ser mencionada a alteração nas
vendas sempre que a temperatura cai bruscamente ou que o preço dos combustíveis aumentam. Havendo
correlação evidente entre variáveis, o grupo poderá implementar ações apontem para o resultado desejado.
 Saiba mais
As indicações que seguem colocarão você em contato com material adicional com conteúdo interessante
relacionado ao que tratamos nesta aula.
Um documento de leitura rápida e de fácil compreensão sobre correlação e causalidade está disponível
em: https://medium.com/@felipemaiapolo/correla%C3%A7%C3%A3o-n%C3%A3o-implica-em-causalidade-
8459179ad1bc. Acesso em: 12 de dez. de 2021.
Um resumo bastante interessante das principais técnicas de análise multivariada está disponível em:
https://operdata.com.br/blog/analise-multivariada/. Acesso em: 12 de dez. de 2021.
Resolução do Estudo de Caso
Para visualizar o objeto, acesse seu material digital.
INTRODUÇÃO
Aula 2
MODELOS LINEARES E SUAS APLICAÇÕES PARA
AVALIAÇÃO DE EFEITOS DE VARIÁVEIS
Princípios gerais de modelos lineares para variáveis de diferentes distribuições: aditividade e
independência entre observações.
Discussão das regressões lineares para avaliação de diferenças entre categorias de observações:
exemplo com R.
Apresentação das regressões lineares para avaliação de efeitos de variáveis contínuas: exemplo
com R.
38 minutos
https://medium.com/@felipemaiapolo/correla%C3%A7%C3%A3o-n%C3%A3o-implica-em-causalidade-8459179ad1bc
https://operdata.com.br/blog/analise-multivariada/
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 6/19
Olá! Aqui estamos em mais um encontro de Análise Exploratória de Dados, e o nosso foco agora se volta para
modelos lineares, mais especi�camente para a regressão linear simples. Você já se perguntou como alguns
estudiosos conseguem prever determinadas tendências ou situações futuras, dado um conjunto de dados? Pois
bem, essas previsões são o que as análises de regressões lineares produzem, além da descoberta de padrões e
relacionamentos entre variáveis. A execução de uma análise de dados de compra e venda pode ajudar um
gestor, por exemplo, a descobrir padrões especí�cos nos costumes dos clientes.
Conforme já introduzido, nesta aula trataremos dos princípios gerais de modelos lineares e nossos exemplos
serão direcionados, sempre que possível, para resolução com os recursos da linguagem R. Fique conosco e
prepare-se para grandes descobertas!
PRINCÍPIOS GERAIS DE MODELOS LINEARES PARA VARIÁVEIS DE DIFERENTES
DISTRIBUIÇÕES: ADITIVIDADE E INDEPENDÊNCIA ENTRE OBSERVAÇÕES
É bem provável que o primeiro pensamento que se manifesta em uma pessoa que ainda não estudou ou
trabalhou com análises baseadas em modelos lineares seja aquele do tipo que questiona a aplicação prática
deste conteúdo. A�nal, modelos lineares parecem estar sempre associados a fórmulas complicadas e a grá�cos
quase incompreensíveis para um iniciante e esta percepção tende a tornar distante um eventual uso relevante
deste conceito. Contudo, isso não é verdade, pois existem muitos problemas práticos do mundo real (e em
muitas disciplinas diferentes) em que a análise usando modelos lineares é apropriada.
Antes de nos aventurarmos em nosso primeiro exemplo, vale a menção ao conceito de modelos lineares, com a
devida ressalva de que eles também serão identi�cados como modelos lineares generalizados. De acordo com
Dunteman e Ho (2006), trata-se de generalizações do modelo de regressão linear clássico. O modelo de
regressão linear clássico assume que a variável dependente é uma função linear de um conjunto de variáveis
independentes e que a variável dependente é contínua e normalmente distribuída com variância constante. As
variáveis independentes podem ser contínuas, categóricas ou uma combinação de ambas. A regressão múltipla,
a análise de variância e a análise de covariância são exemplos de modelos lineares clássicos.
O exemplo que segue foi proposto por Searle e Gruber (2017) e nos ajudará a melhor entender o conceito:
suponha que consideremos as despesas de consumo pessoal (Y) em bilhões de dólares como uma função do
Produto Interno Bruto (X), coletadas de 2005 até 2014, nos Estados Unidos. Os dados foram colocados no
Quadro 1:
Quadro 1 | PIB versus consumo
Ano X Y
2005 13.093,00 8.794,00
2006 13.855,00 9.304,00
2007 14.477,00 9.750,00
2008 14.718,00 10.013,00
2009 14.418.00 9.847,00
2010 14.964,00 10.202,00
2011 15.517,00 10.689,00
2012 16.163,00 11.083,00
2013 16.768,00 11.484,00
2014 17.420,00 11.928,00
Fonte: adaptado de Searle e Gruber (2017).
Utilizando o pacote ggplot2, do R, é possível gerar o grá�co de dispersão que se observa na Figura 1:
Figura 1 | Grá�co de dispersão com PIB e consumo pessoal
15/03/23, 00:10 wlldd_212_u3_ana_exp_dadhttps://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 7/19
Fonte: adaptada de Searle e Gruber (2017).
O grá�co de dispersão sugere que um modelo de linha reta (ou straight-line model), efetivado pela equação
, pode ser apropriado para o caso em questão. Com alguma facilidade, é possível traçar uma linha
reta entre os pontos que representam a dispersão e grande parte da variação observada poderá se ajustar a
ela.
O modelo de regressão linear – usado neste exemplo – é adequado para mostrar ou prever a relação entre duas
variáveis ou fatores. Um outro exemplo possível é a análise da relação entre as notas dos alunos e o tempo que
dedicaram aos estudos. A relação pode te surpreender! No próximo bloco trataremos das regressões lineares
com mais detalhes.
VIDEOAULA: PRINCÍPIOS GERAIS DE MODELOS LINEARES PARA VARIÁVEIS DE
DIFERENTES DISTRIBUIÇÕES: ADITIVIDADE E INDEPENDÊNCIA ENTRE
OBSERVAÇÕES
Você sabe como construir um grá�co de dispersão no R? Por meio do desenvolvimento de um exemplo simples,
mostraremos com importar um conjunto de dados e, por meio dele, criar um grá�co de dispersão com poucos
comandos.
DISCUSSÃO DAS REGRESSÕES LINEARES PARA AVALIAÇÃO DE DIFERENÇAS
ENTRE CATEGORIAS DE OBSERVAÇÕES
Depois de conhecermos os princípios gerais dos modelos lineares, é chegada a hora de tratarmos com mais
detalhes da regressão linear, mencionada no primeiro bloco. Uma relação expressa em um grá�co (ou
diagrama) de dispersão oferece a possibilidade de se traçar uma reta que irá, idealmente, se ajustar aos pontos
nele colocados. Além de oferecer um resumo da relação entre os dados, essa reta nos ajuda a fazer previsões a
partir destes mesmos dados. Esse processo, segundo Khan Academy [s. d.], é chamado de regressão linear.
A regressão linear tenta modelar a relação entre duas variáveis ajustando uma equação linear aos dados
observados. Uma das variáveis é chamada explanatória e a outra é conhecida como variável dependente. Antes
de tentar ajustar um modelo linear aos dados observados, o cientista de dados ou estatístico deve determinar
se há relação signi�cativa entre as variáveis de interesse, não necessariamente uma relação de causa e efeito.
Um grá�co de dispersão – conforme aquele exibido na Figura 1 – certamente será uma ferramenta útil para
determinar a força da relação entre as duas variáveis. Se, no entanto, não houver associação entre as variáveis
explanatória e a dependente propostas, o grá�co de dispersão não indicará nenhuma tendência crescente ou
decrescente, então o ajuste de um modelo de regressão linear aos dados provavelmente não fornecerá um
modelo útil.
Você se lembra da equação que mencionamos no primeiro bloco? Pois bem, uma linha de regressão linear tem
uma equação da forma , onde x é a variável explanatória e y é a variável dependente. A inclinação
da linha é b e a corresponde a interceptação, ou seja, o valor de y quando  x=0. Segundo Dunteman e Ho (2006)
Por meio dele é calculada a linha de melhor ajuste para os dados observados, minimizando a soma dos
quadrados dos desvios verticais de cada ponto de dados para a linha. Se um ponto estiver exatamente na linha
ajustada, então seu desvio vertical é 0.
y = a + bx
Videoaula: Princípios gerais de modelos lineares para variáveis de diferentes distribuições: aditividade e independência entre observações
Para visualizar o objeto, acesse seu material digital.
y = a + bx
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 8/19
Feitas estas considerações, é chegado o momento de desenvolvermos nosso exemplo. O conjunto de dados
formado por “televisores, médicos e expectativa de vida" contém, entre outras variáveis, o número de pessoas
por aparelho de televisão e o número de pessoas por médico em 40 países. Uma vez que ambas as variáveis
provavelmente re�etem o nível de riqueza de cada país, é razoável supor que haja alguma associação positiva
entre elas.
Depois de remover oito países com valores ausentes do conjunto de dados, os 32 países restantes apresentam
um coe�ciente de correlação de 0,852 para número de pessoas por aparelho de televisão e número de pessoas
por médico. O valor do r2 é 0,726 (o quadrado do coe�ciente de correlação), indicando que 72,6% da variação
de uma variável pode ser explicada pela outra. Suponha que optemos por considerar o número de pessoas por
aparelho de televisão como a variável explicativa e o número de pessoas por médico como a variável
dependente.
Destas relações textualmente expressas, extrai-se a seguinte equação de regressão:
, conforme o formato geral .
No próximo bloco continuaremos nossa abordagem de regressão linear.
VIDEOAULA: DISCUSSÃO DAS REGRESSÕES LINEARES PARA AVALIAÇÃO DE
DIFERENÇAS ENTRE CATEGORIAS DE OBSERVAÇÕES
Neste bloco mencionamos o método dos mínimos quadrados como forma mais utilizada para se ajustar uma
linha de regressão. Neste vídeo trataremos deste método com um pouco mais de detalhes.
APRESENTAÇÃO DAS REGRESSÕES LINEARES PARA AVALIAÇÃO DE EFEITOS DE
VARIÁVEIS CONTÍNUAS: EXEMPLO COM R
Chegamos ao último bloco desta nossa aula e, para bem cumpri-lo, usaremos todos as informações com as
quais tivemos contato nos blocos anteriores. Uma das boas publicações sobre regressão linear apresenta o
seguinte resumo: a análise de regressão linear é usada para prever o valor de uma variável com base no valor
de outra. A variável que deseja prever é chamada de variável dependente. A variável que é usada para prever o
valor de outra variável é chamada de variável independente
A variável independente você a conhece como explanatória, mas também pode ser encontrada como
explicativa. Sabemos que a regressão linear usa uma reta que atenua as discrepâncias entre os valores obtidos
e os previstos, e que o método dos mínimos quadrados é usado para se descobrir a linha de melhor ajuste para
determinado conjunto de dados. Isto posto, avançamos em direção à abordagem de variáveis discretas e
contínuas no contexto da regressão linear.
Para embasamento do nosso estudo, as variáveis discretas são expressas numericamente e possuem
quantidade contável de valores entre quaisquer de seus dois valores. O número de comentários positivos em
um site ou número de exibições de um vídeo são exemplos de grandezas expressas em variáveis discretas. As
variáveis contínuas, por sua vez, são variáveis numéricas que têm um número in�nito de valores entre dois
valores quaisquer e que podem ser expressas em valores numéricos ou de data/hora, por exemplo. Pense no
intervalo entre dois acessos do cliente a um site: este intervalo terá uma precisão potencialmente in�nita já que,
a rigor, toda mínima fração de tempo pode ser considerada na medida, o que a torna compatível com uma
variável contínua.
Mesmo sem menção explícita, temos abordado a utilização de variáveis discretas em nossos exemplos de
regressão linear. No entanto, se uma variável originalmente discreta puder assumir uma quantidade muito
grande de valores, então caberá a decisão de tratá-la como uma variável contínua. De acordo com Minitab [s.
d.], tratar um preditor como uma variável contínua implica que uma função linear ou polinomial simples poderá
descrever a relação entre a resposta e o preditor. No entanto, ao tratar um preditor como uma variável
categórica, um valor de resposta distinto é ajustado a cada nível da variável, independentemente da ordem dos
níveis preditores. A situação que se apresenta para análise é o fator que determinará a decisão a ser tomada.
Antes de desenvolvermos nosso exemplo, alguns destes termos precisam ser conceituados. As variáveis
medidas em um experimento são as variáveis de resposta. As outras variáveis do experimento que afetam a
resposta são chamadaspreditoras, explicativas ou independentes. Por �m, as variáveis categóricas contêm um
PessoasPorMedicos = 1019 + 56, 2.PessoasPorTelevisor y = a + bx
Videoaula: Discussão das regressões lineares para avaliação de diferenças entre categorias de observações
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLORA… 9/19
número �nito de categorias ou grupos distintos. Os dados categóricos podem não ter uma ordem lógica e os
preditores categóricos podem incluir gênero, tipo de material e método de pagamento, por exemplo.
Feitas essas considerações, iniciamos aqui o desenvolvimento de um exemplo na linguagem R, segundo
Guimarães (2019). Com a função data.frame() atribuiremos valores à variável de resposta y e à variável
independente x, como segue:
dadosde modo a evitar que a interpretações isoladas dessas variáveis sejam feitas.  Atuando em
combinação em essas técnicas, existem outras que procuram fornecer meios de se lidar com grandes
quantidades de dados e, dentre elas destacam-se a Análise de Componentes Principais e a Análise de Fatores,
ambas conceituadas na sequência.
Aula 3
PRINCÍPIOS GERAIS DE SELEÇÃO DE VARIÁVEIS: QUAIS
VARIÁVEIS SÃO IMPORTANTES?
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut vehicula sapien metus. Aenean leo
massa, aliquet vel hendrerit vitae, convallis id enim.
27 minutos
https://pt.khanacademy.org/math/statistics-probability/describing-relationships-quantitative-data/introduction-to-trend-lines/v/fitting-a-line-to-data
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 11/19
A Análise de Componentes Principais foi desenvolvida para reduzir o número de variáveis que necessitam ser
consideradas a uma quantidade menor de índices (chamados de componentes principais), que são
combinações lineares das variáveis originais.  De acordo com Manly e Alberto (2019), a Análise de Componentes
Principais nem sempre funciona como se espera, já que uma grande quantidade de variáveis originais é
reduzida a um pequeno número de variáveis transformadas. De fato, se as variáveis originais são não
correlacionadas, então a análise não chega a lugar algum. No entanto, ótimos resultados são obtidos quando as
variáveis originais são altamente correlacionadas.  Se este for o caso, então é bastante plausível que vinte ou
mais variáveis originais possam ser adequadamente representadas por dois ou três componentes principais,
ainda mais se considerarmos as prováveis redundâncias do conjunto original. Se este estado desejável de
relações de fato ocorre, então os componentes principais importantes serão de algum interesse como medidas
das dimensões subjacente aos dados. 
Ainda de acordo com Manly e Alberto (2019), a Análise de Fatores (ou Análise Fatorial) também tem como
objetivo estudar a variação em uma quantidade de variáveis originais usando quantidade menor de variáveis
índices ou fatores.  Ao usar esta técnica, assume-se que cada variável original possa ser expressa como uma
combinação linear desses fatores, mais um termo residual que re�ete o quanto a variável é independente das
outras variáveis.  Oliveira (2019) explica que esta técnica tem o objetivo de de�nir, em um cenário com muitas
variáveis, conjuntos fortemente relacionados, chamados fatores.  Com o uso dos fatores busca-se resumir as
diversas variáveis em um conjunto menor de dimensões, com uma perda mínima de informação.
No próximo bloco trataremos com mais detalhes sobre correlações entre variáveis. Fique com a gente!
VIDEOAULA: DEFINIÇÃO DO CONCEITO E EXPOSIÇÃO DA IMPORTÂNCIA DE
SELEÇÃO DE VARIÁVEIS, PRINCIPALMENTE EM CONJUNTOS DE DADOS
EXTENSOS
Neste primeiro bloco abordamos duas das principais técnicas de análise multivariada e, neste vídeo,
desenvolveremos exemplos que envolvem a utilização de ambas as técnicas.
DEFINIÇÃO, SITUAÇÕES DE USO E IMPACTO DE CORRELAÇÕES E
COLINEARIDADE ENTRE VARIÁVEIS
Iniciamos aqui o segundo bloco deste nosso encontro ainda com o foco nas variáveis da análise.  De modo mais
especí�co, trataremos dos níveis de relacionamento entre elas e, neste contexto, os termos “correlação” e
“colinearidade” emergem.  Antes, porém, de abordarmos diretamente estes termos, vale um reforço na ideia de
dependência entre variáveis e, para isso, usaremos os conceitos e um exemplo adaptado de Khan Academy
(s.a.).
Uma variável independente é aquela que representa uma grandeza que está sendo manipulada em um
experimento.  Este conceito soa bastante genérico, não é mesmo?  Pois um exemplo irá nos ajudar: uma criança
realiza tarefas para ganhar a mesada e, a cada tarefa realizada, ela ganha R$2,00.  Neste caso, a variável
independente é a quantidade de tarefas que ela realiza, já que a criança a tem sob seu controle.  Em outras
palavras, ela pode realizar quantas tarefas quiser, inclusive nenhuma.  Já a variável dependente é aquela que
representa uma grandeza cujo valor depende de como a variável independente é manipulada.  Aproveitando a
mesma situação, temos que a variável dependente é a quantia que a criança ganha, que é dependente de
quantas tarefas ela realiza.
Feitas estas considerações, estamos preparados para uma de�nição importante: a colinearidade ocorre quando
há forte correlação entre variáveis preditoras (ou variáveis independentes), de modo que expressem uma
relação linear em um modelo de regressão.  Neste caso, uma variável preditora pode ser usada para predizer
outra.  Quando variáveis preditoras no mesmo modelo de regressão são correlacionadas, elas não podem
prever independentemente o valor da variável dependente.  Em outras palavras, eles explicam parte da mesma
variância na variável dependente, o que, por sua vez, reduz sua signi�cância estatística (COLINEARIDADE, 2020).
Embora este conceito seja válido e útil, é muito comum que duas ou mais variáveis preditoras estejam sob
análise e que sejam veri�cadas correlações entre elas.  Neste caso, estaremos diante do conceito de
multicolinearidade. Alguns exemplos de variáveis preditoras correlacionadas (também chamadas de preditoras
Videoaula: De�nição do conceito e exposição da importância de seleção de variáveis, principalmente em conjuntos de dados extensos
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 12/19
multicolineares) incluem altura e peso de uma pessoa, idade e preço de venda de um carro ou anos de
educação e renda anual.
A colinearidade se torna uma preocupação na análise de regressão quando há uma alta correlação entre duas
variáveis preditoras potenciais, e este fato prepara o caminho para tratarmos da correlação.  A�nal, é ela que
serve de base para o entendimento do problema e seu conceito nos remete ao grau de interdependência entre
duas ou mais variáveis.  Simples, não é? No entanto, há ainda uma questão a ser abordada: é possível medir o
quão correlacionadas são duas variáveis?  Essa “força” de associação é dada pelo coe�ciente de correlação, que
mede a direção e o grau de associação linear entre as variáveis. Valores próximos de -1 ou +1 indicam forte
associação e valores próximos de zero indicam pouca associação. O sinal do coe�ciente indica se a associação é
positiva (Y aumenta com o aumento de X) ou negativa (Y decresce com o aumento de X).
No próximo bloco deslocaremos nosso foco para os critérios de seleção das variáveis.
VIDEOAULA: DEFINIÇÃO, SITUAÇÕES DE USO E IMPACTO DE CORRELAÇÕES E
COLINEARIDADE ENTRE VARIÁVEIS
Neste vídeo serão desenvolvidos exemplos de colinearidade entre variáveis e em quais situações ela se torna
prejudicial a análise.
APLICAÇÃO DE CRITÉRIOS DE SELEÇÃO DE VARIÁVEIS BASEADO EM
CORRELAÇÃO E OUTRAS MÉTRICAS (COMO VIF)
Como sabemos, a multicolinearidade ocorre quando há correlação entre variáveis preditoras (ou
independentes) em um modelo sob análise.  O que não mencionamos até o momento é que a
multicolinearidade pode afetar de forma adversa os resultados da regressão.  Conforme Glen (2015), é mais
comum a multicolinearidade agir negativamente em estudos observacionais do que com dados experimentais.
Quando a condição está presente, pode resultar em estimativas de regressão instáveis e não con�áveis.  A
multicolinearidade prejudicial pode ser causada por fatores que incluem:
• Dados insu�cientes: em alguns casos, coletar mais dados pode resolver o problema.
• Inclusão de dados combinados: um pesquisador pode incluir na regressão uma variável que, na verdade, é
umacombinação de duas outras variáveis. Ele pode, por exemplo, incluir na análise a “receita total de
investimento”, quando, na verdade, esta variável é expressa pela receita de ações e títulos, mais a receita de
juros de poupança.
• Inclusão de dados muito semelhantes: o exemplo, neste caso, seria incluir o peso em libras e o peso em
quilos em uma análise.
Além desses fatores, é possível que exista razão plausível para restrição do modelo.  Imaginemos que um
modelo se proponha a avaliar o consumo de energia elétrica de uma família em função da renda desta família e
do tamanho da sua casa.  Neste caso, haverá uma restrição física, pois famílias com maiores casas têm maior
renda, normalmente.
No entanto, existem formas de se detectar a multicolinearidade nas variáveis da análise de regressão e que
acabam funcionando como critérios de seleção para essas variáveis.  Uma destas técnicas é conhecida como VIF
(Variance In�ation Factor ou Fator de In�ação da Variância) e sua função é a de detectar a multicolinearidade na
análise de regressão.
O VIF estima o quanto a variância de um coe�ciente de regressão é in�ada devido à multicolinearidade no
modelo.  Montgomery, Peck e Vining (2012) ensinam que, estando as variáveis centradas e padronizadas, os
elementos diagonais de uma matriz especí�ca são chamados de fatores de in�ação da variância e representam
o incremento da variância devido à presença da multicolinearidade.
Outra forma de se diagnosticar a multicolinearidade é através da matriz de correlação.  Ela permite avaliar a
existência de multicolinearidade veri�cando se algum par apresenta correlação alta. Porém, quando mais de
dois regressores estão envolvidos na dependência linear, a matriz de correlação não é e�ciente. Os autovalores
Videoaula: De�nição, situações de uso e impacto de correlações e colinearidade entre variáveis
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 13/19
da matriz de correlação podem ser utilizados para diagnosticar a multicolinearidade, neste caso, um autovalor
pequeno em relação aos demais indica um condicionamento ine�caz da matriz (MONTGOMERY; PECK; VINING,
2012).
Este, portanto, foi o conteúdo que queríamos compartilhar com você.  Com o conteúdo abordado nesta aula
pudemos entender o papel das variáveis no contexto da análise multivariada e como escolhas erradas podem
comprometer o sucesso desta análise.  Continue se empenhando nas leituras e nas atividades.
VIDEOAULA: APLICAÇÃO DE CRITÉRIOS DE SELEÇÃO DE VARIÁVEIS BASEADO EM
CORRELAÇÃO E OUTRAS MÉTRICAS (COMO VIF)
Neste vídeo trataremos de situação em que o conjunto de variáveis foi escolhido ou coletado de forma incorreta
e os potenciais efeitos destes erros na análise.
ESTUDO DE CASO
Em nosso último encontro, o Estudo de Caso levou você até o processo seletivo para a vaga de Cientista de
Dados de uma loja virtual importante.  A boa notícia é que seu ótimo desempenho na explicação de como fazer
previsões e estabelecer padrões de venda garantiu sua aprovação no processo.  O tempo passou e novos
desa�os se apresentaram, mas o dono da empresa ainda continuava ávido por informações sobre certos
objetos do seu trabalho.  Recentemente, ao tomar conhecimento de um fenômeno chamado
multicolinearidade, ele chamou você para lhe prestar alguns esclarecimentos. A�nal, como a relação entre
variáveis poderia ser tida como nociva para a precisão das análises que vocês haviam criado juntos?  Se, de fato,
esse fenômeno, deveria ser evitado, como atingir esse objetivo?
Percebendo a importância do momento para seus projetos futuros, você se empenhou mais uma vez nas
explicações.  Seu desa�o, portanto, é o de descrever, em linhas bem objetivas (e sem demasiada carga técnica),
como evitar que a colinearidade cause distorção nos resultados das suas análises.
RESOLUÇÃO DO ESTUDO DE CASO
Mais uma vez você foi desa�ado a fornecer uma explicação simples para um fenômeno relacionado à análise
multivariada de dados, desta vez para a colinearidade.   Apenas para resgatarmos o contexto, a
multicolinearidade torna difícil algumas interpretações e reduz o poder de seu modelo para identi�car variáveis
independentes que são estatisticamente signi�cativas. No entanto, há maneiras simples de se corrigir a
multicolinearidade.
A necessidade de reduzir a multicolinearidade depende da criticidade da análise e os pontos que seguem
devem ser lembrados:
1 - A gravidade do problema aumenta com o grau de multicolinearidade. Portanto, se você for detectada apenas
multicolinearidade moderada, pode não ser necessário resolvê-la.
2 - A multicolinearidade afeta apenas as variáveis independentes especí�cas que são correlacionadas. Portanto,
se a multicolinearidade não estiver presente para as variáveis independentes nas quais se está particularmente
interessado, pode não ser necessário resolvê-la também.
A multicolinearidade afeta os coe�cientes, mas não provoca in�uência negativa nas previsões. Se o objetivo
principal for fazer previsões e não for necessário entender a função de cada variável independente, não será
preciso reduzir a multicolinearidade severa.
Videoaula: Aplicação de critérios de seleção de variáveis baseado em correlação e outras métricas (como VIF)
Para visualizar o objeto, acesse seu material digital.
Resolução do Estudo de Caso
Para visualizar o objeto, acesse seu material digital.
 Saiba mais
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 14/19
Em quais ramos da atividade humana o conceito de multicolinearidade pode ser aplicado?  Bem, a
intenção desta indicação não é mencioná-los todos, mas a de colocar a Economia como uma das áreas
mais bene�ciadas por este estudo.  Para saber mais, acesse
https://www.portaleducacao.com.br/conteudo/artigos/educacao/econometria-multicolinearidade/52178.
Acesso em 3 jan. 2021.
INTRODUÇÃO
Aceite nossas boas-vindas em mais este encontro! Depois de tratarmos dos conceitos fundamentais da análise
multivariada de dados e da importância das variáveis neste contexto, é chegada a hora de entendermos como
os dados gerados devem ser exibidos. A �m de introduzirmos o assunto, a abordagem do primeiro bloco será
direcionada aos fundamentos da visualização de dados, em sentido geral. No bloco seguinte trataremos dos
elementos visuais que compõem os objetos a serem exibidos e, na oportunidade, serão mencionados os papéis
de elementos como cores, formas e texturas – entre outros – na composição da compreensão da informação
gerada. Por �m, alguns tipos de grá�cos adequados à análise multivariada serão analisados e exemplos em R
serão desenvolvidos.
APRESENTAÇÃO DO OBJETIVO E PRINCÍPIOS DA VISUALIZAÇÃO DE DADOS E DE
COMO ELES PODEM AUXILIAR NA REPRESENTAÇÃO DE INFORMAÇÕES
Se é mesmo verdade que uma imagem vale mais do que mil palavras, então a abordagem do conteúdo deste
nosso encontro estará plenamente justi�cada. Seres humanos são criaturas visuais e, para recebermos boa
parte das informações que nos cercam, dependemos da visão e do correto processamento do que vemos. A
informação visual – que é naturalmente bem assimilada pelos seres humanos – quando corretamente
organizada e disposta de forma estruturada, eleva os níveis de compreensão sobre a mensagem recebida
(MAITINO NETO, 2006).
A visão humana é primariamente qualitativa e comparativa, ao invés de ser quantitativa. Avaliamos o tamanho e
a forma dos objetos pela rotação e sobreposição mental, para que, em seguida, possamos fazer uma
comparação direta entre eles (RUSS, 2002). A utilidade desta característica humana se torna tão mais evidente
quando a informação é apresentada em formatográ�co. O uso de cores, formas e texturas – entre outras
técnicas – torna a compreensão de certa informação bem mais efetiva, em oposição ao uso exclusivo de texto. A
apresentação do que chamamos variáveis visuais serão detalhadas no próximo bloco.
Uma grande variedade de informações em formato grá�co faz parte de nosso cotidiano. Mapas de previsão do
tempo, demonstrativos de receitas e despesas e grá�cos representando os níveis de in�ação são exemplos de
meios e�cientes de apresentação de dados. Engenheiros, Cientistas de Dados, por exemplo, necessitam analisar
com frequência grandes massas de dados, quase sempre gravados em arquivos extensos. A atividade de análise
das tendências e relações será certamente uma tarefa tediosa se os dados não tiverem sido convertidos para
uma forma visual, a �m de que tendências e padrões das informações �quem imediatamente aparentes.
Bem, neste ponto da nossa leitura já podemos concluir que a visualização de dados constitui a solução para
todos os assuntos relacionados à análise de dados, não é mesmo? A resposta não pode ser dada com um
certeiro “sim”. Apesar de a conceituação do tema não ser dispersiva e de não haver severas discordâncias sobre
Aula 4
VISUALIZAÇÃO DE DADOS COMO UMA FERRAMENTA PARA
ANÁLISE EXPLORATÓRIA
Apresentação do objetivo e dos princípios da visualização de dados (expressividade e efetividade)
e de como eles podem auxiliar na representação de informações.
Apresentação das sete variáveis visuais essenciais (posição, tamanho, forma, valor, cor,
orientação e textura) e como elas podem ajudar na Análise Exploratória de Dados.
Conhecendo melhor os dados através da visualização: tipos de grá�cos, interpretações e
exemplos com R.
39 minutos
https://www.portaleducacao.com.br/conteudo/artigos/educacao/econometria-multicolinearidade/52178
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 15/19
seu signi�cado, existem ainda compreensões incorretas sobre a representação visual de dados e duas delas são
examinadas na sequência, segundo Fast (2004):
i) a visualização de dados objetiva eliminar texto. Embora esta a�rmação seja comum, a �nalidade é
encontrar a representação apropriada para uma tarefa particular e, em algumas situações, o texto continua
sendo a melhor forma de representação. Da mesma forma, não se pode assegurar que, em todos os casos, a
compreensão e assimilação do exposto se dará mais rapidamente com representações grá�cas do que com
texto.
ii) O uso da visualização de dados será bem justi�cado apenas para casos complexos, com o conjunto de
dados muito extenso e que deva ser exibido de uma só vez. Há situações em que o desa�o é reduzir um
grande volume de dados a um subconjunto gerenciável para que neste seja bem aplicada a visualização.
Com estas considerações feitas, temos condições de avançar rumo ao nosso próximo assunto, voltado para a
concepção que a visualização de dados contribui para a Análise Exploratória de Dados. 
VIDEOAULA: APRESENTAÇÃO DO OBJETIVO E PRINCÍPIOS DA VISUALIZAÇÃO DE
DADOS E DE COMO ELES PODEM AUXILIAR NA REPRESENTAÇÃO DE
INFORMAÇÕES
Você conhece em quais áreas da atividade humana a visualização de dados é útil na interpretação dos fatos?
Neste vídeo você conhecerá vários ramos em que o modo grá�co tem grande utilidade para os pro�ssionais
envolvidos no entendimento dos fenômenos.
APRESENTAÇÃO DAS VARIÁVEIS VISUAIS ESSENCIAIS E COMO ELAS PODEM
AJUDAR NA ANÁLISE EXPLORATÓRIA DE DADOS
Conforme já mencionado, este bloco tratará da visualização de dados no contexto da Análise Exploratória de
Dados. Por isso, é útil o lembrete de que a análise multivariada ocorre quando você tem um conjunto de dados
com diversas variáveis dependentes, que devem ser examinadas em comparação com uma ou mais variáveis
independentes. Cada variável em uma análise – com três ou menos variáveis dependentes – recebe uma
dimensão (ou eixo). Parece-nos, portanto, uma relação bastante conveniente, já que somos perfeitamente
capazes de perceber três dimensões. Na análise multivariada, uma 4ª (ou 5ª, 6ª e assim por diante) dimensão
representa um desa�o que deve ser superado se o cientista de dados (ou pesquisador) deseja representar
esses dados para seus usuários.
No contexto de uma análise grá�ca, as variáveis visuais compreendem os aspectos de tamanho, valor, textura,
cor, orientação e forma, que contribuem para a interpretação de uma peça grá�ca, na medida em que nos
permitem distinguir, quanti�car, ordenar e estabelecer associações entre objetos.
Neste ponto vale a pena conhecermos uma abordagem que situa as variáveis visuais em um contexto mais
amplo, em que a visualização da informação segue um modelo de referência que nos indica passos que
transformam dados brutos em visões. Segundo Nascimento e Ferreira (2011), uma das etapas desta
transformação se chama mapeamento visual e é nela que se inserem as “marcas visuais”, conhecidas por nós
como variáveis visuais. As marcas visuais são símbolos grá�cos utilizados para representar os itens de dados. As
marcas visuais mais comuns, sendo eles pontos (�guras geométricas simples com a �nalidade de marcar uma
posição), linhas, áreas, volumes e �guras complexas, também chamadas de ícones.
Ainda de acordo com Nascimento e Ferreira (2011), as propriedades grá�cas são os atributos visíveis que
caracterizam as marcas visuais. Algumas propriedades amplamente utilizadas incluem a posição da marca
dentro do substrato espacial; a forma, a cor, o tamanho e a área ou o volume da marca; a orientação, o sentido
e a inclinação de marcas do tipo de linha; e a textura de uma marca na forma de área. Certas propriedades
grá�cas, inclusive, dão um aspecto de dinamismo às marcas e servem para destacar atributos dos dados que
necessitam de maior atenção do usuário.
Feitas estas considerações, resta-nos avançar em direção ao terceiro bloco, rumo à abordagem dos tipos de
visualização indicadas para análises multivariadas, consideradas as características deste tipo de análise. Você
terá a oportunidade, inclusive, de observar aspectos de grá�cos adequados à exibição de dados gerados em
uma análise multivariada.
Videoaula: Apresentação do objetivo e princípios da visualização de dados e de como eles podem auxiliar na representação de informações
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 16/19
VIDEOAULA: APRESENTAÇÃO DAS VARIÁVEIS VISUAIS ESSENCIAIS E COMO ELAS
PODEM AJUDAR NA ANÁLISE EXPLORATÓRIA DE DADOS
Você conhece Semiologia Ótica? Neste vídeo trataremos do conceito e da contribuição que este ramo oferece à
análise multivariada.
CONHECENDO MELHOR OS DADOS POR MEIO DA VISUALIZAÇÃO: TIPOS DE
GRÁFICOS, INTERPRETAÇÕES E EXEMPLOS COM R
Iniciamos aqui o último bloco deste nosso encontro e é chegada a hora de abordarmos os tipos de visualização
de informações disponíveis para análise multivariada, especi�camente algumas representações geométricas e
representações baseadas em ícones.
• Coordenadas paralelas: esta estratégia usa a ideia de que cada atributo corresponde a um eixo e que os
eixos serão dispostos em paralelo e com espaçamento igual entre eles. Cada registro é representado como uma
cadeia que conecta cada um de seus atributos nos eixos do grá�co. Essa abordagem é mais bem usada com
conjuntos pequenos de dados. No caso de se ter um grande conjunto, o espaçamento entre as cadeias torna-se
cada vez mais difícil de distinguir (INTERACTION, 2017). Apenas para que você tenha contato visual com um
grá�co deste tipo, a Figura 1 mostra um grá�co de coordenadas paralelas, criado em R com recursos do pacote
GGally.
Figura 1 | Exemplo de grá�code coordenadas paralelas
Fonte: elaborada pelo autor.
• Matriz de grá�co de dispersão é uma tentativa de estender o grá�co de dispersão 2D tradicional para
dimensões adicionais. Ele funciona representando pares de variáveis em grá�cos de dispersão tradicionais em
uma matriz com todos os grá�cos de dispersão possíveis criados a partir de pares de variáveis no conjunto de
dados. Trata-se uma ferramenta muito boa para permitir a comparação rápida de conjuntos de dados
semelhantes (uma vez que cada um deles é organizado um ao lado do outro nas direções vertical e horizontal).
Isso é mais fácil de usar para análise em alguns casos do que o método de coordenadas paralelas, mas também
há desvantagens nesse método, a saber: é difícil, senão impossível, rotular os eixos individuais dos grá�cos de
dispersão menores (devido a restrições de espaço e requisitos de legibilidade) e não há visão global dos dados.
• Table Lens: esta abordagem é indicada para apresentação de grande volume de dados numéricos e
categóricos e que podem ser apresentados em uma única visualização. Neste caso, cada valor é representado
por uma barra, de tamanho proporcional ao valor numérico que representa e com cores distintas, conforme o
atributo que representam (INTERACTION, 2017).
Uma alternativa às representações geométricas para dados multivariados é o uso de representações baseadas
em ícones. Como o próprio nome sugere, esta abordagem usa o conceito de um ícone para representar cada
variável independente com uma série de atributos que podem variar para representar as variáveis
dependentes. Estes atributos incluem cor, forma, tamanho e orientação espacial, entre outros. Uma técnica
bastante comum de representação baseada em ícones é o grá�co de radar, também conhecido como grá�co
estrela. Uma ilustração deste grá�co pode ser observada na Figura 2. Ele foi construído com recursos do pacote
fsmb, do R.
Figura 2 | Exemplo de grá�co de radar
Videoaula: Apresentação das variáveis visuais essenciais e como elas podem ajudar na Análise Exploratória de Dados
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 17/19
Fonte: elaborada pelo autor.
Este foi, portanto, o conteúdo que queríamos compartilhar com você. Continue empenhado nas demais
atividades e até a próxima!
VIDEOAULA: CONHECENDO MELHOR OS DADOS POR MEIO DA VISUALIZAÇÃO:
TIPOS DE GRÁFICOS, INTERPRETAÇÕES E EXEMPLOS COM R
Neste vídeo trataremos de como elaborar grá�cos do tipo radar usando recursos da linguagem e dos pacotes R.
ESTUDO DE CASO
Aqui começa mais um Estudo de Caso e, antes de descrevê-lo, valerá a pena resgatarmos um pouco do que
você já realizou em encontros passados. Concorrendo a uma vaga de Cientista de Dados em uma importante
loja virtual, a explicação sobre determinado assunto dirigida ao dono da empresa lhe valeu a tão sonhada vaga.
Mais tarde, já em pleno desenvolvimento do seu trabalho, você foi chamado a tratar da multicolinearidade e das
formas viáveis para evitar a interferência nociva deste fenômeno nas análises da empresa.
Por causa do sucesso obtido nestas ocasiões, sua opinião sobre visualização de dados agora será decisiva para
a implementação de novos processos na empresa, voltados para criação de grá�cos que deverão aumentar a
compreensão sobre os dados gerados nas análises. Embora a maior parte da equipe esteja convencida de que
esta providência será bené�ca, ainda há pessoas céticas e a elas você dirigirá o resultado do seu trabalho.
Sua missão, portanto, é a de criar uma apresentação (na ferramenta de sua preferência) em que responda uma
pergunta muito simples: por que criar visualizações de dados? É natural que, quanto mais detalhada for essa
argumentação e quanto mais vantagens ela apresentar, maior será a chance de você atingir seu objetivo. Vale
ainda o registro de que, na condição de providência inicial para a conscientização da equipe, esta apresentação
não precisa, necessariamente, estar vinculada a análise multivariada. Assim, bastará tratar da visualização da
informação de forma genérica.
RESOLUÇÃO DO ESTUDO DE CASO
Conforme mencionado na descrição do Estudo de Caso, não será preciso vincular sua apresentação a aspectos
da análise multivariada de dados. Mesmo assim, ela deverá contemplar aspectos que tornam praticamente
indispensável em uma empresa que se propõe a analisar dados. Como há diversas formas de se abordar este
assunto, o que segue é um possível roteiro para a apresentação solicitada, composto por sentenças simples e
objetivas:
• A utilização de técnicas de visualização de dados tende a aumentar consideravelmente o entendimento a
respeito destes dados, se compararmos com apresentações textuais, por exemplo.
• Com a visualização, uma grande quantidade de dados pode ser sintetizada em uma apresentação
relativamente simples.
• Como a expressão sugere, os processos de visualização envolvem a visão humana, que estará empenhada em
extrair rapidamente (e com boa precisão) os dados oferecidos.
• O sistema visual humano também é treinado para reconhecer padrões, e pode identi�car formas e cores
diferentes, além de localizar objetivos especí�cos em uma imagem
Com esses itens, você poderá construir uma boa apresentação e vencer o ceticismo que ainda resta na equipe.
Videoaula: Conhecendo melhor os dados por meio da visualização: tipos de grá�cos, interpretações e exemplos com R
Para visualizar o objeto, acesse seu material digital.
15/03/23, 00:10 wlldd_212_u3_ana_exp_dad
https://colaboraread.com.br/integracaoAlgetec/index?usuarioEmail=frederico.sousa%40outlook.com&usuarioNome=FREDERICO+EMANUEL+GUIMARÃES+DE+SOUSA&disciplinaDescricao=ANÁLISE+EXPLOR… 18/19
Resolução do Estudo de Caso
Para visualizar o objeto, acesse seu material digital.
 Saiba mais
Uma boa fonte de informação sobre variáveis visuais pode ser consultada por meio de
https://adenilsongiovanini.com.br/blog/variaveis-visuais-o-que-sao-e-para-que-servem/. Acesso em: 7 jan.
2022.
Aula 1
AUSTRALIAN BUREAU OF STATISTICS. Statistical Language – Correlation and causation. Disponível em:
https://www.abs.gov.au/websitedbs/D3310114.nsf/home/statistical+language+-+correlation+and+causation.
Acesso em: 11 dez. 2021.
HAIR, J. F. et al. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
MANLY, B. F. J.; ALBERTO, J. A. N. Métodos estatísticos multivariados: uma introdução. 4. ed. Porto Alegre:
Bookman, 2019.
SOUZA, E. F. M. de, PETERNELLI, L. A., DE MELLO, M. P.; Software livre R: aplicação statística. Disponível em:
http://www.de.ufpb.br/~tarciana/MPIE/ApostilaR.pdf. Acesso em: 11 dez. de 2021.
Aula 2
DUNTEMAN, G. H.; HO, M. R. An introduction to generalized linear models: 145, Quantitative Applications in
the Social Sciences. SAGE Publications, 2006. E-book.
GUIMARÃES, A. M. Estatística: análise de regressão linear e análise de regressão logística com R. 2019.
Disponível em: https://medium.com/omixdata/estat%C3%ADstica-an%C3%A1lise-de-regress%C3%A3o-linear-e-
an%C3%A1lise-de-regress%C3%A3o-log%C3%ADstica-com-r-a4be254df106. Acesso em 20 dez. 2021.
KHAN ACADEMY. Revisão sobre regressão linear. Disponível em: https://pt.khanacademy.org/math/statistics-
probability/describing-relationships-quantitative-data/introduction-to-trend-lines/a/linear-regression-review.
Acesso em: 16 dez. 2021.
MINITAB. O que são variáveis categóricas, discretas e contínuas? Disponível em:
https://support.minitab.com/pt-br/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-
topics/basics/what-are-categorical-discrete-and-continuous-variables/. Acesso em: 20 dez. 2021.
SEARLE, S. R.; GRUBER, M. H. J. Linear models. Wiley series in probability and statistics. Wiley, 2017.
Aula 3
COLINEARIDADE.  Disponível em: https://delphipages.live/pt/diversos/collinearity-statistics.