Buscar

Estatística Aplicada ao Data Science - EAD FMU

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
O texto em referência explica que o processo de descoberta com a mineração de dados possui 
tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um 
estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente 
em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e 
espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com 
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, 
mineração de dados e machine learning, analise as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. 
São usados na estatística, na ciência de dados e na mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem 
um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda 
estudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a 
mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de 
conhecimento esse ambiente necessita e espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
 
Resposta Selecionada: 
I e II apenas; 
Resposta Correta: 
I e II apenas; 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois machine learning são 
algoritmos desenvolvidos, principalmente, pela ciência da computação, e 
são usados na estatística, na ciência de dados e na mineração de dados, e 
o processo de descoberta de padrões e geração de conhecimento por 
meio de dados tem um sentido romântico, por ser emocionante e 
prazeroso, e um sentido técnico, pois demanda estudos técnicos 
criteriosos. Também sabemos que a mineração de dados e ciência de 
dados são áreas relacionadas, e que é importante conhecer o ambiente 
em que os dados são produzidos e que tipo de conhecimento esse 
ambiente necessita e espera receber. 
 
 
• Pergunta 2 
1 em 1 pontos 
 
Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de 
dados, é comum a realização da análise da (possível) relação entre essas variáveis por meio 
do cálculo de suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de 
duas em duas variáveis. Comumente, também se apresenta a correlação de cada variável com 
ela mesma, o que sempre resulta em uma correlação perfeita, igual a 1. 
 
A tabela adiante mostra o resultado do cálculo das correlações entre 5 variáveis quantitativas 
 
de uma determinada amostra. 
 
 x1 x2 x3 x4 x5 
x1 1,00 - 0,85 - 0,78 - 0,87 0,42 
x2 - 0,85 1,00 0,79 0,89 - 0,43 
x3 - 0,78 0,79 1,00 0,66 - 0,71 
x4 - 0,87 0,89 0,66 1,00 - 0,17 
x5 0,42 - 0,43 - 0,71 - 0,17 1,00 
 
 
Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 e x5 
Fonte: Elaborado pelo autor. 
 
Com respeito a essa tabela de correlações, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma variável e ela 
mesma, uma informação de pouco valor prático. 
II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no valor de 0,89, que 
indica uma forte associação entre essas duas variáveis, e que uma aumenta com um aumento 
da outra. 
III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, no 
valor de - 0,87, que indica uma forte associação entre essas duas variáveis, e que uma diminui 
quanto a outra aumenta. 
IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as variáveis x4 e x5, no 
valor de - 0,17, que indica uma fraca associação entre essas duas variáveis, e que uma 
diminui quando a outra aumenta. 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário da 
resposta: 
Resposta correta. A sequência está correta. Os valores 1,00 apenas 
indicam a correlação perfeita que existe entre uma variável e ela mesma. 
A maior correlação positiva é aquela entre as variáveis x2 e x4, indicando 
uma forte associação entre essas duas variáveis, e que uma aumenta com 
um aumento da outra. A maior (em valor absoluto) correlação negativa é 
aquela entre as variáveis x1 e x4, indicando uma forte associação entre 
essas duas variáveis, e que uma diminui quanto a outra aumenta. A 
menor (em valor absoluto) correlação negativa é aquela entre as variáveis 
x4 e x5, indicando uma fraca associação entre essas duas variáveis, e que 
uma diminui quando a outra aumenta. 
 
 
• Pergunta 3 
1 em 1 pontos 
 
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; 
o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros 
quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º 
andar. 
 
 
 
 
Figura - Árvore de decisão ajustada aos valores dos imóveis 
Fonte: Elaborada pelo autor. 
 
Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a 
alternativa que indica corretamente as estimativas de preço desses apartamentos: 
Resposta Selecionada: 
319,20; 448,80; 366,50; 390,40 mil reais. 
Resposta Correta: 
319,20; 448,80; 366,50; 390,40 mil reais. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois ao percorremos a árvore 
construída para a predição do valor dos imóveis, do nó inicial aos nós 
terminais, e usarmos passo a passo as características dos apartamentos, 
comparando-as com os valores informados em cada nó, chegaremos às 
estimativas de preços de 319,20 mil reais, 448,80 mil reais, 366,50 mil reais 
e 390,40 mil reais, respectivamente, para cada um dos apartamentos 
descritos no enunciado. 
 
 
• Pergunta 4 
1 em 1 pontos 
 
Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de 
forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, 
entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável 
quantitativa e uma variável qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a 
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável 
diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável 
 
também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável 
diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também 
diminui. 
 
Resposta Selecionada: 
F, V, V, F. 
Resposta Correta: 
F, V, V, F. 
Comentário da 
resposta: 
Resposta correta. A sequência está correta. É correto afirmar que uma 
correlação positiva indica que quando uma das variáveis aumenta a outra 
variável também aumenta, e que uma correlação negativa indica que 
quando uma das variáveis aumenta a outra variável diminui. É incorreto 
afirmar que uma correlação positiva indica que quando uma das variáveis 
aumenta a outra variável diminui, ou que uma correlação negativa indica 
que quando uma das variáveis diminui a outra também diminui. 
 
 
• Pergunta 5 
1 em 1 pontos 
 
Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise 
descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta 
unidade, usamos pela primeira vez a função summary() do software estatísticoR. 
 
Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a 
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e 
valor mínimo observado. 
II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e 
valor máximo observado. 
III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos 
dados observados. 
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados 
observados. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
Resposta Selecionada: 
F, V, F, V. 
Resposta Correta: 
F, V, F, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. A ordem correta do output da 
função summary() do R, quando aplicada aos dados de uma variável 
quantitativa, como o preço da boneca falante, é valor mínimo, segundo 
quartil, mediana, média, terceiro quartil e valor máximo observado. O 
segundo quartil informa o valor da variável, abaixo do qual se encontram 
 
25% dos dados observados, e a mediana fornece o valor da variável, 
abaixo do qual se encontram 50% dos valores observados. 
 
• Pergunta 6 
1 em 1 pontos 
 
Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. 
Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a 
ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica 
preferida de organização dos dados. 
 
Com base no exposto, analise as afirmativas a seguir. 
 
I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são 
dispostas nas colunas e as observações são dispostas nas linhas. 
II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de 
uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis 
estão dispostas nas linhas e as observações nas colunas. 
III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas 
colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado 
no Python por meio da sua biblioteca “Pandas”. 
IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma 
de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados 
organizados em qualquer tipo de estrutura. 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I e III, apenas. 
 
Resposta Correta: 
I e III, apenas. 
 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois dados retangulares são 
dados organizados na forma de tabelas, em que as variáveis são dispostas 
nas colunas e as observações são dispostas nas linhas. Além disso, no 
software estatístico R, as estruturas de dados organizados em tabelas, 
com as variáveis dispostas nas colunas e as observações nas linhas, são 
denominadas data-frames. Esse conceito é copiado no Python por meio 
da sua biblioteca “Pandas”. Por outro lado, o quadro mencionado é um 
exemplo de dados retangulares e há, sim, tanto na estatística quanto na 
ciência de dados, uma preferência por dados estruturados na forma de 
data-frames. 
 
 
• Pergunta 7 
1 em 1 pontos 
 
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis 
relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a 
variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas 
ou baixas é exibida no gráfico adiante. 
 
 
Figura: Efeito do preço nas vendas 
Fonte: Elaborada pelo autor. 
 
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), 
analise as afirmativas a seguir: 
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca 
falante sobre o volume de vendas em cada ponto (de venda). 
II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de 
vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente 
menor. 
III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de 
vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é 
significativamente menor. 
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da 
boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. 
Está correto o que se afirma em: 
Resposta Selecionada: 
III e IV, apenas. 
Resposta Correta: 
III e IV, apenas. 
Comentário 
da resposta: 
Sua resposta está correta. A alternativa está correta, pois o gráfico de 
visualização da relação entre o preço de venda da boneca e o volume de 
vendas mostra que vendas altas ocorrem mesmo quando o preço da 
boneca não é significativamente menor, e isto é um indicativo que o efeito 
de outras variáveis sobre o volume de vendas da boneca pode ser tão 
relevante ou mesmo maior que o efeito da diferença de preço. 
 
 
• Pergunta 8 
1 em 1 pontos 
 
Considere dois pontos de venda da boneca falante com as seguintes características: primeiro 
ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos 
mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. 
Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais. 
 
 
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo 
Fonte: Elaborada pelo autor. 
 
 
Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e 
assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de 
venda: 
Resposta Selecionada: 
Vendas altas e baixas, respectivamente. 
Resposta Correta: 
Vendas altas e baixas, respectivamente. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois ao percorremos a árvore 
construída para a predição das vendas da boneca falante, se altas ou 
baixas, do nó inicial aos nós terminais, e usarmos passo a passo as 
características dos dois pontos de venda, comparando-as com os valores 
informados em cada nó, chegaremos às estimativas de vendas altas para 
o primeiro ponto e de vendas baixas para o segundo ponto. 
 
 
• Pergunta 9 
1 em 1 pontos 
 
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis 
relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a 
variável do local de exposição da boneca (ruim, médio, bom) no ponto de venda, cuja relação 
com vendas altas ou baixas é exibida no gráfico adiante. 
 
 
 
Figura: Efeito do local de exposição nas vendas 
Fonte: Elaborada pelo autor. 
Quanto à relação entre o local de exposição da boneca (ruim, médio, bom) e o volume de 
vendas (vendas altas ou baixas), analise as afirmativas a seguir: 
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem com mais frequência nos 
pontos de venda onde o local de exposição da boneca é bom. 
II. Ao estudarmos este caso, percebemos que não há qualquer efeito do local de exposição 
sobre o volume de vendas da boneca nos pontos de venda. 
III. O gráfico exibido acima mostra que a frequência de pontos com vendas altas é baixa 
quando o local de exposição da boneca é ruim. 
IV. O gráfico de visualização da relação entre o local de exposição da boneca no ponto de 
venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do 
tipo mosaic plot, apropriado para esta situação. 
Está correto o que se afirma em: 
Resposta Selecionada: 
I, III e IV, apenas. 
Resposta Correta: 
I, III e IV, apenas. 
Comentário 
da resposta: 
Sua resposta está correta. A alternativa está correta, pois, ao estudarmos 
este caso, percebemosque vendas altas ocorrem com mais frequência 
nos pontos de venda onde o local de exposição da boneca é bom, e que a 
frequência de pontos com vendas altas é baixa quando o local de 
exposição da boneca é ruim. Também sabemos que o gráfico de 
visualização da relação entre o local de exposição da boneca no ponto de 
venda e o volume de vendas, por se tratarem ambas de variáveis 
qualitativas, é um gráfico do tipo mosaic plot, apropriado para essa 
situação. 
 
 
• Pergunta 10 
1 em 1 pontos 
 
Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da 
computação, tecnologia da informação e campos de domínios específicos. 
 
Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado 
conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 
conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se 
referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É 
considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por 
todas áreas científicas. 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa da I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa da I. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois mesmo que algoritmos 
de agrupamento sejam parte dos métodos da aprendizagem não 
supervisionada, e não serem modelos preditivos, como afirmado na 
asserção II, depois que formamos e nomeamos os grupos (classificamos 
os grupos), podemos usar essas classes como variáveis respostas e, a 
partir desse ponto, executar tarefas preditivas com algoritmos de 
classificação. Ou seja, a asserção I é falsa.

Continue navegando