Prova N2(A5)

•

FMU

5

3

5

3

1

Bob Rabelo

25/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.266 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Questão 1
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não).
II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta).
III. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado.
IV. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver um maior nível de inadimplência com o cartão entre aquelas que não têm emprego estável.
Assinale a alternativa que apresenta a sequência correta.
a.
V, V, F, V.
b.
V, V, V, V.
c.
V, V, F, F.
d.
F, V, F, V.
e.
F, F, F, F.
Limpar minha escolha
Questão 2
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais.
Figura - Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda:
a.
Vendas altas, apenas.
b.
Vendas baixas e altas, respectivamente.
c.
Vendas baixas e baixas, respectivamente.
d.
Vendas altas e baixas, respectivamente.
e.
Vendas altas e altas, respectivamente.
Limpar minha escolha
Questão 3
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares, como uma planilha ou tabela de banco de dados. Dado retangularé basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5–6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados.
Assinale a alternativa que apresenta a sequência correta:
a.
F, V, F, V.
b.
F, F, V, V.
c.
F, F, F, F.
d.
F, F, F, V.
e.
F, F, V, F.
Limpar minha escolha
Questão 4
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output típico da função pairs() quando aplicada a quatro variáveis quantitativas de um determinado conjunto de dados.
Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest
Fonte: Elaborada pelo autor.
A respeito deste output típico da função gráfica pairs() do software estatístico R, para a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder para um aumento de Assault.
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder para um aumento de Assault, porém com uma dispersão dos pontos um pouco maior que para o caso de y = Murder versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras três.
a.
F, V, V, V.
b.
F, V, F, V.
c.
F, V, V, F.
d.
V, V, V, F.
e.
V, V, V, V.
Limpar minha escolha
Questão 5
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia.
DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126.
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento.
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento.
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento.
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento.
a.
V, V, F, F.
b.
V, V, V, V.
c.
F, V, V, F.
d.
V, V, V, F.
e.
V, V, F, V.
Limpar minha escolha
Questão 6
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão.Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe?
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa.
II. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas.
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot.
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot.
Assinale a alternativa que apresenta a sequência correta.
a.
F, F, V, V.
b.
V, V, F, F.
c.
F, V, V, V.
d.
F, V, F, V.
e.
V, V, F, V.
Limpar minha escolha
Questão 7
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.
Relativamente a esse assunto, analise as afirmativas a seguir.
I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras.
Está correto o que se afirma em:
a.
I, II e IV, apenas.
b.
I, II, III e IV.
c.
I, III e IV, apenas.
d.
II e III, apenas.
e.
II, III e IV, apenas.
Limpar minha escolha
Questão 8
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica preferida de organização dos dados.
Com base no exposto, analise as afirmativas a seguir.
I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis estão dispostas nas linhas e as observações nas colunas.
III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”.
IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados organizados em qualquer tipo de estrutura.
Está correto o que se afirma em:
a.
II e III, apenas.
b.
II e IV, apenas.
c.
I e II, apenas
d.
I e III, apenas.
e.
III e IV, apenas.
Limpar minha escolha
Questão 9
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas.
Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir.
I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes.
III. A variável resposta também pode ser denominada variável de saída ou variável dependente.
IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
Está correto o que se afirma em:
a.
II e III, apenas.
b.
IV, apenas.
c.
I e II, apenas.
d.
I, II e III, apenas.
e.
I e III, apenas.
Limpar minha escolha
Questão 10
Ainda não respondida
Vale 1,00 ponto(s).
Marcar questão
Texto da questão
Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas características), é usado como um classificador. Mas também vimos que existem outros tipos de classificadores.
Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir.
I. Regressão logística é o único método de aprendizagem supervisionada que é utilizado para classificação, todos outros métodos são métodos de regressão.
II. Apesar do nome regressão logística, o que acaba sendo um pouco confuso para iniciantes, na verdade este é um dos vários métodos de aprendizagem supervisionada utilizado para classificação.
III. Dentre os métodos utilizados para classificação se encontram regressão logística, análise discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão para classificação, máquinas de vetores de suporte (SVM = support vector machines) e k-vizinhos mais próximos (KNN = k-nearest neighbors).
IV. Regressão linear não é um método de classificação, mas, sim, um dos métodos preditivos de aprendizagem supervisionada usados na predição de valores de variáveis respostas quantitativas.
Está correto o que se afirma em:
a.
II, apenas.
b.
II e III, apenas.
c.
I, III e IV, apenas.
d.
II, III e IV, apenas.
e.
III, apenas.