estatistica aplicada ao data science N2 (A5)

6

0

6

0

Fuad Cury Pereira

24/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.039 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 1/9
Minhas Disciplinas 221RGR0890A - ESTATISTICA APLICADA AO DATA SCIENCE PROVA N2 (A5) N2 (A5)
Iniciado em quinta, 23 jun 2022, 19:43
Estado Finalizada
Concluída em quinta, 23 jun 2022, 20:18
Tempo
empregado
35 minutos 39 segundos
Avaliar 9,00 de um máximo de 10,00(90%)
Questão 1
Completo
Atingiu 1,00 de 1,00
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que
possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados
amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo.

A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a
seguir.

I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua
área, b0 = 27,22 e b1 = 5,15.
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são,
respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1.
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois
não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da
amostra.
IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse
coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra.
Está correto o que se afirma em:

a. I e II, apenas.
b. II, III e IV, apenas.
c. III e IV, apenas.
d. II e III, apenas.
e. I, II, III e IV.
NAP CPA Responsabilidade Socioambiental
https://ambienteacademico.com.br/my/
https://ambienteacademico.com.br/course/view.php?id=12295
https://ambienteacademico.com.br/course/view.php?id=12295&section=6
https://ambienteacademico.com.br/mod/quiz/view.php?id=343066
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 2/9
Questão 2
Completo
Atingiu 1,00 de 1,00
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de
variáveis resposta dos dados em análise que distinguem esses dois tipos entre si.

Relativamente a esses dois tipos, analise as afirmativas a seguir.

I. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa.
II. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa.
III. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa.
IV. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa.

Está correto o que se afirma em:
a. II e III, apenas.
b. III e IV, apenas.
c. II e IV, apenas.
d. III, apenas.
e. I e III, apenas.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 3/9
Questão 3
Completo
Atingiu 1,00 de 1,00
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os
resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados
fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da
área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso,
analise as afirmativas a seguir.

I. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o
que os dados “contaram” para o algoritmo de regressão logística múltipla.
II. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente
não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para
o algoritmo de regressão logística múltipla.
III. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência
com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo
de regressão logística múltipla.
IV. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa,
do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar
inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação
de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco.

Está correto o que se afirma em:

a. II, III e IV, apenas.
b. I e II, apenas.
c. I, II, III e IV.
d. III e IV, apenas.
e. II e III, apenas.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 4/9
Questão 4
Completo
Atingiu 1,00 de 1,00
Questão 5
Completo
Atingiu 1,00 de 1,00
O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo
emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente
em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas
necessitam e esperam receber.Lei

SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016,
p.3.

Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as
afirmativas a seguir:

I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de
dados e na mineração de dados.
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e
prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são
áreas independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera
receber.

Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):
a. I, II e III apenas;
b. II, III e IV apenas;
c. I e II apenas;
d. I, II e IV apenas.e. II e III apenas;
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e
métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de
diferentes métodos, cada um com seu próprio jeito de funcionamento.

Assinale a alternativa que indica um problema de aprendizagem não supervisionada:

a. Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de
venda.
b. Gostaríamos de saber que pessoas �carão inadimplentes com o pagamento das faturas de seus cartões de crédito.
c. Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização.
d. Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do
paciente.
e. Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 5/9
Questão 6
Completo
Atingiu 1,00 de 1,00
Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a
interação entre uma corretora de imóveis e seu amigo estatístico.

Relativamente a esse caso, analise as afirmativas a seguir.

I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso
não a ajudaria no desenvolvimento do seu trabalho.
II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos
pela imobiliária onde trabalhava.
III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido.
IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste
e zona oeste.

Está correto o que se afirma em:

a. IV, apenas.
b. III e IV, apenas.
c. I e III, apenas.
d. III, apenas.
e. II, apenas.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 6/9
Questão 7
Completo
Atingiu 1,00 de 1,00
Leia o excerto a seguir:

“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro
como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e
então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de
problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma
das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não
lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a
maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”.

GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213.

Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para
a(s) Falsa(s).

I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro
funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção
facial.

Assinale a alternativa que apresenta a sequência correta:
a. V, V, V, V.
b. F, V, F, V.
c. V, V, F, V.
d. V, V, F, F.
e. F, F, F, F.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 7/9
Questão 8
Completo
Atingiu 1,00 de 1,00
Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de regressão logística. Esses modelos são
aplicados em situações bem distintas, que dependem, essencialmente, da natureza da variável resposta, também chamada de variável
dependente.

Com esses dois modelos em mente, analise as afirmativas a seguir.

I. Modelos de regressão logística simples são usados na predição de uma variável resposta qualitativa quando há mais do que uma
variável de entrada.
II. Modelos de regressão linear simples são usados na predição de uma variável resposta qualitativa quando se considera apenas uma
variável de entrada.
III. Um possível modelo de regressão logística simples para a predição da probabilidade de inadimplência é:

em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa com cartão de crédito e , o valor esperado para a
probabilidade de a pessoa ficar ou não inadimplente com o pagamento das faturas do cartão.

IV. O método comumente usado para calcular os valores dos coeficientes e é o Método da Máxima Verossimilhança. Para isso,
pode-se fazer uso do software estatístico R.

Está correto o que se afirma em:

a. III e IV, apenas.
b. I e II, apenas.
c. II, III e IV, apenas.
d. I, II e IV, apenas.
e. II e III, apenas.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 8/9
Questão 9
Completo
Atingiu 0,00 de 1,00
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente
comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja relação com
vendas altas ou baixas é exibida no gráfico adiante.

Figura: Efeito dos gastos com publicidade nas vendas
Fonte: Elaborada pelo autor.

Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas ligeiramente
maiores.
II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20 mil reais por
mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas.
III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer efeito dos
gastoscom publicidade sobre o volume de vendas da boneca.
IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem
quando os gastos com publicidade são significativamente maiores.
Está correto o que se afirma em:
a. I, apenas.
b. III e IV, apenas.
c. III, apenas.
d. II e IV, apenas.
e. I e II, apenas.
NAP CPA Responsabilidade Socioambiental
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade
23/06/2022 20:20 N2 (A5): Revisão da tentativa
https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 9/9
Questão 10
Completo
Atingiu 1,00 de 1,00
O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com
base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do
agrupamento, eles definirão campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser
definidos.

DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River, NJ: Pearson Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).

I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das variáveis disponíveis para esse
caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa forma, saberemos se o resultado é
bom ou ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só pode ser realizado por meio de
algoritmos.
a. F, V, F, V.
b. V, V, F, V.
c. V, V, V, V.
d. F, F, F, F.
e. V, V, F, F.
◄ Atividade 4 (A4)
Seguir para...
Revisão Prova N2 (A5) ►
NAP CPA Responsabilidade Socioambiental
https://ambienteacademico.com.br/mod/quiz/view.php?id=343064&forceview=1
https://ambienteacademico.com.br/mod/quiz/view.php?id=343068&forceview=1
https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html
https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html
https://portal.fmu.br/sustentabilidade