Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
 Continuando com o mesmo caso da questão anterior, relativa à aprovação, 
pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no 
passado, a aprovação da concessão de cartões de crédito pelos bancos? E, 
hoje em dia, como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a 
seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
 . ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, 
a aprovação da concessão de cartões de crédito através da definição 
de regras que devem ser atendidas por cada cliente, tais como idade, 
emprego estável, renda fixa, dívidas pequenas, nome limpo e casa 
própria. 
I. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente 
usada pelos bancos são algoritmos de aprendizagem supervisionada 
que classificam se o cliente é um potencial bom ou mau pagador. 
II. ( ) Para usarmos algoritmos de classificação com esse propósito de 
aprovar ou não cartões de crédito, precisamos de dados. Ensinamos 
ao algoritmo, com base nos dados que lhe são passados, a predizer 
clientes que são maus pagadores potenciais das faturas do cartão. 
Dessa forma, se o algoritmo, ao ser alimentado com os dados 
referentes a um novo cliente, classificar esse cliente como um mau 
pagador potencial, o banco não aprovará o cartão. 
III. ( ) Para equipes de análise de crédito, poder contar com a ajuda de 
um software com a capacidade de recomendar a aprovação ou não da 
concessão do cartão é de grande valor. 
IV. ( ) A recomendação feita pelo software poderá ser tratada ao lado de 
outras regras de crédito para uma decisão final sobre a concessão de 
cartão para o cliente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
 
V, V, V, V. 
 
 
Resposta Correta: 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
V, V, V, V. 
 
 
Feedback 
da resposta: 
Resposta correta. No passado, os bancos faziam a aprovação da 
concessão de cartões de crédito através da definição de regras que deviam 
ser atendidas por cada cliente; hoje em dia, algoritmos de aprendizado de 
máquina classificam se o cliente é um potencial bom ou mau pagador. 
Para isso, dados são necessários. Poder contar com a ajuda de um 
software com a capacidade de recomendar a aprovação ou não da 
concessão do cartão é de grande valor para a equipe de análise de crédito. 
A recomendação feita pelo software poderá ser tratada ao lado de outras 
regras de crédito para uma decisão final sobre a concessão de cartão para 
o cliente. 
 
 
 
• Pergunta 2 
0 em 1 pontos 
 
 Os modelos de regressão são de enorme importância na estatística e na 
ciência dos dados. Dentre os diversos modelos de regressão que existem, 
são justamente os modelos de regressão linear aqueles considerados os 
mais importantes e, sem dúvida, os mais difundidos, com aplicações nas 
mais diversas áreas. 
 
Considerando as técnicas discutidas de desenvolvimento de modelos 
preditivos pautados em modelos de regressão linear simples ou 
múltipla, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) Modelos de regressão linear podem ser empregados na predição do 
peso médio (massa corporal média) de uma pessoa em função da sua altura, 
idade e sexo. 
II. ( ) Modelos de regressão linear podem ser empregados na predição do 
consumo médio de combustível de um carro em função da potência do seu 
motor e do seu peso. 
III. ( ) Modelos de regressão linear podem ser empregados na predição da 
renda média mensal de uma pessoa em função da sua escolaridade, idade, 
sexo e classe social. 
IV. ( ) Modelos de regressão linear podem ser empregados na predição da 
classe social de uma pessoa em função da sua renda média mensal, 
escolaridade, idade e sexo. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
Resposta Selecionada: 
 
F, F, F, F. 
Resposta Correta: 
 
V, V, V, F. 
Feedback 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois as três 
primeiras afirmativas se referem a situações nas quais a variável resposta 
é quantitativa, assim os modelos de regressão linear podem ser aplicados. 
Já a última afirmativa é falsa, pois se refere a uma situação em que a 
variável resposta é qualitativa, situação em que não podemos aplicar 
modelos de regressão. 
 
 
 
 
• Pergunta 3 
0 em 1 pontos 
 
 No decorrer desta unidade, apresentamos uma série de exemplos de 
problemas de regressão e de classificação. A diferença entre eles reside no 
tipo da variável resposta, se quantitativa ou qualitativa. Problemas de 
classificação são aqueles em que a variável resposta é qualitativa. As 
variáveis de entrada, também chamadas de regressoras ou preditoras, 
podem ser quantitativas ou qualitativas. 
 
Em relação a problemas de classificação, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A predição de se a pessoa é diabética em função de dados gerais sobre 
seu quadro clínico, seu histórico médico e dados sobre casos de diabetes na 
sua família é um problema de classificação. 
II. ( ) A predição da falha de um componente estrutural em função das suas 
características químicas e físicas, da sua geometria e das condições de 
carga ao qual é submetido é um problema de classificação. 
III. ( ) A predição de se um e-mail que chega à sua caixa de entrada é ou não 
um spam , em função das características gerais do e-mail e do seu texto 
(sua origem e palavras utilizadas no texto), é um problema de classificação. 
IV. ( ) A predição de se o dólar vai subir ou não, em função do tipo de 
notícias políticas e econômicas divulgadas na tarde do dia anterior, tanto no 
âmbito nacional quanto internacional, é um problema de classificação. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
Resposta Selecionada: 
 
F, F, V, V. 
Resposta Correta: 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
V, V, V, V. 
Feedback 
da resposta: 
Sua resposta está incorreta. A sequência está incorreta. Em todos os 
exemplos dados, a variável resposta é qualitativa: se a pessoa é diabética 
ou não; se haverá ou não falha de um componente estrutural; se um e-
mail que chega à sua caixa de entrada é ou não um spam; se o dólar vai 
subir ou não. Isso caracteriza, em modelos preditivos, um problema de 
classificação. 
 
 
 
• Pergunta 4 
1 em 1 pontos 
 
 Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou gráficos de dispersão. Como 
cientista de dados, ela sabia exatamente em que situações empregar 
gráficos de dispersão. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
 . ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só 
podem ser usados para a visualização de uma única variável, a qual 
deve ser obrigatoriamente uma variável qualitativa. 
I. ( ) Gráficos de dispersão são usados para a visualização da relação 
entre duas variáveis quantitativas, em que os dados das duas 
variáveis são plotados aos pares. Permite, dessa forma, a verificação 
visual, pelo estatístico ou pelo cientista de dados, se há uma 
tendência de uma variável aumentar quando a outra aumenta, 
diminuir quando a outra diminui, ou se não há uma relação aparente 
entre as duas. 
II. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação 
entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, 
em inglês, de scatter plot. 
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação 
entre o valordo imóvel e o seu andar. Esse tipo de gráfico é chamado, 
em inglês, de scatter plot. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
F, V, V, V. 
Resposta Correta: 
 
F, V, V, V. 
Feedback 
da 
resposta: 
Resposta correta. A única asserção falsa é a que afirma que gráficos de 
dispersão só podem ser usados para a visualização de uma única variável, 
a qual deve ser obrigatoriamente uma variável qualitativa. É correto dizer 
que são usados para a visualização da relação entre duas variáveis 
quantitativas, permitindo a verificação visual de tendência de uma 
variável aumentar quando a outra aumenta, diminuir quando a outra 
aumenta, ou se não há uma relação aparente entre as duas. Sendo assim, 
puderam ser usados para exibir, em pares, a relação entre o valor do 
imóvel e a sua área e o valor do imóvel e o seu andar. 
 
 
 
• Pergunta 5 
1 em 1 pontos 
 
 Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, 
listas, sequências, séries, etc. São muitos os dados que hoje coletamos de 
diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma 
dessas forma, talvez a mais importante delas, são os dados estruturados. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
 . Dados estruturados são dados que não possuem uma estrutura 
regular e repetitiva, seguindo um padrão comum adotado pelas 
ciências da computação, estatística e ciência dos dados. 
I. A forma de organização básica dos dados, preferida na estatística e 
na ciência dos dados, é a forma tabular, na qual as variáveis são 
dispostas nas linhas e as observações são dispostas nas colunas. 
II. Dados estruturados são dados que possuem uma estrutura regular e 
repetitiva, seguindo um padrão comum adotado pelas ciência da 
computação, estatística e ciência dos dados. 
III. A forma de organização básica dos dados, preferida na estatística e 
na ciência dos dados, é a forma tabular, na qual as variáveis são 
dispostas nas colunas e as observações são dispostas nas linhas. 
 
 
Está correto o que se afirma em: 
 
 
Resposta Selecionada: 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
III e IV, apenas. 
Resposta Correta: 
 
III e IV, apenas. 
Feedback 
da resposta: 
Resposta correta. Dados estruturados são dados que possuem uma 
estrutura regular e repetitiva, seguindo um padrão comum adotado pelas 
ciência da computação, estatística e ciência dos dados. Também está 
correto dizer que a forma de organização básica dos dados, preferida na 
estatística e na ciência dos dados, é a forma tabular, na qual as variáveis 
são dispostas nas colunas e as observações são dispostas nas linhas. 
 
 
 
• Pergunta 6 
1 em 1 pontos 
 
 Usamos gráficos para a visualização do comportamento (a descoberta de 
padrões), tanto de cada variável individualmente quanto da relação entre 
variáveis (o comportamento de uma em relação à outra). Ambas 
visualizações, seja da variável individualmente, seja da sua possível relação 
com outra variável, são de grande utilidade. 
 
Quanto aos gráficos para a visualização da relação entre duas variáveis, 
analise as afirmativas a seguir: 
I. Gráficos de dispersão são usados para a visualização da relação entre 
duas variáveis quantitativas. 
II. Boxplots são usados para a visualização da relação entre uma variável 
quantitativa e uma variável qualitativa (ou os níveis de uma variável 
qualitativa). 
III. Mosaic plots são usados para a visualização entre duas variáveis 
qualitativas (ou, em outras palavras, entre os níveis de duas variáveis 
qualitativas). 
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma 
das variáveis no eixo horizontal e a outra no eixo vertical. 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
 
I, II, III e IV. 
Resposta Correta: 
 
I, II, III e IV. 
Feedback 
da 
resposta: 
Sua resposta está correta. A alternativa está correta, pois uma árvore faz 
partição recursiva das variáveis de entrada hierarquicamente; a cada 
estágio da construção da árvore, o nó inicial e depois os nós 
intermediários dividem o domínio da variável de entrada em questão, de 
onde bifurcam os seus ramos para a esquerda e para a direita; esses 
valores indicam como se deve ler a árvore, ao se caminhar pelos seus 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
ramos; em cada nó intermediário ou no nó inicial há um valor 
quantitativo ou qualitativo, que é o valor escolhido pela árvore para fazer 
a partição da variável estágio; e em árvores de decisão de classificação ou 
regressão, os nós terminais exibem os valores estimados para a variável 
resposta. 
 
 
 
• Pergunta 7 
1 em 1 pontos 
 
 Modelos de regressão linear são os mais importantes modelos de regressão 
da estatística e da ciência dos dados. Eles são divididos em dois grupos: 
modelos de regressão linear simples e modelos de regressão linear múltipla. 
 
Referente ao modelo de regressão linear múltipla para o valor do imóvel em 
função da sua área, seu andar e sua localização, analise as afirmativas a 
seguir. 
 
I. O estatístico desenvolveu um modelo completo para o valor esperado 
de (valor do imóvel) em função de (área do imóvel), (andar 
do imóvel) e (localização do imóvel), simultaneamente. Esse modelo 
ficou assim: 
 
 
 
II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, 
respectivamente, quanto varia o valor esperado para o apartamento com a 
variação unitária de sua área (em metros quadrados), a variação unitária do 
seu andar (1 andar a mais) e a sua localização (bairro = 0 ou centro = 1). 
III. Com base nesse modelo, foi possível verificar que, para apartamentos de 
mesma área e mesmo andar, porém um no bairro e outro no centro, o 
apartamento do centro tem um valor esperado menor que o do bairro em 
27,43 mil reais (27 mil arredondando para mil reais). Isso é válido para 
aquele município e para aqueles dados da corretora. 
IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 
metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais 
no bairro contra um valor esperado de 312,34 mil para um apartamento de 
mesma área e andar no centro. 
Está correto o que se afirma em: 
 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
Resposta Selecionada: 
 
I, II, III e IV. 
Resposta Correta: 
 
I, II, III e IV. 
Feedback 
da resposta: 
Resposta correta. A alternativa está correta, pois todas as afirmativas se 
apresentam de maneira adequada. O modelo é exatamente aquele 
informado, assim como a interpretação para os seus coeficientes. 
Também foi possível verificar que o valor esperado para um apartamento 
no centro é menor que o valor esperado para um apartamento no bairro 
em 27,43 mil reais e que a estimativa para o valor esperado de um 
apartamento de 50 metros quadrados no 10º andar é de 339,77 mil reais 
no bairro contra um valor esperado de 312,34 para um no centro de 
mesma área e andar. 
 
 
 
 
• Pergunta 8 
1 em 1 pontos 
 
 Tarefas de classificação são muitos comuns na estatística e na ciência dos 
dados, por serem muito comuns em todas atividades humanas, na ciência, 
na vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de 
classificação baseados em modelos de regressão logística simples ou 
múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
 . Regressão logística pode ser empregada na predição do peso médio 
(massa corporal média) de uma pessoa em função de sua altura, 
idade e sexo. 
I. Regressão logística pode ser empregada na predição do consumo 
médio decombustível de um carro em função da potência do seu 
motor e do seu peso. 
II. Regressão logística pode ser empregada na predição da 
probabilidade de uma pessoa votar em um determinado candidato e 
não nos outros em função de sua escolaridade, idade, sexo e classe 
social. 
III. Regressão logística pode ser empregada na predição da 
probabilidade de a pessoa ser diabética em função de um conjunto de 
sintomas clínicos que apresenta. 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
Resposta Selecionada: 
 
F, F, V, V. 
Resposta Correta: 
 
F, F, V, V. 
Feedback da 
resposta: 
Resposta correta. As duas primeiras situações se referem à predição de 
variáveis resposta quantitativas, o que não é possível com modelos de 
regressão logística; já as duas últimas situações são adequadas ao 
emprego de modelos de regressão logística. 
 
 
 
 
• Pergunta 9 
0 em 1 pontos 
 
 O modelo de regressão linear simples desenvolvido pelo estatístico para a 
predição do valor esperado para o imóvel em função da sua área foi: 
 
 
 
Ao tomar como base esse modelo, que foi ajustado aos dados da amostra 
cedida pela corretora ao estatístico, podemos estimar que o valor esperado 
para um apartamento de área igual a 58,0 metros quadrados é igual a 
(arredondando para mil reais): 
 
 
 
Resposta Selecionada: 
 
322. 
Resposta Correta: 
 
326. 
 
Feedback 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta. Ao 
substituirmos na equação do modelo pelo valor de 58,0 metros 
quadrados, obtemos y = 27,22 + 5,15 x 58,0 = 325,92. Esse valor, 
arredondado para unidades de mil reais, resulta em 326 KR$. 
 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/
 
• Pergunta 10 
1 em 1 pontos 
 
 O ser humano tem enorme facilidade em agrupar, por similaridade, e 
classificar coisas, todos os tipos de coisas. Por conta disso, problemas de 
classificação são muito frequentes no mundo, mais frequentes que 
problemas de regressão. Fornecemos alguns exemplos de aplicação de 
métodos de classificação no mundo dos negócios. Dentre esses exemplos, 
encontramos: 
 
 . a Netflix usa classificadores para recomendar filmes. Para a Netflix, o 
valor desse tipo de aplicação é que, quanto mais filmes assistirmos, 
maior será a sua receita; 
I. o Facebook usa classificadores para recomendar novas amizades 
para a nossa rede de relacionamento. Para o Facebook, o valor desse 
tipo de aplicação é que, quanto maior nossa rede de relacionamento, 
maior será a sua receita; 
II. um banco de varejo usa classificadores para detectar se uma 
operação com cartão de débito ou crédito é ou não uma operação 
fraudulenta. Para o banco, o valor dessa aplicação é que, quanto 
antes operações fraudulentas forem detectadas, mais rapidamente o 
banco pode agir para impedir perdas para seus clientes e para ele 
próprio; 
III. uma concessionária de distribuição de energia elétrica usa 
classificadores para identificar casos potenciais de roubo de energia 
da rede, os famosos “gatos”. Para as concessionárias de distribuição 
de energia elétrica, o valor dessa aplicação é evitar prejuízo com o 
furto de energia da rede, além do relevante aspecto de prevenção de 
acidentes decorrentes de instalações clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
 
I, II, III e IV. 
Resposta Correta: 
 
I, II, III e IV. 
Feedback da 
resposta: 
Resposta correta. Todos os exemplos listados nesta questão são 
problemas de classificação, os quais, como dissemos no enunciado, são 
muito frequentes no mundo. Em todos eles, a variável resposta é uma 
variável qualitativa, ou dicotômica, ou politômica. 
 
 
https://www.ambfacil.com.br/index.php?/topic/779-estat%C3%ADstica-aplicada-ao-data-science/

Continue navegando