Buscar

ESTDAS_Prova N2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE – PROVA N2
QUESTÃO 1
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja relação com vendas altas ou baixas é exibida no gráfico adiante.
Figura: Efeito dos gastos com publicidade nas vendas
Fonte: Elaborada pelo autor.
Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas ligeiramente maiores.
II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20 mil reais por mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas.
III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer efeito dos gastos com publicidade sobre o volume de vendas da boneca.
IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos com publicidade são significativamente maiores.
Está correto o que se afirma em:
· III e IV, apenas.
· I e II, apenas.
· III, apenas.
· II e IV, apenas.
· I, apenas.
QUESTÃO 2
Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados.
Relativamente a esse assunto, analise as afirmativas a seguir.
1. Dados estruturados são dados que não possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciências da computação, estatística e ciência dos dados.
2. A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas linhas e as observações são dispostas nas colunas.
3. Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados.
4. A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
Está correto o que se afirma em:
· I, II e IV, apenas.
· III e IV, apenas.
· II e III, apenas.
· I, II e III, apenas.
· I e II, apenas.
QUESTÃO 3
Árvores de decisão são muito populares na estatística e na ciência dos dados. Parte dessa popularidade advém do fato de que as árvores de decisão são de muito fácil interpretação, o que contribui com a interpretação do caso (fenômeno, processo) estudado. Porém sabe-se que florestas randômicas têm melhor performance preditiva que árvores de decisão. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. Mesmo sabendo-se que florestas randômicas têm melhor performance preditiva que árvores de decisão, muitas vezes o cientista de dados dá preferência a modelos de árvores de decisão frente a florestas randômicas.
Pois:
II. Florestas randômicas, que são constituídas de centenas ou mais árvores, não têm a fácil interpretabilidade que árvores de decisão têm. Essa facilidade de interpretação não só é útil para a análise do fenômeno estudado, mas ajuda sobremaneira na comunicação dos resultados aos clientes.
A seguir, assinale a alternativa correta:
· As asserções I e II são proposições falsas.
· As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
· A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
· As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
· A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
QUESTÃO 4
Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que a corretora lhe passou.
Em relação a esses sumários, analise as afirmativas a seguir.
I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao estatístico.
II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada.
III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada.
IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo.
Está correto o que se afirma em:
· II e III, apenas.
· I e III, apenas.
· I, II e III, apenas.
· IV, apenas.
· I e II, apenas.
QUESTÃO 5
Leia o excerto a seguir:
“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”.
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213.
Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial.
Assinale a alternativa que apresenta a sequência correta:
· F, F, F, F.
· V, V, V, V.
· V, V, F, V.
· V, V, F, F.
· F, V, F, V.
· 
QUESTÃO 6
Leia o excerto a seguir:
“O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201.
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usardados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão.
Assinale a alternativa que apresenta a sequência correta:
· V, V, F, V.
· V, V, V, F.
· F, V, F, V.
· F, V, V, F.
· F, V, V, V.
QUESTÃO 7
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui.
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Dados e amostras. Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra.
II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família.
IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa.
V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho.
Assinale a alternativa que apresenta a sequência correta.
· F, V, V, F, V.
· V, V, F, V, F.
· V, V, V, V, V.
· V, F, F, V, V.
· V, V, F, F, F.
QUESTÃO 8
Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares, como uma planilha ou tabela de banco de dados. Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5-6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados.
Assinale a alternativa que apresenta a sequência correta:
· F, F, V, V.
· F, V, F, V.
· F, F, V, F.
· F, F, F, F.
· F, F, F, V.
QUESTÃO 9
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado.
( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período.
( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis.
( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada.
Assinale a alternativa que apresenta a sequência correta.
· V, V, F, F.
· V, V, V, V.
· V, F, F, V.
· F, F, V, V.
· F, V, V, F.
QUESTÃO 10
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os tipos de coisas. Por conta disso, problemas de classificação são muito frequentes no mundo, mais frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos de classificação no mundo dos negócios. Dentre esses exemplos, encontramos:
1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a sua receita;
2. o Facebook usa classificadores para recomendar novas amizades para a nossa rede de relacionamento. Para o Facebook, o valor desse tipo de aplicação é que, quanto maior nossa rede de relacionamento, maior será a sua receita;
3. um banco de varejo usa classificadores para detectar se uma operação com cartão de débito ou crédito é ou não uma operação fraudulenta. Para o banco, o valor dessa aplicação é que, quanto antes operações fraudulentas forem detectadas, mais rapidamente o banco pode agir para impedir perdas para seus clientes e para ele próprio;
4. uma concessionária de distribuição de energia elétrica usa classificadores para identificar casos potenciais de roubo de energia da rede, os famosos “gatos”. Para as concessionárias de distribuição de energia elétrica,o valor dessa aplicação é evitar prejuízo com o furto de energia da rede, além do relevante aspecto de prevenção de acidentes decorrentes de instalações clandestinas.
Está correto o que se afirma em:
· I e III, apenas.
· II e IV, apenas.
· I, II, III e IV.
· I e II, apenas.
· III e IV, apenas.

Continue navegando

Outros materiais