ESTATISTICA APLICADA AO DATA SCIENCE - A5

•

Sesi Ce

3

0

3

0

Filipe Angelozzi

23/08/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.221 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PERGUNTA 1
1. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo.
No que tange aos coeficientes do modelo de regressão linear simples para o valor do imóvel em função do seu andar, analise as afirmativas a seguir.
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função do seu, b0 = 333,71 e b2 = 6,55.
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2.
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0. Pode ser interpretado como o valor estimado de um apartamento localizado no térreo, porém isso é uma extrapolação, pois, na amostra analisada, não há nenhum apartamento no andar térreo.
IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 andar. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra.
Está correto o que se afirma em:

I, II, III e IV.

III e IV, apenas.

I e II, apenas.

II, III e IV, apenas.

II e III, apenas.
1 pontos
PERGUNTA 2
1. Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla.
Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área, seu andar e sua localização, analise as afirmativas a seguir.
I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do imóvel), simultaneamente. Esse modelo ficou assim:
II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou centro = 1).
III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso é válido para aquele município e para aqueles dados da corretora.
IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor esperado de 312,34 mil para um apartamento de mesma área e andar no centro.
Está correto o que se afirma em:

II e III, apenas.

I e II, apenas.

I, II e IV, apenas.

I, II, III e IV.

I, II e III, apenas.
1 pontos
PERGUNTA 3
1. Leia o excerto a seguir:
“Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.”
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37.
Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir:
I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados.
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados.
III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio livro.
IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados.
Está correto o que se afirma em:

I, II e III, apenas.

II e III, apenas.

II, III e IV, apenas.

II e IV, apenas.

I, II e IV, apenas.
1 pontos
PERGUNTA 4
1. Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que a corretora lhe passou.
Em relação a esses sumários, analise as afirmativas a seguir.
I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao estatístico.
II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada.
III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada.
IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo.
Está correto o que se afirma em:

I e III, apenas.

I, II e III, apenas.

I e II, apenas.

II e III, apenas.

IV, apenas.
1 pontos
PERGUNTA 5
1. É da estatística que a ciência dos dados herda uma forma muito bem estudada de classificação dos tipos de dados. Na estatística, os dados são divididos entre dados quantitativos e dados qualitativos. Estes últimos, os dados qualitativos, podem ser dicotômicos ou politômicos.
Acerca do exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também denominados classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro).
II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta).
III. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra. Foi usada pelo estatístico para contar a frequência de imóveis vendidos no bairro e no centro, na amostra cedida pela corretora.
IV. ( ) O diagrama de barras permite a visualização gráfica da contagem da frequência dos níveis observados de uma variável qualitativa. Foi usado pelo estatístico para a visualização de quantos imóveis foram vendidos no bairro e no centro.
Assinale a alternativa que apresenta a sequência correta.

F, V, F, V.

V, V, F, V.

V, V, F, F.

F, F, F, F.

V, V, V, V.
1 pontos
PERGUNTA 6
1. Leia o excerto a seguir:
“O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farãoboas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201.
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão.
Assinale a alternativa que apresenta a sequência correta:

F, V, F, V.

V, V, V, F.

F, V, V, F.

V, V, F, V.

F, V, V, V.
1 pontos
PERGUNTA 7
1. Vimos que são muitos os algoritmos de classificação usados na estatística ou na ciência dos dados. Vimos também que podem ser divididos entre classificadores determinísticos ou probabilísticos, em que, dentre estes últimos, se encontra o modelo de regressão logística. Relativamente a modelos de regressão logística, que são aqui o nosso foco, analise as afirmativas a seguir.
1. Modelos de regressão logística são usados como modelos preditivos para casos em que a variável resposta é qualitativa, preferencialmente qualitativa dicotômica. As variáveis de entrada podem ser de qualquer tipo, quantitativas ou qualitativas.
2. Modelos de regressão logística são chamados de regressão logística simples, quando só há uma variável de entrada, também denominada de variável regressora, variável preditora ou variável independente.
3. Modelos de regressão logística são chamados de regressão logística múltipla, quando há mais do que uma variável de entrada, também denominadas de variáveis regressoras, variáveis preditoras ou variáveis independentes.
4. Modelos de regressão logística são classificadores probabilísticos. Por exemplo, para dados sintomas de um certo paciente, um modelo de regressão logística, depois de adequadamente treinado, fará a predição da probabilidade deste paciente estar ou não infectado com o vírus HIV.
Está correto o que se afirma em:

II e III, apenas.

I, II e III, apenas.

I, II, III e IV.

I e III, apenas.

IV, apenas.
1 pontos
PERGUNTA 8
1. Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não).
2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta).
3. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado.
4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver um maior nível de inadimplência com o cartão entre aquelas que não têm emprego estável.
Assinale a alternativa que apresenta a sequência correta.

F, F, F, F.

F, V, F, V.

V, V, V, V.

V, V, F, F.

V, V, F, V.
1 pontos
PERGUNTA 9
1. O texto em referência fornece os seguintes exemplos de agrupamento: análise de perfil de usuários e perfil de itens para sistemas de recomendação; análise de padrões de comportamento de multidões; identificação de grupos de risco para empresas seguradoras; análise de emoções em redes sociais; reconhecimento de padrões em imagens de satélites ou imagens médicas; análise de padrões em cliques em páginas da internet, etc.
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.146.
A respeito dos campos de aplicação da análise de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A análise de emoções por meio de agrupamento pode servir ao propósito de averiguar o índice de aceitação de um candidato a um cargo eletivo público por região.
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao propósito de averiguar regiões com processos acelerados de desertificação.
III. ( ) A identificação de grupos de risco para empresas seguradoras pode servir ao propósito de precificação correta do valor do seguro para cada grupo de risco.
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir ao propósito de identificar a procura de páginas da web por cada bairro de um município.

V, V, V, F.

F, V, V, F.

V, V, F, F.

V, V, V, V.

V, F, F, V.
1 pontos
PERGUNTA 10
1. Algoritmos de aprendizado de máquina nos permitem tratar de problemas que seriam difíceis de serem tratados por regras criadas por seres humanos, mas que, curiosamente, ficam relativamente fáceis de serem tratados por algoritmos criados por seres humanos. As formas de solução desses problemas são chamadas tarefas de aprendizado de máquina.
Tomando como base esse texto e o que já discutimos sobre as tarefas de aprendizado de máquina, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Tarefas de regressão são capazes de predizer valores para variáveis resposta quantitativas e tarefas de classificação para variáveis resposta qualitativas.
II. ( ) Tarefas de classificação com dados faltantes são tarefas de classificação aplicadas a situações em que alguns dados de entrada estão faltando.
III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva um conjunto de dados não tão bem estruturados em uma forma discreta bem estruturada.
IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que converta uma sequência de símbolos escritos em uma linguagem para uma sequência de símbolos em outra linguagem.
Assinale a alternativa que apresenta a sequência correta:

F, V, V, F.

F, V, F, V.

F, F, V, V.

F, F, F, F.

V, V, V, V.