Atividade A5 - Estatística aplicada ao Data Science

•

UAM

1

0

1

0

Igor Pontes

19/06/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.049 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ATIVIDADE A5 (N2)
01- Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável quantitativa e uma variável qualitativa.
A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui.
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta.
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui.
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui.
R: F,V,V,F
02- Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si.
Relativamente a esses dois tipos, analise as afirmativas a seguir.
1. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa.
2. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa.
3. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa.
4. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa.
Está correto o que se afirma em:
R: II e III, apenas.
03- Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla.
Quanto ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área e do seu andar, analise as afirmativas a seguir.
I. O estatístico desenvolveu um modelo para o valor esperado de (valor do imóvel) em função de (área do imóvel) e (andar do imóvel), simultaneamente. Esse modelo ficou assim:
II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, é natural que os valores dos coeficientes para cada variável sejam diferentes do que os mesmos coeficientes para cada variável sozinha em uma regressão linear simples. Isso vale sempre que adicionamos variáveis de entrada ou eliminamos variáveis de entrada de um modelo de regressão linear.
III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados) e a variação unitária do seu andar (1 andar a mais).
IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um apartamento com 40 metros quadrados localizado no quinto andar em 433 mil reais (arredondando para mil reais).
Está correto o que se afirma em:
R: I, II e III, apenas.
04- Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico.
Relativamente a esse caso, analise as afirmativas a seguir.
I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho.
II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava.
III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido.
IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste.
Está correto o que se afirma em:
R: III, apenas.
05- A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de lado.
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados.
I. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou histogramas para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito
II. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou diagramas de barras para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito.
III. Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados.
IV. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas lançar mão da função table() do software estatístico R, para determinar a frequência com que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, se quisesse.
Está correto o que se afirma em:
R: I, III e IV apenas.
06- Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas as atividades humanas, na ciência, na vida social ou nos negócios.
Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística simples ou múltipla.
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
1. Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoa em função de sua altura, idade e sexo.
2. Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso.
3. Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e não nos outros em função de sua escolaridade, idade, sexo e classe social.
4. Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de sintomas clínicos que apresenta.
Assinale a alternativa que apresenta a sequência correta.
R: F, F, V, V.
07- Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla.
Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área, seu andar e sua localização, analise as afirmativas a seguir.
I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do imóvel), simultaneamente. Esse modelo ficou assim:
II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou centro = 1).
III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso é válido para aquele município e para aqueles dados da corretora.
IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor esperadode 312,34 mil para um apartamento de mesma área e andar no centro.
Está correto o que se afirma em:
R: I, II, III e IV.
08- Leia o excerto a seguir:
“O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201.
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão.
Assinale a alternativa que apresenta a sequência correta:
R: F, V, V, V.
09- Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas as visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade.
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em: R: I, II, III e IV.
10- Leia o excerto a seguir:
“Os modelos de árvores, também chamados de Árvores de Classificação e Regressão, árvores de decisão ou apenas árvores, são um método de classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais potentes, florestas aleatórias e boosting, formam a base das ferramentas de modelagem preditiva mais potentes e amplamente usadas na ciência de dados tanto para regressão quanto para classificação.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226.
Quanto às árvores de decisão para classificação e regressão, analise as afirmativas a seguir:
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de cada vez, de forma hierárquica, das mais importante às menos importantes, a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em que exibe os valores estimados para a variável resposta.
II. A cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou à direita do nó em questão.
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer a partição da variável tratada naquele estágio da construção da árvore.
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que designa os nós terminais das árvores, nos quais são exibidos os valores estimados para a variável resposta do modelo preditivo. Cada caminho da árvore indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, informadas no caminho do nó inicial até a folha.
Está correto o que se afirma em:
R: I, II, III e IV.