Buscar

Estatística aplicada ao Data Science - EXERCICIOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Exercícios de Estatística
Unidade 1:
Como exemplo didático para a regressão linear, considere o proprietário de um restaurante que deseja aumentar as vendas investindo em propaganda na rádio da cidade. Considere também que o gasto nesse tipo de publicidade é calculado pelo número de inserções do anúncio na programação da rádio durante o mês. Com o cuidado de mensurar o efeito desses anúncios, o proprietário do restaurante somou, ao final dos meses em que fez o investimento com o anúncio, o número de vendas do prato filé à parmegiana.
O texto em referência descreve um problema de regressão linear, para o qual se obteve o seguinte modelo:
Y=117,38+9,62x
Onde:
X=número de inserções de anúncios durante o mês
Y=número de pratos de Filé à Parmegiana vendidos no mês
Para essa situação, assinale a alternativa correta:Parte superior do formulário
a) Os modelos de regressão linear são divididos em modelos de regressão linear simples e múltipla. O modelo desenvolvido para a situação aqui descrita é um modelo de regressão linear múltipla, onde há mais do que uma variável de entrada.
b) A variável resposta deste modelo de regressão linear é o número de inserções de anúncios em um mês. A variável resposta também é chamada de variável independente ou regressora.Parte inferior do formulário
c) Para saber quanto pratos de filé à parmegiana conseguirá vender no mês se investir em 50 inserções de anúncios, o proprietário substituiu o x da equação do modelo por 50 e obteve 598 pratos (arredondando para um número inteiro de pratos).
d) O parâmetro 9,62 representa o número de pratos de filé à parmegiana que são vendidos em um mês em que não se fez nenhuma inserção de anúncios. Em outras palavras, representa o número de pratos y quando x = 0.
Uma fábrica de autopeças possuía duas linhas de produção idênticas para seu principal produto. Os gestores precisavam aumentar a capacidade de produção dessas linhas para atender a um novo contrato de fornecimento com uma grande montadora que passaria a vigorar em 6 meses. Eles precisavam decidir entre a alternativa de investir em duas máquinas novas, uma para cada linha de produção, ou se seria suficiente otimizar a produção fazendo um retrofitting das máquinas existentes, um novo layout para o fluxo da produção e um maior número de funcionários dedicados a cada linha. Eles também queriam ter maior flexibilidade em controlar a taxa de produção.
Os gestores pediram a uma jovem engenheira de produção, recém-contratada, para ajudá-los na análise dessas alternativas. Essa jovem engenheira, após alguns testes, desenvolveu o seguinte modelo: 
Em que                    
Com base no modelo descrito, responda às seguintes perguntas:
1) Quais foram as variáveis estudadas?
As variáveis estudadas são: a velocidade da máquina, o layout e o número de funcionários.
2) Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual sua unidade de medida? Se qualitativa, que níveis ou classes podem assumir?
velocidade da máquina – quantitativo – a unidade de medida é rpm
layout – qualitativo – podendo ser antigo ou novo
número de funcionários – qualitativo – podendo ser atual ou maior
3) Como pode esse modelo de regressão linear múltipla ser usado para fazer predição de volume de produção de cada linha da fábrica?
O modelo leva em consideração todos os fatores variáveis que influenciam diretamente no fluxo que deseja-se produzir, dessa forma é possível fazer uma predição do volume de produção de cada linha da fábrica.
4) Descreva brevemente um exemplo de regressão linear múltipla que você pensou, identifique cada uma das variáveis de entrada e a variável resposta, descreva o tipo de cada uma delas (se quantitativa ou qualitativa) e forneça suas unidades de medida (se quantitativas) ou seus níveis ou classes (se qualitativas).
Um buffet deseja prever o valor a ser cobrado para as próximas festas. Para isso o buffet contratou um estatístico e forneceu dados das últimas 100 festas feitas pela empresa. Os dados disponíveis são: localização do evento (região 1 ou 2), número de convidados e tipo de cardápio (tradicional ou premium).
Y = valor do buffet	
X1 = localização do evento (variável qualitativa, podendo ser na região 1 (=1) ou na região 2 (=0))
X2 = número de convidados (variável quantitativa)
X3 = cardápio (variável qualitativa, podendo ser tipo tradicional (=1) ou premium (=0))
Unidade 2 
1.Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.
 
Relativamente a esse assunto sinalize como verdadeiro ou falso:
 
a) Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada. V
b) Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente. V
c) Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora ou variável independente. V
d) Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras. V
2.Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos marque verdadeiro ou falso:
 
a) Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa. F
b) Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa. V
c) Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa. V
c) Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa. F
3.Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas características), é usado como um classificador. Mas também vimos que existem outros tipos de classificadores. 
Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. 
 
a) Regressão logística é o único método de aprendizagem supervisionada que é utilizado para classificação, todos outros métodos são métodos de regressão. F
b) Apesar do nome regressão logística, o que acaba sendo um pouco confuso para iniciantes, na verdade este é um dos vários métodos de aprendizagem supervisionada utilizado para classificação. V
c) Dentre os métodos utilizados para classificação se encontram regressão logística, análise discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão para classificação, máquinas de vetores de suporte (SVM = support vector machines) e k-vizinhos mais próximos (KNN = k-nearest neighbors). V
d) Regressão linear não é um método de classificação, mas, sim, um dos métodos preditivos de aprendizagem supervisionada usados na predição de valores de variáveis respostas quantitativas. V
4.Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas atividades humanas, na ciência, na vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística simples ou múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
a) Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoaem função de sua altura, idade e sexo. F
b) Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso. F
c) Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e não nos outros em função de sua escolaridade, idade, sexo e classe social. V
d) Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de sintomas clínicos que apresenta. V
5.Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe? 
 
a) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. F
b) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas. V
c) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot. V
d) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot. V
 
6.Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
a) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego estável, renda fixa, dívidas pequenas, nome limpo e casa própria. V
b) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. V
c) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão. V
d) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor. F
e) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final sobre a concessão de cartão para o cliente. V
7.Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia exatamente em que situações empregar boxplots. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
a) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. V
b) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que no eixo horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a variação dos valores observados para a variável quantitativa. V
c) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. F
d) Na construção de um boxplot, podemos representar no eixo vertical os níveis da variável qualitativa e no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente, e os níveis (classes) da variável qualitativa são exibidos verticalmente. V
8.O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados para a predição da probabilidade de inadimplência com o cartão de crédito foi:
Tomando como base esse modelo, que foi ajustado aos dados da amostra cedida pelo gerente, podemos estimar o valor esperado para a probabilidade de inadimplência com cartão de crédito das pessoas. Por exemplo,  vamos considerar duas pessoas, uma com um gasto de médio mensal com o cartão de R$ 500,00, e a outra com um gasto médio mensal de R$ 1.000,00. Usando o modelo ajustado anterior, obtemos, respectivamente: 
7% e 27%
9.Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de regressão logística. Esses modelos são aplicados em situações bem distintas, que dependem, essencialmente, da natureza da variável resposta, também chamada de variável dependente. Com esses dois modelos em mente, analise as afirmativas a seguir.
 
a) Modelos de regressão logística simples são usados na predição de uma variável resposta qualitativa quando há mais do que uma variável de entrada. F
b) Modelos de regressão linear simples são usados na predição de uma variável resposta qualitativa quando se considera apenas uma variável de entrada. V
10.Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
a) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não). V
b) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta). V
c) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado. V
Unidade 3 
Uma determinada companhia de telefonia móvel vinha sofrendo com o alto número de contratos defeituosos de vendas realizadas nas suas lojas para pessoas físicas. Ela decidiu pedir ajuda a uma Engenheira da qualidade, que – em trabalho conjunto com as equipes operacionais e alguns gestores – testou 3 novos processos de emissão de contratos, denominados de processos A, B e C, em várias das lojas da companhia, para verificar qual deles traria melhor resultado na diminuição do índice de contratos defeituosos. Na linguagem da qualidade, defeito e não conformidade são sinônimos. Além disso, testaram esses processos em dias de movimento alto e baixo,e com equipes de tamanho normal ou reduzido. Para a classificação, os dados foram coletados e tratados por meio de uma árvore de decisão cujo gráfico resultante é mostrado a seguir:
Nessa árvore, C = Conforme e NC = Não Conforme. Com esse resultado em mãos, a engenheira da qualidade pôde recomendar qual a melhor solução a adotar para a redução do índice de contratos não conformes. Tomando esse relato como base, responda às seguintes perguntas:
1. Quais são as variáveis de entrada e qual é a variável resposta? E quais são os seus tipos?
As variáveis de entrada são processos A, B e C (variável quantitativa) e tamanho da equipe normal ou reduzido (variável qualitativa). A variável resposta é a conformidade dos contratos (variável qualitativa)
2. Que variável de entrada a árvore de decisão considerou como a mais importante? E qual a segunda variável mais importante?
Variável de entrada mais importante são os processos e a segunda variável mais importante é a equipe.
3. Esta árvore, como modelo preditivo, considerou relevante o efeito do movimento alto ou baixo na produção de contratos não conformes? Não.
4. De acordo com as predições desta árvore, qual a melhor solução a ser empregada pela companhia de telefonia móvel?
A melhor solução a ser empregada pela companhia de telefonia móvel é utilizar o processo B de emissão de contrato com a equipe reduzida.
Unidade 4 
1.Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada:
	a) Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do paciente.
	b) Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização.
	c) Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de venda.
	d) Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das faturas de seus cartões de crédito.
	e) Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados.
2.Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. 
	 
	Murder
	Assault
	UrbanPop
	Rape
	Murder 
	1.00
	0.80
	0.07
	0.56
	Assault
	0.80
	1.00
	0.26
	0.67
	UrbanPop  
	0.07
	0.26
	1.00
	0.41
	Rape     
	0.56
	0.67
	0.41
	1.00
                                   
A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. V
II. Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela com ela mesma. V
III. A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de 0,80. V
IV. A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. F
3.O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. 
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. V
II. Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. V
III. Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. V
IV. Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. V
4.Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output típico da função pairs() quando aplicada a quatro variáveis quantitativas de um determinado conjunto de dados.
 
A respeito deste output típico da função gráfica pairs() do software estatístico R, para a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s). 
 
I. O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder para um aumento de Assault. V
II. O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos sem uma tendência clara de subida ou descida. V
III. O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder para um aumento  de Assault, porém com uma dispersão dos pontos um pouco maior que para o caso de y = Murder versus x = Assault. V
IV. Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras três. V
5.Analise as asserções a seguir e a relação proposta entre elas. 
I.  Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas.
	a) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	b) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa  da I.
	c) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
	d) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
	e) As asserções I e II são proposições falsas.
6.Analise as asserções a seguir e a relação proposta entre elas. 
 
I.  No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar.
Pois
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo.
	a) As asserções I e II são proposições falsas.
	b) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
	c) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa  da I.
	d) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
	e) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
7.A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e Fpara a(s) Falsa(s). 
 
I.Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui.
II. Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta. V
III. Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. V
IV. Uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui.
 
8.Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes. F
II. Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente qualitativos. F
III. Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim. F
IV. Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só pode ser realizado por meio de algoritmos. F
9. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). 
Obteve o resultado exibido na figura exibida adiante:
 
Relativamente à interpretação desta figura, assinale a alternativa correta:
	a) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana.
	b) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico.
	c) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos.
	d) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos.
	e) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana.
10.A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura. O cientista de dados decide se esses grupos são adequados para a sua análise. 
Veja, por exemplo, a figura abaixo.
 
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. V
II. A altura 4 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. F
III. A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. F
IV. A altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. V

Continue navegando