Buscar

Big Data em Apoio à Tomada de Decisão MODULO 3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

QUESTIONÁRIO
Exercício avaliativo - Módulo 3
Parte superior do formulário
Marcar questão
Texto da questão
O agrupamento de dados, ou clusterização, é uma técnica que identifica grupos de objetos semelhantes em um conjunto de dados. Nesse contexto, existem muitos modelos que podem ser utilizados para realizar a clusterização, entretanto, os mais utilizados são: modelo de conectividade, de centroide, de distribuição e de densidade.  
Qual desses modelos é utilizado para analisar e entender a distribuição de probabilidade de uma variável aleatória?
a.
Modelos de conectividade.
b.
Modelos centroide.
c.
Modelos de distribuição.
d.
Modelos de densidade.
Feedback
Sua resposta está incorreta.
A alternativa “d” é a correta. Os modelos de densidade são ferramentas utilizadas para analisar e entender a distribuição de probabilidade de uma variável aleatória. Esses modelos são úteis para comparação de diferentes distribuições de probabilidade.
A resposta correta é:
Modelos de densidade.
Questão 2
Correto
Marcar questão
Texto da questão
A ordem correta para as etapas do processo ETL são:
a.
Extração, Transformação e Carregamento.
b.
Carregamento, Extração e Transformação.
c.
Transformação, Extração e Carregamento.
d.
Carregamento, Transformação e Extração.
Feedback
Sua resposta está correta.
A opção correta é a “a”. A ordem correta para o processo de ETL é Extract (Extração), Transformation (Transformação) e Load (Carregamento). É uma metodologia que automatiza as tarefas relacionadas com a transformação de dados para um formato adequado para análise e, na sequência, possibilita carregá-los em um sistema de armazenamento de dados (tais como Data Lake, Data Warehouse ou banco de dados NoSQL) (ROSS; KIMBALL, 2013).
A resposta correta é:
Extração, Transformação e Carregamento.
Questão 3
Incorreto
Atingiu 0,00 de 1,00
Marcar questão
Texto da questão
Sobre os modelos de centroide marque as afirmações verdadeiras
I. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é definida pela proximidade desses pontos aos centroides dos clusters.
II. Os modelos de centroide visam identificar centroides que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados.
III. Ao utilizar um modelo de centroide, é necessário fornecer o número de clusters desejado antes da execução do algoritmo. Isso significa que, ao contrário de outros modelos de clustering, como os modelos de conectividade baseados em vizinhança, estabelecer o número de clusters é um parâmetro desafiador que precisa ser determinado antes da execução do modelo.
a.
I e II são verdadeiras.
b.
I e III são verdadeiras.
c.
II e III são verdadeiras.
d.
Todas são verdadeiras.
Feedback
Sua resposta está incorreta.
A resposta é a “d”. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é definida pela proximidade desses pontos aos centroides (centro geométricos) dos clusters. Esses modelos visam identificar centroides que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados. Todas as três afirmações descrevem corretamente aspectos dos modelos de centroide.
A resposta correta é:
Todas são verdadeiras.
Questão 4
Correto
Atingiu 1,00 de 1,00
Marcar questão
Texto da questão
O estudo de algoritmos no contexto do Big Data tem se tornado cada vez mais relevante. Eles desempenham um papel fundamental na sociedade, ao lidar com o processamento de enormes volumes de dados gerados no ambiente cibernético. 
Sobre o conceito de algoritmos, julgue a frase a seguir como verdadeira ou falsa.
Um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa específica ou resolver um problema.
Verdadeiro 
Falso
Feedback
A afirmação é verdadeira. Na computação, um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa específica ou resolver um problema. Os algoritmos são usados em várias áreas da computação, desde a programação de software e desenvolvimento de jogos até a criptografia e análise de dados (SZWARCFITER; MARKENZON, 2010).
A resposta correta é 'Verdadeiro'.
Questão 5
Correto
Atingiu 1,00 de 1,00
Marcar questão
Texto da questão
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não estruturados de diversas fontes, como plataformas de mídia social, blogs, fóruns, vídeos e imagens. Esses dados são essenciais para fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identificar oportunidades de negócios e gerenciar a reputação online. 
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados em seu formato original, sem a necessidade de transformação imediata.
Diante do cenário, qual dos processos a empresa pode se beneficiar?
ELT (Extract, Load, Transformation) .
 ETL (Extract, Transformation, Load)
Feedback
Sua resposta está correta.
Nesse exemplo, a escolha adequada é “ELT (Extract, Load, Transformation"). No caso descrito, a empresa se beneficia do processo ELT (Extract, Load, Transform). Essa abordagem permite que a organização capture os dados brutos em seu formato original, sem a necessidade de transformação imediata, o que possibilita explorar e analisar os dados não estruturados em seus formatos originais, como texto, imagens e vídeos. Além disso, o ELT oferece a vantagem de manipular os dados em tempo real, permitindo que a organização forneça insights atualizados e relevantes aos seus clientes.
A resposta correta é:
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não estruturados de diversas fontes, como plataformas de mídia social, blogs, fóruns, vídeos e imagens. Esses dados são essenciais para fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identificar oportunidades de negócios e gerenciar a reputação online. 
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados em seu formato original, sem a necessidade de transformação imediata.
Diante do cenário, qual dos processos a empresa pode se beneficiar?
[ELT (Extract, Load, Transformation)].
Questão 6
Correto
Atingiu 1,00 de 1,00
Marcar questão
Texto da questão
A distribuição de dados tem o objetivo de identificar a frequência com que determinados valores aparecem em um conjunto de dados, a fim de compreender melhor seu comportamento, além de identificar possíveis padrões ou tendências.
Para cada descrição, selecione o termo que representa o tipo de distribuição de dados correlato.
	a. Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor numérico da média é maior que o da mediana, e a mediana é maior que a moda.
	Resposta 1 
	b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino.
	Resposta 2 
	c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência, sendo caracterizada por uma função de densidade de probabilidade retangular.
	Resposta 3 
Feedback
Sua resposta está correta.
A distribuição normal (Gaussiana) é uma das distribuições mais comuns na análise estatística de dados, sendo caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. A curva é determinada por dois parâmetros: a média e o desvio padrão, que descrevem a localização e a dispersão dos dados, respectivamente. Já a distribuição right skewed é caracterizada pelo valor numérico da média maior que o da mediana, e a mediana maior que a moda. Difere, por exemplo, da distribuição left skewed,em que o valor numérico da moda é maior que da mediana, e a mediana é maior que a média. Por último, também se destaca o tipo de distribuição uniforme, na qual todos os valores possíveis têm a mesma probabilidade de ocorrência. Essa distribuição é comum em jogos de azar, como o lançamento de um dado, onde cada valor tem a mesma chance de ser sorteado.
A resposta correta é:
a. Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor numérico da média é maior que o da mediana, e a mediana é maior que a moda. → Distribuição right skewed,
b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. → Distribuição normal/Gaussiana,
c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência, sendo caracterizada por uma função de densidade de probabilidade retangular. → Distribuição uniforme.
Questão 7
Correto
Atingiu 1,00 de 1,00
Marcar questão
Texto da questão
No contexto de Big Data, dois modelos de programação se destacam: o MapReduce e o ElasticSearch. 
Com base nesses modelos, julgue a descrição abaixo como Verdadeira ou Falsa.
O MapReduce é composto por duas etapas principais: a primeira, chamada map, responsável por realizar o processamento paralelo dos dados; e a segunda, chamada reduce, responsável por agregar os resultados parciais obtidos na etapa de map. É útil para processar grandes volumes de dados não estruturados. Já o modelo de programação ElasticSearch utiliza o conceito de índices para organizar os dados, permitindo buscar informações textuais em grandes volumes de dados em tempo real. 
Verdadeiro 
Falso
Feedback
 frase é verdadeira e descreve corretamente os dois modelos de programação. O MapReduce é um modelo de programação distribuída que permite processar grandes volumes de dados de forma eficiente e escalável. Ele foi desenvolvido pela Google para processar grandes conjuntos de dados em clusters de computadores, dividindo-os em tarefas menores e paralelizando o processamento em vários nós do cluster.
O ElasticSearch é um mecanismo de busca e análise de código aberto. Ele é uma ferramenta poderosa para a análise de grandes volumes de dados em tempo real, tornando-se muito popular em ambientes corporativos. O ElasticSearch foi desenvolvido para ser escalável, distribuído e tolerante a falhas, permitindo que os usuários trabalhem com grandes conjuntos de dados de forma eficiente e rápida.
A resposta correta é 'Verdadeiro'.
Parte inferior do formulário
Distribuição right skewed
Distribuição normal/Gaussiana
Distribuição uniforme

Outros materiais