Logo Passei Direto
Buscar

Tipos de Dados e Identificação de Problemas

Ferramentas de estudo

Questões resolvidas

Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados relacionados com o problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento do problema.
II- Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas.
III- Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização.
IV- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
A As sentenças II, III e IV estão corretas.
B As sentenças I e IV estão corretas.
C As sentenças I e II estão corretas.
D Somente a sentença III está correta.

Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Os dados estruturados são oriundos de bancos de dados relacionais da organização.
II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
III- As redes sociais e bases externas abertas não são relevantes no contexto da questão.
A) As sentenças I e II estão corretas.
B) As sentenças I e III estão corretas.
C) As sentenças II e III estão corretas.
D) Somente a sentença I está correta.

Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de números quebrados. Podemos exemplificar com o valor de Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam indefinidamente. Esses dados podem ser divididos em unidades cada vez menores.
Referente aos dados do tipo contínuo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) Os dados contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção.
( ) Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo.
( ) Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc.
A - F - V - V.
B - F - F - V.
C - V - V - V.
D - F - V - F.

Várias atividades precisam ser realizadas para transformar os dados brutos em informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística, normalização e redução da dimensionalidade. Com relação à integração de dados, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados.
II- É o processo de agregar valor aos dados existentes.
III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais.
IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de dados para serem analisados.
A Somente a sentença IV está correta.
B As sentenças I e IV estão corretas.
C Somente a sentença III está correta.
D Somente a sentença II está correta.

A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de valores; serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse sentido, existem algumas etapas no processos de preparação dos dados. Referente às etapas envolvidas no processo, classifique V para as sentenças verdadeiras e F para as falsas:
Assinale a alternativa que apresenta a sequência CORRETA:
( ) A Integração diz respeito a remover qualquer ruído dos dados, envolvendo a normalização, agregação e generalização.
( ) A transformação visa resolver conflitos de dados ocorridos na integração de dados, bem como tratar de manipular as redundâncias que podem existir.
( ) A redução visa reduzir o conjunto de dados por meio de estratégias, como de redução de dimensionalidade de requisitos, agregação de cubos de dados e redução de numerosidade.
( ) A discretização ajuda a reduzir o tamanho dos dados para análise, muitas vezes dividindo atributos contínuos em intervalos.
A V - F - V - V.
B F - F - V - F.
C F - V - F - V.
D F - F - V - V.

Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade, processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes de dados, agregações, transformações, limpeza de dados e 'fatiar e cortar em cubos'. Essa atividade ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro, além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com base na importância da preparação de dados, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido.
II- O problema não precisa estar mapeado para fazer uso da preparação de dados.
III- A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se quer resolver.
IV-A preparação de dados é um tópico de pesquisa crucial após se mapear o problema em questão.
A As sentenças I e IV estão corretas.
B As sentenças II e III estão corretas.
C As sentenças III e IV estão corretas.
D As sentenças I e II estão corretas.

A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. 'O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história.' (SGB, 2019, s.p.). O estimado para o ano 2020 é que '... existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020' (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB?
Assinale a alternativa CORRETA:
A Equivale a um trilhão de gigabytes.
B Equivale a um trilhão de megabytes.
C Equivale a um trilhão de bits.
D Equivale a um trilhão de bytes.

Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados não formatados do mundo real. Com base em como é composto a maioria dos dados do mundo real, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados inconsistentes.
II- Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais.
III- A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de dados e muito mais.
IV- A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais.
A As sentenças II e IV estão corretas.
B Somente a sentença IV está correta.
C As sentenças II e III estão corretas.
D As sentenças I e II estão corretas.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados relacionados com o problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento do problema.
II- Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas.
III- Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização.
IV- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
A As sentenças II, III e IV estão corretas.
B As sentenças I e IV estão corretas.
C As sentenças I e II estão corretas.
D Somente a sentença III está correta.

Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Os dados estruturados são oriundos de bancos de dados relacionais da organização.
II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
III- As redes sociais e bases externas abertas não são relevantes no contexto da questão.
A) As sentenças I e II estão corretas.
B) As sentenças I e III estão corretas.
C) As sentenças II e III estão corretas.
D) Somente a sentença I está correta.

Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de números quebrados. Podemos exemplificar com o valor de Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam indefinidamente. Esses dados podem ser divididos em unidades cada vez menores.
Referente aos dados do tipo contínuo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) Os dados contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção.
( ) Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo.
( ) Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc.
A - F - V - V.
B - F - F - V.
C - V - V - V.
D - F - V - F.

Várias atividades precisam ser realizadas para transformar os dados brutos em informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística, normalização e redução da dimensionalidade. Com relação à integração de dados, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados.
II- É o processo de agregar valor aos dados existentes.
III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais.
IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de dados para serem analisados.
A Somente a sentença IV está correta.
B As sentenças I e IV estão corretas.
C Somente a sentença III está correta.
D Somente a sentença II está correta.

A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de valores; serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse sentido, existem algumas etapas no processos de preparação dos dados. Referente às etapas envolvidas no processo, classifique V para as sentenças verdadeiras e F para as falsas:
Assinale a alternativa que apresenta a sequência CORRETA:
( ) A Integração diz respeito a remover qualquer ruído dos dados, envolvendo a normalização, agregação e generalização.
( ) A transformação visa resolver conflitos de dados ocorridos na integração de dados, bem como tratar de manipular as redundâncias que podem existir.
( ) A redução visa reduzir o conjunto de dados por meio de estratégias, como de redução de dimensionalidade de requisitos, agregação de cubos de dados e redução de numerosidade.
( ) A discretização ajuda a reduzir o tamanho dos dados para análise, muitas vezes dividindo atributos contínuos em intervalos.
A V - F - V - V.
B F - F - V - F.
C F - V - F - V.
D F - F - V - V.

Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade, processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes de dados, agregações, transformações, limpeza de dados e 'fatiar e cortar em cubos'. Essa atividade ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro, além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com base na importância da preparação de dados, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido.
II- O problema não precisa estar mapeado para fazer uso da preparação de dados.
III- A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se quer resolver.
IV-A preparação de dados é um tópico de pesquisa crucial após se mapear o problema em questão.
A As sentenças I e IV estão corretas.
B As sentenças II e III estão corretas.
C As sentenças III e IV estão corretas.
D As sentenças I e II estão corretas.

A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. 'O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história.' (SGB, 2019, s.p.). O estimado para o ano 2020 é que '... existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020' (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB?
Assinale a alternativa CORRETA:
A Equivale a um trilhão de gigabytes.
B Equivale a um trilhão de megabytes.
C Equivale a um trilhão de bits.
D Equivale a um trilhão de bytes.

Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados não formatados do mundo real. Com base em como é composto a maioria dos dados do mundo real, analise as sentenças a seguir:
Assinale a alternativa CORRETA:
I- A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados inconsistentes.
II- Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais.
III- A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de dados e muito mais.
IV- A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais.
A As sentenças II e IV estão corretas.
B Somente a sentença IV está correta.
C As sentenças II e III estão corretas.
D As sentenças I e II estão corretas.

Prévia do material em texto

19/05/22, 10:55 Avaliação I - Individual
1/5
Prova Impressa
GABARITO | Avaliação I - Individual (Cod.:742465)
Peso da Avaliação 1,50
Prova 47053203
Qtd. de Questões 10
Acertos/Erros 9/1
Nota 9,00
Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas
de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os
clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI
da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados
relacionados com o problema que se referente aos dados estruturados, semiestruturados e não
estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de
dados identificados e suas fontes, analise as sentenças a seguir: I- Somente as bases internas dizem
respeito aos tipos de dados que são identificados no mapeamento do problema. II- Na identificação
do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não
estruturados e também dados oriundos de redes sociais e de bases externas. III- Nesta identificação,
os dados estruturados são oriundos de bancos de dados relacionais da organização. IV- Os dados não
estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos
de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. Assinale a
alternativa CORRETA:
A Somente a sentença III está correta.
B As sentenças II, III e IV estão corretas.
C As sentenças I e II estão corretas.
D As sentenças I e IV estão corretas.
Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a
identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe
destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a
integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados
identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de
bancos de dados relacionais da organização. II- Os dados não estruturados e semiestruturados podem
ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo,
planilhas, além de pesquisas realizadas de mercado. III- As redes sociais e bases externas abertas não
são relevantes no contexto da questão. Assinale a alternativa CORRETA:
A As sentenças II e III estão corretas.
B As sentenças I e III estão corretas.
C Somente a sentença I está correta.
D As sentenças I e II estão corretas.
 VOLTAR
A+ Alterar modo de visualização
1
2
19/05/22, 10:55 Avaliação I - Individual
2/5
Segundo Bi4all (2021, s.p), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas
Stories no Instagram, 147 mil fotos no Facebook e 41 milhões de mensagens foram trocadas no
WhatsApp?". Cabe destacar "que mais de 4,5 biliões de pessoas usam internet, enquanto os
utilizadores das redes sociais ultrapassaram já os 3,8 biliões com quase 60% da população mundial
online. Estes números ilustram bem a quantidade de dados que circulam no mundo, o que oferece
imensas oportunidades e desafios às empresas que transformam estes dados em valor para o negócio"
(BI4ALL, 2021, s.p.). Com base no volume de dados que não significa qualidade de dados, assinale a
alternativa CORRETA: FONTE: BI4ALL. 2021: A Soberania dos dados. 2021. Disponível em:
https://www.bi4all.pt/noticias/blog/2021-a-soberania-dos-dados/. Acesso em: 25 maio 2021.
A A qualidade do insumo não interfere na qualidade do produto.
B Quanto maior a quantidade de dados, melhor será o produto final.
C A preparação de dados é essencial para todo e qualquer projeto que envolver a análise
exploratória de dados.
D A qualidade do produto final está diretamente relacionada a se ter o maior número possível de
informação.
Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que
entre dois números há uma infinidade de números quebrados. Podemos exemplificar com o valor de
Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam
indefinidamente. Esses dados podem ser divididos em unidades cada vez menores. Referente aos
dados do tipo contínuo, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os dados
contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção. ( )
Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo. ( )
Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc. Assinale
a alternativa que apresenta a sequência CORRETA:
A V - V - V.
B F - V - V.
C F - V - F.
D F - F - V.
Várias atividades precisam ser realizadas para transformar os dados brutos em informações
relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas
atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema,
limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística,
normalização e redução da dimensionalidade. Com relação à integração de dados, analise as
sentenças a seguir: I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de
dados. II- É o processo de agregar valor aos dados existentes. III- Consiste em eliminar ruídos,
inconsistências e resolver problemas estruturais IV- Entre 50% e 90% do tempo dos funcionários de
Business Intelligence (BI) é gasto na preparação de dados para serem analisados. Assinale a
alternativa CORRETA:
A Somente a sentença IV está correta.
3
4
5
19/05/22, 10:55 Avaliação I - Individual
3/5
B Somente a sentença II está correta.
C As sentenças I e IV estão corretas.
D Somente a sentença III está correta.
A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem
incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de
valores; serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos
como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse
sentido, existem algumas etapas no processos de preparação dos dados. Referente às etapas
envolvidas no processo, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A
Integração diz respeito a remover qualquer ruído dos dados, envolvendo a normalização, agregação e
generalização. ( ) A transformação visa resolver conflitos de dados ocorridos na integração de dados,
bem como tratar de manipular as redundâncias que podem existir. ( ) A redução visa reduzir o
conjunto de dados por meio de estratégias, como de redução de dimensionalidade de requisitos,
agregação de cubos de dados e redução de numerosidade. ( ) A discretização ajuda a reduzir o
tamanho dos dados para análise, muitas vezes dividindo atributos contínuos em intervalos. Assinale a
alternativa que apresenta a sequência CORRETA:
A F - F - V - V.
B V - F - V - V.
C F - F - V - F.
D F - V - F - V.
Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado
de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade,
processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do
tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes
de dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividade
ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro,
além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com
base na importância da preparação de dados, analise as sentenças a seguir: I- Após o problema
mapeado é a diferença entre o sucesso e o fracasso obtido. II- O problema não precisa estar mapeado
para fazeruso da preparação de dados. III- A preparação de dados é a chave para resolver o problema
em questão mesmo quando não se sabe qual problema se quer resolver. IV-A preparação de dados é
um tópico de pesquisa crucial após se mapear o problema em questão. Assinale a alternativa
CORRETA: FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and
Exploratory Data Analysis. 2017. Disponível em:
https://www.worldprogramming.com/blog/credit_scoring_pt3. Acesso em: 25 maio 2021.
A As sentenças I e IV estão corretas.
B As sentenças III e IV estão corretas.
C As sentenças I e II estão corretas.
D As sentenças II e III estão corretas
6
7
19/05/22, 10:55 Avaliação I - Individual
4/5
D As sentenças II e III estão corretas.
A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados.
"O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a
história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de
dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A
produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350
zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de
dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020"
(SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB? FONTE: SGB. O que você precisa
entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em:
http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar-uma-organizacao-
data-driven/. Acesso em: 11 set. 2020.
A Equivale a um trilhão de megabytes.
B Equivale a um trilhão de bytes.
C Equivale a um trilhão de bits.
D Equivale a um trilhão de gigabytes.
Os dados identificados e integrados ao conjunto de dados nem sempre estão prontos para serem
utilizados. Portanto, é necessária uma etapa de preparação, na qual esse conjunto de dados será
coletado, limpado, normalizado e combinado, possibilitando, assim, que uma análise posterior seja
realizada. Dessa forma, podemos afirmar que a preparação de dados é necessária devido à presença
de dados não formatados do mundo real. Referente à forma como a maioria dos dados do mundo real
é composta, analise as sentenças a seguir: I- Dados imprecisos ou ausentes podem ocorrer devido a
erro na entrada de dados, problemas técnicos com biometria e muito mais. II- Dados ruidosos se
devem aos motivos que ocasionam a existência de duplicação de dados, entrada de dados humanos,
contendo erros de códigos ou nomes, como violação de restrições de dados, entre outros. III- Dados
inconsistentes podem ser um problema tecnológico de gadget que coleta dados, um erro humano
durante a entrada de dados etc. Assinale a alternativa CORRETA:
A Somente a sentença I está correta.
B As sentenças I e II estão corretas.
C As sentenças II e III estão corretas.
D Somente a sentença II está correta.
Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria
pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados
pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em
direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma
organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados
ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights
incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja
8
9
10
19/05/22, 10:55 Avaliação I - Individual
5/5
a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é
necessária devido à presença de dados não formatados do mundo real. Com base em como é
composto a maioria dos dados do mundo real, analise as sentenças a seguir: I- A maioria dos dados
do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados
inconsistentes. II- Existem muitos motivos para os dados ausentes não serem coletados
continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais. III-
A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a
existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes,
como violação de restrições de dados e muito mais. IV- A presença de inconsistências se deve as
razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta
dados, um erro humano durante a entrada de dados e muito mais. Assinale a alternativa CORRETA:
A Somente a sentença IV está correta.
B As sentenças II e IV estão corretas.
C As sentenças II e III estão corretas.
D As sentenças I e II estão corretas.
Imprimir

Mais conteúdos dessa disciplina