Buscar

2 - Análise de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

1)Uma variável é uma característica de uma unidade observada que pode assumir 
mais de um conjunto de valores, tipos e mensurações. Logo, defina o tipo de 
mensuração que tem as variáveis: sexo, cor dos olhos e cor da pele. 
 
Alternativas: 
 
• Razão. 
• Contínua. 
• Intervalar. 
• Ordinal. 
• Nominal. Check CORRETO 
 
Resolução comentada: 
nas variáveis como sexo, cor dos olhos e cor da pele não existe ordem. 
 
2) A limpeza dos dados é um processo muito importante que antecede sua exploração, 
com base nesse processo, podemos extrair inconsistências e valores faltosos. A 
limpeza contém vários métodos para tratar as informações. Com base nesse texto, 
identifique o comando para remover a coluna B de um conjunto de dados 
 
Alternativas: 
 
• data.fillna(data.mean(0)). 
• data.drop('B', inplace=True, axis=1). check CORRETO 
• data.fillna(data.mean(B)). 
• data.drop('data', inplace=True, axis=B). 
• data.drop('B', inplace=True, axis=0). 
 
Resolução comentada: 
o método drop(). possui três parâmetros: 
• A coluna que queremos excluir. “B”. 
• A informação que as alterações devem ser feitas no DataFrame original, sem criar 
cópias. inplace=True. 
• A indicação que a alteração deve ser feita na coluna. “axis = 1”. 
 
3)Normalização é uma técnica de organização dos elementos no banco de dados é 
uma abordagem para eliminar a redundância e pontos indesejáveis, como anomalias 
de inserção, atualização e exclusão. Em relação a pré-processamento e 
normalização, identifique a opção correta. 
 
Alternativas: 
 
• O propósito do processo é agrupar os valores de maneira lógica. Na 
normalização, os valores dos elementos ficam sempre em um determinado 
intervalo específico. Esse intervalo é sempre de [1,0]. 
• A normalização é feita apenas com o auxílio de algoritmos de machine learning. 
• Processo em que os dados de um conjunto de valores são reorganizados de 
forma que se torne utilizável para consultas e análises exploratórias. Na 
normalização, os valores dos elementos ficam em um determinado intervalo 
específico, como [-1,0]. check CORRETO 
• A normalização pega os dados e os converte em um formato que permite 
processamento e análise adicionais, porém, sempre é necessário apenas para 
análises com algoritmos de machine learning. 
• A normalização não é utilizada com frequência, pois quase sempre os dados 
são limpos. 
 
Resolução comentada: 
processo em que os dados de um conjunto de valores são reorganizados de forma 
que se torne utilizável para consultas e análises exploratórias. Os objetivos desse 
processo é a remoção de dados duplicados, eliminando, assim, as redundâncias nos 
valores. Outro propósito é agrupar dados de maneira lógica. Na normalização, os 
valores dos elementos ficam em um determinado intervalo específico, como [-1,0]. 
Os conjuntos de dados podem conter informações que conflitam entre si, portanto, a 
normalização visa solucionar esse problema conflitante e resolver antes da análise 
continuar. A normalização pega os valores e os converte em um formato que permite 
processamento e análise adicionais. Por fim, a normalização de dados consolida-os, 
combinando-os em uma estrutura muito mais organizada. 
 
4)Vamos avaliar a situação: suponha que você precise avaliar um conjunto de dados 
sobre o grau de escolaridade dos habitantes de município X. Cite o tipo de 
mensuração correta para a variável escolaridade. 
 
Alternativas: 
 
• Qualitativa. 
• Razão. 
• Intervalar. 
• Nominal. 
• Ordinal. Check CORRETO 
 
Resolução comentada: 
a variável escolaridade pode ser ordenada/classificada, por exemplo, ensino 
fundamental, ensino médio, ensino superior, mestre, doutor. 
 
5) Teste de hipóteses é uma metodologia estatística em que um pesquisador testa 
uma suposição sobre um parâmetro populacional, no qual precisamos avaliar a 
natureza dos dados para indica qual teste seguir. Sobre o teste de hipótese t de 
Student, determine a opção correta. 
 
Alternativas: 
 
• O teste t tipo não paramétrico, podendo ser usado para testar amostras 
independentes. 
• A amostra em um teste t de Student testa apenas a hipótese alternativa. 
• O teste t de Student é uma metodologia usada para testar hipóteses retirada 
diretamente de uma população. 
• Os dados não precisam seguir normalidade para aplicar o teste T de Student. 
• T de Student testa hipóteses sobre a média de uma amostra extraída de uma 
população. Check CORRETO 
 
Resolução comentada: 
o teste t de Student, em estatística, é um método para testar hipóteses sobre a média 
de uma pequena amostra retirada de uma população normalmente distribuída quando 
o desvio-padrão da população é desconhecido. 
 
6)As análises de correlação e regressão são frequentemente usadas dentro das 
pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão 
não são sinônimos, e cada abordagem estatística é usada para uma finalidade 
determinada, baseada em um conjunto de suposições específicas. Sobre a 
correlação, podermos afirmar que: 
 
 
• Em uma correlação negativa, não existe correlação entre as variáveis. 
• A análise de correlação (r) fornece um valor que resume o grau de 
relacionamento linear somente em uma variável. 
• Os resultados do coeficiente de correlação (r) varia entre -1 a 0. 
• Na correlação positiva, um valor diminui à medida que o outro aumenta. 
• Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação 
(r) para quantificar a força e a direção do relacionamento entre duas variáveis 
numéricas. check CORRETO 
 
Resolução comentada: 
 
ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) 
para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. 
Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y, respectivamente. 
Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por: 
 
 
 
Em que: 
 
r = o coeficiente de correlação. 
 
xi = os valores da variável x em uma amostra. 
 
yi = os valores da variável y em uma amostra. 
 
x̅ = a média dos valores da variável 
 
 
7)Um conjunto de dados com valores inconsistentes pode não fornecer insumos 
suficientes para gerar uma boa análise. Informações consistentes, sem duplicação, 
atualizadas e formatadas são fundamentais para uma boa análise. A precisão é 
essencial para uma análise com alta qualidade. Dados com problemas precisam ser 
identificados e tratados. Em relação à qualidade dos dados, marque V para a opção 
verdadeira e F para a falsa. 
 
( ) O pré-processamento de dados é uma técnica de exploração para transformar 
dados brutos coletados em informações mais limpas. 
( ) No pré-processamento, os dados não são transformados ou codificados, a técnica 
precisa do auxílio de algoritmos de machine learning para isso. 
( ) A normalização reorganiza os dados de maneira que os valores se tornem úteis 
apenas para serem processados por algoritmos. 
( ) A normalização formata os dados e os converte de forma que permite 
processamento e análise adicionais. 
 
Assinale a alternativa que contenha a sequência correta: 
 
• F – F – V – F. 
• V – F – F – V. check CORRETO 
• V – F – V – V. 
• F – F – F – F. 
• F – F – V – V. 
 
Resolução comentada: 
I. O pré-processamento é uma técnica de exploração de dados para transformar as 
informações brutas coletadas de diversas fontes em valores mais limpos. II. No pré-
processamento, os dados são transformados ou codificados para um estado em que 
a máquina possa analisá-los. III. A normalização reorganiza os dados de maneira que 
se torne utilizável para consultas e análises exploratórias. IV. A normalização pega os 
dados e os converte em um formato que permite processamento e análise adicionais. 
 
8)Em um banco de dados, muitas vezes, encontramos dados nulos. Esses valores 
precisam ser removidos do DataFrame antes da exploração de dados.O Python 
fornece vários métodos para limpeza e tratamento. Portanto, ao analisar o conjunto 
de dados a seguir, notamos que existem alguns valores nulos. 
 
Figura 1 – Conjunto de dados 
 
Fonte: elaborada pela autora. 
 
Vamos supor que seja necessário substituir os valores nulos pelas médias dos valores. 
Qual opção a seguir indica o método para substituir os valores pela média? 
 
 
• data.drop('data', inplace=True, axis=mediana). 
• data.fillna(data.mean(0)). checkCORRETO 
• data.fillna(data.mean(A)). 
• data.drop('data', inplace=True, axis=media). 
• data.fillna(data.mean(A e C)). 
 
Resolução comentada: 
o método .fillna().substituindo o valor NaN por outro que seja satisfatório para a nossa 
análise, como a média dos valores, por exemplo. 
 
9)Sobre o que foi estudado em relação às distribuições estatísticas, que definem o 
número de vezes que cada resultado possível pode ocorrer em várias tentativas, 
vamos analisar a seguinte situação: podemos usar essa distribuição quando temos 
eventos nos pontos aleatórios de tempo. Classifique a que distribuição pertence esse 
conceito? 
 
 
• Normal. 
• Bernoulli. 
• Exponencial. 
• Binomial. 
• Poisson. check CORRETO 
 
Resolução comentada: 
a distribuição de Poisson é aplicável em situações em que os eventos ocorrem em 
pontos aleatórios de tempo, no qual temos interesse apenas no número de 
ocorrências do evento. 
10)A análise de dados fornece suporte para extrair informações e realizar inferências 
que tragam escopo e suporte para a tomada de decisão de um negócio. À medida que 
o mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a 
análise de dados tem um papel cada vez mais importante nos negócios. Acerca desse 
tema, analise as afirmativas a seguir e classifique-as em verdadeiras (V) ou falsas (F): 
( ) Existem somente técnicas de visualização de dados. 
( ) Um parâmetro faz uma descrição sobre as características da população. 
( ) A análise de dados pode ser aplicada somente no setor gerencial de uma empresa. 
( ) Gráficos facilitam a comunicação dos resultados. 
 
Assinale a alternativa que contenha a sequência correta: 
 
 
• F – V – F – V. check CORRETO 
• V – F – F – F. 
• F – F – F – V. 
• V – V – F – V. 
• V – V – V – F. 
 
Resolução comentada: 
F – Na análise de dados, existem métodos estatísticos e matemáticos capazes de 
transformar dados em informações. 
V – Os atributos da população podem ser descritos por meio do parâmetro. 
F – A análise de dados fornece suporte para todos os setores da empresa, por 
exemplo, para o setor financeiro, reduz os custos e aumenta os lucros. 
V – Os gráficos são uma forma simples para transmitir os feedback das análises dos 
dados.

Continue navegando