Baixe o app para aproveitar ainda mais
Prévia do material em texto
1)Uma variável é uma característica de uma unidade observada que pode assumir mais de um conjunto de valores, tipos e mensurações. Logo, defina o tipo de mensuração que tem as variáveis: sexo, cor dos olhos e cor da pele. Alternativas: • Razão. • Contínua. • Intervalar. • Ordinal. • Nominal. Check CORRETO Resolução comentada: nas variáveis como sexo, cor dos olhos e cor da pele não existe ordem. 2) A limpeza dos dados é um processo muito importante que antecede sua exploração, com base nesse processo, podemos extrair inconsistências e valores faltosos. A limpeza contém vários métodos para tratar as informações. Com base nesse texto, identifique o comando para remover a coluna B de um conjunto de dados Alternativas: • data.fillna(data.mean(0)). • data.drop('B', inplace=True, axis=1). check CORRETO • data.fillna(data.mean(B)). • data.drop('data', inplace=True, axis=B). • data.drop('B', inplace=True, axis=0). Resolução comentada: o método drop(). possui três parâmetros: • A coluna que queremos excluir. “B”. • A informação que as alterações devem ser feitas no DataFrame original, sem criar cópias. inplace=True. • A indicação que a alteração deve ser feita na coluna. “axis = 1”. 3)Normalização é uma técnica de organização dos elementos no banco de dados é uma abordagem para eliminar a redundância e pontos indesejáveis, como anomalias de inserção, atualização e exclusão. Em relação a pré-processamento e normalização, identifique a opção correta. Alternativas: • O propósito do processo é agrupar os valores de maneira lógica. Na normalização, os valores dos elementos ficam sempre em um determinado intervalo específico. Esse intervalo é sempre de [1,0]. • A normalização é feita apenas com o auxílio de algoritmos de machine learning. • Processo em que os dados de um conjunto de valores são reorganizados de forma que se torne utilizável para consultas e análises exploratórias. Na normalização, os valores dos elementos ficam em um determinado intervalo específico, como [-1,0]. check CORRETO • A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais, porém, sempre é necessário apenas para análises com algoritmos de machine learning. • A normalização não é utilizada com frequência, pois quase sempre os dados são limpos. Resolução comentada: processo em que os dados de um conjunto de valores são reorganizados de forma que se torne utilizável para consultas e análises exploratórias. Os objetivos desse processo é a remoção de dados duplicados, eliminando, assim, as redundâncias nos valores. Outro propósito é agrupar dados de maneira lógica. Na normalização, os valores dos elementos ficam em um determinado intervalo específico, como [-1,0]. Os conjuntos de dados podem conter informações que conflitam entre si, portanto, a normalização visa solucionar esse problema conflitante e resolver antes da análise continuar. A normalização pega os valores e os converte em um formato que permite processamento e análise adicionais. Por fim, a normalização de dados consolida-os, combinando-os em uma estrutura muito mais organizada. 4)Vamos avaliar a situação: suponha que você precise avaliar um conjunto de dados sobre o grau de escolaridade dos habitantes de município X. Cite o tipo de mensuração correta para a variável escolaridade. Alternativas: • Qualitativa. • Razão. • Intervalar. • Nominal. • Ordinal. Check CORRETO Resolução comentada: a variável escolaridade pode ser ordenada/classificada, por exemplo, ensino fundamental, ensino médio, ensino superior, mestre, doutor. 5) Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza dos dados para indica qual teste seguir. Sobre o teste de hipótese t de Student, determine a opção correta. Alternativas: • O teste t tipo não paramétrico, podendo ser usado para testar amostras independentes. • A amostra em um teste t de Student testa apenas a hipótese alternativa. • O teste t de Student é uma metodologia usada para testar hipóteses retirada diretamente de uma população. • Os dados não precisam seguir normalidade para aplicar o teste T de Student. • T de Student testa hipóteses sobre a média de uma amostra extraída de uma população. Check CORRETO Resolução comentada: o teste t de Student, em estatística, é um método para testar hipóteses sobre a média de uma pequena amostra retirada de uma população normalmente distribuída quando o desvio-padrão da população é desconhecido. 6)As análises de correlação e regressão são frequentemente usadas dentro das pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão não são sinônimos, e cada abordagem estatística é usada para uma finalidade determinada, baseada em um conjunto de suposições específicas. Sobre a correlação, podermos afirmar que: • Em uma correlação negativa, não existe correlação entre as variáveis. • A análise de correlação (r) fornece um valor que resume o grau de relacionamento linear somente em uma variável. • Os resultados do coeficiente de correlação (r) varia entre -1 a 0. • Na correlação positiva, um valor diminui à medida que o outro aumenta. • Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. check CORRETO Resolução comentada: ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por: Em que: r = o coeficiente de correlação. xi = os valores da variável x em uma amostra. yi = os valores da variável y em uma amostra. x̅ = a média dos valores da variável 7)Um conjunto de dados com valores inconsistentes pode não fornecer insumos suficientes para gerar uma boa análise. Informações consistentes, sem duplicação, atualizadas e formatadas são fundamentais para uma boa análise. A precisão é essencial para uma análise com alta qualidade. Dados com problemas precisam ser identificados e tratados. Em relação à qualidade dos dados, marque V para a opção verdadeira e F para a falsa. ( ) O pré-processamento de dados é uma técnica de exploração para transformar dados brutos coletados em informações mais limpas. ( ) No pré-processamento, os dados não são transformados ou codificados, a técnica precisa do auxílio de algoritmos de machine learning para isso. ( ) A normalização reorganiza os dados de maneira que os valores se tornem úteis apenas para serem processados por algoritmos. ( ) A normalização formata os dados e os converte de forma que permite processamento e análise adicionais. Assinale a alternativa que contenha a sequência correta: • F – F – V – F. • V – F – F – V. check CORRETO • V – F – V – V. • F – F – F – F. • F – F – V – V. Resolução comentada: I. O pré-processamento é uma técnica de exploração de dados para transformar as informações brutas coletadas de diversas fontes em valores mais limpos. II. No pré- processamento, os dados são transformados ou codificados para um estado em que a máquina possa analisá-los. III. A normalização reorganiza os dados de maneira que se torne utilizável para consultas e análises exploratórias. IV. A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais. 8)Em um banco de dados, muitas vezes, encontramos dados nulos. Esses valores precisam ser removidos do DataFrame antes da exploração de dados.O Python fornece vários métodos para limpeza e tratamento. Portanto, ao analisar o conjunto de dados a seguir, notamos que existem alguns valores nulos. Figura 1 – Conjunto de dados Fonte: elaborada pela autora. Vamos supor que seja necessário substituir os valores nulos pelas médias dos valores. Qual opção a seguir indica o método para substituir os valores pela média? • data.drop('data', inplace=True, axis=mediana). • data.fillna(data.mean(0)). checkCORRETO • data.fillna(data.mean(A)). • data.drop('data', inplace=True, axis=media). • data.fillna(data.mean(A e C)). Resolução comentada: o método .fillna().substituindo o valor NaN por outro que seja satisfatório para a nossa análise, como a média dos valores, por exemplo. 9)Sobre o que foi estudado em relação às distribuições estatísticas, que definem o número de vezes que cada resultado possível pode ocorrer em várias tentativas, vamos analisar a seguinte situação: podemos usar essa distribuição quando temos eventos nos pontos aleatórios de tempo. Classifique a que distribuição pertence esse conceito? • Normal. • Bernoulli. • Exponencial. • Binomial. • Poisson. check CORRETO Resolução comentada: a distribuição de Poisson é aplicável em situações em que os eventos ocorrem em pontos aleatórios de tempo, no qual temos interesse apenas no número de ocorrências do evento. 10)A análise de dados fornece suporte para extrair informações e realizar inferências que tragam escopo e suporte para a tomada de decisão de um negócio. À medida que o mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a análise de dados tem um papel cada vez mais importante nos negócios. Acerca desse tema, analise as afirmativas a seguir e classifique-as em verdadeiras (V) ou falsas (F): ( ) Existem somente técnicas de visualização de dados. ( ) Um parâmetro faz uma descrição sobre as características da população. ( ) A análise de dados pode ser aplicada somente no setor gerencial de uma empresa. ( ) Gráficos facilitam a comunicação dos resultados. Assinale a alternativa que contenha a sequência correta: • F – V – F – V. check CORRETO • V – F – F – F. • F – F – F – V. • V – V – F – V. • V – V – V – F. Resolução comentada: F – Na análise de dados, existem métodos estatísticos e matemáticos capazes de transformar dados em informações. V – Os atributos da população podem ser descritos por meio do parâmetro. F – A análise de dados fornece suporte para todos os setores da empresa, por exemplo, para o setor financeiro, reduz os custos e aumenta os lucros. V – Os gráficos são uma forma simples para transmitir os feedback das análises dos dados.
Compartilhar