Baixe o app para aproveitar ainda mais
Prévia do material em texto
28/12/2022 23:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2761585/5595688 1/5 Análise de dados Professor(a): Marcelo Osnar Rodrigues de Abreu (Doutorado) 1) 2) 3) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! O tratamento é um dos momentos mais importantes da análise de dados, pois podemos remover os valores inconsistentes e faltosos. Uma boa limpeza define qualidade do que precisa ser analisado. Sobre o processo de limpeza, podemos afirmar que: Alternativas: A manipulação dos dados é a única maneira de tratá-los. Remover linhas e colunas é a maneira mais simples de tratar os dados. O Python oferece várias formas de tratar os dados, como exclusão da coluna ou linha que não é mais útil e manipulando valores nulos. CORRETO Com Python, podemos manipular os valores nulos a partir do comando drop(). Com Python, podemos excluir linhas e colunas a partir do comando .fillna(). Código da questão: 58521 Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza dos dados para indica qual teste seguir. Sobre o teste de hipótese t de Student, determine a opção correta. Alternativas: O teste t de Student é uma metodologia usada para testar hipóteses retirada diretamente de uma população. A amostra em um teste t de Student testa apenas a hipótese alternativa. Os dados não precisam seguir normalidade para aplicar o teste T de Student. T de Student testa hipóteses sobre a média de uma amostra extraída de uma população. CORRETO O teste t tipo não paramétrico, podendo ser usado para testar amostras independentes. Código da questão: 58509 Um conjunto de dados com valores inconsistentes pode não fornecer insumos suficientes para gerar uma boa análise. Informações consistentes, sem duplicação, atualizadas e formatadas são fundamentais para uma boa análise. A precisão é essencial para uma análise com alta qualidade. Dados com problemas precisam ser identificados e tratados. Em relação à qualidade dos dados, marque V para a opção verdadeira e F para a falsa. ( ) O pré-processamento de dados é uma técnica de exploração para transformar dados brutos coletados em informações mais limpas. ( ) No pré-processamento, os dados não são transformados ou codificados, a técnica precisa do auxílio de algoritmos de machine learning para isso. Resolução comentada: pode-se realizar a limpeza no Python de várias formas: exclusão da coluna ou linha que não é mais útil e manipulando valores nulos com os comando drop(). e .fillna(). Resolução comentada: o teste t de Student, em estatística, é um método para testar hipóteses sobre a média de uma pequena amostra retirada de uma população normalmente distribuída quando o desvio-padrão da população é desconhecido. 28/12/2022 23:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2761585/5595688 2/5 4) 5) ( ) A normalização reorganiza os dados de maneira que os valores se tornem úteis apenas para serem processados por algoritmos. ( ) A normalização formata os dados e os converte de forma que permite processamento e análise adicionais. Assinale a alternativa que contenha a sequência correta: Alternativas: F – F – F – F. V – F – F – V. CORRETO V – F – V – V. F – F – V – V. F – F – V – F. Código da questão: 58518 Uma variável é uma característica de uma unidade observada que pode assumir mais de um conjunto de valores, tipos e mensurações. Logo, defina o tipo de mensuração que tem as variáveis: sexo, cor dos olhos e cor da pele. Alternativas: Intervalar. Razão. Nominal. CORRETO Contínua. Ordinal. Código da questão: 58495 Medidas de tendência central são formas de descrever o valor central de uma distribuição de dados. Dentre essas medidas, podemos citar a mediana (Md) de um conjunto de elementos, a qual é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. Com base nesse conceito, determine a mediana do conjunto: [6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2] Alternativas: 8. 6. 7.1. CORRETO 5.2. 6.3. Resolução comentada: I. O pré-processamento é uma técnica de exploração de dados para transformar as informações brutas coletadas de diversas fontes em valores mais limpos. II. No pré-processamento, os dados são transformados ou codificados para um estado em que a máquina possa analisá-los. III. A normalização reorganiza os dados de maneira que se torne utilizável para consultas e análises exploratórias. IV. A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais. Resolução comentada: nas variáveis como sexo, cor dos olhos e cor da pele não existe ordem. Resolução comentada: 28/12/2022 23:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2761585/5595688 3/5 6) 7) 8) Código da questão: 58503 Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a variabilidade dos dados. Ela significa até que ponto é provável que os dados numéricos variem sobre um valor médio. Em outras palavras, a dispersão ajuda a entender a distribuição dos dados. Determine o desvio-padrão e a variância do conjunto de valores: [6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]. Alternativas: Desvio-padrão: 8.7 e variância: 90.15. Desvio-padrão: 9.49 e variância: 50.15. Desvio-padrão: 8.1 e variância: 90.15. Desvio-padrão: 9.49 e variância: 90.15. CORRETO Desvio-padrão: 8.7 e variância: 50.15. Código da questão: 58505 Vamos avaliar a situação: suponha que você precise avaliar um conjunto de dados sobre o grau de escolaridade dos habitantes de município X. Cite o tipo de mensuração correta para a variável escolaridade. Alternativas: Intervalar. Razão. Nominal. Ordinal. CORRETO Qualitativa. Código da questão: 58501 A limpeza dos dados é um processo muito importante que antecede sua exploração, com base nesse processo, podemos extrair inconsistências e valores faltosos. A limpeza contém vários métodos para tratar as informações. Com base nesse texto, identifique o comando para remover a coluna B de um conjunto de dados Alternativas: data.drop('B', inplace=True, axis=1). CORRETO data.fillna(data.mean(0)). data.drop('data', inplace=True, axis=B). data.fillna(data.mean(B)). data.drop('B', inplace=True, axis=0). inicialmente, temos que ordenar os dados: 2.2,4.5,5.2,6,6.3,7.1,8,8.9,9.1,23,34. O valor central é 7.1. Resolução comentada: Resolução comentada: a variável escolaridade pode ser ordenada/classificada, por exemplo, ensino fundamental, ensino médio, ensino superior, mestre, doutor. 28/12/2022 23:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2761585/5595688 4/5 9) 10) Código da questão: 58516 As análises de correlação e regressão são frequentemente usadas dentro das pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão não são sinônimos, e cada abordagem estatística é usada para uma finalidade determinada, baseada em um conjunto de suposições específicas. Sobre a correlação, podermos afirmar que: Alternativas: A análise de correlação (r) fornece um valor que resume o grau de relacionamento linear somente em uma variável. Em uma correlação negativa, não existe correlação entre as variáveis. Os resultados do coeficiente de correlação (r) varia entre -1 a 0. Na correlação positiva, um valor diminui à medida que o outro aumenta. Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. CORRETO Código da questão: 58514 A correlaçãoé uma técnica estatística que mostra o quão forte são os pares de variáveis. Ela denota a associação entre duas variáveis quantitativas. Sobre correlação, podemos afirmar que: I. Correlação e causalidade têm a mesma definição. II. A correlação avalia somente os relacionamentos entre variáveis V. III. A correlação avalia todos os fatores que levam aos relacionamentos entre variáveis. IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois são dependentes. São verdadeiras: Resolução comentada: o método drop(). possui três parâmetros: • A coluna que queremos excluir. “B”. • A informação que as alterações devem ser feitas no DataFrame original, sem criar cópias. inplace=True. • A indicação que a alteração deve ser feita na coluna. “axis = 1”. Resolução comentada: ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. Sejam x , x , ..., x e y , y , ..., y os valores observados de X e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por: Em que: r = o coeficiente de correlação. x = os valores da variável x em uma amostra. y = os valores da variável y em uma amostra. x̅ = a média dos valores da variável 1 2 n 1 2 n. i i 28/12/2022 23:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2761585/5595688 5/5 Alternativas: II – III. I – IV. Apenas a II. CORRETO II – IV. I – II – III – IV. Código da questão: 58513 Resolução comentada: I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas variáveis estejam correlacionadas, isso não implica que uma variável cause as alterações em outra. II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis. III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos entre variáveis. IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um cause o outro. Arquivos e Links
Compartilhar