Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de dados Professor(a): Marcelo Osnar Rodrigues de Abreu (Doutorado) 1) 2) 3) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! O teste t para amostras independentes compara as médias de dois grupos distintos para verificar se existe evidência estatística de que as médias da população associada são significativamente diferentes. Sobre o teste t para amostras independentes, determine qual a opção correta. Alternativas: O teste é do tipo não paramétrico e não precisa assumir que os dados seguem uma distribuição normal. O teste é do tipo paramétrico, isto é, assume que os dados seguem uma distribuição normal. CORRETO Compara as médias de dois grupos relacionados para determinar se existe uma diferença estatisticamente significativa entre essas médias. Nesse teste, as análises são feitas no mesmo elemento do conjunto mais de uma vez. Procura a diferenças entre as médias quando os elementos são medidos sob a mesma variável dependente em duas condições diferentes. Código da questão: 58515 Uma variável é qualquer característica, número ou quantidade que possa ser medida ou contada. Baseando-se no contexto de variável, rotule o tipo de grandeza das variáveis: peso, altura, temperatura. Alternativas: Altura = contínua; peso e temperatura = discreta. Altura = discreta; peso e temperatura = contínua. Todas contínuas. CORRETO Peso e altura = discreta; temperatura = contínua. Todas discretas. Código da questão: 58496 O pré-processamento transforma os dados brutos coletados de diversas fontes distintas em informações mais limpas e claras. Existem diversas formas para tratar um conjunto de dados, logo, podemos citar a normalização como uma delas. Sobre a normalização, qual afirmativa representa melhor o conceito de normalização? Alternativas: Sempre usamos algoritmos de machine learning para normalizar os dados. Resolução comentada: para usar o teste t para amostras independentes, é necessário que os dados sigam a distribuição normal, isto é, teste paramétrico. Resolução comentada: peso, altura, temperatura são de natureza contínua, pois podem possuir um número infinito de valores. 4) 5) A normalização de dados é um processo que precisa de outras técnicas de manipulação para fornecer resultados eficazes. O propósito do processo é a remoção de dados duplicados, porém não é capaz de eliminar as redundâncias nos valores. A normalização dos dados visa solucionar apenas problemas de informações que conflitam entre si. O processo de normalização de dados reorganiza-os de forma que se tornem utilizáveis para consultas e análises exploratórias. CORRETO Código da questão: 58522 O teste t é usado com frequência para avaliar duas populações distintas quanto a uma variável quantitativa, em que o parâmetro médias (µ) e desvios-padrão (σ) são desconhecidos. Em relação aos testes T de Student para amostras independentes, podemos afirmar que: Alternativas: Teste usado com frequência para avaliar uma população. O teste t para amostras independentes compara as médias apenas de um grupo dependente para verificar a evidência estatística de que as médias da população associada são significativamente diferentes. Teste t de amostras independentes testa a média de um único grupo em relação a uma média conhecida. O teste de independência compara as médias de dois grupos independentes para determinar se há evidência estatística de que as médias da população associada são significativamente diferentes. CORRETO Teste t de amostras independentes para comparar médias do mesmo grupo em períodos diferentes. Código da questão: 58510 A distribuição de uma variável é definida como a quantidade de vezes que cada resultado possível pode ocorrer dentre várias tentativas. Com base nesse conceito, vamos supor que você trabalha em uma fábrica que produz geladeiras e precisa estimar o tempo de funcionamento esperado das geladeiras produzidas. Descreva qual distribuição de probabilidade que podemos usar para calcular esse tempo? Alternativas: Distribuição exponencial. CORRETO Distribuição binomial. Distribuição normal. Distribuição Poisson. Resolução comentada: a normalização é um processo em que os dados de um conjunto de valores são reorganizados de forma que se tornem utilizáveis para consultas e análises exploratórias. Os objetivos desse processo é a remoção de dados duplicados, eliminando, assim, as redundâncias nos valores. Outro propósito é agrupa-los de maneira lógica. Os conjuntos podem conter informações que conflitam entre si, portanto, a normalização visa solucionar esse problema conflitante e resolver antes de a análise continuar. A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais. Por fim, a normalização consolida, combinando em uma estrutura muito mais organizada os valores a serem analisados. Resolução comentada: teste t de amostras independentes para comparar as médias de dois grupos diferentes, sobre o mesmo período. 6) 7) Distribuição uniforme. Código da questão: 58498 Medidas de tendência central são formas de descrever o valor central de uma distribuição de dados. Dentre essas medidas, podemos citar a mediana (Md) de um conjunto de elementos, a qual é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. Com base nesse conceito, determine a mediana do conjunto: [6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2] Alternativas: 6.3. 6. 7.1. CORRETO 8. 5.2. Código da questão: 58503 Normalização é uma técnica de organização dos elementos no banco de dados é uma abordagem para eliminar a redundância e pontos indesejáveis, como anomalias de inserção, atualização e exclusão. Em relação a pré-processamento e normalização, identifique a opção correta. Alternativas: A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais, porém, sempre é necessário apenas para análises com algoritmos de machine learning. A normalização não é utilizada com frequência, pois quase sempre os dados são limpos. Processo em que os dados de um conjunto de valores são reorganizados de forma que se torne utilizável para consultas e análises exploratórias. Na normalização, os valores dos elementos ficam em um determinado intervalo específico, como [-1,0]. CORRETO O propósito do processo é agrupar os valores de maneira lógica. Na normalização, os valores dos elementos ficam sempre em um determinado intervalo específico. Esse intervalo é sempre de [1,0]. A normalização é feita apenas com o auxílio de algoritmos de machine learning. Resolução comentada: a distribuição exponencial é utilizada para análise de sobrevivência, a qual se caracteriza por ter uma função de taxa de falha constante. Resolução comentada: inicialmente, temos que ordenar os dados: 2.2,4.5,5.2,6,6.3,7.1,8,8.9,9.1,23,34. O valor central é 7.1. Resolução comentada: processo em que os dados de um conjunto de valores são reorganizados de forma que se torne utilizável para consultas e análises exploratórias. Os objetivos desse processo é a remoção de dados duplicados, eliminando, assim, as redundâncias nos valores. Outro propósito é agrupar dados de maneira lógica. Na normalização, os valores dos elementos ficam em um determinado intervalo específico, como [-1,0]. Os conjuntos de dados podem conter informações que conflitam entre si, portanto, a normalização visa solucionar esse problema conflitante e resolver antes da análise 8) 9) Código da questão: 58519 Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza dos dados para indicaqual teste seguir. Sobre o teste de hipótese t de Student, determine a opção correta. Alternativas: O teste t de Student é uma metodologia usada para testar hipóteses retirada diretamente de uma população. Os dados não precisam seguir normalidade para aplicar o teste T de Student. T de Student testa hipóteses sobre a média de uma amostra extraída de uma população. CORRETO O teste t tipo não paramétrico, podendo ser usado para testar amostras independentes. A amostra em um teste t de Student testa apenas a hipótese alternativa. Código da questão: 58509 Dentre as formas de avaliar os dados, podemos citar a estatística descritiva. Ela permite apresentar os valores dentro de um conjunto de uma maneira mais significativa, o que possibilita uma interpretação mais simples, com base em coleta, resumo e simplificação dos dados. Com base nesse conceito, marque a alternativa correta. Alternativas: Em um conjunto de dados amodal existem valores repetidos. Medidas de posição descrevem a posição central de uma distribuição de frequência em um grupo de dados, como média, desvio-padrão e variância. A média aritmética ponderada é calculada somando cada valor do conjunto de dados pelo total de valores dos dados. No alcance, podemos calcular o range do conjunto de dados a partir da soma dos valores. A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. CORRETO Código da questão: 58508 continuar. A normalização pega os valores e os converte em um formato que permite processamento e análise adicionais. Por fim, a normalização de dados consolida-os, combinando-os em uma estrutura muito mais organizada. Resolução comentada: o teste t de Student, em estatística, é um método para testar hipóteses sobre a média de uma pequena amostra retirada de uma população normalmente distribuída quando o desvio-padrão da população é desconhecido. Resolução comentada: I. São medidas de posição: média, mediana e moda. II. A média aritmética ponderada é calculada multiplicando cada valor do conjunto de dados pelo seu respectivo peso. III. A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. IV. No conjunto amodal não existem valores repetidos. V. Calcula-se o range do conjunto de dados a partir da subtração entre o maior e o menor valor. 10) Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a variabilidade dos dados. Ela significa até que ponto é provável que os dados numéricos variem sobre um valor médio. Em outras palavras, a dispersão ajuda a entender a distribuição dos dados. Determine o desvio-padrão e a variância do conjunto de valores: [6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]. Alternativas: Desvio-padrão: 8.7 e variância: 50.15. Desvio-padrão: 8.1 e variância: 90.15. Desvio-padrão: 9.49 e variância: 90.15. CORRETO Desvio-padrão: 8.7 e variância: 90.15. Desvio-padrão: 9.49 e variância: 50.15. Código da questão: 58505 Resolução comentada: Arquivos e Links
Compartilhar