Prévia do material em texto
Prova Análise de Dados 1)Vamos avaliar a situação: suponha que você precise avaliar um conjunto de dados sobre o grau de escolaridade dos habitantes de município X. Cite o tipo de mensuração correta para a variável escolaridade. Alternativas: · Intervalar. · Nominal. · Razão. · Ordinal.CORRETO · Qualitativa. Resolução comentada: A variável escolaridade pode ser ordenada/classificada, por exemplo, ensino fundamental, ensino médio, ensino superior, mestre, doutor. 2)Uma distribuição de probabilidade é uma função que descreve a probabilidade de obter os possíveis valores que uma variável aleatória pode assumir. Dentre as distribuições de probabilidade, temos as do tipo discreta, que descreve a probabilidade de valores contábeis, como uma lista de números inteiros não negativos. Com uma distribuição de probabilidade discreta, cada valor possível da variável aleatória discreta pode ser associado a uma probabilidade diferente de zero. Sobre distribuição de probabilidade, podemos afirmar que: I. A mais básica de todas as variáveis aleatórias discretas é a binomial. Diz-se que X tem uma distribuição de binomial se X = 1 ocorrer com probabilidade π e X = 0. II. A distribuição Normal segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid). III. Na distribuição Bernoulli E(X) = V (X) = λ. IV. A distribuição contínua binomial é conhecida como n eventos de Bernoulli. V. A distribuição exponencial é utilizada para análise de sobrevivência. São verdadeiras: Alternativas: · I – II – III – V. · Apenas V.CORRETO · II – IV. · II – V. · I – II – IV. Resolução comentada: I é falsa – A mais básica de todas as variáveis aleatórias discretas é a Bernoulli. Diz-se que X tem uma distribuição de Bernoulli se X = 1 ocorrer com probabilidade π e X = 0. II é falsa – A Binomial segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid). III é falsa – Distribuição Poisson E(X) = V (X) =λ. IV é falsa – Distribuição binomial é do tipo discreta. V é verdadeira – A distribuição exponencial é utilizada para análise de sobrevivência. 3)Python é uma aplicação web de código aberto que permite criar e compartilhar documentos. Ele permite resolver vários tipos de problemas, como: exploração de dados, estatística, limpeza e transformação de dados, visualização, entre outras funcionalidades. Sobre as funcionalidades do Python para exploração e limpeza de dados, identifique as opções corretas. I. Matplotlib: biblioteca fundamental para exploração de dados. II. II. Para modificar um valor nulo pela média dos valores: data.fillna(data.mean(0)). III. O comando data.drop('E', inplace=True, axis=1) é usado com frequência para excluir linhas e colunas no banco. III. IV. O comando data.dropna() remove do banco todos os valores com NaN. IV. São verdadeiras: Alternativas: · Apenas a I. · II – IV.CORRETO · I – IV. · I – II – III. · I – II – III. Resolução comentada: I. Pandas: biblioteca fundamental para análise de dados. NumPy: biblioteca usada para realizar cálculos matemáticos. Matplotlib: biblioteca para visualização de dados. II. II. data.fillna(data.mean(0)). III. III. data.drop('E', inplace=True, axis=1). IV. IV. data.dropna(): remove do banco todos os valores com NaN. 4)Testes de hipóteses são métodos estatísticos em que um pesquisador testa uma suposição sobre um parâmetro populacional e realiza experimentos. Classifique em verdadeiro (V) ou falso (F) os resultados esperados de um teste de hipótese. ( ) Pesquisadores testam uma hipótese por meio dos dados da própria população em análise. ( ) Teste de hipóteses é usado para avaliar uma hipótese usando dados de amostra. ( ) O teste fornece evidências sobre a hipótese. ( ) O teste fornece não fornece evidências sobre a hipótese e assim precisamos fazer intervalos de confiança. Assinale a alternativa que contenha a sequência correta Alternativas: · F – V – V – F.CORRETO · V – V – F – V. · V – F – F – V. · V – V – V – F. · F – V – F – F. Resolução comentada: ( F ) Pesquisadores testam uma hipótese por meio dos dados da própria população em análise. Resposta: Pesquisadores testam uma hipótese através da amostra. ( V ) Teste de hipóteses é usado para avaliar uma hipótese usando dados de amostra. Resposta: Teste de hipóteses testa uma determinada hipótese sobre uma população através de uma amostra. ( V ) O teste fornece evidências sobre a hipótese. Resposta: O teste de hipóteses fornece ferramentas que nos permitem rejeitar ou não rejeitar uma hipótese estatística através da evidencia fornecida pela amostra. ( F) O teste fornece não fornece evidências sobre a hipótese e assim precisamos fazer intervalos de confiança. Resposta: Os testes de hipóteses estatísticos fornecem evidências e significância suficiente para provar uma hipótese. 5)A distribuição de uma variável é definida como a quantidade de vezes que cada resultado possível pode ocorrer dentre várias tentativas. Com base nesse conceito, vamos supor que você trabalha em uma fábrica que produz geladeiras e precisa estimar o tempo de funcionamento esperado das geladeiras produzidas. Descreva qual distribuição de probabilidade que podemos usar para calcular esse tempo? Alternativas: · Distribuição uniforme. · Distribuição normal. · Distribuição Poisson. · Distribuição binomial. · Distribuição exponencial.CORRETO Resolução comentada: A distribuição exponencial é utilizada para análise de sobrevivência, a qual se caracteriza por ter uma função de taxa de falha constante. 6)Medidas de tendência central são formas de descrever o valor central de uma distribuição de dados. Dentre essas medidas, podemos citar a mediana (Md) de um conjunto de elementos, a qual é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. Com base nesse conceito, determine a mediana do conjunto: [6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2] Alternativas: · 8. · 6. · 6.3. · 5.2. · 7.1.CORRETO Resolução comentada: inicialmente, temos que ordenar os dados: 2.2,4.5,5.2,6,6.3,7.1,8,8.9,9.1,23,34. O valor central é 7.1. 7)As análises de correlação e regressão são frequentemente usadas dentro das pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão não são sinônimos, e cada abordagem estatística é usada para uma finalidade determinada, baseada em um conjunto de suposições específicas. Sobre a correlação, podermos afirmar que: Alternativas: · Em uma correlação negativa, não existe correlação entre as variáveis. · Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas.CORRETO · Na correlação positiva, um valor diminui à medida que o outro aumenta. · A análise de correlação (r) fornece um valor que resume o grau de relacionamento linear somente em uma variável. · Os resultados do coeficiente de correlação (r) varia entre -1 a 0. Resolução comentada: Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas. Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por: Em que: r = o coeficiente de correlação. xi = os valores da variável x em uma amostra. yi = os valores da variável y em uma amostra. x̅ = a média dos valores da variável 8)A correlação é uma técnica estatística que mostra o quão forte são os pares de variáveis. Ela denota a associação entre duas variáveis quantitativas. Sobre correlação, podemos afirmar que: I. Correlação e causalidade têm a mesma definição. II. A correlação avalia somente os relacionamentos entre variáveis V. III. A correlação avalia todos os fatores que levam aos relacionamentos entre variáveis. IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois são dependentes. São verdadeiras: Alternativas: · I – IV.· II – IV. · I – II – III – IV. · Apenas a II.CORRETO · II – III. Resolução comentada: I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas variáveis estejam correlacionadas, isso não implica que uma variável cause as alterações em outra. II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis. III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos entre variáveis. IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um cause o outro. 9)Um conjunto de dados com valores inconsistentes pode não fornecer insumos suficientes para gerar uma boa análise. Informações consistentes, sem duplicação, atualizadas e formatadas são fundamentais para uma boa análise. A precisão é essencial para uma análise com alta qualidade. Dados com problemas precisam ser identificados e tratados. Em relação à qualidade dos dados, marque V para a opção verdadeira e F para a falsa. ( ) O pré-processamento de dados é uma técnica de exploração para transformar dados brutos coletados em informações mais limpas. ( ) No pré-processamento, os dados não são transformados ou codificados, a técnica precisa do auxílio de algoritmos de machine learning para isso. ( ) A normalização reorganiza os dados de maneira que os valores se tornem úteis apenas para serem processados por algoritmos. ( ) A normalização formata os dados e os converte de forma que permite processamento e análise adicionais. Assinale a alternativa que contenha a sequência correta: Alternativas: · V – F – F – V.CORRETO · V – F – V – V. · F – F – F – F. · F – F – V – F. · F – F – V – V. Resolução comentada: I. O pré-processamento é uma técnica de exploração de dados para transformar as informações brutas coletadas de diversas fontes em valores mais limpos. II. No pré-processamento, os dados são transformados ou codificados para um estado em que a máquina possa analisá-los. III. A normalização reorganiza os dados de maneira que se torne utilizável para consultas e análises exploratórias. IV. A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais. 10)Dentre as formas de avaliar os dados, podemos citar a estatística descritiva. Ela permite apresentar os valores dentro de um conjunto de uma maneira mais significativa, o que possibilita uma interpretação mais simples, com base em coleta, resumo e simplificação dos dados. Com base nesse conceito, marque a alternativa correta. Alternativas: · A média aritmética ponderada é calculada somando cada valor do conjunto de dados pelo total de valores dos dados. · No alcance, podemos calcular o range do conjunto de dados a partir da soma dos valores. · Medidas de posição descrevem a posição central de uma distribuição de frequência em um grupo de dados, como média, desvio-padrão e variância. · A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos.CORRETO · Em um conjunto de dados amodal existem valores repetidos. Resolução comentada: I. São medidas de posição: média, mediana e moda. II. A média aritmética ponderada é calculada multiplicando cada valor do conjunto de dados pelo seu respectivo peso. III. A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. IV. No conjunto amodal não existem valores repetidos. V. Calcula-se o range do conjunto de dados a partir da subtração entre o maior e o menor valor.