Análise de Dados

•

Anhanguera

Informática HFASP

18/06/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

Prévia do material em texto

Prova Análise de Dados
1)Vamos avaliar a situação: suponha que você precise avaliar um conjunto de dados sobre o grau de escolaridade dos habitantes de município X. Cite o tipo de mensuração correta para a variável escolaridade.
Alternativas:
· Intervalar.
· Nominal.
· Razão.
· Ordinal.CORRETO
· Qualitativa.
Resolução comentada:
A variável escolaridade pode ser ordenada/classificada, por exemplo, ensino fundamental, ensino médio, ensino superior, mestre, doutor.
2)Uma distribuição de probabilidade é uma função que descreve a probabilidade de obter os possíveis valores que uma variável aleatória pode assumir. Dentre as distribuições de probabilidade, temos as do tipo discreta, que descreve a probabilidade de valores contábeis, como uma lista de números inteiros não negativos. Com uma distribuição de probabilidade discreta, cada valor possível da variável aleatória discreta pode ser associado a uma probabilidade diferente de zero. Sobre distribuição de probabilidade, podemos afirmar que:
I. A mais básica de todas as variáveis aleatórias discretas é a binomial. Diz-se que X tem uma distribuição de binomial se X = 1 ocorrer com probabilidade π e X = 0.
II. A distribuição Normal segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid).
III. Na distribuição Bernoulli E(X) = V (X) = λ.
IV. A distribuição contínua binomial é conhecida como n eventos de Bernoulli.
V. A distribuição exponencial é utilizada para análise de sobrevivência.
São verdadeiras:
Alternativas:
· I – II – III – V.
· Apenas V.CORRETO
· II – IV.
· II – V.
· I – II – IV.
Resolução comentada:
I é falsa – A mais básica de todas as variáveis aleatórias discretas é a Bernoulli. Diz-se que X tem uma distribuição de Bernoulli se X = 1 ocorrer com probabilidade π e X = 0.
II é falsa – A Binomial segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid).
III é falsa – Distribuição Poisson E(X) = V (X) =λ.
IV é falsa – Distribuição binomial é do tipo discreta.
V é verdadeira – A distribuição exponencial é utilizada para análise de sobrevivência.
3)Python é uma aplicação web de código aberto que permite criar e compartilhar documentos. Ele permite resolver vários tipos de problemas, como: exploração de dados, estatística, limpeza e transformação de dados, visualização, entre outras funcionalidades.
Sobre as funcionalidades do Python para exploração e limpeza de dados, identifique as opções corretas.
I. Matplotlib: biblioteca fundamental para exploração de dados.
II. II. Para modificar um valor nulo pela média dos valores: data.fillna(data.mean(0)).
III. O comando data.drop('E', inplace=True, axis=1) é usado com frequência para excluir linhas e colunas no banco.
III. IV. O comando data.dropna() remove do banco todos os valores com NaN.
IV. São verdadeiras:
Alternativas:
· Apenas a I.
· II – IV.CORRETO
· I – IV.
· I – II – III.
· I – II – III.
Resolução comentada:
I. Pandas: biblioteca fundamental para análise de dados. NumPy: biblioteca usada para realizar cálculos matemáticos. Matplotlib: biblioteca para visualização de dados.
II. II. data.fillna(data.mean(0)).
III. III. data.drop('E', inplace=True, axis=1).
IV. IV. data.dropna(): remove do banco todos os valores com NaN.
4)Testes de hipóteses são métodos estatísticos em que um pesquisador testa uma suposição sobre um parâmetro populacional e realiza experimentos. Classifique em verdadeiro (V) ou falso (F) os resultados esperados de um teste de hipótese.
( ) Pesquisadores testam uma hipótese por meio dos dados da própria população em análise.
( ) Teste de hipóteses é usado para avaliar uma hipótese usando dados de amostra.
( ) O teste fornece evidências sobre a hipótese.
( ) O teste fornece não fornece evidências sobre a hipótese e assim precisamos fazer intervalos de confiança. Assinale a alternativa que contenha a sequência correta
Alternativas:
· F – V – V – F.CORRETO
· V – V – F – V.
· V – F – F – V.
· V – V – V – F.
· F – V – F – F.
Resolução comentada:
( F ) Pesquisadores testam uma hipótese por meio dos dados da própria população em análise.
Resposta: Pesquisadores testam uma hipótese através da amostra.
( V ) Teste de hipóteses é usado para avaliar uma hipótese usando dados de amostra.
Resposta: Teste de hipóteses testa uma determinada hipótese sobre uma população através de uma amostra.
( V ) O teste fornece evidências sobre a hipótese.
Resposta: O teste de hipóteses fornece ferramentas que nos permitem rejeitar ou não rejeitar uma hipótese estatística através da evidencia fornecida pela amostra.
( F) O teste fornece não fornece evidências sobre a hipótese e assim precisamos fazer intervalos de confiança.
Resposta: Os testes de hipóteses estatísticos fornecem evidências e significância suficiente para provar uma hipótese.
5)A distribuição de uma variável é definida como a quantidade de vezes que cada resultado possível pode ocorrer dentre várias tentativas.
Com base nesse conceito, vamos supor que você trabalha em uma fábrica que produz geladeiras e precisa estimar o tempo de funcionamento esperado das geladeiras produzidas. Descreva qual distribuição de probabilidade que podemos usar para calcular esse tempo?
Alternativas:
· Distribuição uniforme.
· Distribuição normal.
· Distribuição Poisson.
· Distribuição binomial.
· Distribuição exponencial.CORRETO
Resolução comentada:
A distribuição exponencial é utilizada para análise de sobrevivência, a qual se caracteriza por ter uma função de taxa de falha constante.
6)Medidas de tendência central são formas de descrever o valor central de uma distribuição de dados. Dentre essas medidas, podemos citar a mediana (Md) de um conjunto de elementos, a qual é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. Com base nesse conceito, determine a mediana do conjunto:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]
Alternativas:
· 8.
· 6.
· 6.3.
· 5.2.
· 7.1.CORRETO
Resolução comentada:
inicialmente, temos que ordenar os dados:
2.2,4.5,5.2,6,6.3,7.1,8,8.9,9.1,23,34.
O valor central é 7.1.
7)As análises de correlação e regressão são frequentemente usadas dentro das pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão não são sinônimos, e cada abordagem estatística é usada para uma finalidade determinada, baseada em um conjunto de suposições específicas. Sobre a correlação, podermos afirmar que:
Alternativas:
· Em uma correlação negativa, não existe correlação entre as variáveis.
· Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas.CORRETO
· Na correlação positiva, um valor diminui à medida que o outro aumenta.
· A análise de correlação (r) fornece um valor que resume o grau de relacionamento linear somente em uma variável.
· Os resultados do coeficiente de correlação (r) varia entre -1 a 0.
Resolução comentada:
Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas.
Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por:
Em que:
r = o coeficiente de correlação.
xi = os valores da variável x em uma amostra.
yi = os valores da variável y em uma amostra.
x̅ = a média dos valores da variável
8)A correlação é uma técnica estatística que mostra o quão forte são os pares de variáveis. Ela denota a associação entre duas variáveis quantitativas.
Sobre correlação, podemos afirmar que:
I. Correlação e causalidade têm a mesma definição.
II. A correlação avalia somente os relacionamentos entre variáveis V.
III. A correlação avalia todos os fatores que levam aos relacionamentos entre variáveis.
IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois são dependentes.
São verdadeiras:
Alternativas:
· I – IV.· II – IV.
· I – II – III – IV.
· Apenas a II.CORRETO
· II – III.
Resolução comentada:
I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas variáveis estejam correlacionadas, isso não implica que uma variável cause as alterações em outra.
II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis.
III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos entre variáveis.
IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um cause o outro.
9)Um conjunto de dados com valores inconsistentes pode não fornecer insumos suficientes para gerar uma boa análise. Informações consistentes, sem duplicação, atualizadas e formatadas são fundamentais para uma boa análise. A precisão é essencial para uma análise com alta qualidade. Dados com problemas precisam ser identificados e tratados. Em relação à qualidade dos dados, marque V para a opção verdadeira e F para a falsa.
( ) O pré-processamento de dados é uma técnica de exploração para transformar dados brutos coletados em informações mais limpas.
( ) No pré-processamento, os dados não são transformados ou codificados, a técnica precisa do auxílio de algoritmos de machine learning para isso.
( ) A normalização reorganiza os dados de maneira que os valores se tornem úteis apenas para serem processados por algoritmos.
( ) A normalização formata os dados e os converte de forma que permite processamento e análise adicionais.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – F – F – V.CORRETO
· V – F – V – V.
· F – F – F – F.
· F – F – V – F.
· F – F – V – V.
Resolução comentada:
I. O pré-processamento é uma técnica de exploração de dados para transformar as informações brutas coletadas de diversas fontes em valores mais limpos.
II. No pré-processamento, os dados são transformados ou codificados para um estado em que a máquina possa analisá-los.
III. A normalização reorganiza os dados de maneira que se torne utilizável para consultas e análises exploratórias.
IV. A normalização pega os dados e os converte em um formato que permite processamento e análise adicionais.
10)Dentre as formas de avaliar os dados, podemos citar a estatística descritiva. Ela permite apresentar os valores dentro de um conjunto de uma maneira mais significativa, o que possibilita uma interpretação mais simples, com base em coleta, resumo e simplificação dos dados. Com base nesse conceito, marque a alternativa correta.
Alternativas:
· A média aritmética ponderada é calculada somando cada valor do conjunto de dados pelo total de valores dos dados.
· No alcance, podemos calcular o range do conjunto de dados a partir da soma dos valores.
· Medidas de posição descrevem a posição central de uma distribuição de frequência em um grupo de dados, como média, desvio-padrão e variância.
· A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos.CORRETO
· Em um conjunto de dados amodal existem valores repetidos.
Resolução comentada:
I. São medidas de posição: média, mediana e moda.
II. A média aritmética ponderada é calculada multiplicando cada valor do conjunto de dados pelo seu respectivo peso.
III. A mediana (Md) de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos.
IV. No conjunto amodal não existem valores repetidos.
V. Calcula-se o range do conjunto de dados a partir da subtração entre o maior e o menor valor.