Análise de dados

•

UNOPAR

3

0

3

0

Natanael Sousa Barros

26/07/2022

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a variabilidade dos dados. Ela significa até que ponto é provável que os dados numéricos variem sobre um valor médio. Em outras palavras, a dispersão ajuda a entender a distribuição dos dados. Determine o desvio-padrão e a variância do conjunto de valores:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2].
Alternativas:
Desvio-padrão: 9.49 e variância: 90.15.checkCORRETO
Desvio-padrão: 9.49 e variância: 50.15.
Desvio-padrão: 8.1 e variância: 90.15.
Desvio-padrão: 8.7 e variância: 90.15.
Desvio-padrão: 8.7 e variância: 50.15.
Resolução comentada:
Código da questão: 58505
2)
As análises de correlação e regressão são frequentemente usadas dentro das pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão não são sinônimos, e cada abordagem estatística é usada para uma finalidade determinada, baseada em um conjunto de suposições específicas. Sobre a correlação, podermos afirmar que:
Alternativas:
Os resultados do coeficiente de correlação (r) varia entre -1 a 0.
Na correlação positiva, um valor diminui à medida que o outro aumenta.
Em uma correlação negativa, não existe correlação entre as variáveis.
Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas.checkCORRETO
A análise de correlação (r) fornece um valor que resume o grau de relacionamento linear somente em uma variável.
Resolução comentada:
ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r) para quantificar a força e a direção do relacionamento entre duas variáveis numéricas.
Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o número dado por:
Em que:
r = o coeficiente de correlação.
xi = os valores da variável x em uma amostra.
yi = os valores da variável y em uma amostra.
x̅ = a média dos valores da variável
Código da questão: 58514
3)
Em um banco de dados, muitas vezes, encontramos dados nulos. Esses valores precisam ser removidos do DataFrame antes da exploração de dados. O Python fornece vários métodos para limpeza e tratamento. Portanto, ao analisar o conjunto de dados a seguir, notamos que existem alguns valores nulos.
Figura 1 – Conjunto de dados
Fonte: elaborada pela autora.
Vamos supor que seja necessário substituir os valores nulos pelas médias dos valores. Qual opção a seguir indica o método para substituir os valores pela média?
Alternativas:
data.drop('data', inplace=True, axis=media).
data.fillna(data.mean(0)).checkCORRETO
data.drop('data', inplace=True, axis=mediana).
data.fillna(data.mean(A)).
data.fillna(data.mean(A e C)).
Resolução comentada:
o método .fillna().substituindo o valor NaN por outro que seja satisfatório para a nossa análise, como a média dos valores, por exemplo.
Código da questão: 58517
4)
O teste t é usado com frequência para avaliar duas populações distintas quanto a uma variável quantitativa, em que o parâmetro médias (µ) e desvios-padrão (σ) são desconhecidos. Em relação aos testes T de Student para amostras independentes, podemos afirmar que:
Alternativas:
Teste usado com frequência para avaliar uma população.
Teste t de amostras independentes para comparar médias do mesmo grupo em períodos diferentes.
Teste t de amostras independentes testa a média de um único grupo em relação a uma média conhecida.
O teste de independência compara as médias de dois grupos independentes para determinar se há evidência estatística de que as médias da população associada são significativamente diferentes.checkCORRETO
O teste t para amostras independentes compara as médias apenas de um grupo dependente para verificar a evidência estatística de que as médias da população associada são significativamente diferentes.
Resolução comentada:
teste t de amostras independentes para comparar as médias de dois grupos diferentes, sobre o mesmo período.
Código da questão: 58510
5)
Uma distribuição de probabilidade é uma função que descreve a probabilidade de obter os possíveis valores que uma variável aleatória pode assumir. Dentre as distribuições de probabilidade, temos as do tipo discreta, que descreve a probabilidade de valores contábeis, como uma lista de números inteiros não negativos. Com uma distribuição de probabilidade discreta, cada valor possível da variável aleatória discreta pode ser associado a uma probabilidade diferente de zero. Sobre distribuição de probabilidade, podemos afirmar que:
I. A mais básica de todas as variáveis aleatórias discretas é a binomial. Diz-se que X tem uma distribuição de binomial se X = 1 ocorrer com probabilidade π e X = 0.
II. A distribuição Normal segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid).
III. Na distribuição Bernoulli E(X) = V (X) = λ.
IV. A distribuição contínua binomial é conhecida como n eventos de Bernoulli.
V. A distribuição exponencial é utilizada para análise de sobrevivência.
São verdadeiras:
Alternativas:
I – II – III – V.
II – V.
I – II – IV.
II – IV.
Apenas V.checkCORRETO
Resolução comentada:
I é falsa – A mais básica de todas as variáveis aleatórias discretas é a Bernoulli. Diz-se que X tem uma distribuição de Bernoulli se X = 1 ocorrer com probabilidade π e X = 0.
II é falsa – A Binomial segue X1, X2,…, Xn como variáveis aleatórias Bernoulli independentes e identicamente distribuídas (iid).
III é falsa – Distribuição Poisson E(X) = V (X) =λ.
IV é falsa – Distribuição binomial é do tipo discreta.
V é verdadeira – A distribuição exponencial é utilizada para análise de sobrevivência.
Código da questão: 58499
6)
Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza dos dados para indica qual teste seguir. Sobre o teste de hipótese t de Student, determine a opção correta.
Alternativas:
A amostra em um teste t de Student testa apenas a hipótese alternativa.
Os dados não precisam seguir normalidade para aplicar o teste T de Student.
O teste t de Student é uma metodologia usada para testar hipóteses retirada diretamente de uma população.
T de Student testa hipóteses sobre a média de uma amostra extraída de uma população.checkCORRETO
O teste t tipo não paramétrico, podendo ser usado para testar amostras independentes.
Resolução comentada:
o teste t de Student, em estatística, é um método para testar hipóteses sobre a média de uma pequena amostra retirada de uma população normalmente distribuída quando o desvio-padrão da população é desconhecido.
Código da questão: 58509
7)
Medidas de tendência central descrevem a posição de um elemento dentro do conjunto de dados, ou seja, são medidas que fornecem uma ideia de todo os elementos, como as de tendência central: média, mediana e moda. A média (x ̅) de um conjunto de dados é encontrada por meio da soma de todos os números no conjunto de dados e depois dividindo pelo número de valores no conjunto. Com base nesse conceito, determine a média da distribuição a seguir:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]
Alternativas:
13.
12.
14.5.
10.39.checkCORRETO
11.40.
Resolução comentada:
Código da questão: 58502
8)
A análise de dados fornece suporte para extrair informações e realizar inferências que tragam escopo e suporte para a tomada de decisão de um negócio. À medida que o mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a análise de dados tem um papel cada vez mais importante nos negócios. Acerca desse tema, analise as afirmativas a seguir e classifique-as em verdadeiras (V) ou falsas (F):
( ) Existem somente técnicas de visualização de dados.
( ) Um parâmetro faz uma descrição sobre as características da população.
( ) A análise de dados
pode ser aplicada somente no setor gerencial de uma empresa.
( ) Gráficos facilitam a comunicação dos resultados.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – F – V.
F – F – F – V.
V – V – V – F.
V – F – F – F.
F – V – F – V.checkCORRETO
Resolução comentada:
F – Na análise de dados, existem métodos estatísticos e matemáticos capazes de transformar dados em informações.
V – Os atributos da população podem ser descritos por meio do parâmetro.
F – A análise de dados fornece suporte para todos os setores da empresa, por exemplo, para o setor financeiro, reduz os custos e aumenta os lucros.
V – Os gráficos são uma forma simples para transmitir os feedback das análises dos dados.
Código da questão: 58497
9)
A correlação é uma técnica estatística que mostra o quão forte são os pares de variáveis. Ela denota a associação entre duas variáveis quantitativas.
Sobre correlação, podemos afirmar que:
I. Correlação e causalidade têm a mesma definição.
II. A correlação avalia somente os relacionamentos entre variáveis V.
III. A correlação avalia todos os fatores que levam aos relacionamentos entre variáveis.
IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois são dependentes.
São verdadeiras:
Alternativas:
II – IV.
Apenas a II.checkCORRETO
I – II – III – IV.
I – IV.
II – III.
Resolução comentada:
I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas variáveis estejam correlacionadas, isso não implica que uma variável cause as alterações em outra.
II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis.
III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos entre variáveis.
IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um cause o outro.
Código da questão: 58513
10)
Python é uma aplicação web de código aberto que permite criar e compartilhar documentos. Ele permite resolver vários tipos de problemas, como: exploração de dados, estatística, limpeza e transformação de dados, visualização, entre outras funcionalidades.
Sobre as funcionalidades do Python para exploração e limpeza de dados, identifique as opções corretas.
I. Matplotlib: biblioteca fundamental para exploração de dados.
II. Para modificar um valor nulo pela média dos valores: data.fillna(data.mean(0)).
III. O comando data.drop('E', inplace=True, axis=1) é usado com frequência para excluir linhas e colunas no banco.
IV. O comando data.dropna() remove do banco todos os valores com NaN.
São verdadeiras:
Alternativas:
II – IV.checkCORRETO
I – IV.
Apenas a I.
I – II – III.
I – II – III.
Resolução comentada:
I. Pandas: biblioteca fundamental para análise de dados. NumPy: biblioteca usada para realizar cálculos matemáticos. Matplotlib: biblioteca para visualização de dados.
II. data.fillna(data.mean(0)).
III. data.drop('E', inplace=True, axis=1).
IV. data.dropna(): remove do banco todos os valores com NaN.
Código da questão: 58520