Prévia do material em texto
1. Considere a base de dados a seguir para responder esta questão: Clique aqui para baixar Agora, observe o dicionário de dados desse dataset: Sabendo que esse dataset foi carregado em um dataframe da biblioteca Pandas chamado df, qual será o formato (número de linhas e colunas) do gráfico de relações pareadas resultante da execução do comando a seguir? grid = sns.pairplot(df) B. 3 x 3. O gráfico de relações pareadas é construído considerando todas as variáveis numéricas da base de dados, a menos que se especifique um subconjunto de variáveis, o que não ocorre nessa questão. Portanto, o gráfico resultante terá o formato 3 x 3. Um gráfico que considere todas as combinações de variáveis (7x7) ou a combinação de variáveis categóricas (4x4) não pode ser construído. Gráficos que considerem somente as variáveis que contêm valores inteiros (1x1) ou as que contêm números reais (2 x2) podem ser construídos, mas seria necessário informar essas colunas no momento de construção do gráfico. 2. Suponha que esse dataset foi carregado em um dataframe da biblioteca Pandas chamado df. Clique aqui para baixar Observe o gráfico de relações pareadas a seguir, que foi gerado sobre um recorte dos dados originais, considerando somente os clientes cuja conta (total_bill) tenha sido maior do que $ 30. Qual das seguintes afirmações pode ser considerada verdadeira com base nas informações contidas no gráfico? A. Clientes não fumantes tendem a dar maiores gorjetas, independentemente do valor da conta. Primeiramente, observando o histograma da variável tips na diagonal principal, pode-se constatar que a média das gorjetas fornecidas por não fumantes é superior à fornecida por fumantes. Nos gráficos de dispersão das variáveis tip x total_bill e tip x size, nota-se o padrão de pessoas não fumantes dando gorjetas maiores, independentemente do valor da conta ou do número de pessoas da mesa. As correlações expressas nas demais alternativas não se sustentam. No gráfico tip x size, podem-se ver diversas mesas com 3 ou 4 pessoas dando gorjetas maiores que nas mesas com 5 ou 6 ocupantes. No histograma da variável size, percebe-se que os fumantes tendem a ocupar mais as mesas com menos pessoas. O histograma da variável total_bill mostra que a distribuição dessa variável é semelhante entre fumantes e não fumantes. Por fim, observando o gráfico de dispersão size x total_bill, vê-se que essas variáveis não estão diretamente correlacionadas. Podem-se notar nesse gráfico mesas com 2 pessoas com contas superiores a mesas com 6 pessoas. 3. Suponha que esse dataset foi carregado em um dataframe da biblioteca Pandas chamado df. Clique aqui para baixar Qual o código necessário para produzir o gráfico da figura a seguir? método map_diag foi chamado com uma visualização incorreta. Erro no tipo de objeto criado (PairPlot). C. A alternativa correta cria inicialmente um objeto do tipo PairGrid, inicializando esse objeto informando o dataframe e especificando o atributo hue com a coluna que será utilizada para colorir o gráfico = smoker. Após isso, são personalizadas a visualização da triangular superior com um gráfico de estimativa de densidade por kernel (sns.kdeplot) e a triangular inferior com um diagrama de dispersão (plt.scatter). A diagonal principal é inicializada para que um histograma (plt.hist) seja exibido. As demais alternativas apresentam os erros: tipo de gráfico das triangulares está invertido. Há um erro no tipo de objeto criado (PairPlot) e no parâmetro hue desse método. O método map_diag foi chamado com uma visualização incorreta. Erro no tipo de objeto criado (PairPlot). 4. Suponha que esse dataset foi carregado em um dataframe da biblioteca Pandas chamado df. Clique aqui para baixar Qual gráfico de facetamento será produzido pela execução dos comandos a seguir? B. Os comandos apresentados criam um gráfico de facetamento que divide o banco de dados de acordo com a variável sex. Para cada divisão, é construído um gráfico de dispersão comparando as variáveis tip e total_bill, colorindo esses gráficos de acordo com a variável day. Logo, o gráfico que atende a essa descrição é o B. No gráfico A, o facetamento ocorreu com a variável day. No C, foi apresentado um histograma, e não um gráfico de dispersão. No D, os dados foram coloridos com uma variável diferente do solicitado. Por fim, no gráfico E, os dados foram facetados por uma variável diferente do solicitado e foi apresentado um histograma, e não um gráfico de dispersão. 5. Considere a base de dados a seguir para responder esta questão: Clique aqui para baixar Observe o gráfico de facetamento gerado na base de dados de gorjetas, oriundo de uma análise de quatro variáveis presentes nesse dataset: sexo do cliente (sex), refeição (time), tamanho da mesa (size) e se o cliente é fumante ou não (smoker). Assinale a alternativa que descreve corretamente o cliente que deu a maior gorjeta: E. Um homem, fumante, jantando em uma mesa com 3 pessoas. A maior gorjeta dada por um cliente nesse dataset foi de $ 10. Ela se encontra no quarto quadrante do gráfico, sendo que o sexo do cliente é homem e a refeição é janta. O valor máximo nesse subgráfico é um círculo laranja (fumante) entre as marcas de 2 e 4 no gráfico (indicando uma mesa com 3 pessoas). image7.jpeg image1.jpeg image2.jpeg image3.jpeg image4.jpeg image5.jpeg image6.jpeg