Buscar

Discretização de Dados em Python

Prévia do material em texto

1. 
Discretizar em comprimentos iguais tem suas vantagens. A primeira delas é visualizar com facilidade as faixas com maiores e menores índices.
Com base nessa informação, assinale a alternativa correta acerca ​​​​​​​da discretização por comprimento por meio da biblioteca Pandas.
C. 
A biblioteca Pandas utiliza o comando pd.cut a fim de selecionar as colunas e os bins a serem criados.
A biblioteca Pandas não utiliza o comando pd.discretize, pois é um comando da biblioteca Numpy. 
A biblioteca responsável por plotar gráficos não é a Pandas, mas outras, como a Matplotlib.
Certamente, a biblioteca Pandas realiza a discretização por meio do comando pd.cut e, por ela, o especialista em dados escolhe a coluna, os bins e também os labels.
O comando value_conts serve para exibir a quantidade de cada faixa e não cria labels.
A biblioteca Pandas não realiza a importação por meio de arquivos com o pd.import, e sim pelo pd.read, e discretiza com o comando pd.cut.
2. 
A discretização por bins pode ser feita padronizando valores, por meio de fórmulas estatísticas.
Com base nessa informação, assinale a alternativa correta acerca do encaixotamento por bins, por meio de fórmulas estatísticas.
A. 
Para utilizar valores medianos, deve-se pegar o dado central de cada bin.
Na discretização de dados, primeiramente, é feito o encaixotamento com a fórmula COMPRIMENTO = (VALOR MÁXIMO – VALOR MÍNIMO) / K. O K deve ser definido a priori, após essa fórmula, que pode ser feita em Python. Pode-se utilizar tanto a média quanto a mediana para padronizar cada bin. A fórmula para a mediana pega um conjunto de dados, organiza em dados contínuos e crescentes e, então, pega o valor central. Por exemplo, no intervalo com os valores 1, 3, 5, 7 e 9, o valor central é 5, pois está no meio.
3. 
É possível delegar algumas funções ao Python. Uma delas é deixar com que faça a divisão por intervalos iguais, como, por exemplo, definir o valor do intervalo de 25 casas. 
Com base nisso, assinale a alternativa correta sobre a divisão em valores iguais.
A. 
O comando round contribui para arredondar dados, pois, ao dividi-los pelo intervalo definido, alguns valores podem ficar quebrados, dificultando a entrada em caixas.
Para dividir em intervalos iguais, primeiro é necessário criar essa variável, definir seu valor e, então, aplicar a função matemática que irá inserir os dados da coluna escolhida, em cada faixa de intervalo. O comando round, usado para arredondamento, é benéfico, uma vez que dados quebrados podem sobrecarregar o processamento do algoritmo e tornar a leitura mais lenta.
4. 
A biblioteca Matplotlib é útil para criar gráficos e demonstrar de maneira visual os dados. Ela contém gráficos de barra, pizza, histograma e diversos outros.
Considerando o exposto, assinale a alternativa correta sobre discretização no Matplotlib.
C. 
A estrutura sintática correta para exibir dados discretizados gráficos é df.tipodegrafico(coluna, número de bins).
Uma das sintaxes ideais para exibir valores discretizados é df.tipodegrafico(coluna, número de bins). O gráfico do tipo histograma é feito com a palavra hist, ficando da seguinte forma: df.hist(coluna, número de bins). Ele pode ser elaborado com dataframes feitos em Pandas ou Numpy, ou mesmo com dataframes importados.
5. 
Arquivos Json e XML são largamente utilizados e consumidos pelo Python na análise de dados. É impossível discretizar sem importar corretamente os dados.
Considerando o exposto, assinale a alternativa correta sobre o manuseio e importação de arquivos de tipos diferentes.
B. 
Para importar arquivos Json, utiliza-se a seguinte sintaxe: variavel = readData("nome").
Embora a forma de implantação de cada tipo de arquivo seja diferente, a leitura e a discretização não mudam, pois o Python lê arquivos como tabela. Arquivos Json são compostos por chave e valor, e cada chave pode ter um ou mais valores. Arquivos Json são importados por meio da sintaxe variavel = readData("nome"). Arquivos CSV significam Comandos Separados por Vírgulas e podem ser importados por meio da sintaxe: variavel = pd.read_csv("nome").

Continue navegando