Buscar

Tarefa_2 2

Prévia do material em texto

PÚBLICA 
Disciplina: Estatística e Planejamento Experimental. 
Identificação da tarefa: Tarefa 2.2. Unidade 2. Envio de arquivo. 
Pontuação: 15 pontos. 
 
Tarefa 2.2 
 
Caro estudante, 
É de extrema importância que haja uma maior fixação sobre os assuntos 
abordados na Unidade 2, por isso responda as questões a seguir. 
1) O que é análise exploratória de dados? 
R: A análise exploratória de dados é uma abordagem estatística 
empregada no reconhecimento de regularidades e padrões de um 
conjunto de dados multivariado para retirar as informações mais 
importantes, encontrando tendências, agrupando conjuntos de acordo 
com similaridades e detectando comportamentos anômalos. Com o 
advento da microeletrônica e o desenvolvimento de computadores com 
capacidade de extrair e armazenar uma grande quantidade de dados em 
um intervalo de tempo breve, faz-se necessário o emprego de 
ferramentas matemáticas e estatísticas para o processamento desses 
dados e obtenção de informações valiosas sobre o problema em estudo, 
auxiliando assim em uma futura tomada de decisões. 
 
2) Diferencie método da análise de componentes principais (PCA) e 
método da análise hierárquica de agrupamentos (HCA). 
R: A análise de componentes principais (PCA, do inglês Principal 
Component Analysis) é um método que utiliza a projeção de dados 
multivariados e visa à transformação dos mesmos de modo a reduzir 
sua dimensão e deixar mais evidentes as informações mais relevantes. 
Essa metodologia é bastante útil na identificação de diferenças entre as 
variáveis e visualização de comportamentos atípicos em determinadas 
amostras, o que é especialmente útil em processos de controle de 
qualidade industriais. 
A HCA é feita com a finalidade de traduzir os dados em um espaço 
 
PÚBLICA 
bidimensional de maneira a destacar amostras com alguma similaridade 
(de uma mesma classe) e maximizar as diferenças entre amostras de 
grupos diferentes. Os resultados são apresentados em uma árvore 
hierárquica denominada dendograma, um gráfico bidimensional que 
agrupo amostras ou variáveis de acordo com seu grau de similaridade. 
 
3) Defina e diferencie calibração univariada e calibração multivariada. 
R: Na calibração univariada clássica o objetivo é determinar a 
concentração de um único analito usando a resposta de um único 
“detector”, por exemplo a intensidade de absorção ou emissão em um 
único comprimento de onda, ou a área de um único pico cromatográfico. 
Na “calibração multivariada” são feitas várias leituras de dados para 
cada amostra. Por exemplo, diferentes valores de absorção, na região 
UV/Vis, ou emissão de fluorescência, para cada amostra contendo uma 
substância com concentração conhecida. 
Quando usamos apenas uma variável independente temos uma 
“Calibração Univariada”. E quando utilizamos mais de uma variável 
independente para a determinação da grandeza de interesse, temos 
uma “Calibração Multivariada”. 
 
4) Explique o fundamento do método da regra dos K-vizinhos mais 
próximo (KNN). 
R: O KNN é o algoritmo de aprendizado com fundamentos em instâncias 
mais conhecido e com ampla utilização. Esse aprendizado é 
fundamentado na aplicação direta do conceito de similaridade. Isso 
significa dizer que, uma função de similaridade comunica ao algoritmo o 
quão próximas duas instâncias estão. Isso pode parecer simples, no 
entanto há uma enorme complexidade na escolha da função de 
similaridade, notadamente em situações que algumas das propriedades 
são peculiares. Como exemplo temos, a classificação de pessoas e uma 
das propriedades a ser analisada fosse a cor do cabelo, não é evidente 
o que a distância significaria nesse contexto. 
Na determinação da classificação de um elemento que não pertença ao 
conjunto de treinamento, o classificador KNN procura K elementos do 
 
PÚBLICA 
conjunto de treinamento que estejam mais próximos deste elemento que 
não é conhecido, isto é, que possuam a menor distância. Estes K 
elementos são denominados de K-vizinhos mais próximos. As classes 
desses K vizinhos são então analisadas e a classe mais frequente será 
atribuída à classe do elemento não conhecido. 
 
5) Defina o método SIMCA e enumere suas principais características. 
R: Este método foi utilizado pela primeira vez por Svante Wold (1974), 
no qual se admiti que os valores medidos para um grupo de amostras 
semelhantes tenderão para uma distribuição uniforme e modelável. 
Aumentando o número de amostras, essa distribuição deverá ficar cada 
vez mais uniforme. As características principais deste método são: 
1 - Cada classe do conjunto de testes deve ser submetida a uma análise 
de componentes principais. 
2 - Determinação do número de PCs necessário para descrição de cada 
classe. 
3 - Construção de uma hipercaixa que envolve as amostras de cada 
classe, no qual as limitações das mesmas são definidas com um dado 
nível de confiança e uma vez obtidas as fronteiras de cada classe, faz-se 
a determinação se há superposição entre as mesmas. 
4 - A capacidade de discriminação dos modelos SIMCA em diferenciar 
as classes é dada pela “distância entre classes” e pelos “resíduos entre 
classes”. 
5 - A atribuição de uma amostra teste a uma determinada classe é 
fundamentada na projeção da mesma, no espaço dos escores e sua 
distância das fronteiras da classe em específico. Isto é repetido para 
todas as classes e no final, se os modelos não tiverem capacidade de 
discriminação suficiente, a amostra pode ser considerada membro de 
mais de uma classe. Pode ocorrer também da amostra ser anômala em 
relação ao conjunto de testes, desse modo, não pertencendo a nenhuma 
das classes.

Continue navegando