Baixe o app para aproveitar ainda mais
Prévia do material em texto
PÚBLICA Disciplina: Estatística e Planejamento Experimental. Identificação da tarefa: Tarefa 2.2. Unidade 2. Envio de arquivo. Pontuação: 15 pontos. Tarefa 2.2 Caro estudante, É de extrema importância que haja uma maior fixação sobre os assuntos abordados na Unidade 2, por isso responda as questões a seguir. 1) O que é análise exploratória de dados? R: A análise exploratória de dados é uma abordagem estatística empregada no reconhecimento de regularidades e padrões de um conjunto de dados multivariado para retirar as informações mais importantes, encontrando tendências, agrupando conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com o advento da microeletrônica e o desenvolvimento de computadores com capacidade de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o processamento desses dados e obtenção de informações valiosas sobre o problema em estudo, auxiliando assim em uma futura tomada de decisões. 2) Diferencie método da análise de componentes principais (PCA) e método da análise hierárquica de agrupamentos (HCA). R: A análise de componentes principais (PCA, do inglês Principal Component Analysis) é um método que utiliza a projeção de dados multivariados e visa à transformação dos mesmos de modo a reduzir sua dimensão e deixar mais evidentes as informações mais relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as variáveis e visualização de comportamentos atípicos em determinadas amostras, o que é especialmente útil em processos de controle de qualidade industriais. A HCA é feita com a finalidade de traduzir os dados em um espaço PÚBLICA bidimensional de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e maximizar as diferenças entre amostras de grupos diferentes. Os resultados são apresentados em uma árvore hierárquica denominada dendograma, um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau de similaridade. 3) Defina e diferencie calibração univariada e calibração multivariada. R: Na calibração univariada clássica o objetivo é determinar a concentração de um único analito usando a resposta de um único “detector”, por exemplo a intensidade de absorção ou emissão em um único comprimento de onda, ou a área de um único pico cromatográfico. Na “calibração multivariada” são feitas várias leituras de dados para cada amostra. Por exemplo, diferentes valores de absorção, na região UV/Vis, ou emissão de fluorescência, para cada amostra contendo uma substância com concentração conhecida. Quando usamos apenas uma variável independente temos uma “Calibração Univariada”. E quando utilizamos mais de uma variável independente para a determinação da grandeza de interesse, temos uma “Calibração Multivariada”. 4) Explique o fundamento do método da regra dos K-vizinhos mais próximo (KNN). R: O KNN é o algoritmo de aprendizado com fundamentos em instâncias mais conhecido e com ampla utilização. Esse aprendizado é fundamentado na aplicação direta do conceito de similaridade. Isso significa dizer que, uma função de similaridade comunica ao algoritmo o quão próximas duas instâncias estão. Isso pode parecer simples, no entanto há uma enorme complexidade na escolha da função de similaridade, notadamente em situações que algumas das propriedades são peculiares. Como exemplo temos, a classificação de pessoas e uma das propriedades a ser analisada fosse a cor do cabelo, não é evidente o que a distância significaria nesse contexto. Na determinação da classificação de um elemento que não pertença ao conjunto de treinamento, o classificador KNN procura K elementos do PÚBLICA conjunto de treinamento que estejam mais próximos deste elemento que não é conhecido, isto é, que possuam a menor distância. Estes K elementos são denominados de K-vizinhos mais próximos. As classes desses K vizinhos são então analisadas e a classe mais frequente será atribuída à classe do elemento não conhecido. 5) Defina o método SIMCA e enumere suas principais características. R: Este método foi utilizado pela primeira vez por Svante Wold (1974), no qual se admiti que os valores medidos para um grupo de amostras semelhantes tenderão para uma distribuição uniforme e modelável. Aumentando o número de amostras, essa distribuição deverá ficar cada vez mais uniforme. As características principais deste método são: 1 - Cada classe do conjunto de testes deve ser submetida a uma análise de componentes principais. 2 - Determinação do número de PCs necessário para descrição de cada classe. 3 - Construção de uma hipercaixa que envolve as amostras de cada classe, no qual as limitações das mesmas são definidas com um dado nível de confiança e uma vez obtidas as fronteiras de cada classe, faz-se a determinação se há superposição entre as mesmas. 4 - A capacidade de discriminação dos modelos SIMCA em diferenciar as classes é dada pela “distância entre classes” e pelos “resíduos entre classes”. 5 - A atribuição de uma amostra teste a uma determinada classe é fundamentada na projeção da mesma, no espaço dos escores e sua distância das fronteiras da classe em específico. Isto é repetido para todas as classes e no final, se os modelos não tiverem capacidade de discriminação suficiente, a amostra pode ser considerada membro de mais de uma classe. Pode ocorrer também da amostra ser anômala em relação ao conjunto de testes, desse modo, não pertencendo a nenhuma das classes.
Compartilhar