Prévia do material em texto
1 TÓPICOS ESPECIAIS: ANÁLISE ESTATÍSTICA DE DADOS AMBIENTAIS MULTIVARIADOS” Paulo M. Barbosa Landim plandim@rc.unesp.br 1 06/julho Análise estatística de dados multivariados. Regressão linear múltipla. Exercício 01 07/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02 08/julho Análise de componentes principais. Análise fatorial. Exercício 03 09/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04 10/julho Análise discriminante. Classificação regionalizada. Exercício 05 15/julho Envio dos exercícios 01-05 17/julho Solução dos exercícios 01-02-03-04-05 22/julho Envio do exercício final Todos exercícios enviados: conceito A 2 3 http://igce.rc.unesp.br/#!/departamentos/ geologia-aplicada/curso-prof-landim/ Exercício final: Dados fornecidos pelos próprios alunos(as). Relatório: individual ou no máximo até 2 alunos(as) Porque análise de dados? 4 UMA IMAGEM VALE MAIS QUE 1000 PALAVRAS 5 E UMA TABELA DE DADOS? 6 http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ http://igce.rc.unesp.br/ 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados em sua estrutura multidimensional, tanto sob um enfoque clássico como espacial, para o seu entendimento e, consequente, formulação de hipóteses de trabalho. Existem a disposição, graças à moderna tecnologia computacional, tanto softwares específicos como ferramentas gráficas que permitem a visualização simultânea de amostras no espaço e/ou no tempo e as primeiras ideias a respeito da estrutura multidimensional podem começar a surgir a partir desses resultados e exibições gráficas. 7 ANÁLISE DE DADOS: INTERPRETAÇÃO Os resultados analíticos e produtos gráficos obtidos a partir das informações numéricas são avaliados levando em consideração tanto o conhecimento já adquirido com dados similares, como fatos científicos relacionados às variáveis sob estudo. A interpretação da estrutura espacial ou temporal, as associações e as relações casuais entre variáveis devem, então, ser organizadas num modelo que se ajuste aos dados. 8 ANÁLISE DE DADOS: ESTIMATIVA A modelagem, se correta, não apenas descreve o fenômeno nos locais amostrados, mas pode se tornar válida para interpolações em locais ou intervalos de tempo adjacentes, não amostrados, representando um passo alem com relação às informações contidas nos dados numéricos. Na verdade este é o grande desafio da análise multivariada, a estimação de valores para situações de previsão quantitativa. 9 MODELAGEM DE FENÔMENOS NATURAIS modelo conceitual modelo escalar modelo matemático: determinístico estocástico (estatístico) 10 Amostragem para o teor de um painel ● ● ● Mapeamento de solos 11 Mina de cobre 12 3 Biomassa numa plantação de eucaliptos 13 Pluma de contaminação 14 Volume de petróleo no pré-sal 15 Como obter dados? Amostragem População e amostra 16 AMOSTRAGEM CASUAL SIMPLES Necessário preliminarmente construir um sistema de referência, isto é, a relação completa e numerada de todos os elementos n que compõe a população. Em seguida utiliza-se uma tabela de números ao acaso para a escolha dos n números que comporão a amostra. Essa amostragem será com reposição se os elementos de população puderem entrar mais de uma vez para a amostra e, neste caso, a amostragem é estatisticamente independente. Caso contrário, a amostragem será sem reposição e estatisticamente dependente. 17 Números ao acaso 17 80 97 28 17 80 43 36 15 57 72 08 39 90 73 63 66 29 20 69 82 65 87 36 29 81 05 90 19 91 12 82 89 64 53 98 69 33 71 24 66 68 58 84 26 36 57 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 18 4 AMOSTRAGEM SISTEMÁTICA Quando o sistema de referência geral para toda a população é dispensado e por sorteio amostras são sistematicamente coletadas segundo um padrão pré- determinado. 19 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 20 AMOSTRAGEM POR AGRUPAMENTOS Quando a construção do sistema de referência, dada uma certa unidade de amostragem, é inexeqüível. Escolhe-se então uma amostra casual simples de uma unidade de amostragem maior que englobe um certo número de indivíduos, os quais serão todos considerados. 21 5 10 15 20 25 30 35 40 45 5 10 15 20 25 30 35 40 45 5 10 15 20 25 30 35 40 45 5 10 15 20 25 30 35 40 45 22 AMOSTRAGEM ESTRATIFICADA Usada quando se supõe presente uma grande variabilidade nas observações. Neste caso a população é dividida em sub-populações e cada uma delas é submetida a uma amostragem casual simples. O efeito dessa amostragem é que apesar de existir uma grande variabilidade entre as sub- populações, consegue-se encontrar dentro de cada uma dela uma variabilidade menor. 23 24 5 AMOSTRAGEM HIERÁRQUICA O sistema de referência é construído no sentido de unidades de amostragem maiores para menores através de sucessivas amostragens casuais. 25 26 SEQÜÊNCIA EM UM ESTUDO QUANTITATIVO Enfoque do problema. Modelo conceitual. Amostragem. Análise de dados. Seleção de variáveis. Refinamento do modelo. Uso do modelo em previsão. Aceitação, rejeição ou melhoria do modelo. Retorno ao estágio apropriado. 27 28 Do rigor na ciência Jorge Luis Borge s Naquele Império, a Arte da Cartografia logrou tal perfeição que o mapa de uma única Província ocupava toda uma Cidade, e o mapa do Império, toda uma Província. Com o tempo, esses Mapas Desmedidos não satisfizeram e os Colégios de Cartógrafos levantaram um Mapa do Império, que tinha o tamanho do Império e coincidia pontualmente c om ele. Menos Afeitas ao Estudo da Cartografia, as Gerações Seguintes entenderam que esse dilatado Mapa era Inútil e não sem Impiedade o entregaram às Inclemências do Sol e dos Invernos. Nos desertos do Oeste perduram despedaçadas Ruínas do Mapa, habitadas por Animais e por Mendigos. Em todo o País não há outra relíquia das Disciplinas Cartográficas. Suáres Miranda: Viajes de Varones Prudentes, livro quatro, cap. XLV, Lerida, 1658. • A incerteza da estimativa •Os resultados são sempre incertos. •Essa incerteza não é uma propriedade intrínsica do fenômeno estudado. •A incerteza reflete apenas o grau de não conhecimento do observador. 29 “O caos é uma ordem por decifrar” Livro dos Contrários/Saramago TiposTipos de dados e de dados e escalasescalas de de medidasmedidas DadosDados QuantitativosQuantitativos QualitativosQualitativos EscalaEscala nominalnominal EscalaEscala ordinalordinal EscalaEscala dede intervalointervaloEscalaEscala de de razãorazão 30 6 Dados univariados 31 Dados univariados georreferenciados 32 DADOS BIVARIADOS 33 34 DADOS MULTIVARIADOS Observações quantitativas Observações qualitativas 35 36 7 água esgoto lixo educação renda sim não não secundário R$ 500.00 não não sim primário R$ 500.00 não sim não secundário R$ 1,000.00 sim não não secundário R$ 1,000.00 não não não primário R$ 500.00 não sim não secundário R$ 500.00 não não não primário R$ 1,000.00 sim sim simuniversitário R$ 2,000.00 não não não secundário R$ 500.00 não não não primário R$ 500.00 não não sim primário R$ 1,000.00 sim não não primário R$ 500.00 não sim não secundário R$ 500.00 não não não primário R$ 500.00 não não sim primário R$ 1,000.00 sim sim não secundário R$ 500.00 sim sim simuniversitário R$ 2,000.00 não sim não primário R$ 500.00 não não não secundário R$ 1,000.00 sim não sim secundário R$ 500.00 37 MATRIZ DE DADOS = [XIJ] 66192479 09824454 61377001 22347587 34452223 Álgebra matricial: matrizes e métodos estatísticos multivariados. 38 MÉTODOS ESTATÍSTICOS MULTIVARIADOS Análise de agrupamentos Análise de componentes principais Análise de correspondências Análise discriminante 39 Análise de Agrupamentos 40 Análise de Componentes Principais 41 Análise Discriminante 42 8 Análise multivariada: exemplos 43 Exemplo 1: fósseis Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno- Oligoceno dos Estados Unidos da América). 44 BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital. Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr). 45 46 4 grupos indicados pela Análise Discriminante: 1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni 2: Subdesmatochoerus sp 3: Desmatochoerus hatcheri + Psuedodesmatochoerus 4: Megoreodon gigas loomisi 47 ? 48 9 Exemplo 2: Óxidos em rochas magmáticas Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O 01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5 02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3 03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4 04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2 05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2 06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7 07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1 08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5 09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5 10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7 11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2 12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7 13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1 14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7 15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1 16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8 17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5 18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7 19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4 20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 49 50 Si: ↑ Fe3: ↑ Fe2: ↓ Mg: ↓ Na: ↑ K: ↑ 51 T = 1000 °C Comp. = A T = 900 °C Comp. = B T = 800 °C Comp. = C T = 700 °C Comp. = D T = 600 °C Comp. = E Formação de minerais 52 53 Diferenciação magmática 54 Rochas siálicas Rochas máficas 10 Diferença entre os dois exemplos 1. Análise de dados: metodologia 2. Interpretação final: conhecimento 55 56 •Imensa quantidade de informações coletadas. •Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. •A sua análise, porem, esta muito aquém. •Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental. 57 •Fenômenos naturais são resultantes de diversos fatores condicionantes e o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional. •Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em dia bastante facilitado graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento específico 58 Mapa com distribuição espacial das rochas? Relacionamento no espaço a 8 dimensões é rebatido para 2D. Distorção? n,m2,m1,m n,32,31,3 n,22,21,2 n,12,11,1 j,i zzz zzz zzz zzz Z 1,m1,m 1,31,3 1,21,2 1,11,1 yx yx yx yx XY Modelagem espacial de fenômenos multivariados + =? 59 Métodos clássicos da análise estatística multivariada não levam em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto ao suporte das amostras ou com relação ao domínio regional onde o estudo esta sendo realizado. A metodologia geoestatística univariada, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornam, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados multivariados. 60 11 Duas soluções propostas Metodologia geoestatística multivariada Krigagem fatorial . Metodologia estatístca multivariada “adaptada” Classificação regionalizada . 6 1 Estudos em aberto. Grande potencial de pesquisa. Diversas possibilidades de aplicação Modelos “Causa-e-efeito”. Análise estatística multivariada de dados espaciais 6 2 Exemplo: Mapeamento de solos FATORES CLIMA ORGANISMOS RELÊVO MATERIAL DE ORIGEM VARIÁVEIS AREIA SILTE ARGILA SOMA DE BASES CAPACIDADE DE TROCA DE CÁTIONS SATURAÇÃO DE BASES SATURAÇÃO DE ALUMÍNIO. TEMPO ESPAÇO 63 64 Este Curso, a ser apresentado de maneira a mais simples possível, por um Professor de Geologia, tem como enfoque uma introdução aos métodos estatísticos multidimensionais que possam ser aplicados na análise de dados, sem uma abordagem matemática complexa, porém sempre, que possível, com um enfoque espacial . Presume que os participantes tenham um conhecimento básico de estatística descritiva, além de dominar conceitos simples de álgebra matricial e familiaridade com manuseio de computadores. Os exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em outras áreas que disponham de dados com estas mesmas características, ou seja, multivariados e regionalizados. BIBLIOGRAFIA LANDIM, P.M.B. (2011) – Análise estatística de dados geológicos multivariados: Editora Oficina de Textos DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons. HAIR JR., J.F.; BLACK, W.C.; BABIN, B.J.; ANDERSON, R.E., TATHAM, R.L. (2009) – Análise Multivariada de Dados: 6a.ed., Bookman. LEGENDRE, P. & LEGENDRE, L. (1998) – Numerical Ecology: 2nd ed. Elsevier KRZANOWSKI, W. J. (200) – Prrinciples of Multivariate Analysis. A User’s Perspective: Oxford University Press MANLY, B.J.F. (2008) – Métodos estatísticos multivariados. Uma Introdução (Tradução Carmona, S. I. C.): Artmed Editora S. A. MINGOTI, S. A. (2005) - Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada : Editora UFMG. 6 5 SOFTWARES SAS S-Plus Statistica Systat Matlab (algebra matricial) PAST (http://folk.uio.no/ohammer/past)XLStat/Excel (www.xlstat.com) 6 6 12 67