Prévia do material em texto
Análise Exploratória: 2. Série estatística: consistem na apresentação das informações (variáveis estatísticas) em formas de tabelas, objetivando sintetizar os dados estatísticos observados e tornando-os mais compreensivos. Podendo ser dividida em; • Série Histórica ou temporal É a série estatística em que os dados são observados segundo a época de ocorrência. O tempo é variável e o fato e o local são fixos. Exemplo Tabela: xx: Área de extração ilegal de ouro na Amazônia, em diferentes anos Fonte: Dados MapBiomas • Série Geográfica É a série estatística em que os dados são observados segundo a localidade de ocorrência. O local varia e o tempo e o fato são fixos. Exemplo: Tabela: xx: Exploração de minério de ferro no ano de 2019, em diferentes cidades. Cidades Média de Exploração (milhões de toneladas em 2019) Parauapebas (PA) 110 Canaã dos Carajás (PA) 85 Itabira (MG) 36 Mariana (MG) 32 Congonhas (MG) 28 Fonte: Dados ANM Ano Área de Extração Ilegal de Ouro (km²) 2015 120 2016 140 2017 160 2018 200 2019 250 2020 280 • Série Específica Os dados são agrupados segundo a modalidade de ocorrência. Fato variável, tempo e local fixos. Exemplo Tabela xx: Número de Inspeções de Segurança em Diferentes Minas em MG (2019) Fonte: Dados Revista Brasileira de Estudos Urbanos e Regionais Esta tabela exibe o número de inspeções de segurança realizadas em diferentes minas de Minas Gerais durante o ano de 2019. Cada mina pertence a uma empresa específica, e o número de inspeções reflete as verificações de conformidade com os padrões de segurança exigidos pela Agência Nacional de Mineração (ANM) e outros órgãos reguladores • Série Mista É uma combinação de duas ou mais dos 3 tipos de séries anteriores. Tabela: xx: Regiões produtoras de minério de ferro no Brasil, entre 2018 e 2022 (milhões de toneladas) Fonte: Dados ANM e CFEM Mina Número de Inspeções Mina de Brucutu 25 Mina de Germano 18 Mina de Fábrica 22 Mina de Casa de Pedra 15 Mina de Alegria 20 Regiões 2018 2019 2020 2021 2022 Sudeste (MG) 300 290 280 275 290 Norte (PA) 200 210 215 220 225 Centro-Oeste 45 40 42 43 44 Nordeste 25 23 22 24 25 Sul 15 14 13 14 15 Outras Regiões 15 8 9 10 11 Teoria das Probabilidades: Teorema de Bayes é uma fórmula matemática usada para o cálculo da probabilidade de um evento dado que outro evento já ocorreu, o que é chamado de probabilidade condicional. Para o entendimento melhor do teorema é necessário inicialmente o entendimento da partição do espaço amostral; Partição de um Espaço Amostral: Dizemos que os eventos A1, A2 ,…, An formam uma partição do espaço amostral Ω se as seguintes propriedades são satisfeitas: • 𝐴𝑖 ≠ ∅, i = 1 … , n significa que nenhum evento pode ser igual ao conjunto vazio; • 𝐴𝑖 ∩ 𝐴𝑗 = ∅, para i ≠ j significa que os eventos são disjuntos; • 𝐴𝑖 𝑈𝑖=1 𝑛 𝐴𝑖 = 𝛺 significa que a união (ou reunião) de todos os eventos totaliza o espaço amostral. A classe de eventos do espaço amostral Ω, também chamada de classe de subconjuntos do espaço amostral Ω, ou Conjunto das partes de Ω, é o conjunto que contém todos os subconjuntos de Ω e é representado por P(Ω). Figura 1: Representação Gráfica de partição de um espaço amostral Figura 2: Representação gráfica do teorema da probabilidade total Fonte: https://rpubs.com/liamorita/bayes_aula2 Veja o exemplo sobre partição do espaço amostral Exemplo: Falhas de Equipamentos na Mineração Uma empresa de mineração utiliza três tipos de equipamentos para a extração de minério em uma mina. Por razões operacionais, os três equipamentos são usados aleatoriamente. Dados históricos mostram que os equipamentos E1, E2 e E3 são usados em 25%, 40% e 35% das operações, respectivamente. A taxa de falha é diferente para os três equipamentos, sendo que 15% das operações realizadas com o equipamento E1 resultam em falha, enquanto para E2 e E3, essas proporções são de 8% e 3%, respectivamente. Se uma falha é observada aleatoriamente na mina, qual é a probabilidade de que ela tenha ocorrido durante o uso do equipamento E2? Dados fornecidos: • P(E1) = 0,25 (probabilidade de usar E1) • P(E2) = 0,40 (probabilidade de usar E2) • P(E3) = 0,35 (probabilidade de usar E3) Taxas de falha: • P (F ∣ E1) = 0,15 (probabilidade de falha dado o uso de E1) • P (F ∣ E2) = 0,08 (probabilidade de falha dado o uso de E2) • P (F ∣ E3) = 0,03 (probabilidade de falha dado o uso de E3) Queremos encontrar P (E2|F), ou seja, a probabilidade de que o equipamento E2 tenha sido usado, dado que uma falha F ocorreu Aplicação do Teorema de Bayes 𝑃(𝐸2|𝐹 = 𝑃(𝐹|𝐸2) . 𝑃(𝐸2) 𝑃(𝐹) Onde P(F) é a probabilidade total de uma falha ocorrer, que podemos calcular usando a regra da soma das probabilidades condicionais: 𝑃(𝐹) = 𝑃 (𝐹|𝐸1) . 𝑃(𝐸1) + 𝑃(𝐹|𝐸2). 𝑃 (𝐸2) + 𝑃(𝐹|𝐸3) . 𝑃 (𝐸3) Substituindo os valores: P(F) = (0,15 . 0,25) + (0,08 . 0,40) + (0,03 . 0,35) P(F)= 0,0375 + 0,032 + 0,0105 = 0,08 Agora podemos calcular 𝑃(𝐸2|𝐹) 𝑃(𝐸2|𝐹) = 0,08 . 0,40 0,08 𝑃(𝐸2|𝐹) = 0,032 0,08 = 0,40 probabilidade total de uma falha ocorrer 0,40 Variáveis Aleatórias: Função de probabilidade → v.a discreta Variável aleatória discreta É o tipo de variável que assume um número finito de valores possíveis ou número infinito enumerável. De um modo geral, os valores de X pertencem ao conjunto dos inteiros. Uma variável aleatória discreta está bem definida se pudermos indicar os possíveis valores x1, x2, ..., xn que ela pode assumir e as respectivas probabilidades p(x1), p(x2),..., p(xn). Se conhecermos a os pares (xi; p(xi)), para todo i, conhecemos a distribuição de probabilidades da variável aleatória X. Condições: a) 𝑝(𝑥𝑖) ≥ 0, 𝑖 = 1, … , 𝑛 b) ∑ 𝑝(𝑥𝑖) = 1𝑛 𝑖=1 Exemplo Número de falhas de caminhões fora-de-estrada em mina de ferro em Minas Gerais, o gestor deseja modelar o número de falhas dos caminhões fora-de-estrada durante um mês. Baseado nos dados históricos da empresa, é conhecido que a quantidade de falhas por caminhão segue uma distribuição discreta. Definição do Problema: • Os valores possíveis para o número de falhas XXX são 0,1,2,3. • A empresa coleta dados e determina que as probabilidades associadas a cada número de falhas são: Número de falhas (X) Probabilidade P (X=x) 0 0,4 1 0,3 2 0,2 3 0,1 A função de probabilidade para esta variável aleatória discreta X, que representa o número de falhas em um caminhão durante um mês, seria: P(X=0) = 0.4 (Probabilidade de nenhuma falha) P(X=1) = 0.3 (Probabilidade de uma falha) P(X=2) = 0.2 (Probabilidade de duas falhas) P(X=3) = 0.1 (Probabilidade de três falhas) Propriedades: 1. Cada probabilidade é não-negativa, ou seja, P(X=x) ≥ 0 2. A soma das probabilidades é igual a 1: 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) = 0,4 + 0,3 + 0,2 + 0,1 = 1 Aplicação: Com essa função de probabilidade, pode calcular a probabilidade de ocorrer um determinado número de falhas em um mês. A probabilidade de não ocorrer nenhuma falha em um caminhão durante o mês é 0.4, ou 40%. A probabilidade de ocorrer até duas falhas (soma das probabilidades de 0, 1 e 2 falhas) seria: 𝑃 (𝑋 ≤ 2) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 0,4 + 0,3 + 0,2 = 0,9 Ou seja, há uma chance de 90% de que o caminhão tenha no máximo duas falhas no mês. Esses dados são usados para planejar a manutenção preventiva e reduzir o tempo de inatividade dos equipamentos.