Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva a) Conceito: “ Apresentação numérica, tabular e/ou gráfica com o propósito resumir ou sumarizar as informações contidas num conjunto de dados observados ” (estatística: tabelas, gráficos e medidas descritivas). Finalidade da “estatística descritiva”: * Descrição: organização, resumo, apresentação e interpretação de dados (tabelas, gráficos e sumários estatísticos, de posição e de dispersão) b) Variáveis e Dados: “ Variáveis: atributos para os quais os dados são obtidos (levantamentos amostrais, censitários, ou de experimentos)” - atributo comum a todas as unidades de observação (na população ou em experimentos – parcelas), e sujeito a variação entre elas. Notação: X, Y, ..., Z Tipos de variávies: → tipo de tratamento estatístico dos dados - Qualitativas (categóricas): formas, tipos ou qualidades (Ex. cor da flor, hábito de crescimento, estado civil, nível de instrução etc.) - Quantitativas: valores numéricos diferentes (Ex. número de vagens por plantas, altura de plantas, peso de grãos, temperatura corporal etc.) QUALITATIVAS: Nominais: tipificação – categoriais ou modalidades sem relação clara Qualitativas (Ex. raça de bovinos; sexo dos animais; cor da flor; classes de solo) Ordinais: graus qualitativos – categorias ou classes com alguma ordenação (Ex.: grau de instrução; classe social; classes de fertilidade de solo; julgamentos: bom/médio/ruim QUANTITATIVAS Discretas: contagens - alguns valores num certo intervalo Quantitativas (Ex. nº de vagens/planta, nº de leitões/parição) Contínuas: medições - quaisquer valores num certo intervalo (domínio da variável). Ex.: altura, peso, temperatura, produção de grãos, de leite etc. - Escala intervalar (Ex. temperatura; horário): 40ºC ≠ 2x20ºC. - Escala de razão (Ex. contagens; medidas; proporções e %): peixe de 9 kg é três vezes mais pesado que um de 3 kg (9 kg = 3x3 kg) zero tem significado real. Dados (observação): manifestação da variável numa dada unidade de observação (matéria-prima do trabalho estatístico) Notação: X => {x1, x2, ..., xn} Y => {y1, y2, ..., yn} Z => {z1, z2, ..., zn} c) Apresentação de dados: TABELAS e GRÁFICOS “Se um conjunto de dados não se ajusta a uma apresentação tabular ou gráfica, estes dados não são interpretávies” Apresentação textual X tabular ou gráfica ? Tabelas: arranjo de linhas e colunas para apresentação de dados numéricos (recurso detalhista – ex. casas decimais dos valores) Animais abatidos e peso total das carcaças, no Brasil, segundo os meses (até o 3º trimestre de 2000) Gráficos: como figura, são recursos de apresentação de dados, porém menos detalhista que as tabelas; destaca tendências magnitudes relativas de diferenças etc. 1 - Setoriais (gráficos tipo “Pizza”): variáveis nominais! 2- GraficoPolares 3- Grafico de Disperção 4 - Grafico de linhas 5- Diagrama Ramos e Folhas 6-Gráfico de Caixas (Box Plot) Medidas descritivas ou Sumários estatísticos “Valores (índices numéricos) que resumem algum aspecto (certas características) do conjunto de dados (população ou amostra)” Se população: → parâmetros: estatísticas que caracterizam ou descrevem algum aspecto da população – “verdades” almejadas nos estudos estatísticos inferenciais. (notação: letras gregas – µ, σ2 , ρ, β) Se amostra: → estimativas de parâmetros ou estatísticas amostrais: estatísticas que caracterizam ou descrevem algum aspecto da amostra – aproximações cujo objetivo é informar sobres as “verdades” geralmente desconhecidas, os parâmetros. (notação: letras gregas com “^” (chapéu) ou letras latinas correspondentes – m, s2, r, b) Estimador: função dos dados amostrais para produzir estimativas (a estimativa só surge a partir da aplicação do estimador aos dados de uma dada amostra, colhida); isto é, sem amostra não há estimativas, mas há estimadores. Ex.: m=Σxi/n é o estimador da média aritmética populacional (µ) – essa expressão independe de a amostra já ter sido obtida; já a estimativa depende disso, ou seja, dada uma amostra como {1, 2, 3}, m = 6/3 = 2). Classificação quanto ao tipo: - Univariadas: - Medidas de posição (localização) ou tendência central: média (aritmética, ponderada, geométrica); mediana; moda; quantis (quartis, decis, percentis etc.) - Medidas de dispersão ou variabilidade: amplitude; desvio absoluto médio; variância (quadrado médio); desvio padrão; coeficiente de variação; erro padrão - da média, da variância etc. (medidas para variáveis categóricas) - Medidas de forma da distribuição: simetria e curtose - Bivariadas: - Covariância → Correlação: medida relativa [-1,+1] da variação conjunta de duas variáveis (X e Y). - Covariância → Regressão: medida da variação conjunta de duas variáveis (X e Y) tomada em relação a uma delas (X - variável independente; Y - variável dependente). PROBABILIDADE: A probabilidade é o estudo de experimentos aleatórios, ou seja, um experimento repetido no qual não é possível prever o resultado. Um bom exemplo disso é o resultado de um jogo de futebol na Copa do Mundo, no qual não há como prever qual será o time vencedor. Toda probabilidade (p) é um número que vai de 0 até 1 (0 ≤ p ≤1). Qualquer evento em que a possibilidade de ocorrer é 0 é chamado de evento impossível. Evento certo é aquele com chance de ocorrer 1. Espaço amostral (S) Para começar a entender todo o conceito é preciso saber o que é o espaço amostral. Esse é o conjunto de todos os resultados que são possíveis em um experimento aleatório. No caso de lançarmos um dado, teríamos a seguinte representação: S={ 1, 2, 3, 4, 5, 6 } E, se lançássemos uma moeda, a representação seria: S={ cara, coroa } Evento O evento é um subconjunto de um espaço amostral que pode ser o próprio espaço amostral, uma parte desse espaço, ou um conjunto vazio. Usando o mesmo exemplo do lançamento de um dado, podemos verificar as chances de sair um número ímpar. Esse é o nosso evento, onde, S={ 1, 2, 3, 4, 5, 6 } é o espaço amostral e E={ 1,3,5 } é o evento. Evento impossível Um evento impossível é a aquele em que a possibilidade de se obter um resultado é 0. Isso é sempre representado por E= { } Evento certo Um evento é chamado de certo, quando ele é igual ao espaço amostral. Por exemplo, qual é a probabilidade de sair um número ao lançarmos um dado? Ela é 100%, pois sempre sairá um número. Nesse caso E=S Isso pode ser calculado dividindo o número de elementos do evento pelo número de elementos do espaço amostral. Por exemplo: Qual a probabilidade de, no lançamento de dois dados, obtermos como resultado a soma 7? A = Soma 7 S={ (1,1), (1,2), (1,3), (1,4), (1,5), (1,6) (2,1), (2,2), (2,3), (2,4), (2,5), (2,6) (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) (4,1), (4,2), (4,3), (4,4), (4,5), (4,6) (5,1), (5,2), (5,3), (5,4), (5,5), (5,6) (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) } E={ (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) } n(A)= 6 Eventos complementares Chamamos de evento complementar (Ec) tudo o que não faz parte do evento. Ou seja, o evento Ec é formado pelos elementos do espaço amostral que não estão em E. Por exemplo, no lançamento de uma moeda, nosso evento E é cara. Nessa situação, o evento complementar Ec é dado pelo resultado coroa. Portanto: Ec = {coroa) e E= {cara} Probabilidade condicional A probabilidade condicional é quando você calcula a possibilidade conhecendo um dado ou uma ação que já ocorreu. Probabilidade da união de dois eventos Algumas probabilidades são a união de dois eventos. Por exemplo, no lançamento de um dado, qual é a probabilidade de sair um número ímpar ou maior de 2? Observe que é necessário determinar a probabilidade de ocorrer o evento A e o evento B, resumindo a probabilidade de união desses dois eventos. A resolução pode ser feita da seguinte forma: Espaço amostral: S= { 1,2, 3, 4, 5, 6 } Evento A = sair um número ímpar: A= { 1,3,5 } P(A) = 3/6 Evento B = sair um número maior que 2: B= { 3, 4, 5, 6 } P(B) = 4/6 Agora, é preciso determinar a intersecção desses eventos, ou seja, os elementos que são comuns em ambos. A∩B= { 3, 5 } P(A∩B) = 2/6 Feito, isso você pode aplicar a fórmula: Variaveis: Variável Aleat vel Aleatória (v.a.): ria (v.a.): Uma função X que associa a cada elemento do espaço amostral um valor num conjunto enumerável de pontos da reta é denominada variável aleatória discreta. Se o conjunto de valores é qualquer intervalo de números reais, X é denominada variável aleatória contínua. 1) Observar o sexo das crianças em famílias com três filhos. Ω={(MMM), (MMF), (MFM), (FMM), (MFF), (FMF), (FFM),(FFF)} Defina X: nº. de crianças do sexo masculino (M). Então X é uma v.a. discreta que assume valores no conjunto {0, 1, 2, 3}. 2) Observar o tempo de reação a um certo medicamento. Defina X: tempo de reação ao medicamento. X é uma v.a. contínua que assume qualquer valor real positivo. Variável aleatória discreta O termo aleatório indica que a cada possível valor da v.a. atribuímos uma probabilidade de ocorrência. Função de probabilidade( f.p.) ão de probabilidade( f.p.): É a função que atribui a cada valor xi da v. a. discreta X sua probabilidade de ocorrência e pode ser apresentada pela tabela: Uma função de probabilidade deve satisfazer: MÉDIA E VARIÂNCIA (v.a. discretas) DIA E VARIÂNCIA (v.a. discretas) Qual é o valor médio da soma dos pontos no lançamento de dois dados? Valor Esperado Valor Esperado (média): Dada a v. a. X, assumindo os valores x1, x2, ..., xn, chamamos de valor m valor médio ou valor esperado esperado ou esperança matemática de X o valor Notação: μ = E(X) No exemplo, E(X) = 2.(1/36) + 3. (2/36) + ... + 11. (2/36) + 12. (1/36) = 252/36 = 7 ou seja, em média, a soma dos pontos no lançamento dos dois dados é 7. Variância: É o valor esperado da v.a. (X – E(X))2, ou seja, se X assume os valores x1, x2, ..., xn, Notação: σ2 = Var(X). Da relação acima, segue que Desvio Padrão Desvio Padrão: É definido como a raiz quadrada positiva da variância, isto é, Notação: σ =DP(X). Variáveis aleatórias contínuas: Os possíveis resultados abrangem todo um intervalo de números reais. – tempo de resposta de um sistema computacional; – rendimento de um processo químico; – tempo de vida de um componente eletrônico; – resistência de um material; etc. Variáveis aleatórias discretas com grande número de possíveis resultados (podem ser aproximadas para contínuas): – número de transações por segundo de uma CPU; – número de defeitos numa amostra de 5.000 itens; etc. As probabilidades de eventos associados a uma variável aleatória contínua X podem ser calculadas através de uma função densidade de probabilidade f, que deve satisfazer: • Função de distribuição acumulada • Valor esperado e variância Distribuição uniforme: Aproximação normal à binomial Aproximação normal à binomial: Ex. Qual é a probabilidade de mais de 6 caras em 10 lançamentos de uma moeda “honesta”? Aplicações da estatística/probabilidade em Machine Learning O Machine learning é um método utilizado na área da inteligência artificial para automatizar a criação de previsões analiticas e também na otimização de sistemas digitais. Todo esse processo é possível graças à análise (supervisionada ou não) de grandes bases de dados e experiências repetidas por parte da máquina. A estatística trabalha com a análise dos dados, criando médias, padrões e desvios derivados de grandes amostras desses mesmos dados, enquanto no machine learning, a máquina utiliza desses mesmos modelos análiticos para fazer suas previsões ou automatizar certas tarefas Referências : https://www.cin.ufpe.br/~rmcrs/EST/arquivos/Cap6.pdf https://www.ime.unicamp.br/~hlachos/modelos_discretos.pdf https://geekiegames.geekie.com.br/blog/probabilidade-condicional/ https://files.cercomp.ufg.br/weby/up/396/o/Estat_descr.pdf https://operdata.com.br/blog/a-relacao-entre-machine-learning-e-a-estatistica/ https://www.cin.ufpe.br/~rmcrs/EST/arquivos/Cap6.pdf https://www.ime.unicamp.br/~hlachos/modelos_discretos.pdf https://geekiegames.geekie.com.br/blog/probabilidade-condicional/ https://files.cercomp.ufg.br/weby/up/396/o/Estat_descr.pdf https://operdata.com.br/blog/a-relacao-entre-machine-learning-e-a-estatistica/
Compartilhar