Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Bioestatística Aplicada à Saúde Tutora: Kelin Luana Casagranda UNIDADE 1 NOÇÕES DE PROBABILIDADE E APLICAÇÕES A probabilidade é uma área fundamental da matemática e desempenha um papel crucial em muitos campos, incluindo estatísticas, ciência de dados, jogos de azar e tomada de decisões. Neste artigo, vamos explorar os conceitos-chave relacionados à probabilidade, incluindo o espaço amostral, eventos, a probabilidade de um evento acontecer e os axiomas que regem o cálculo da probabilidade. Conceitos de probabilidade Experiência Na teoria da probabilidade, um “experimento” refere-se a um processo ou procedimento que gera um conjunto de resultados possíveis. É uma representação abstrata de uma situação que pode ser observada, medida ou demonstrada para determinar a probabilidade de diferentes resultados. Exemplos: Lançamento de um Dado, lançamento de uma moeda, entre outros. Experimentos determinísticos ou aleatórios Experimentos determinísticos os resultados são previsíveis e completamente determinados pelas condições iniciais e pelas leis físicas subjacentes. Isso significa que, dadas as mesmas condições iniciais e aplicando as mesmas leis, o resultado sempre será o mesmo. Por exemplo, vamos imaginar que estamos esquentando água para fazermos um café. Sabemos que quando a água atinge 100º ela começa a ferver. Neste caso, os experimentos são caracterizados por sua previsibilidade e repetibilidade. Os resultados são consistentes e podem ser cálculos com precisão. Experimentos aleatórios, os resultados não podem ser previstos com certeza antes de ocorrerem. Em vez disso, eles são influenciados por fatores aleatórios e estão sujeitos a incertezas. Trata-se dos experimentos mencionados como exemplo no início do artigo (lançamento de dados e moedas). Embora saibamos que um dado tem seis faces numeradas de 1 a 6, não podemos prever com certeza qual número será rolado em um lançamento específico. Portanto os experimentos aleatórios são caracterizados por sua imprevisibilidade, ou seja, os resultados estão sujeitos a probabilidades e variação de uma tentativa para outro, mesmo com as condições mesmas iniciais. Espaço amostral O espaço amostral, muitas vezes denotado como “S”, é o conjunto de todos os resultados (eventos) possíveis de um experimento aleatório. Por exemplo, se lançarmos uma moeda, o espaço amostral consistirá em dois resultados possíveis: cara (c) ou coroa (K). Se jogarmos um dado de seis faces, o espaço amostral será composto pelos números de 1 a 6. Ponto amostral É um elemento que pertence ao espaço amostral, ou seja, um entre os vários resultados possíveis do experimento aleatório. Por exemplo, ao lançar-se uma moeda para o alto, o resultado coroa é um ponto amostral assim como o resultado cara, a depender de qual dos lados aparece após a queda do objeto. Dessa forma, um ponto amostral de um experimento aleatório nada mais é do que um dos seus resultados possíveis. EVENTO Um evento é um subconjunto do espaço amostral. Em outras palavras, um evento é um resultado específico ou uma combinação de resultados possíveis do experimento. Por exemplo, ao lançar um dado, o evento “obter um número par” consiste nos resultados 2, 4 e 6. Geralmente o evento é o conjunto de resultados satisfatórios, ou seja, é um subconjunto do espaço amostral que contém os elementos com os quais se calcula a probabilidade EVENTO Exemplo: Em um experimento aleatório, será sorteado ao acaso um estado brasileiro. Nesse experimento podemos tirar vários possíveis eventos, por exemplo, podemos pensar no resultado ser um estado do Sul, logo, meu evento pode ser representado pelo conjunto A: {Rio Grande do Sul, Paraná, Santa Catarina}. Outro possível evento é o conjunto de estados cujos nomes comecem com a letra s, nesse caso o evento será o conjunto B: {Santa Catarina, Sergipe, São Paulo}. ● Evento certo - possui 100% de chance de ocorrer. Exemplo: Ao lançaR um dado um evento certo é que encontraremos nela um número menor que 7, logo, meu conjunto E será {1,2,3,4,5,6}, pois, ao lançar-se um dado, não existe outra opção a não ser um desses resultados, o que torna esse evento certo. ● Evento impossível -possui 0% de chance de ocorrer, ou seja, que não ocorrerá. Exemplo: Utilizando-se do mesmo experimento de lançamento de um dado comum, um evento impossível será obter-se um número maior que 6. O que é probabilidade? Em termos simples, probabilidade é a medida da chance de um evento ocorrer em um experimento. É assim que avaliamos as possibilidades de diferentes resultados em situações incertas. Cálculo de probabilidade A probabilidade de um evento acontecer é calculada através da divisão entre o número de casos planejados e o número de casos possíveis. Vamos exemplificar isso com um problema comum: jogar um dado. Exemplo Prático: Lançamento de um Dado Imagine que estamos jogando um dado com seis faces numeradas de 1 a 6. Para calcular a probabilidade de obter o número 4 em um único lançamento, seguimos a fórmula da probabilidade: Neste caso, há apenas um caso favorável (obter o número 4) e seis casos possíveis (os números de 1 a 6). Portanto, a probabilidade é: Assim, a chance de obter o número 4 em um lançamento único de dado é de 1/6, ou seja, a probabilidade disso acontecer é de um em 6. Ou ainda, há uma variação de 16,666% desse evento ocorrer em um lançamento do dado. Cálculo de probabilidade Precisão estatística À medida que o tamanho da amostra aumenta, as estimativas estatísticas tendem a se tornar mais precisas. Isso ocorre porque uma amostra maior fornece uma visão mais abrangente da população da qual foi extraída. Com uma amostra maior, é mais provável que a média, a variância e outras medidas estatísticas se aproximem das configurações reais da população. Já amostras pequenas podem ser altamente influenciadas por valores atípicos (outliers) ou flutuações esperadas. À medida que o tamanho da amostra aumenta, essas flutuações parecem tender a se equilibrar, tornando as estimativas mais resultados e robustas. Com amostras maiores, é possível construir intervalos de confiança mais estreitos. Isso significa que podemos ter maior confiança de que o parâmetro populacional real está contido dentro do intervalo estimado. Nossas menores resultam em intervalos de confiança mais amplos, o que leva a uma maior incerteza. No contexto de testes de hipóteses, o tamanho da amostra afeta a capacidade de detectar diferenças ou efeitos estatisticamente significativos. Com amostras pequenas, pode ser mais difícil detectar diferenças reais, enquanto amostras maiores aumentam a probabilidade de encontrar diferenças importantes. Em pesquisa científica, um tamanho de amostra protegido é fundamental para garantir que os resultados sejam representativos e generalizáveis para toda a população. Um tamanho de amostra inadequado pode levar a conclusões imprecisas e não confiáveis. Concluindo, o tamanho da amostra desempenha um papel crítico na estatística e na probabilidade, afetando a precisão das estimativas, a confiabilidade das conclusões e a capacidade de detecção de efeitos significativos. Probabilidade condicional A condicional é um conceito fundamental na teoria da probabilidade que descreve a probabilidade de um evento ocorrer, dado que outro evento já ocorreu. Ela permite que você ajuste as probabilidades com base em informações adicionais disponíveis. Uma probabilidade condicional é denotada por P(A|B), que representa a probabilidade do evento A ocorrer dado que o evento B ocorreu. A fórmula geral para a probabilidade condicional é: P(A|B) = P(A e B) / P(B) Onde: ● P(A|B) é uma probabilidade condicional de A dado B. ● P(A e B) é a probabilidade de ambos os eventos A e B ocorrerem juntos. ● P(B) é a probabilidade de o evento B ocorrer. Probabilidade condicional No caso do exemplo do dado, ele tem3 faces pares. Logo a probabilidade do resultado ser um número par, é uma em três possibilidades, ou seja, 1/3. Na probabilidade condicional resumimos o espaço amostral. PROBABILIDADE CONJUNTA descreveu a probabilidade de dois ou mais eventos ocorrerem simultaneamente. Ela é usada para calcular a chance de que múltiplos eventos ocorram juntos. Uma probabilidade conjunta é frequentemente denotada como P(A e B), onde “A” e “B” são os eventos que estamos considerando. Para calcular a probabilidade conjunta de dois eventos, você pode usar a fórmula: P(A e B) = P(A) * P(B|A) Onde: ● P(A e B) é uma probabilidade conjunta de A e B ocorrerem juntos. ● P(A) é a probabilidade do evento A. ● P(B|A) é uma probabilidade condicional de B ocorrer dado que A já ocorreu. Exemplo do lançamento de dois dados: Suponha que você esteja lançando dois dados de seis faces. Evento A: Obter um número no primeiro dado. Evento B: Obtenha um número ímpar no segundo dado. Agora, vamos calcular a probabilidade conjunta de obter um número par no primeiro dado (A) e um número ímpar no segundo dado (B). P(A): A probabilidade de obter um número par em um dado é de 3/6 (porque há três números pares: 2, 4, 6) ou 1/2. P(B|A): Agora, dado que já obtivemos um número por no primeiro dado (A ocorreu), a probabilidade de obter um número ímpar no segundo dado é de 3/6 (porque há três números ímpares: 1, 3, 5) ou 1/2. Agora, podemos calcular a probabilidade conjuntamente: P(A e B) = P(A) * P(B|A) P(A e B) = (1/2) * (1/2) P(A e B) = 1/4 Portanto, a probabilidade conjunta de obter um número par no primeiro dado e um número ímpar no segundo dado é de 1/4. Isso significa que, em uma série de lançamentos de dois dados, você tem uma chance de 1/4 de obter simultaneamente um número par no primeiro dado e um número ímpar no segundo dado. A probabilidade conjunta nos ajuda a entender as chances de eventos ocorrerem em conjunto. Distribuição normal - Distribuição Gaussiana Distribuições de probabilidade mais importantes e amplamente utilizadas em estatísticas e análise de dados. Ela é caracterizada por sua forma de sino e é fundamental em muitos contextos, pois descreve a distribuição de dados em torno de uma média e é influenciada por duas cláusulas principais: a média (μ) e o desvio padrão (σ). Curva de Gauss A propriedade de ser uma curva suave e contínua torna a curva de Gauss uma representação visual e eficaz da distribuição normal e ajuda a compreender a frequência relativa de diferentes valores dentro de uma distribuição. Aspectos fundamentais da Distribuição Normal: 1. Formato de Sino: A Distribuição Normal possui uma forma de sino simétrica, onde a maioria dos dados é treinada em torno da média e diminui à medida que nos afastamos dela. Isso significa que a maioria das observações será próxima da mídia, com uma menor quantidade de dados nos extremos. 2. Média e Mediana Igualmente Centradas: A média e a mediana de uma distribuição normal são iguais e estão localizadas no centro da distribuição, coincidindo com o ponto de simetria. 3. Desvio Padrão Definir a Dispersão: O desvio padrão (σ) é um parâmetro que controla a dispersão dos dados. Quanto maior o desvio padrão, mais dispersos os dados serão em relação à média. Um desvio padrão menor indica que os dados estão mais agrupados em torno da média. 4. Distribuição Contínua: A Distribuição Normal é uma distribuição contínua, o que significa que pode assumir qualquer valor em um intervalo contínuo. Não há limites superiores ou inferiores para os valores possíveis. 5. Probabilidade em Área Sob a Curva: A probabilidade de um valor específico ocorrer é infinitesimal (ou seja, zero) em uma distribuição contínua. Em vez disso, a probabilidade é calculada como a área sob a curva da distribuição normal entre dois pontos. A área total sob a curva é igual a 1, representando 100% de probabilidade. 6. 68–95–99,7 Regra: Esta regra empírica sugere que, em uma distribuição normal, aproximadamente 68% dos dados estão dentro de um desvio padrão da média, cerca de 95% estão dentro de dois desvios padrão, e cerca de 99,7% estão dentro de três desvios padrão. 7. Padronização: É comum padronizar os dados de uma distribuição normal, transformando-os em unidades de desvio padrão da média. Isso permite a comparação de valores em diferentes distribuições normais e simplificar cálculos de probabilidades. A Distribuição Normal é amplamente utilizada em estatísticas inferenciais, testes de hipóteses, análise de regressão, estimativas estatísticas e muitos outros campos. Ela também é uma suposição comum em muitos modelos estatísticos devido à sua aplicabilidade em descrever a variabilidade natural de muitas características na natureza e na sociedade. Tarefa aula de segunda-feira 01/04 Resumo da Unidade 1 - MODELOS PROBABILÍSTICOS E APLICAÇÕES Para discussão em aula MODELOS PROBABILÍSTICOS E APLICAÇÕES Os modelos probabilísticos são ferramentas da Estatística muito utilizados para descrever e analisar incertezas e variações em eventos e fenômenos e podem ser aplicados em diversas áreas tais como: finanças, ciências, engenharias e na saúde. Distribuição de Bernoulli ou Binomial Consiste na realização de um número finito e conhecido n de ensaios (ou repetições); cada um dos ensaios tem apenas dois resultados possíveis: “sucesso” ou “fracasso” (estão entre aspas, porque a definição de sucesso não quer necessariamente algo “positivo”, e também porque poderá significar um grupo de resultados); e os ensaios são independentes entre si, apresentando probabilidades de “sucesso” (p) e de “fracasso” (1–p) constantes. X = é a variável aleatória. n = número total de tentativas. k = valor específico dentro do intervalo de 0 a n. p = é a probabilidade/taxa do sucesso. q = é a probabilidade/taxa do fracasso. A Distribuição Binomial é amplamente aplicada em situações em que é necessário contar o número de ocorrências de um evento específico Neste caso, estamos interessados no número de “sucessos” obtidos nos n ensaios: como o espaço amostral é finito (vai de 0 a n), uma variável aleatória associada seria discreta Então, a variável aleatória discreta* X, número de “sucessos” nos n ensaios, apresenta uma distribuição (modelo) binomial com os seguintes parâmetros: n = número de ensaios p = probabilidade de “sucesso” Com esses dois parâmetros, é possível calcular as probabilidades de um determinado número de sucessos, bem como obter o valor esperado e a variância da variável X: E(X) = n x p V(X) = x p x (1–p) EXEMPLO Distribuição de Poisson A distribuição de Poisson descreve resultados de experiências nos quais contamos acontecimentos que ocorrem aleatoriamente mas a uma taxa média definida. Esta é uma distribuição associada a “eventos raros”. As razões para isso se tornarão mais claras à medida que a aplicação desse modelo foi descrita. Os eventos podem ser: ● acidentes automotivos ● erros de digitação ● chegada de um cliente em um banco ● entre outros eventos… A distribuição de Poisson é aplicável quando o número de possíveis ocorrências discretas é muito maior do que o número médio de ocorrências em um determinado intervalo de tempo ou espaço. Os resultados devem ocorrer de forma aleatória, ou seja, totalmente por acaso e da probabilidade de ocorrência não deve ser afectado por se ou não os resultados ocorrido anteriormente, de modo que as ocorrências são independentes. Em muitos casos, embora possamos contar as ocorrências, como a de uma tempestade, não podemos contar as não ocorrências correspondentes. ● A probabilidade de um evento ocorrendo em um determinado subintervalo é aproximadamente λ/n ● A probabilidade de dois ou mais eventos ocorrerem em qualquer subintervalo tende a zero (0) ● As ocorrências em subintervalos mutuamente exclusivos são independentes. Fórmula e é base do logaritmo natural (e = 2.71828...), ● k! é o fatorialde k, ● λ é um número real, igual ao número esperado de ocorrências que ocorrem num dado intervalo de tempo. Por exemplo, se o evento ocorre a uma média de 4 minutos, e estamos interessados no número de eventos que ocorrem num intervalo de 10 minutos, usamos como modelo a distribuição de Poisson com λ=10/4= 2.5. Como função de k, esta é a função de probabilidade. A distribuição de Poisson pode ser derivada como um caso limite da distribuição binomial. https://pt.wikipedia.org/wiki/N%C3%BAmero_de_Euler https://pt.wikipedia.org/wiki/Fatorial https://pt.wikipedia.org/wiki/N%C3%BAmero_real https://pt.wikipedia.org/wiki/Minuto https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_probabilidade https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_binomial DISTRIBUIÇÃO EXPONENCIAL A Distribuição Exponencial oferece uma abordagem matemática para entender e estimar intervalos de tempos entre eventos em um contexto de incerteza, sendo uma ferramenta valiosa na análise de processos aleatórios ao longo do tempo. A fórmula dessa distribuição é dada por Onde: x = tempo entre os eventos. = taxa média de ocorrência. = é a base do logaritmo natural. A relação entre a distribuição exponencial e a de Poisson é que, enquanto na distribuição de Poisson podemos calcular o número de ocorrências em um determinado tempo ou espaço, na distribuição exponencial estimamos o tempo ou espaço entre uma ocorrência e outra. Assim, na distribuição de Poisson estimamos a ocorrência da variável aleatória discreta e na distribuição exponencial a variável aleatória contínua. Se um processo com distribuição de Poisson tem média de λ ocorrências durante um intervalo (de tempo ou espaço), então o espaço entre as ocorrências naquele intervalo será de 1/λ. Exemplificando, se as chamadas telefônicas ocorrem em média à razão de 6 por hora, então o tempo médio entre as chamadas será de 10 minutos. As probabilidades exponenciais são expressas em termos de tempo ou distância entre ocorrências. UNIDADE 2 ● ESTATÍSTICA INFERENCIAL ● TÉCNICAS ESTATÍSTICAS VARIADAS ● TÉCNICAS DE AMOSTRAGEM E CÁLCULO DE TAMANHO AMOSTRAL Inferência estatística A inferência estatística é um ramo da estatística que se concentra em tirar conclusões sobre uma população com base em informações obtidas de uma amostra dessa população. Ela desempenha um papel fundamental em muitos aspectos da ciência, pesquisa, negócios e tomada de decisões, pois permite generalizar informações limitadas de uma amostra para fazer afirmações ou análise sobre a população maior da qual a amostra foi retirada. Figura 1 – Atuação da estatística descritiva e estatística inferencial Existem duas abordagens principais na inferência estatística: 1.Inferência Estatística Descritiva: Esta abordagem envolve a descrição e o resumo dos dados encontrados a partir de uma amostra. Ela inclui a criação de gráficos, cálculos de médias, medianas, variâncias e outras estatísticas descritivas para compreender melhor as características da amostra. Embora esta abordagem não tenha instruções específicas sobre a população, ela fornece informações valiosas para entender o comportamento dos dados. 2. Inferência Estatística Indutiva: Essa é a parte mais importante da inferência estatística, que lida com a generalização de informações da amostra para a população. Envolve uma aplicação de técnicas estatísticas para fazer afirmações sobre parâmetros populacionais desconhecidos, como médias, proporções, desvios padrão, etc. A inferência estatística indutiva inclui dois principais tipos de raciocínio: ● Estimação de Parâmetros: Consiste em estimar o valor de um parâmetro populacional com base em informações da amostra. Um exemplo comum é a estimativa da média populacional com base na média amostral. ● Teste de Hipóteses: Envolve uma avaliação da validade das afirmações feitas sobre parâmetros populacionais. Isso é formular uma hipótese nula (H0) e uma hipótese feita alternativa (H1), coletando dados da amostra e usando testes estatísticos para determinar se há evidências suficientes para rejeitar a hipótese nula em favor das hipóteses alternativas. Principais conceitos e técnicas de inferência estatística: ● Intervalos de Confiança: São intervalos estimados que fornecem uma faixa de valores dentro de qual o parâmetro populacional provavelmente se encontra, com um nível de confiança especificado. Por exemplo, um intervalo de confiança de 95% para a média populacional significa que, em 95% das vezes, o valor real da média estará dentro desse intervalo. ● Testes de Hipóteses: São procedimentos estatísticos que ajudam a tomar decisões com base em evidências amostrais. Eles envolvem a definição de hipóteses nulas e alternativas, a realização de cálculos estatísticos e a interpretação dos resultados para determinar se as hipóteses nulas devem ser rejeitadas. ● Erro Tipo I e Erro Tipo II: Em testes de hipóteses, um erro tipo I ocorre quando uma hipótese nula é erroneamente rejeitada quando é verdadeira. Um erro tipo II ocorre quando uma hipótese nula é erroneamente aceita quando é falsa. O equilíbrio entre esses dois tipos de erros é um aspecto crítico na construção de testes de hipóteses. ● Tamanho da Amostra: O tamanho da amostra desempenha um papel crucial na inferência estatística. Amostras maiores geralmente resultam em estimativas mais precisas e maior poder estatístico para detectar diferenças importantes. No entanto, amostras muito grandes podem ser dispensáveis e desnecessárias. ● Distribuições Estatísticas: Diferentes distribuições, como a Distribuição Normal, a Distribuição de Poisson e a Distribuição Binomial, são usadas em várias situações na inferência estatística. A escolha da distribuição depende da natureza dos dados e do problema em questão. POPULAÇÃO, AMOSTRA E AMOSTRA ALEATÓRIA população é o conjunto de indivíduos amostra é um subconjunto dessa população Em uma amostra aleatória, a seleção dos elementos é casual, sendo que a escolha de um dado elemento não interfere na escolha de outro. Isso significa que em uma amostra aleatória todos os elementos são independentes entre si (MARTINEZ, 2015). SIGNIFICÂNCIA ESTATÍSTICA A análise da significância estatística é considerada um procedimento para verificar a discrepância de uma hipótese estatística em relação aos dados observados, utilizando uma medida de evidência (p-valor) A significância estatística é uma forma de medir a probabilidade da sua hipótese testada não ter sido pura coincidência (FIELD, 2009). https://pt.wikipedia.org/wiki/Testes_de_hip%C3%B3teses https://pt.wikipedia.org/wiki/Valor-p A Probabilidade de rejeitar a hipótese nula quando ela é verdadeira (conhecido como erro do tipo I). Em testes de hipóteses estatísticas, diz-se que há significância estatística ou que o resultado é estatisticamente significante quando o p-valor observado é menor que o nível de significância definido para o estudo. O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados e é tradicionalmente fixado em 0,05 ou menos, dependendo da área de estudo. Em muitas áreas de estudo, resultados com nível de significância de 0,05 (probabilidade de erro de 5%) são considerados estatisticamente relevantes. https://pt.wikipedia.org/wiki/Hip%C3%B3tese_nula https://pt.wikipedia.org/wiki/Erro_tipo_I https://pt.wikipedia.org/wiki/Erro_tipo_I https://pt.wikipedia.org/wiki/Testes_de_hip%C3%B3teses O p-valor (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra aleatória de uma população quando a hipótese nula é verdadeira. Quando se seleciona uma amostra de uma população em um experimento, sempre há possibilidade que um efeito observado ocorra devido a um erro amostral (diferença entre a estimativa da amostra e o parâmetro da população).No entanto, quando o p-valor do efeitofor menor que o nível de significância, pode-se concluir que o efeito reflete as características de toda a população e, consequentemente, rejeitar a hipótese nula. https://pt.wikipedia.org/wiki/Hip%C3%B3tese_nula Tamanho de efeito tamanho de efeito é, uma medida que sempre deve ser apresentada junto com o valor da significância estatística. significa o impacto que o fator em estudo tem no desfecho. Também pode ser chamada de força da associação. Quanto maior é o tamanho de efeito (ou maior é a força da associação), mais impacto o fator em estudo tem no desfecho Artigo 1 1.Qual o objetivo do artigo? 2. Quais os principais problemas que o artigo aborda? 3. Como são tratados os dados? Artigo 2 1.Qual o objetivo do artigo? 2. Quais os principais problemas que o artigo aborda? 3. Qual a forma de apresentação dos dados?
Compartilhar