Baixe o app para aproveitar ainda mais
Prévia do material em texto
CIÊNCIA DE DADOS ETAPA 1 Autor Everaldo Freitas Guedes Reitor da UNIASSELVI Prof. Hermínio Kloch Pró-Reitora do EAD Prof.ª Francieli Stano Torres Edição Gráfica e Revisão UNIASSELVI CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R CIÊNCIA DE DADOS ETAPA 1 1 O QUE É CIÊNCIA DE DADOS? A ciência de Dados é um domínio de conhecimento relativamente novo, embora seus componentes principais tenham sido estudados e pesquisados por muitos anos pela comunidade de Ciência da Computação. É uma ativi- dade interdisciplinar que concilia principalmente duas grandes áreas: Ciência da Computação e Estatística, incluindo álgebra linear, modelagem estatís- tica, visualização, linguística corporal, análise de gráficos, aprendizado de máquina, inteligência de negócios, armazenamento e recuperação de dados (BOSCHETTI; MASSARON, 2016). FIGURA 1 – DIAGRAMA DE VENN DA CIÊNCIA DE DADOS FONTE: Boschetti e Massaron (2016, s.p.) Além disso, trata-se de um termo cada vez mais utilizado para desig- nar uma área de conhecimento voltada para o estudo e a análise de dados, CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R onde busca-se extrair conhecimento e criar novas informações (OLIVEIRA; GUERRA; MCDONNELL, 2018). 1.1 DADOS Os dados podem ser definidos como observações documentadas ou resultados da medição e sua disponibilidade oferece oportunidades para a obtenção de informações. Podem ser obtidos pela percepção através dos sentidos (por exemplo, observação) ou pela execução de um processo de medição (PINHEIRO, 2021). FIGURA 2 – FONTES DOS DADOS FONTE: Pinheiro (2021, s.p.) Os dados podem ser estruturados ou não estruturados. 1. Estruturados: são aqueles organizados e representados com uma estrutura rígida, a qual foi previamente planejada para armazená-los. Por exemplo: uma planilha de excel contendo linhas e colunas. 2. Não estruturados: que possuem uma estrutura totalmente inversa dos dados estruturados, sendo flexíveis e dinâmicos ou, até mesmo, sem qualquer estrutura. Por exemplo: um texto. 1.2 COMPETÊNCIAS ESSENCIAIS DE UM CIENTISTA DE DADOS • Captura de dados: um cientista de dados deve ter habilidades de modela- gem de dados para entender como os dados estão conectados e se estão estruturados (MASSARON; MUELLER, 2015). • Análise: um cientista de dados realiza análises usando habilidades básicas de ferramentas estatísticas e computacionais, bem como o uso de algorit- mos e truques matemáticos especializados (MASSARON; MUELLER, 2015). • Apresentação: um cientista de dados deve contar uma história específica CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R para que o impacto dos dados não seja perdido. A maioria das pessoas não entende bem os números. Eles não conseguem ver os padrões que o cientista de dados vê (MASSARON; MUELLER, 2015). 1.3 WORKFLOW DA CIÊNCIA DE DADOS De acordo com Wickham e Grolemund (2017), as etapas de um projeto de ciência de dados inicia com a importação dos dados, limpeza, transfor- mação, modelagem e visualização e, por fim, comunicação (vide a Figura 3). FIGURA 3 – WORKFLOW BÁSICO PARA CIÊNCIA DE DADOS FONTE: Wickham e Grolemund (2017, s.p.) • Importar os dados: primeiro um cientista de dados deve importar seus dados para R. Isso normalmente significa que você pega os dados arma- zenados em um arquivo, banco de dados ou API da web e os carrega em um frame de dados em R (WICKHAM; GROLEMUND, 2017). • Limpar os dados: depois de importar seus dados, é uma boa ideia orga- nizá-los. Dados organizados são importantes porque a estrutura consis- tente permite que você concentre sua luta em questões sobre os dados (WICKHAM; GROLEMUND, 2017). • Transformar, visualizar e modelar (fase exploratória): depois de organizar os dados, uma primeira etapa comum é transformá-los. A transformação inclui o estreitamento nas observações de interesse (como todas as pes- soas em uma cidade ou todos os dados do ano passado), criando novas variáveis que são funções de variáveis existentes (como computação, ve- locidade de tempo), e calcular um conjunto de resumo estatístico (como contagens ou médias). Depois de ter os dados organizados com as variáveis de que precisa, há dois principais motores de geração de conhecimento: visualização e modelagem. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R • Visualizar: uma boa visualização mostrará coisas que você não esperava ou levantará novas questões sobre os dados. Uma boa visualização também pode sugerir que você está fazendo a pergunta errada ou você precisa coletar dados diferentes (WICKHAM; GROLEMUND, 2017). • Modelar: os modelos são ferramentas complementares à visualização. Uma vez que você tenha feito suas perguntas suficientemente precisas, você pode usar um modelo para responde-lhes. Os modelos são fundamental- mente ferramentas matemáticas ou computacionais. • Comunicar o resultado: a última etapa da ciência de dados é a comunica- ção, uma etapa absolutamente crítica parte de qualquer projeto de análise de dados. Não importa o quão bem os seus modelos e visualização levaram você a entender os dados, a menos que você também pode comunicar seus resultados a outras pessoas. Por fim, envolvendo todas essas ferramentas está a programação. A programação é uma ferramenta de corte transversal que você usa em to- das as partes do projeto. Você não precisa ser um programador especialista para ser um cientista de dados, mas aprendendo mais sobre programação compensa porque se tornar um programador melhor permite que você au- tomatize tarefas comuns e resolva novos problemas com maior facilidade. 1.5 LINGUAGEM R PARA CIÊNCIA DE DADOS Para a aplicação dessas atividades comuns da Ciência de Dados é ne- cessário dominar as ferramentas corretas. Existem diversas linguagens: R, Python, SAS, C#, SQL, Matlab, PowerBi etc. No entanto, cabe ao cientista de dados avaliar qual é a ferramenta mais adequada para alcançar seus objetivos (OLIVEIRA; GUERRA; MCDONNELL, 2018). 1.5.1 Linguagem R R é uma linguagem de programação estatística que vem passando por diversas evoluções e se tornando cada vez mais uma linguagem de amplos objetivos. Podemos entender o R também como um conjunto de pacotes e ferramentas estatísticas, munido de funções que facilitam sua utilização, desde a criação de simples rotinas até análises de dados complexas, com visualizações bem-acabadas (OLIVEIRA; GUERRA; MCDONNELL, 2018). Segue alguns motivos para aprender-se R: • É completamente gratuito e de livre distribuição. • Curva de aprendizado bastante amigável. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R • Possui enorme quantidade de tutoriais e ajuda, disponíveis gratuitamente na internet. • É excelente para criar rotinas e sistematizar tarefas repetitivas. • É amplamente utilizado pela comunidade acadêmica e pelo mercado. • Possui quantidade enorme de pacotes para diversos tipos de necessidades. • Ótima ferramenta para criar relatórios e gráficos. O R foi criado na Universidade de Auckland (Nova Zelândia) e está dis- ponível para download em https://cran.r-project.org/. Nesta apostila, além do R, utilizaremos a interface RStudio, que é gratuito e está disponível em https://www.rstudio.com/products/rstudio/download/. Os processos de ins- talação padrão tanto do R quanto do RStudio são semelhantes a qualquer outro software. 1.5.2 O Software RStudio O software R puro se apresenta como uma simples “tela preta” comum a linha para inserir comandos. Isso é bastante assustador para quem está começando e bastante improdutivo para quem já faz uso intensivo da ferra- menta (OLIVEIRA; GUERRA; MCDONNELL, 2018). O RStudio pode ser definido como uma interface gráfica com diversas funcionalidades que melhoram ainda mais o uso e aprendizado do R. Desde já, ao falarmos em R, falaremos automaticamente no RStudio. FIGURA 4 – RSTUDIO FONTE: Adaptado de RStudio Team (2020) https://cran.r-project.org/ https://cran.r-project.org/ CURSO LIVRE – ESTATÍSTICA BÁSICA COM USODO SOFTWARE R Além da barra de menu superior, o RStudio é divido em quatro partes principais: 1. Editor de Código: no editor de código, você poderá escrever e editar os scripts. Script nada mais é do que uma sequência de comandos/ordens que serão executados em sequência pelo R. O editor do RStudio oferece facilidades como organização dos comandos, “autocomplete” de coman- dos, destaque da sintaxe dos comandos etc. 2. Console: é no console que o R mostrará a maioria dos resultados dos co- mandos. Também é possível escrever os comandos diretamente no console, sem o uso do editor de código. É muito utilizado para testes e experimentos rápidos. Um uso rápido do console é, por exemplo, chamar a ajuda do R usando o comando? (isso mesmo, a interrogação é um comando!). 3. Environment, History e outros: no Environment ficarão guardados todos os objetos que forem criados na sessão do R. Entenda sessão como o espaço de tempo entre o momento em que você inicia o R e o momento em que finaliza. Neste período, tudo que você faz usa memória RAM e o processador do computador. E na aba History, como você deve imaginar, o RStudio cria um histórico de comandos utilizados. 4. Files, Plots, Packages, Help e Viewer: nesta janela, estão várias funciona- lidades do RStudio. Na aba Files, você terá uma navegação de arquivos do seu computador. Também será possível definir o diretório de trabalho (você também pode definir diretamente no código, mas isto será tratado posteriormente), ou seja, o R entende o seu diretório de trabalho com o ponto de partida para localizar arquivos que sejam chamados no script. A aba Plots trará os gráficos gerados, possibilitando a exportação para alguns formatos diferentes, a exemplo de “.png” e “.pdf”. Em Packages estão listados os pacotes instalados. Você pode verificar quais estão carregados e, caso necessário, poderá carregar algum pacote necessário para a sua aná- lise. Também é possível instalar e atualizar pacotes. Novamente, tudo isto é possível fazer diretamente no código. Por fim, saber usar aba Help é fundamental para evitar desperdício de tempo. Já, o Viewer é utilizado para visualizar-se localmente conteúdo web. • A função help do R: O help do R para cada função geralmente possui nove tópicos: 1. Description - faz um resumo geral da função. 2. Usage - mostra como a função deve ser utilizada e quais argumentos podem ser especificados. 3. Arguments - explica o que é cada um dos argumentos. 4. Details - explica alguns detalhes que é preciso estar atento ao usar a função. 5. Value - mostra o que sai no output após usar a função (os resultados). CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R 6. Note - notas sobre a função. 7. Authors - lista os autores da função. 8. References - referências para os métodos usados. 9. See also - mostra outras funções relacionadas que podem ser consultadas. 10. Examples - exemplos do uso da função. 1.5.3 Curso básico de Software R • Diretórios A função getwd() é utilizada para identificar qual é o diretório padrão do R. A função setwd()é utilizada para alterar o diretório padrão do R. Ex.: setwd(“D:/FACULDADES”) A função dir() é utilizada para listar os arquivos do diretório padrão do R. • Objetos Os objetos (variáveis) podem ser definidos como um pequeno espaço da memória do seu computador onde o R armazenará um valor ou o resul- tado de um comando. Os objetos podem ser: 1. Vetores: uma sequência de valores numéricos ou de caracteres (letras, palavras). Ex.: vetor.num <- c(1, 2, 5, 8, 1001); vetor.chr <- c(‘tipo1’, ‘tipo2’, ‘tipo3’, ‘tipo4’); 2. Matrizes: coleção de vetores em linhas e colunas, todos os vetores dever ser do mesmo tipo (numérico ou de caracteres). Ex.: r <- matrix(1:100, 10, 10, TRUE); 3. Dataframe: o mesmo que uma matriz, mas aceita vetores de tipos diferen- tes (numérico e caracteres). Ex.: d <- head(Titanic) class(as.data.frame(d)) 4. Listas: conjunto de vetores, dataframes ou de matrizes. Não precisam ter o mesmo comprimento, é a forma que a maioria das funções retorna os resultados. Ex.: lista <- list(vetor.num,vetor.chr,r,d) 5. Funções: as funções criadas para fazer diversos cálculos também são ob- jetos do R. Para criar objetos, utiliza-se o símbolo <-. Ex.: Execute, no console o comando x <-15. Pronto, agora o nome x representa o valor 15. Para com- provar, execute apenas o nome do objeto x, o R mostrará o conteúdo dele. A partir de então, você poderá utilizar esse objeto como se fosse o valor 15. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R Para listar os objetos que já foram salvos use ls(). Para remover objetos use rm(), como por exemplo, rm(x). • Tipos de variáveis Existem diversos tipos de objetos, e cada tipo “armazena” um conteúdo diferente, desde tabelas de dados recém-carregados a textos, números, ou simplesmente a afirmação de verdadeiro ou falso (Boleano). Por exemplo: inteiro <- 928 outro.inteiro <- 5e2 decimal <- 182.93 caracter <- ‘exportação’ logico <- TRUE outro.logico <- FALSE Usaremos a função class() para ver o tipo de cada uma delas. Por exem- plo: class(inteiro). Esses são alguns dos tipos básicos de objetos/variáveis no R. Para va- lores inteiros ou decimais, numeric, character para valores textuais e logical para valores lógicos (verdadeiro ou falso). Existe também o tipo integer, quer apresentar apenas números inteiros, sem decimais, porém, na maioria das vezes, o R interpreta o integer como numeric, pois o integer também é um numeric. • Operadores Um operador é um símbolo que diz ao compilador para realizar mani- pulações matemáticas ou lógicas específicas. A linguagem R é rica em ope- radores integrados e fornece os seguintes tipos de operadores. Vejamos alguns tipos de operadores na programação R: Operadores aritméticos + soma. Ex.: 2 + 2 = 4 - subtração. Ex.: 2 – 2 = 0 * multiplicação. Ex.: 2 * 2 = 4 / divisão. Ex.: 2 / 2 = 1 ^ potenciação. Ex.: 2^2 = 4 Operadores relacionais > maior que. Ex.: 2 > 4 < menor que. Ex.: 2 < 4 CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R == igualdade. . Ex.: 2 == 4 <= menor ou igual. Ex.: 2 <= 4 >= maior ou igual. Ex.: 2 >= 4 != diferente. Ex.: 2 != 4 • Funções Entenda função como uma sequência de comandos preparados para serem usados de forma simples e, assim, facilitar sua vida. Funções são usa- das para tudo que você possa imaginar: cálculos mais complexos, estatística, análise de dados, manipulação de dados, gráficos, relatórios etc. Assim que você o instala, o R já vem configurado com várias funções prontas para uso. Observe algumas das principais funções para estatísticas básicas no R: sum()- Soma de valores mean()- Média median()- Mediana var()- Variância summary()- Resumo Estatístico quantile()- Quantis Ex.: sd(100). • Pacotes Um pacote é um conjunto de funções e dados que disponibilizados para a comunidade de forma gratuita e de código aberto. Qualquer pessoa pode criar um pacote e enviá-lo para o site do R. No entanto, uma série de testes precisam ser realizados para que o pacote seja publicado oficialmente no site. Após essa instalação, feita uma vez, sempre é possível utilizar esses pacotes extras. • Estrutura de um pacote R/: um diretório contendo as funções em arquivos *.R (ex.: foo.R). man/: um diretório contendo a documentação (páginas de ajuda) de cada função do diretório acima. Os arquivos de documentação do R termi- nam com a extensão .Rd (ex.: foo.Rd). DESCRIPTION: um arquivo texto contendo as informações sobre o seu pacote: autor, licença, outros pacotes dependentes. NAMESPACE: um arquivo texto que informa quais funções do seu pacote serão exportadas, ou seja, aquelas que estarão disponíveis para o usuário, e quais funções são importadas de outros pacotes dos quais o seu depende. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R • Como instalar e carregar um pacote? Para instalar um pacote, execute o seguinte comando install.packages(). Ex.: install.packages(“dplyr”) Para carregar umpacote após a instalação, execute o comando library() ou require(). Ex.: library(dplyr)ou require(dplyr). 2 ESTATÍSTICA BÁSICA PARA CIÊNCIA DE DADOS A Estatística pode ser definida como o conjunto de técnicas que per- mite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do co- nhecimento (MAGALHÃES; LIMA, 2002). A Teoria Estatística moderna se divide em dois grandes campos: • Estatística Descritiva: consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um número pe- queno de medidas, substitutas e representantes daquela massa de dados. A Estatística Descritiva abrange métodos gráficos e numéricos, utilizados para resumir dados de maneira que características importantes da amostra possam ser expostas. • Inferência Estatística: consiste em inferir (deduzir ou tirar conclusões a res- peito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante téc- nicas e métodos que se fundamentam na Teoria das Probabilidades. 2.1 TEORIA DAS PROBABILIDADES A Teoria das Probabilidades é uma teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório (MAGALHÃES; LIMA, 2002). 2.1.1 Fenômenos ou experimentos aleatórios Um fenômeno ou experimento aleatório (E) pode ser definido como aqueles em que o processo de experimentação está sujeito a incertezas, logo, CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R não é possível controlar todas as circunstâncias relevantes e, portanto, não é possível prever com exatidão os resultados individuais. Exemplos: • Resultado no lançamento de um dado. • Hábito de fumar de um estudante sorteado em sala de aula. • Condições climáticas do próximo domingo. • Taxa de inflação do próximo mês. Características de um experimento aleatório: • Poderá ser repetido um grande número de vezes sob as mesmas condições iniciais. • Não podemos afirmar que um resultado particular ocorrerá, porém, pode- mos descrever o conjunto de todos os resultados possíveis do experimento – as possibilidades de resultado. • Quando o experimento é repetido um grande número de vezes, surgirá uma regularidade nos resultados. Essa regularidade, chamada de regularidade estatística, é que torna possível construir um modelo matemático preciso com o qual se analisará o experimento. 2.1.2 Modelo Probabilístico A Teoria da Probabilidade visa definir um modelo matemático que seja adequado à descrição e interpretação dos experimentos aleatórios. Fazendo-se algumas suposições adequadas, é possível escrever distribuições de probabili- dades (modelos probabilísticos) que representem muito bem as distribuições de frequências, que só são obtidas quando o fenômeno é observado. Um modelo probabilístico é definido por: • Um espaço amostral (Ω). • Uma probabilidade, P( . ), para cada ponto amostral. • Espaço amostral Um espaço amostral é o conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: a) Lançamento de um dado - Ω = {1, 2, 3, 4, 5, 6}. b) Exame de sangue (tipo sanguíneo) - Ω = {A, B, AB, O}. c) Hábito de fumar - Ω = {Fumante, Não fumante}. d) Tempo de duração de uma lâmpada - Ω = {t, ∈ ℝ / t ≥ 0}. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R Um espaço amostral é equiprovável quando todos os elementos têm a mesma probabilidade de ocorrer, isto é, todos os seus elementos são igual- mente prováveis. • Eventos Os eventos são subconjuntos do espaço amostral. Notação: A, B, C,... Ø (conjunto vazio) é o evento impossível Ω é o evento certo Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6}. Alguns eventos: A: sair face par - A = {2, 4, 6} ⊂ Ω. B: sair face maior que 3 - B = {4, 5, 6} ⊂ Ω. C: sair face 1 - C = {1} ⊂ Ω. D: sair menor que 1 - D = {Ø}. • Operações com eventos Dados dois eventos A e B de um mesmo espaço amostral: • A ∩ B é o evento em que A e B ocorrem simultaneamente. • A ∪ B é o evento em que A ocorre ou B ocorre (ou ambos ocorrem). • Ac é o evento em que A não ocorre. Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6} 1. Evento B: representa sair face par - B = {2, 4, 6} 2. Evento C: representa sair uma face ímpar - C = {1, 3, 5} 3. Evento B ∩ C: representa sair uma face par e ímpar - B ∩ C = Ø 4. Evento B ∪ C: representa sair uma face par ou ímpar - B ∪ C = Ω 5. O Evento Bc =C e o Evento Cc =B 2.1.3 Como atribuir probabilidade a um evento? Calcular uma probabilidade é medir a incerteza ou associar um grau de confiança aos resultados possíveis de um experimento. As probabilida- des associam aos eventos um valor no intervalo [0,1]. Quanto maior o valor associado ao evento, maior a certeza de sua possibilidade de ocorrência. Seja Ω um espaço amostral. Uma função P definida para todos os sub- conjuntos de Ω (chamados eventos) é chamada de probabilidade se: CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R 1. ; ; 2. 𝑃(Ω)=1; 3. Se A 1 , A 1 , ..., A n forem, dois a dois, eventos mutuamente exclusivos, isto é, (𝐴𝑖 ≠ 𝐴𝑗)= ∅, para todo 𝑖 ≠𝑗, então Existem várias maneiras de atribuir probabilidade a um evento do es- paço amostral. Nessa apostila, estudaremos além das definições clássica e frequentista alguns teoremas de probabilidade. • Definição clássica de probabilidade Seja A um evento associado ao espaço amostral finito Ω, no qual todos os resultados são igualmente possíveis (ou equiprováveis). Definiremos a probabilidade do evento A, como o quociente entre o número de ele- mentos em A e o número de elementos em Ω: Exemplo: lança-se um dado honesto, qual a probabilidade de ocorrer a face 3? Sendo: A o evento associado a ocorrência da face 3 e Ω = {1, 2, 3, 4, 5, 6}, a probabilidade associada é: • Definição frequentista de probabilidade As limitações da definição clássica de probabilidade, que só se aplica a espaços amostrais finitos e equiprováveis, levaram a considerar outra forma de calcular probabilidade de um evento partindo da frequência relativa do evento ao se repetir o experimento, n vezes, sob as mesmas condições. Em linguagem matemática, quando n cresce, o limite da frequência relativa de ocorrência de A é igual a P(A), isto é, Exemplo: suponha que vamos realizar um experimento de lançar 20 vezes uma moeda e observar o número de caras. A cada lançamento vamos considerar o número de caras que até então ocorreram (na) dividido pelo CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R número de lançamentos (n), ou seja, a frequência relativa de caras. Os re- sultados referentes a esse experimento encontram-se a seguir: FIGURA 4 – ILUSTRAÇÃO DA DEFINIÇÃO FREQUENTISTA FONTE: Silva et al. (2016) Vemos que à medida que aumenta o número de lançamentos, a frequ- ência relativa se aproxima de 0,5. Em linguagem matemática, dizemos que a frequência relativa “converge” para 0,5. • Teoremas Se ∅ é um evento impossível, então P (∅) = 0. Se Ac for complementar de A, então P(Ac) = 1 - P(A). Se A e B são dois eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵) = 𝑃(𝐴) + 𝑃(𝐵) - 𝑃 (𝐴∩𝐵). Se A, B, e C são eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵∪𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴∩𝐵) − 𝑃(𝐴∩𝐶) − 𝑃(𝐵∩𝐶) + 𝑃(𝐴∩𝐵∩𝐶). 2.1.4 PROBABILIDADE CONDICIONAL Sejam A e B eventos de um experimento aleatório qualquer, com P(B) > 0. A probabilidade condicional de A dado B (denota-se por P(A|B) é definida como: CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R Teorema do produto: como consequência da definição de probabili- dade condicional, podemos calcular a probabilidade da ocorrência conjunta de dois eventos A e B. Exemplo: Seja e , calcular . Solução: 2.1.5 Independência de eventos Sejam são eventos independentes se Exemplo: sejam A e B eventos tais que . Calcular ? Solução: 2.1.8 Teorema de Bayes Sejameventos que formam uma partição do espaço amos- tral. Seja B um evento desse espaço. Então, Exemplo: um casal tem dois filhos. Sabe-se que um deles é homem. Qual é a probabilidade de que o outro seja homem também? Solução: sabendo-se que são dois filhos, temos: CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R Sabendo-se que um dos filhos é homem, o evento 1º e 2º filho mulher (AC . BC) não irá acontecer. Então: 2.1.9 Modelo de Bernoulli Uma V.A. (X) de Bernoulli é aquela que assume apenas dois valores 1 se ocorrer sucesso (S) e 0 se ocorrer fracasso (F), com probabilidade de sucesso p e função de probabilidade é dada por: Notação: 2.2 MODELO BINOMIAL Uma variável aleatória X correspondente ao número de sucessos em n ensaios de Bernoulli (n > 2) independentes e com a mesma probabilidade p de sucesso, tem distribuição binomial com parâmetros n e p, se sua função de probabilidade é dada por: Notação: 2.2.1 Modelo Poisson Uma variável aleatória X tem distribuição de Poisson com parâmetro λ > 0, se a função de probabilidade é dada por: CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R Notação: 2.2.2 Modelo Normal Uma variável aleatória com distribuição normal unidimensional tem função de densidade expressa por: Notação . Teorema: se , então a variável transformada , então z tem distribuição N(0,1) tem distribuição normal e portanto, As probabilidades para a distribuição normal (0,1) também chamada de Normal Padrão ou Normal Padronizada estão tabeladas. REFERÊNCIAS ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-WEB- SITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.br/~assuncao/ EstatCC/FECD.pdf. Acesso em: 7 jun. 2021. BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed. Bir- mingham – UK: Editora Packt, 2016. BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O’ Reilly, Rio de Janeiro: Alta Books, 2019. DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://livro. curso-r.com/. Acesso em: 7 jun. 2021. CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed O’Reilly, 2014. GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística. São Paulo: EDUSP, 2005. MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova Jersey: Wiley, 2015. MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados Fundamen- tos e Aplicações. São Paulo: Departamento de Estatística Universidade de São Paulo, 2019. OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R - In- trodução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-intro. pdf. Acesso em: 7 jun. 2021. PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.unicamp. br/~hildete/dados.pdf. Acesso em: 3 abr. 2021. RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso em: 7 jun. 2021. SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia: Univer- sidade Federal da Bahia, 2016. TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas, 1985. TORGO, L. Data Mining with R- Learning with Case Studies. Estados Unidos: CRC Press, 2011. USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing, 2014. WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015. WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed. O’Reilly, 2017.
Compartilhar