Buscar

etapa_1__ciencia_de_dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CIÊNCIA DE DADOS
ETAPA 1
Autor
Everaldo Freitas Guedes
Reitor da UNIASSELVI
Prof. Hermínio Kloch
Pró-Reitora do EAD
Prof.ª Francieli Stano Torres
Edição Gráfica e Revisão
UNIASSELVI
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
CIÊNCIA DE DADOS
ETAPA 1
1 O QUE É CIÊNCIA DE DADOS?
A ciência de Dados é um domínio de conhecimento relativamente novo, 
embora seus componentes principais tenham sido estudados e pesquisados 
por muitos anos pela comunidade de Ciência da Computação. É uma ativi-
dade interdisciplinar que concilia principalmente duas grandes áreas: Ciência 
da Computação e Estatística, incluindo álgebra linear, modelagem estatís-
tica, visualização, linguística corporal, análise de gráficos, aprendizado de 
máquina, inteligência de negócios, armazenamento e recuperação de dados 
(BOSCHETTI; MASSARON, 2016).
FIGURA 1 – DIAGRAMA DE VENN DA CIÊNCIA DE DADOS
FONTE: Boschetti e Massaron (2016, s.p.)
Além disso, trata-se de um termo cada vez mais utilizado para desig-
nar uma área de conhecimento voltada para o estudo e a análise de dados, 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
onde busca-se extrair conhecimento e criar novas informações (OLIVEIRA; 
GUERRA; MCDONNELL, 2018). 
1.1 DADOS
Os dados podem ser definidos como observações documentadas ou 
resultados da medição e sua disponibilidade oferece oportunidades para a 
obtenção de informações. Podem ser obtidos pela percepção através dos 
sentidos (por exemplo, observação) ou pela execução de um processo de 
medição (PINHEIRO, 2021). 
FIGURA 2 – FONTES DOS DADOS
FONTE: Pinheiro (2021, s.p.)
Os dados podem ser estruturados ou não estruturados. 
1. Estruturados: são aqueles organizados e representados com uma estrutura 
rígida, a qual foi previamente planejada para armazená-los. Por exemplo: 
uma planilha de excel contendo linhas e colunas. 
2. Não estruturados: que possuem uma estrutura totalmente inversa dos dados 
estruturados, sendo flexíveis e dinâmicos ou, até mesmo, sem qualquer 
estrutura. Por exemplo: um texto. 
1.2 COMPETÊNCIAS ESSENCIAIS DE UM CIENTISTA DE DADOS
• Captura de dados: um cientista de dados deve ter habilidades de modela-
gem de dados para entender como os dados estão conectados e se estão 
estruturados (MASSARON; MUELLER, 2015).
• Análise: um cientista de dados realiza análises usando habilidades básicas 
de ferramentas estatísticas e computacionais, bem como o uso de algorit-
mos e truques matemáticos especializados (MASSARON; MUELLER, 2015).
• Apresentação: um cientista de dados deve contar uma história específica 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
para que o impacto dos dados não seja perdido. A maioria das pessoas 
não entende bem os números. Eles não conseguem ver os padrões que o 
cientista de dados vê (MASSARON; MUELLER, 2015).
1.3 WORKFLOW DA CIÊNCIA DE DADOS
De acordo com Wickham e Grolemund (2017), as etapas de um projeto 
de ciência de dados inicia com a importação dos dados, limpeza, transfor-
mação, modelagem e visualização e, por fim, comunicação (vide a Figura 3).
FIGURA 3 – WORKFLOW BÁSICO PARA CIÊNCIA DE DADOS
FONTE: Wickham e Grolemund (2017, s.p.)
• Importar os dados: primeiro um cientista de dados deve importar seus 
dados para R. Isso normalmente significa que você pega os dados arma-
zenados em um arquivo, banco de dados ou API da web e os carrega em 
um frame de dados em R (WICKHAM; GROLEMUND, 2017).
• Limpar os dados: depois de importar seus dados, é uma boa ideia orga-
nizá-los. Dados organizados são importantes porque a estrutura consis-
tente permite que você concentre sua luta em questões sobre os dados 
(WICKHAM; GROLEMUND, 2017).
• Transformar, visualizar e modelar (fase exploratória): depois de organizar 
os dados, uma primeira etapa comum é transformá-los. A transformação 
inclui o estreitamento nas observações de interesse (como todas as pes-
soas em uma cidade ou todos os dados do ano passado), criando novas 
variáveis que são funções de variáveis existentes (como computação, ve-
locidade de tempo), e calcular um conjunto de resumo estatístico (como 
contagens ou médias). 
Depois de ter os dados organizados com as variáveis de que precisa, 
há dois principais motores de geração de conhecimento: visualização e 
modelagem. 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Visualizar: uma boa visualização mostrará coisas que você não esperava ou 
levantará novas questões sobre os dados. Uma boa visualização também 
pode sugerir que você está fazendo a pergunta errada ou você precisa 
coletar dados diferentes (WICKHAM; GROLEMUND, 2017).
• Modelar: os modelos são ferramentas complementares à visualização. Uma 
vez que você tenha feito suas perguntas suficientemente precisas, você 
pode usar um modelo para responde-lhes. Os modelos são fundamental-
mente ferramentas matemáticas ou computacionais.
• Comunicar o resultado: a última etapa da ciência de dados é a comunica-
ção, uma etapa absolutamente crítica parte de qualquer projeto de análise 
de dados. Não importa o quão bem os seus modelos e visualização levaram 
você a entender os dados, a menos que você também pode comunicar 
seus resultados a outras pessoas.
Por fim, envolvendo todas essas ferramentas está a programação. A 
programação é uma ferramenta de corte transversal que você usa em to-
das as partes do projeto. Você não precisa ser um programador especialista 
para ser um cientista de dados, mas aprendendo mais sobre programação 
compensa porque se tornar um programador melhor permite que você au-
tomatize tarefas comuns e resolva novos problemas com maior facilidade.
1.5 LINGUAGEM R PARA CIÊNCIA DE DADOS
Para a aplicação dessas atividades comuns da Ciência de Dados é ne-
cessário dominar as ferramentas corretas. Existem diversas linguagens: R, 
Python, SAS, C#, SQL, Matlab, PowerBi etc. No entanto, cabe ao cientista de 
dados avaliar qual é a ferramenta mais adequada para alcançar seus objetivos 
(OLIVEIRA; GUERRA; MCDONNELL, 2018).
1.5.1 Linguagem R 
R é uma linguagem de programação estatística que vem passando por 
diversas evoluções e se tornando cada vez mais uma linguagem de amplos 
objetivos. Podemos entender o R também como um conjunto de pacotes 
e ferramentas estatísticas, munido de funções que facilitam sua utilização, 
desde a criação de simples rotinas até análises de dados complexas, com 
visualizações bem-acabadas (OLIVEIRA; GUERRA; MCDONNELL, 2018).
Segue alguns motivos para aprender-se R:
• É completamente gratuito e de livre distribuição.
• Curva de aprendizado bastante amigável.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Possui enorme quantidade de tutoriais e ajuda, disponíveis gratuitamente 
na internet.
• É excelente para criar rotinas e sistematizar tarefas repetitivas.
• É amplamente utilizado pela comunidade acadêmica e pelo mercado.
• Possui quantidade enorme de pacotes para diversos tipos de necessidades.
• Ótima ferramenta para criar relatórios e gráficos.
O R foi criado na Universidade de Auckland (Nova Zelândia) e está dis-
ponível para download em https://cran.r-project.org/. Nesta apostila, além 
do R, utilizaremos a interface RStudio, que é gratuito e está disponível em 
https://www.rstudio.com/products/rstudio/download/. Os processos de ins-
talação padrão tanto do R quanto do RStudio são semelhantes a qualquer 
outro software.
1.5.2 O Software RStudio 
O software R puro se apresenta como uma simples “tela preta” comum 
a linha para inserir comandos. Isso é bastante assustador para quem está 
começando e bastante improdutivo para quem já faz uso intensivo da ferra-
menta (OLIVEIRA; GUERRA; MCDONNELL, 2018).
O RStudio pode ser definido como uma interface gráfica com diversas 
funcionalidades que melhoram ainda mais o uso e aprendizado do R. Desde 
já, ao falarmos em R, falaremos automaticamente no RStudio.
FIGURA 4 – RSTUDIO
FONTE: Adaptado de RStudio Team (2020)
https://cran.r-project.org/
https://cran.r-project.org/
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USODO SOFTWARE R
Além da barra de menu superior, o RStudio é divido em quatro partes 
principais:
1. Editor de Código: no editor de código, você poderá escrever e editar os 
scripts. Script nada mais é do que uma sequência de comandos/ordens 
que serão executados em sequência pelo R. O editor do RStudio oferece 
facilidades como organização dos comandos, “autocomplete” de coman-
dos, destaque da sintaxe dos comandos etc.
2. Console: é no console que o R mostrará a maioria dos resultados dos co-
mandos. Também é possível escrever os comandos diretamente no console, 
sem o uso do editor de código. É muito utilizado para testes e experimentos 
rápidos. Um uso rápido do console é, por exemplo, chamar a ajuda do R 
usando o comando? (isso mesmo, a interrogação é um comando!). 
3. Environment, History e outros: no Environment ficarão guardados todos 
os objetos que forem criados na sessão do R. Entenda sessão como o 
espaço de tempo entre o momento em que você inicia o R e o momento 
em que finaliza. Neste período, tudo que você faz usa memória RAM e o 
processador do computador. E na aba History, como você deve imaginar, 
o RStudio cria um histórico de comandos utilizados.
4. Files, Plots, Packages, Help e Viewer: nesta janela, estão várias funciona-
lidades do RStudio. Na aba Files, você terá uma navegação de arquivos 
do seu computador. Também será possível definir o diretório de trabalho 
(você também pode definir diretamente no código, mas isto será tratado 
posteriormente), ou seja, o R entende o seu diretório de trabalho com o 
ponto de partida para localizar arquivos que sejam chamados no script.
A aba Plots trará os gráficos gerados, possibilitando a exportação para 
alguns formatos diferentes, a exemplo de “.png” e “.pdf”. Em Packages estão 
listados os pacotes instalados. Você pode verificar quais estão carregados e, 
caso necessário, poderá carregar algum pacote necessário para a sua aná-
lise. Também é possível instalar e atualizar pacotes. Novamente, tudo isto é 
possível fazer diretamente no código. 
Por fim, saber usar aba Help é fundamental para evitar desperdício de 
tempo. Já, o Viewer é utilizado para visualizar-se localmente conteúdo web. 
• A função help do R:
O help do R para cada função geralmente possui nove tópicos:
1. Description - faz um resumo geral da função.
2. Usage - mostra como a função deve ser utilizada e quais argumentos 
podem ser especificados.
3. Arguments - explica o que é cada um dos argumentos.
4. Details - explica alguns detalhes que é preciso estar atento ao usar a função.
5. Value - mostra o que sai no output após usar a função (os resultados).
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
6. Note - notas sobre a função.
7. Authors - lista os autores da função.
8. References - referências para os métodos usados.
9. See also - mostra outras funções relacionadas que podem ser consultadas.
10. Examples - exemplos do uso da função.
1.5.3 Curso básico de Software R 
• Diretórios
A função getwd() é utilizada para identificar qual é o diretório padrão do R.
A função setwd()é utilizada para alterar o diretório padrão do R.
Ex.: setwd(“D:/FACULDADES”)
A função dir() é utilizada para listar os arquivos do diretório padrão do R.
• Objetos
Os objetos (variáveis) podem ser definidos como um pequeno espaço 
da memória do seu computador onde o R armazenará um valor ou o resul-
tado de um comando. Os objetos podem ser:
1. Vetores: uma sequência de valores numéricos ou de caracteres (letras, 
palavras). 
 Ex.: vetor.num <- c(1, 2, 5, 8, 1001);
 vetor.chr <- c(‘tipo1’, ‘tipo2’, ‘tipo3’, ‘tipo4’);
2. Matrizes: coleção de vetores em linhas e colunas, todos os vetores dever 
ser do mesmo tipo (numérico ou de caracteres).
 Ex.: r <- matrix(1:100, 10, 10, TRUE);
3. Dataframe: o mesmo que uma matriz, mas aceita vetores de tipos diferen-
tes (numérico e caracteres).
 Ex.: d <- head(Titanic)
 class(as.data.frame(d))
4. Listas: conjunto de vetores, dataframes ou de matrizes. Não precisam ter 
o mesmo comprimento, é a forma que a maioria das funções retorna os 
resultados.
 Ex.: lista <- list(vetor.num,vetor.chr,r,d)
5. Funções: as funções criadas para fazer diversos cálculos também são ob-
jetos do R.
Para criar objetos, utiliza-se o símbolo <-. Ex.: Execute, no console o 
comando x <-15. Pronto, agora o nome x representa o valor 15. Para com-
provar, execute apenas o nome do objeto x, o R mostrará o conteúdo dele. 
A partir de então, você poderá utilizar esse objeto como se fosse o valor 15. 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Para listar os objetos que já foram salvos use ls(). Para remover objetos 
use rm(), como por exemplo, rm(x).
• Tipos de variáveis
Existem diversos tipos de objetos, e cada tipo “armazena” um conteúdo 
diferente, desde tabelas de dados recém-carregados a textos, números, ou 
simplesmente a afirmação de verdadeiro ou falso (Boleano). Por exemplo:
inteiro <- 928
outro.inteiro <- 5e2
decimal <- 182.93
caracter <- ‘exportação’
logico <- TRUE
outro.logico <- FALSE
Usaremos a função class() para ver o tipo de cada uma delas. Por exem-
plo: class(inteiro).
Esses são alguns dos tipos básicos de objetos/variáveis no R. Para va-
lores inteiros ou decimais, numeric, character para valores textuais e logical 
para valores lógicos (verdadeiro ou falso). Existe também o tipo integer, quer 
apresentar apenas números inteiros, sem decimais, porém, na maioria das 
vezes, o R interpreta o integer como numeric, pois o integer também é um 
numeric.
• Operadores
Um operador é um símbolo que diz ao compilador para realizar mani-
pulações matemáticas ou lógicas específicas. A linguagem R é rica em ope-
radores integrados e fornece os seguintes tipos de operadores.
Vejamos alguns tipos de operadores na programação R:
Operadores aritméticos
+ soma. Ex.: 2 + 2 = 4 
- subtração. Ex.: 2 – 2 = 0 
* multiplicação. Ex.: 2 * 2 = 4
/ divisão. Ex.: 2 / 2 = 1
^ potenciação. Ex.: 2^2 = 4
Operadores relacionais
> maior que. Ex.: 2 > 4
< menor que. Ex.: 2 < 4
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
== igualdade. . Ex.: 2 == 4
<= menor ou igual. Ex.: 2 <= 4 
>= maior ou igual. Ex.: 2 >= 4
!= diferente. Ex.: 2 != 4
• Funções
Entenda função como uma sequência de comandos preparados para 
serem usados de forma simples e, assim, facilitar sua vida. Funções são usa-
das para tudo que você possa imaginar: cálculos mais complexos, estatística, 
análise de dados, manipulação de dados, gráficos, relatórios etc. Assim que 
você o instala, o R já vem configurado com várias funções prontas para uso. 
Observe algumas das principais funções para estatísticas básicas no R: 
sum()- Soma de valores
mean()- Média
median()- Mediana
var()- Variância
summary()- Resumo Estatístico
quantile()- Quantis
Ex.: sd(100).
• Pacotes
Um pacote é um conjunto de funções e dados que disponibilizados 
para a comunidade de forma gratuita e de código aberto. Qualquer pessoa 
pode criar um pacote e enviá-lo para o site do R. No entanto, uma série de 
testes precisam ser realizados para que o pacote seja publicado oficialmente 
no site. Após essa instalação, feita uma vez, sempre é possível utilizar esses 
pacotes extras.
• Estrutura de um pacote
R/: um diretório contendo as funções em arquivos *.R (ex.: foo.R).
man/: um diretório contendo a documentação (páginas de ajuda) de 
cada função do diretório acima. Os arquivos de documentação do R termi-
nam com a extensão .Rd (ex.: foo.Rd).
DESCRIPTION: um arquivo texto contendo as informações sobre o seu 
pacote: autor, licença, outros pacotes dependentes.
NAMESPACE: um arquivo texto que informa quais funções do seu pacote 
serão exportadas, ou seja, aquelas que estarão disponíveis para o usuário, e 
quais funções são importadas de outros pacotes dos quais o seu depende.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Como instalar e carregar um pacote?
Para instalar um pacote, execute o seguinte comando install.packages().
Ex.: install.packages(“dplyr”)
Para carregar umpacote após a instalação, execute o comando library()
ou require(). 
Ex.: library(dplyr)ou require(dplyr).
2 ESTATÍSTICA BÁSICA PARA CIÊNCIA DE DADOS
A Estatística pode ser definida como o conjunto de técnicas que per-
mite, de forma sistemática, organizar, descrever, analisar e interpretar dados 
oriundos de estudos ou experimentos, realizados em qualquer área do co-
nhecimento (MAGALHÃES; LIMA, 2002).
A Teoria Estatística moderna se divide em dois grandes campos:
• Estatística Descritiva: consiste num conjunto de métodos que ensinam a 
reduzir uma quantidade de dados bastante numerosa por um número pe-
queno de medidas, substitutas e representantes daquela massa de dados. 
A Estatística Descritiva abrange métodos gráficos e numéricos, utilizados 
para resumir dados de maneira que características importantes da amostra 
possam ser expostas.
• Inferência Estatística: consiste em inferir (deduzir ou tirar conclusões a res-
peito das) propriedades de um universo a partir de uma amostra. O processo 
de generalização, que é característico do método indutivo, está associado 
a uma margem de incerteza. A medida da incerteza é tratada mediante téc-
nicas e métodos que se fundamentam na Teoria das Probabilidades.
2.1 TEORIA DAS PROBABILIDADES
A Teoria das Probabilidades é uma teoria matemática utilizada para se 
estudar a incerteza oriunda de fenômenos de caráter aleatório (MAGALHÃES; 
LIMA, 2002).
2.1.1 Fenômenos ou experimentos aleatórios 
Um fenômeno ou experimento aleatório (E) pode ser definido como 
aqueles em que o processo de experimentação está sujeito a incertezas, logo, 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
não é possível controlar todas as circunstâncias relevantes e, portanto, não 
é possível prever com exatidão os resultados individuais.
Exemplos:
• Resultado no lançamento de um dado.
• Hábito de fumar de um estudante sorteado em sala de aula.
• Condições climáticas do próximo domingo.
• Taxa de inflação do próximo mês.
Características de um experimento aleatório:
• Poderá ser repetido um grande número de vezes sob as mesmas condições 
iniciais.
• Não podemos afirmar que um resultado particular ocorrerá, porém, pode-
mos descrever o conjunto de todos os resultados possíveis do experimento 
– as possibilidades de resultado.
• Quando o experimento é repetido um grande número de vezes, surgirá uma 
regularidade nos resultados. Essa regularidade, chamada de regularidade 
estatística, é que torna possível construir um modelo matemático preciso 
com o qual se analisará o experimento.
2.1.2 Modelo Probabilístico
A Teoria da Probabilidade visa definir um modelo matemático que seja 
adequado à descrição e interpretação dos experimentos aleatórios. Fazendo-se 
algumas suposições adequadas, é possível escrever distribuições de probabili-
dades (modelos probabilísticos) que representem muito bem as distribuições 
de frequências, que só são obtidas quando o fenômeno é observado.
Um modelo probabilístico é definido por:
• Um espaço amostral (Ω).
• Uma probabilidade, P( . ), para cada ponto amostral.
• Espaço amostral
Um espaço amostral é o conjunto de todos os resultados possíveis de 
um experimento aleatório.
Exemplos:
a) Lançamento de um dado - Ω = {1, 2, 3, 4, 5, 6}. 
b) Exame de sangue (tipo sanguíneo) - Ω = {A, B, AB, O}.
c) Hábito de fumar - Ω = {Fumante, Não fumante}. 
d) Tempo de duração de uma lâmpada - Ω = {t, ∈ ℝ / t ≥ 0}.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Um espaço amostral é equiprovável quando todos os elementos têm a 
mesma probabilidade de ocorrer, isto é, todos os seus elementos são igual-
mente prováveis. 
• Eventos
Os eventos são subconjuntos do espaço amostral.
Notação: A, B, C,...
Ø (conjunto vazio) é o evento impossível
Ω é o evento certo
Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6}. 
Alguns eventos:
A: sair face par - A = {2, 4, 6} ⊂ Ω. 
B: sair face maior que 3 - B = {4, 5, 6} ⊂ Ω.
C: sair face 1 - C = {1} ⊂ Ω.
D: sair menor que 1 - D = {Ø}.
• Operações com eventos
Dados dois eventos A e B de um mesmo espaço amostral:
• A ∩ B é o evento em que A e B ocorrem simultaneamente.
• A ∪ B é o evento em que A ocorre ou B ocorre (ou ambos ocorrem).
• Ac é o evento em que A não ocorre.
Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6} 
1. Evento B: representa sair face par - B = {2, 4, 6}
2. Evento C: representa sair uma face ímpar - C = {1, 3, 5}
3. Evento B ∩ C: representa sair uma face par e ímpar - B ∩ C = Ø
4. Evento B ∪ C: representa sair uma face par ou ímpar - B ∪ C = Ω
5. O Evento Bc =C e o Evento Cc =B
2.1.3 Como atribuir probabilidade a um evento? 
Calcular uma probabilidade é medir a incerteza ou associar um grau 
de confiança aos resultados possíveis de um experimento. As probabilida-
des associam aos eventos um valor no intervalo [0,1]. Quanto maior o valor 
associado ao evento, maior a certeza de sua possibilidade de ocorrência.
Seja Ω um espaço amostral. Uma função P definida para todos os sub-
conjuntos de Ω (chamados eventos) é chamada de probabilidade se:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
1. ; ;
2. 𝑃(Ω)=1;
3. Se A
1
, A
1
, ..., A
n
 forem, dois a dois, eventos mutuamente exclusivos, isto é, 
(𝐴𝑖 ≠ 𝐴𝑗)= ∅, para todo 𝑖 ≠𝑗, então
Existem várias maneiras de atribuir probabilidade a um evento do es-
paço amostral. Nessa apostila, estudaremos além das definições clássica e 
frequentista alguns teoremas de probabilidade.
• Definição clássica de probabilidade 
Seja A um evento associado ao espaço amostral finito Ω, no qual todos 
os resultados são igualmente possíveis (ou equiprováveis). Definiremos a 
probabilidade do evento A, como o quociente entre o número de ele-
mentos em A e o número de elementos em Ω:
Exemplo: lança-se um dado honesto, qual a probabilidade de ocorrer 
a face 3? Sendo: A o evento associado a ocorrência da face 3 e Ω = {1, 2, 3, 
4, 5, 6}, a probabilidade associada é:
• Definição frequentista de probabilidade 
As limitações da definição clássica de probabilidade, que só se aplica a 
espaços amostrais finitos e equiprováveis, levaram a considerar outra forma 
de calcular probabilidade de um evento partindo da frequência relativa do 
evento ao se repetir o experimento, n vezes, sob as mesmas condições. Em 
linguagem matemática, quando n cresce, o limite da frequência relativa de 
ocorrência de A é igual a P(A), isto é,
Exemplo: suponha que vamos realizar um experimento de lançar 20 
vezes uma moeda e observar o número de caras. A cada lançamento vamos 
considerar o número de caras que até então ocorreram (na) dividido pelo 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
número de lançamentos (n), ou seja, a frequência relativa de caras. Os re-
sultados referentes a esse experimento encontram-se a seguir: 
FIGURA 4 – ILUSTRAÇÃO DA DEFINIÇÃO FREQUENTISTA
FONTE: Silva et al. (2016)
Vemos que à medida que aumenta o número de lançamentos, a frequ-
ência relativa se aproxima de 0,5. Em linguagem matemática, dizemos que 
a frequência relativa “converge” para 0,5. 
• Teoremas
Se ∅ é um evento impossível, então P (∅) = 0.
Se Ac for complementar de A, então P(Ac) = 1 - P(A).
Se A e B são dois eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵) = 𝑃(𝐴) + 𝑃(𝐵) - 𝑃
(𝐴∩𝐵).
Se A, B, e C são eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵∪𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 
𝑃(𝐶) − 𝑃(𝐴∩𝐵) − 𝑃(𝐴∩𝐶) − 𝑃(𝐵∩𝐶) + 𝑃(𝐴∩𝐵∩𝐶).
2.1.4 PROBABILIDADE CONDICIONAL
Sejam A e B eventos de um experimento aleatório qualquer, com P(B) > 
0. A probabilidade condicional de A dado B (denota-se por P(A|B) é definida 
como:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Teorema do produto: como consequência da definição de probabili-
dade condicional, podemos calcular a probabilidade da ocorrência conjunta 
de dois eventos A e B. 
Exemplo: Seja e , calcular .
Solução:
2.1.5 Independência de eventos
 
Sejam são eventos independentes se 
Exemplo: sejam A e B eventos tais que . Calcular 
?
Solução:
2.1.8 Teorema de Bayes 
Sejameventos que formam uma partição do espaço amos-
tral. Seja B um evento desse espaço. Então,
Exemplo: um casal tem dois filhos. Sabe-se que um deles é homem. 
Qual é a probabilidade de que o outro seja homem também?
Solução: sabendo-se que são dois filhos, temos:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Sabendo-se que um dos filhos é homem, o evento 1º e 2º filho mulher 
(AC . BC) não irá acontecer. Então:
2.1.9 Modelo de Bernoulli
Uma V.A. (X) de Bernoulli é aquela que assume apenas dois valores 1 se 
ocorrer sucesso (S) e 0 se ocorrer fracasso (F), com probabilidade de sucesso 
p e função de probabilidade é dada por:
Notação: 
2.2 MODELO BINOMIAL
 
Uma variável aleatória X correspondente ao número de sucessos em n 
ensaios de Bernoulli (n > 2) independentes e com a mesma probabilidade p 
de sucesso, tem distribuição binomial com parâmetros n e p, se sua função 
de probabilidade é dada por:
Notação: 
2.2.1 Modelo Poisson
Uma variável aleatória X tem distribuição de Poisson com parâmetro λ 
> 0, se a função de probabilidade é dada por:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Notação: 
2.2.2 Modelo Normal
Uma variável aleatória com distribuição normal unidimensional tem 
função de densidade expressa por: 
Notação .
Teorema: se , então a variável transformada , 
então z tem distribuição N(0,1) tem distribuição normal e portanto, 
As probabilidades para a distribuição normal (0,1) também chamada de 
Normal Padrão ou Normal Padronizada estão tabeladas. 
REFERÊNCIAS 
ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-WEB-
SITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.br/~assuncao/
EstatCC/FECD.pdf. Acesso em: 7 jun. 2021. 
BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed. Bir-
mingham – UK: Editora Packt, 2016.
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O’ Reilly, 
Rio de Janeiro: Alta Books, 2019.
DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://livro.
curso-r.com/. Acesso em: 7 jun. 2021. 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed O’Reilly, 
2014.
GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística. 
São Paulo: EDUSP, 2005.
MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova 
Jersey: Wiley, 2015.
MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados Fundamen-
tos e Aplicações. São Paulo: Departamento de Estatística Universidade de 
São Paulo, 2019.
OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R - In-
trodução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-intro.
pdf. Acesso em: 7 jun. 2021. 
PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.unicamp.
br/~hildete/dados.pdf. Acesso em: 3 abr. 2021. 
RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, 
Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso em: 7 jun. 
2021. 
SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia: Univer-
sidade Federal da Bahia, 2016.
TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas, 1985.
TORGO, L. Data Mining with R- Learning with Case Studies. Estados Unidos: 
CRC Press, 2011. 
USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing, 
2014.
WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015.
WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed. 
O’Reilly, 2017.

Continue navegando