etapa_1__ciencia_de_dados

•

Uniasselvi

1

0

1

0

Letícia Barbosa

17/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Comportamento, Clima e Cultura Organizacional

2.057 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CIÊNCIA DE DADOS
ETAPA 1
Autor
Everaldo Freitas Guedes
Reitor da UNIASSELVI
Prof. Hermínio Kloch
Pró-Reitora do EAD
Prof.ª Francieli Stano Torres
Edição Gráfica e Revisão
UNIASSELVI
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
CIÊNCIA DE DADOS
ETAPA 1
1 O QUE É CIÊNCIA DE DADOS?
A ciência de Dados é um domínio de conhecimento relativamente novo,
embora seus componentes principais tenham sido estudados e pesquisados
por muitos anos pela comunidade de Ciência da Computação. É uma ativi-
dade interdisciplinar que concilia principalmente duas grandes áreas: Ciência
da Computação e Estatística, incluindo álgebra linear, modelagem estatís-
tica, visualização, linguística corporal, análise de gráficos, aprendizado de
máquina, inteligência de negócios, armazenamento e recuperação de dados
(BOSCHETTI; MASSARON, 2016).
FIGURA 1 – DIAGRAMA DE VENN DA CIÊNCIA DE DADOS
FONTE: Boschetti e Massaron (2016, s.p.)
Além disso, trata-se de um termo cada vez mais utilizado para desig-
nar uma área de conhecimento voltada para o estudo e a análise de dados,
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
onde busca-se extrair conhecimento e criar novas informações (OLIVEIRA;
GUERRA; MCDONNELL, 2018).
1.1 DADOS
Os dados podem ser definidos como observações documentadas ou
resultados da medição e sua disponibilidade oferece oportunidades para a
obtenção de informações. Podem ser obtidos pela percepção através dos
sentidos (por exemplo, observação) ou pela execução de um processo de
medição (PINHEIRO, 2021).
FIGURA 2 – FONTES DOS DADOS
FONTE: Pinheiro (2021, s.p.)
Os dados podem ser estruturados ou não estruturados.
1. Estruturados: são aqueles organizados e representados com uma estrutura
rígida, a qual foi previamente planejada para armazená-los. Por exemplo:
uma planilha de excel contendo linhas e colunas.
2. Não estruturados: que possuem uma estrutura totalmente inversa dos dados
estruturados, sendo flexíveis e dinâmicos ou, até mesmo, sem qualquer
estrutura. Por exemplo: um texto.
1.2 COMPETÊNCIAS ESSENCIAIS DE UM CIENTISTA DE DADOS
• Captura de dados: um cientista de dados deve ter habilidades de modela-
gem de dados para entender como os dados estão conectados e se estão
estruturados (MASSARON; MUELLER, 2015).
• Análise: um cientista de dados realiza análises usando habilidades básicas
de ferramentas estatísticas e computacionais, bem como o uso de algorit-
mos e truques matemáticos especializados (MASSARON; MUELLER, 2015).
• Apresentação: um cientista de dados deve contar uma história específica
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
para que o impacto dos dados não seja perdido. A maioria das pessoas
não entende bem os números. Eles não conseguem ver os padrões que o
cientista de dados vê (MASSARON; MUELLER, 2015).
1.3 WORKFLOW DA CIÊNCIA DE DADOS
De acordo com Wickham e Grolemund (2017), as etapas de um projeto
de ciência de dados inicia com a importação dos dados, limpeza, transfor-
mação, modelagem e visualização e, por fim, comunicação (vide a Figura 3).
FIGURA 3 – WORKFLOW BÁSICO PARA CIÊNCIA DE DADOS
FONTE: Wickham e Grolemund (2017, s.p.)
• Importar os dados: primeiro um cientista de dados deve importar seus
dados para R. Isso normalmente significa que você pega os dados arma-
zenados em um arquivo, banco de dados ou API da web e os carrega em
um frame de dados em R (WICKHAM; GROLEMUND, 2017).
• Limpar os dados: depois de importar seus dados, é uma boa ideia orga-
nizá-los. Dados organizados são importantes porque a estrutura consis-
tente permite que você concentre sua luta em questões sobre os dados
(WICKHAM; GROLEMUND, 2017).
• Transformar, visualizar e modelar (fase exploratória): depois de organizar
os dados, uma primeira etapa comum é transformá-los. A transformação
inclui o estreitamento nas observações de interesse (como todas as pes-
soas em uma cidade ou todos os dados do ano passado), criando novas
variáveis que são funções de variáveis existentes (como computação, ve-
locidade de tempo), e calcular um conjunto de resumo estatístico (como
contagens ou médias).
Depois de ter os dados organizados com as variáveis de que precisa,
há dois principais motores de geração de conhecimento: visualização e
modelagem.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Visualizar: uma boa visualização mostrará coisas que você não esperava ou
levantará novas questões sobre os dados. Uma boa visualização também
pode sugerir que você está fazendo a pergunta errada ou você precisa
coletar dados diferentes (WICKHAM; GROLEMUND, 2017).
• Modelar: os modelos são ferramentas complementares à visualização. Uma
vez que você tenha feito suas perguntas suficientemente precisas, você
pode usar um modelo para responde-lhes. Os modelos são fundamental-
mente ferramentas matemáticas ou computacionais.
• Comunicar o resultado: a última etapa da ciência de dados é a comunica-
ção, uma etapa absolutamente crítica parte de qualquer projeto de análise
de dados. Não importa o quão bem os seus modelos e visualização levaram
você a entender os dados, a menos que você também pode comunicar
seus resultados a outras pessoas.
Por fim, envolvendo todas essas ferramentas está a programação. A
programação é uma ferramenta de corte transversal que você usa em to-
das as partes do projeto. Você não precisa ser um programador especialista
para ser um cientista de dados, mas aprendendo mais sobre programação
compensa porque se tornar um programador melhor permite que você au-
tomatize tarefas comuns e resolva novos problemas com maior facilidade.
1.5 LINGUAGEM R PARA CIÊNCIA DE DADOS
Para a aplicação dessas atividades comuns da Ciência de Dados é ne-
cessário dominar as ferramentas corretas. Existem diversas linguagens: R,
Python, SAS, C#, SQL, Matlab, PowerBi etc. No entanto, cabe ao cientista de
dados avaliar qual é a ferramenta mais adequada para alcançar seus objetivos
(OLIVEIRA; GUERRA; MCDONNELL, 2018).
1.5.1 Linguagem R
R é uma linguagem de programação estatística que vem passando por
diversas evoluções e se tornando cada vez mais uma linguagem de amplos
objetivos. Podemos entender o R também como um conjunto de pacotes
e ferramentas estatísticas, munido de funções que facilitam sua utilização,
desde a criação de simples rotinas até análises de dados complexas, com
visualizações bem-acabadas (OLIVEIRA; GUERRA; MCDONNELL, 2018).
Segue alguns motivos para aprender-se R:
• É completamente gratuito e de livre distribuição.
• Curva de aprendizado bastante amigável.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Possui enorme quantidade de tutoriais e ajuda, disponíveis gratuitamente
na internet.
• É excelente para criar rotinas e sistematizar tarefas repetitivas.
• É amplamente utilizado pela comunidade acadêmica e pelo mercado.
• Possui quantidade enorme de pacotes para diversos tipos de necessidades.
• Ótima ferramenta para criar relatórios e gráficos.
O R foi criado na Universidade de Auckland (Nova Zelândia) e está dis-
ponível para download em https://cran.r-project.org/. Nesta apostila, além
do R, utilizaremos a interface RStudio, que é gratuito e está disponível em
https://www.rstudio.com/products/rstudio/download/. Os processos de ins-
talação padrão tanto do R quanto do RStudio são semelhantes a qualquer
outro software.
1.5.2 O Software RStudio
O software R puro se apresenta como uma simples “tela preta” comum
a linha para inserir comandos. Isso é bastante assustador para quem está
começando e bastante improdutivo para quem já faz uso intensivo da ferra-
menta (OLIVEIRA; GUERRA; MCDONNELL, 2018).
O RStudio pode ser definido como uma interface gráfica com diversas
funcionalidades que melhoram ainda mais o uso e aprendizado do R. Desde
já, ao falarmos em R, falaremos automaticamente no RStudio.
FIGURA 4 – RSTUDIO
FONTE: Adaptado de RStudio Team (2020)
https://cran.r-project.org/
https://cran.r-project.org/
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USODO SOFTWARE R
Além da barra de menu superior, o RStudio é divido em quatro partes
principais:
1. Editor de Código: no editor de código, você poderá escrever e editar os
scripts. Script nada mais é do que uma sequência de comandos/ordens
que serão executados em sequência pelo R. O editor do RStudio oferece
facilidades como organização dos comandos, “autocomplete” de coman-
dos, destaque da sintaxe dos comandos etc.
2. Console: é no console que o R mostrará a maioria dos resultados dos co-
mandos. Também é possível escrever os comandos diretamente no console,
sem o uso do editor de código. É muito utilizado para testes e experimentos
rápidos. Um uso rápido do console é, por exemplo, chamar a ajuda do R
usando o comando? (isso mesmo, a interrogação é um comando!).
3. Environment, History e outros: no Environment ficarão guardados todos
os objetos que forem criados na sessão do R. Entenda sessão como o
espaço de tempo entre o momento em que você inicia o R e o momento
em que finaliza. Neste período, tudo que você faz usa memória RAM e o
processador do computador. E na aba History, como você deve imaginar,
o RStudio cria um histórico de comandos utilizados.
4. Files, Plots, Packages, Help e Viewer: nesta janela, estão várias funciona-
lidades do RStudio. Na aba Files, você terá uma navegação de arquivos
do seu computador. Também será possível definir o diretório de trabalho
(você também pode definir diretamente no código, mas isto será tratado
posteriormente), ou seja, o R entende o seu diretório de trabalho com o
ponto de partida para localizar arquivos que sejam chamados no script.
A aba Plots trará os gráficos gerados, possibilitando a exportação para
alguns formatos diferentes, a exemplo de “.png” e “.pdf”. Em Packages estão
listados os pacotes instalados. Você pode verificar quais estão carregados e,
caso necessário, poderá carregar algum pacote necessário para a sua aná-
lise. Também é possível instalar e atualizar pacotes. Novamente, tudo isto é
possível fazer diretamente no código.
Por fim, saber usar aba Help é fundamental para evitar desperdício de
tempo. Já, o Viewer é utilizado para visualizar-se localmente conteúdo web.
• A função help do R:
O help do R para cada função geralmente possui nove tópicos:
1. Description - faz um resumo geral da função.
2. Usage - mostra como a função deve ser utilizada e quais argumentos
podem ser especificados.
3. Arguments - explica o que é cada um dos argumentos.
4. Details - explica alguns detalhes que é preciso estar atento ao usar a função.
5. Value - mostra o que sai no output após usar a função (os resultados).
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
6. Note - notas sobre a função.
7. Authors - lista os autores da função.
8. References - referências para os métodos usados.
9. See also - mostra outras funções relacionadas que podem ser consultadas.
10. Examples - exemplos do uso da função.
1.5.3 Curso básico de Software R
• Diretórios
A função getwd() é utilizada para identificar qual é o diretório padrão do R.
A função setwd()é utilizada para alterar o diretório padrão do R.
Ex.: setwd(“D:/FACULDADES”)
A função dir() é utilizada para listar os arquivos do diretório padrão do R.
• Objetos
Os objetos (variáveis) podem ser definidos como um pequeno espaço
da memória do seu computador onde o R armazenará um valor ou o resul-
tado de um comando. Os objetos podem ser:
1. Vetores: uma sequência de valores numéricos ou de caracteres (letras,
palavras).
Ex.: vetor.num <- c(1, 2, 5, 8, 1001);
vetor.chr <- c(‘tipo1’, ‘tipo2’, ‘tipo3’, ‘tipo4’);
2. Matrizes: coleção de vetores em linhas e colunas, todos os vetores dever
ser do mesmo tipo (numérico ou de caracteres).
Ex.: r <- matrix(1:100, 10, 10, TRUE);
3. Dataframe: o mesmo que uma matriz, mas aceita vetores de tipos diferen-
tes (numérico e caracteres).
Ex.: d <- head(Titanic)
class(as.data.frame(d))
4. Listas: conjunto de vetores, dataframes ou de matrizes. Não precisam ter
o mesmo comprimento, é a forma que a maioria das funções retorna os
resultados.
Ex.: lista <- list(vetor.num,vetor.chr,r,d)
5. Funções: as funções criadas para fazer diversos cálculos também são ob-
jetos do R.
Para criar objetos, utiliza-se o símbolo <-. Ex.: Execute, no console o
comando x <-15. Pronto, agora o nome x representa o valor 15. Para com-
provar, execute apenas o nome do objeto x, o R mostrará o conteúdo dele.
A partir de então, você poderá utilizar esse objeto como se fosse o valor 15.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Para listar os objetos que já foram salvos use ls(). Para remover objetos
use rm(), como por exemplo, rm(x).
• Tipos de variáveis
Existem diversos tipos de objetos, e cada tipo “armazena” um conteúdo
diferente, desde tabelas de dados recém-carregados a textos, números, ou
simplesmente a afirmação de verdadeiro ou falso (Boleano). Por exemplo:
inteiro <- 928
outro.inteiro <- 5e2
decimal <- 182.93
caracter <- ‘exportação’
logico <- TRUE
outro.logico <- FALSE
Usaremos a função class() para ver o tipo de cada uma delas. Por exem-
plo: class(inteiro).
Esses são alguns dos tipos básicos de objetos/variáveis no R. Para va-
lores inteiros ou decimais, numeric, character para valores textuais e logical
para valores lógicos (verdadeiro ou falso). Existe também o tipo integer, quer
apresentar apenas números inteiros, sem decimais, porém, na maioria das
vezes, o R interpreta o integer como numeric, pois o integer também é um
numeric.
• Operadores
Um operador é um símbolo que diz ao compilador para realizar mani-
pulações matemáticas ou lógicas específicas. A linguagem R é rica em ope-
radores integrados e fornece os seguintes tipos de operadores.
Vejamos alguns tipos de operadores na programação R:
Operadores aritméticos
+ soma. Ex.: 2 + 2 = 4
- subtração. Ex.: 2 – 2 = 0
* multiplicação. Ex.: 2 * 2 = 4
/ divisão. Ex.: 2 / 2 = 1
^ potenciação. Ex.: 2^2 = 4
Operadores relacionais
> maior que. Ex.: 2 > 4
< menor que. Ex.: 2 < 4
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
== igualdade. . Ex.: 2 == 4
<= menor ou igual. Ex.: 2 <= 4
>= maior ou igual. Ex.: 2 >= 4
!= diferente. Ex.: 2 != 4
• Funções
Entenda função como uma sequência de comandos preparados para
serem usados de forma simples e, assim, facilitar sua vida. Funções são usa-
das para tudo que você possa imaginar: cálculos mais complexos, estatística,
análise de dados, manipulação de dados, gráficos, relatórios etc. Assim que
você o instala, o R já vem configurado com várias funções prontas para uso.
Observe algumas das principais funções para estatísticas básicas no R:
sum()- Soma de valores
mean()- Média
median()- Mediana
var()- Variância
summary()- Resumo Estatístico
quantile()- Quantis
Ex.: sd(100).
• Pacotes
Um pacote é um conjunto de funções e dados que disponibilizados
para a comunidade de forma gratuita e de código aberto. Qualquer pessoa
pode criar um pacote e enviá-lo para o site do R. No entanto, uma série de
testes precisam ser realizados para que o pacote seja publicado oficialmente
no site. Após essa instalação, feita uma vez, sempre é possível utilizar esses
pacotes extras.
• Estrutura de um pacote
R/: um diretório contendo as funções em arquivos *.R (ex.: foo.R).
man/: um diretório contendo a documentação (páginas de ajuda) de
cada função do diretório acima. Os arquivos de documentação do R termi-
nam com a extensão .Rd (ex.: foo.Rd).
DESCRIPTION: um arquivo texto contendo as informações sobre o seu
pacote: autor, licença, outros pacotes dependentes.
NAMESPACE: um arquivo texto que informa quais funções do seu pacote
serão exportadas, ou seja, aquelas que estarão disponíveis para o usuário, e
quais funções são importadas de outros pacotes dos quais o seu depende.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Como instalar e carregar um pacote?
Para instalar um pacote, execute o seguinte comando install.packages().
Ex.: install.packages(“dplyr”)
Para carregar umpacote após a instalação, execute o comando library()
ou require().
Ex.: library(dplyr)ou require(dplyr).
2 ESTATÍSTICA BÁSICA PARA CIÊNCIA DE DADOS
A Estatística pode ser definida como o conjunto de técnicas que per-
mite, de forma sistemática, organizar, descrever, analisar e interpretar dados
oriundos de estudos ou experimentos, realizados em qualquer área do co-
nhecimento (MAGALHÃES; LIMA, 2002).
A Teoria Estatística moderna se divide em dois grandes campos:
• Estatística Descritiva: consiste num conjunto de métodos que ensinam a
reduzir uma quantidade de dados bastante numerosa por um número pe-
queno de medidas, substitutas e representantes daquela massa de dados.
A Estatística Descritiva abrange métodos gráficos e numéricos, utilizados
para resumir dados de maneira que características importantes da amostra
possam ser expostas.
• Inferência Estatística: consiste em inferir (deduzir ou tirar conclusões a res-
peito das) propriedades de um universo a partir de uma amostra. O processo
de generalização, que é característico do método indutivo, está associado
a uma margem de incerteza. A medida da incerteza é tratada mediante téc-
nicas e métodos que se fundamentam na Teoria das Probabilidades.
2.1 TEORIA DAS PROBABILIDADES
A Teoria das Probabilidades é uma teoria matemática utilizada para se
estudar a incerteza oriunda de fenômenos de caráter aleatório (MAGALHÃES;
LIMA, 2002).
2.1.1 Fenômenos ou experimentos aleatórios
Um fenômeno ou experimento aleatório (E) pode ser definido como
aqueles em que o processo de experimentação está sujeito a incertezas, logo,
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
não é possível controlar todas as circunstâncias relevantes e, portanto, não
é possível prever com exatidão os resultados individuais.
Exemplos:
• Resultado no lançamento de um dado.
• Hábito de fumar de um estudante sorteado em sala de aula.
• Condições climáticas do próximo domingo.
• Taxa de inflação do próximo mês.
Características de um experimento aleatório:
• Poderá ser repetido um grande número de vezes sob as mesmas condições
iniciais.
• Não podemos afirmar que um resultado particular ocorrerá, porém, pode-
mos descrever o conjunto de todos os resultados possíveis do experimento
– as possibilidades de resultado.
• Quando o experimento é repetido um grande número de vezes, surgirá uma
regularidade nos resultados. Essa regularidade, chamada de regularidade
estatística, é que torna possível construir um modelo matemático preciso
com o qual se analisará o experimento.
2.1.2 Modelo Probabilístico
A Teoria da Probabilidade visa definir um modelo matemático que seja
adequado à descrição e interpretação dos experimentos aleatórios. Fazendo-se
algumas suposições adequadas, é possível escrever distribuições de probabili-
dades (modelos probabilísticos) que representem muito bem as distribuições
de frequências, que só são obtidas quando o fenômeno é observado.
Um modelo probabilístico é definido por:
• Um espaço amostral (Ω).
• Uma probabilidade, P( . ), para cada ponto amostral.
• Espaço amostral
Um espaço amostral é o conjunto de todos os resultados possíveis de
um experimento aleatório.
Exemplos:
a) Lançamento de um dado - Ω = {1, 2, 3, 4, 5, 6}.
b) Exame de sangue (tipo sanguíneo) - Ω = {A, B, AB, O}.
c) Hábito de fumar - Ω = {Fumante, Não fumante}.
d) Tempo de duração de uma lâmpada - Ω = {t, ∈ ℝ / t ≥ 0}.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Um espaço amostral é equiprovável quando todos os elementos têm a
mesma probabilidade de ocorrer, isto é, todos os seus elementos são igual-
mente prováveis.
• Eventos
Os eventos são subconjuntos do espaço amostral.
Notação: A, B, C,...
Ø (conjunto vazio) é o evento impossível
Ω é o evento certo
Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6}.
Alguns eventos:
A: sair face par - A = {2, 4, 6} ⊂ Ω.
B: sair face maior que 3 - B = {4, 5, 6} ⊂ Ω.
C: sair face 1 - C = {1} ⊂ Ω.
D: sair menor que 1 - D = {Ø}.
• Operações com eventos
Dados dois eventos A e B de um mesmo espaço amostral:
• A ∩ B é o evento em que A e B ocorrem simultaneamente.
• A ∪ B é o evento em que A ocorre ou B ocorre (ou ambos ocorrem).
• Ac é o evento em que A não ocorre.
Exemplo: Lançamento de um dado Ω = {1, 2, 3, 4, 5, 6}
1. Evento B: representa sair face par - B = {2, 4, 6}
2. Evento C: representa sair uma face ímpar - C = {1, 3, 5}
3. Evento B ∩ C: representa sair uma face par e ímpar - B ∩ C = Ø
4. Evento B ∪ C: representa sair uma face par ou ímpar - B ∪ C = Ω
5. O Evento Bc =C e o Evento Cc =B
2.1.3 Como atribuir probabilidade a um evento?
Calcular uma probabilidade é medir a incerteza ou associar um grau
de confiança aos resultados possíveis de um experimento. As probabilida-
des associam aos eventos um valor no intervalo [0,1]. Quanto maior o valor
associado ao evento, maior a certeza de sua possibilidade de ocorrência.
Seja Ω um espaço amostral. Uma função P definida para todos os sub-
conjuntos de Ω (chamados eventos) é chamada de probabilidade se:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
1. ; ;
2. 𝑃(Ω)=1;
3. Se A
1
, A
1
, ..., A
n
forem, dois a dois, eventos mutuamente exclusivos, isto é,
(𝐴𝑖 ≠ 𝐴𝑗)= ∅, para todo 𝑖 ≠𝑗, então
Existem várias maneiras de atribuir probabilidade a um evento do es-
paço amostral. Nessa apostila, estudaremos além das definições clássica e
frequentista alguns teoremas de probabilidade.
• Definição clássica de probabilidade
Seja A um evento associado ao espaço amostral finito Ω, no qual todos
os resultados são igualmente possíveis (ou equiprováveis). Definiremos a
probabilidade do evento A, como o quociente entre o número de ele-
mentos em A e o número de elementos em Ω:
Exemplo: lança-se um dado honesto, qual a probabilidade de ocorrer
a face 3? Sendo: A o evento associado a ocorrência da face 3 e Ω = {1, 2, 3,
4, 5, 6}, a probabilidade associada é:
• Definição frequentista de probabilidade
As limitações da definição clássica de probabilidade, que só se aplica a
espaços amostrais finitos e equiprováveis, levaram a considerar outra forma
de calcular probabilidade de um evento partindo da frequência relativa do
evento ao se repetir o experimento, n vezes, sob as mesmas condições. Em
linguagem matemática, quando n cresce, o limite da frequência relativa de
ocorrência de A é igual a P(A), isto é,
Exemplo: suponha que vamos realizar um experimento de lançar 20
vezes uma moeda e observar o número de caras. A cada lançamento vamos
considerar o número de caras que até então ocorreram (na) dividido pelo
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
número de lançamentos (n), ou seja, a frequência relativa de caras. Os re-
sultados referentes a esse experimento encontram-se a seguir:
FIGURA 4 – ILUSTRAÇÃO DA DEFINIÇÃO FREQUENTISTA
FONTE: Silva et al. (2016)
Vemos que à medida que aumenta o número de lançamentos, a frequ-
ência relativa se aproxima de 0,5. Em linguagem matemática, dizemos que
a frequência relativa “converge” para 0,5.
• Teoremas
Se ∅ é um evento impossível, então P (∅) = 0.
Se Ac for complementar de A, então P(Ac) = 1 - P(A).
Se A e B são dois eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵) = 𝑃(𝐴) + 𝑃(𝐵) - 𝑃
(𝐴∩𝐵).
Se A, B, e C são eventos quaisquer em Ω, então 𝑃 (𝐴∪𝐵∪𝐶) = 𝑃(𝐴) + 𝑃(𝐵) +
𝑃(𝐶) − 𝑃(𝐴∩𝐵) − 𝑃(𝐴∩𝐶) − 𝑃(𝐵∩𝐶) + 𝑃(𝐴∩𝐵∩𝐶).
2.1.4 PROBABILIDADE CONDICIONAL
Sejam A e B eventos de um experimento aleatório qualquer, com P(B) >
0. A probabilidade condicional de A dado B (denota-se por P(A|B) é definida
como:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Teorema do produto: como consequência da definição de probabili-
dade condicional, podemos calcular a probabilidade da ocorrência conjunta
de dois eventos A e B.
Exemplo: Seja e , calcular .
Solução:
2.1.5 Independência de eventos

Sejam são eventos independentes se
Exemplo: sejam A e B eventos tais que . Calcular
?
Solução:
2.1.8 Teorema de Bayes
Sejameventos que formam uma partição do espaço amos-
tral. Seja B um evento desse espaço. Então,
Exemplo: um casal tem dois filhos. Sabe-se que um deles é homem.
Qual é a probabilidade de que o outro seja homem também?
Solução: sabendo-se que são dois filhos, temos:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Sabendo-se que um dos filhos é homem, o evento 1º e 2º filho mulher
(AC . BC) não irá acontecer. Então:
2.1.9 Modelo de Bernoulli
Uma V.A. (X) de Bernoulli é aquela que assume apenas dois valores 1 se
ocorrer sucesso (S) e 0 se ocorrer fracasso (F), com probabilidade de sucesso
p e função de probabilidade é dada por:
Notação:
2.2 MODELO BINOMIAL

Uma variável aleatória X correspondente ao número de sucessos em n
ensaios de Bernoulli (n > 2) independentes e com a mesma probabilidade p
de sucesso, tem distribuição binomial com parâmetros n e p, se sua função
de probabilidade é dada por:
Notação:
2.2.1 Modelo Poisson
Uma variável aleatória X tem distribuição de Poisson com parâmetro λ
> 0, se a função de probabilidade é dada por:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Notação:
2.2.2 Modelo Normal
Uma variável aleatória com distribuição normal unidimensional tem
função de densidade expressa por:
Notação .
Teorema: se , então a variável transformada ,
então z tem distribuição N(0,1) tem distribuição normal e portanto,
As probabilidades para a distribuição normal (0,1) também chamada de
Normal Padrão ou Normal Padronizada estão tabeladas.
REFERÊNCIAS
ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-WEB-
SITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.br/~assuncao/
EstatCC/FECD.pdf. Acesso em: 7 jun. 2021.
BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed. Bir-
mingham – UK: Editora Packt, 2016.
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O’ Reilly,
Rio de Janeiro: Alta Books, 2019.
DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://livro.
curso-r.com/. Acesso em: 7 jun. 2021.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed O’Reilly,
2014.
GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística.
São Paulo: EDUSP, 2005.
MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova
Jersey: Wiley, 2015.
MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados Fundamen-
tos e Aplicações. São Paulo: Departamento de Estatística Universidade de
São Paulo, 2019.
OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R - In-
trodução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-intro.
pdf. Acesso em: 7 jun. 2021.
PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.unicamp.
br/~hildete/dados.pdf. Acesso em: 3 abr. 2021.
RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC,
Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso em: 7 jun.
2021.
SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia: Univer-
sidade Federal da Bahia, 2016.
TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas, 1985.
TORGO, L. Data Mining with R- Learning with Case Studies. Estados Unidos:
CRC Press, 2011.
USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing,
2014.
WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015.
WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed.
O’Reilly, 2017.