APOSTILA - INTRODUÇÃO A PROGRAMAÇÃO EM BIG DATA - UNIDADE 4 (ANHEMBI MORUMBI UAM) CURTA SE LHE AJUDOU! ;D

•

UAM

7

0

7

0

Franklin Ferreira Moreira

24/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Introdução à Programação

3.925 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

INTRODUÇÃO A PROGRAMAÇÃO EMINTRODUÇÃO A PROGRAMAÇÃO EM
BIG DATABIG DATA
PROBABILIDADE E ESTATÍSTICAPROBABILIDADE E ESTATÍSTICA
EM REM R
Autor: Me. Ricardo Alexandre G. C. Martins
Revisor : Fe l ipe Oviedo Fros i
IN IC IAR
introdução
Introdução
O folclore comum é que a probabilidade existe há milênios, mas somente por
volta de 1654 chamou a atenção, quando o Chevalier de Méré teve uma
pergunta sobre a divisão justa do pagamento de um jogo para os dois
jogadores, se o jogo tivesse que terminar prematuramente.
Estatísticas dizem respeito a dados: sua coleta, análise e interpretação. Nesta
unidade serão abordadas aspectos da estatística descritiva e da inferencial.
Na estatística descritiva tem-se um conjunto de dados e o descrevemos de
várias maneiras. Geralmente, isso implica realizar cálculos sobre os dados,
chamados medidas descritivas, como porcentagens, somas, médias e assim por
diante.
Já as estatísticas inferenciais permitem tirar uma conclusão sobre a população
da qual os dados se originaram.
Segundo SHARDA; DELEN; TURBAN (2019, pg 25): “A análise de dados descritiva
diz respeito a conhecer o que está acontecendo na organização e entender
tendências e causas subjacentes de tais ocorrências”. Estatísticas descritivas são
usadas para descrever os recursos básicos dos dados em um estudo. Elas
fornecem resumos simples sobre a amostra e as medidas. Juntamente com a
análise grá�ca simples, eles formam a base de praticamente todas as análises
quantitativas de dados.
A estatística descritiva pode ser útil para dois propósitos:
1. Fornecer informações básicas sobre variáveis em um conjunto de dados;
2. Destacar os possíveis relacionamentos entre variáveis.
As estatísticas descritivas mais comuns podem ser exibidas gra�camente e são
medidas de:
Métodos grá�cos
Medidas de tendência central
Medidas de dispersão
Medidas de associação
Estatística DescritivaEstatística Descritiva
Métodos Grá�icos
Existem vários métodos grá�cos que auxiliam a compreensão dos
pesquisadores sobre variáveis individuais e as relações entre elas. Os métodos
grá�cos fornecem uma representação visual dos dados. Algumas dessas
representações grá�cas incluem:
Histogramas
Grá�cos de dispersão
Grá�cos de pizza
Boxplots
Os grá�cos disponíveis não se resumem apenas aos quatro indicados. Qualquer
grá�co que represente visualmente dados e auxiliam a compreensão deles
entraria nessa categoria. Já vimos anteriormente como criar esses grá�cos em R,
entretanto, grá�cos mais elaborados geralmente necessitam de pacotes
especí�cos destinados para a sua criação.
Medidas de tendência central
As medidas de tendência central são a descrição mais básica e, muitas vezes, a
mais informativa das características de uma população. Eles descrevem o
membro “médio” da população de interesse. Existem três medidas de tendência
central:
Média - a soma dos valores de uma variável dividida pelo número total
de valores
Mediana - o valor médio de uma variável
Moda - o valor que ocorre com mais frequência dentro da variável
Exemplo:
A renda anual de cinco pessoas selecionadas aleatoriamente no Brasil é de R$
10.000, R$ 10.000, R$ 45.000, R$ 60.000 e R$ 1.000.000.
Para calcular as medidas de tendência central do vetor vet <- c(10000, 10000,
45000, 60000, 1000000), utilizamos as seguintes funções:
Quadro 4.1 - Funções de tendência central
Fonte: Elaborado pelo autor
Medidas de Dispersão
Medidas de dispersão fornecem informações sobre a propagação dos valores
de uma variável. Existem quatro medidas principais de dispersão:
Intervalo - é a diferença entre o menor e o maior valor nos dados,
sendo que o intervalo interquartil é a diferença entre os valores no
percentil 75 e no percentil 25 dos dados
Variância - é a medida de dispersão mais comumente usada. É
calculada considerando a média das diferenças quadráticas entre cada
valor e a média
Desvio padrão - outra estatística comumente usada, é a raiz quadrada
da variação
Inclinação - medida que indica se alguns valores de uma variável são
extremamente diferentes da maioria dos valores.
Utilizando a mesma variável vet do exemplo anterior, temos:
Medida Função Exemplo Resultado
Média mean() mean(vet) 225000
Mediana median() median(vet) 45000
Moda
Não existe função nativa. É
necessário criar uma getmode <-
function(v) { uniqv <- unique(v)
uniqv[which.max(tabulate(match(v,
uniqv)))] }
getmode(vet) 10000
Quadro 4.2 - Funções de tendência central
Fonte: Elaborado pelo autor
Segundo o quadro, a inclinação é positiva. Assim, existe uma tendência de
crescimento dos valores.
Medidas de Associação
Medidas de associação indicam se duas variáveis estão relacionadas. Duas
medidas são comumente usadas:
Qui-quadrado
Correlação
Qui-Quadrado
Como medida de associação entre variáveis, os testes qui-quadrado são usados
em dados nominais (ou seja, dados que são colocados em classes: por exemplo,
sexo [masculino, feminino] e tipo de trabalho [não quali�cado, semi-quali�cado,
Medida Função Exemplo Resultado
Intervalo /
Intervalo
interquartil
max()-min() IQR()
max(vet) -
min(vet)
IQR(vet)
990000
50000
Variância var() var(vet) 1.88175e+11
Desvio
padrão
sd() sd(vet) 433791.4
Inclinação
*É necessário carregar
a biblioteca e1071
skewness()
library(e1071)
skewness(vet)
1.066496
quali�cado]) para determinar se eles estão associados. Serve para avaliar se
existe uma relação entre os resultados obtidos e os resultados esperados.
A função responsável por realizar o teste do qui-quadrado no R é a função
chisq.test()
Correlação
Um coe�ciente de correlação é usado para medir a força do relacionamento
entre variáveis numéricas (por exemplo, peso e altura), sendo o coe�ciente de
correlação mais comum o r² de Pearson, que pode variar de -1 a +1.
A função responsável por realizar o teste de correlação no R é a função
cor.test().
praticar
Vamos Praticar
Utilizando o dataset mtcars disponível no R, é possível realizar algumas análises sobre
veículos e suas características. Ao realizar a análise entre o rendimento dos veículos (
mtcars$mpg ) e o peso dos veículos ( mtcars$wt ), tem-se uma correlação medida
através do coe�ciente de Pearson com valor de -0.8676594. Assinale a alternativa
correta:
a) Signi�ca que para cada 1 unidade em mtcars$mpg deve-se subtrair
0.8676594 de mtcars$wt.
b) Signi�ca que quanto maior o peso do veículo, maior será seu rendimento.
c) Indica que se alguém quiser comprar um carro econômico, deve procurar
modelos de 4 cilindros.
d) Indica que existe uma forte relação indicando que quanto mais leve o carro,
melhor será seu consumo
e) Indica que carros mais pesados tem um ligeiro consumo superior à média
dos outros veículos
As estatísticas inferenciais usam uma amostra aleatória de dados coletados de
uma população para descrever e fazer inferências sobre a população, quando o
exame de cada membro dessa população não é conveniente ou possível.
Assim, ao de�nir uma amostra de uma população, as inferências baseiam-se na
ideia de que as características da amostra respeitem as características da
população para que essas inferências sobre a amostra possam representar a
população.
Segundo (ZIBETTI, André, 2019), “O teste de hipóteses fornecem ferramentas
que nos permitem rejeitar ou não rejeitar uma hipótese estatística através da
evidência fornecida pela amostra.”
O teste de hipótese contam com uma hipótese nula (chamada de H0), que
sempre descreve o caso em que, por exemplo, dois grupos não são diferentes
ou não há correlação entre duas variáveis, etc. A hipótese alternativa (chamada
de H1) é contrária à hipótese nula e, portanto, descreve os casos em que há
uma diferença entre grupos ou uma correlação entre duas variáveis, etc.
Estatística InferencialEstatística Inferencial
Para avaliar se devemos aceitar ou rejeitar a hipótese nula, utilizamos uma
estatística chamada p-valor.
Dado o pressuposto de que a hipótese nula é verdadeira, o p-valor é de�nido
como a probabilidade de obter um resultadoigual ou mais extremo do que o
que foi realmente observado nos dados.
Para decidir se devemos ou não aceitar a hipótese nula usamos a seguinte
regra:
O p-valor para os dados fornecidos será determinado pela realização
do teste estatístico
Este p-valor é então comparado com um valor alfa pré-determinado
(geralmente 0,05)
Se o valor p para o teste for menor que alfa, rejeitamos a hipótese nula.
Se o valor-p for maior ou igual a alfa, falhamos em rejeitar a hipótese
nula.
Utilizando como exemplo o exercício anterior, onde tínhamos uma correlação
de -0.8676594 entre rendimento e peso do veículo, ao formularmos as
hipóteses H0 e H1 teríamos:
H0 - não existe correlação entre os conjuntos de dados
H1 - existe correlação entre os conjuntos de dados
Ao executar no R o comando cor.test(mtcars$mpg, mtcars$wt) tem-se como
resposta:
Pearson's product-moment correlation
data: mtcars$mpg and mtcars$wt
t = -9.559, df = 30, p-value = 1.294e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9338264 -0.7440872
sample estimates:
cor
-0.8676594
Ao constatar o p-valor (p-value, na resposta do R), tem-se que é de 1.294-10 , ou
seja, menor que 0.05 e com isso rejeitando a hipótese nula.
A aplicação do teste de hipóteses em R acaba sendo uma tarefa bastante
simples e prática, possibilitando um enorme ganho de performance nas
atividades cotidianas de um cientista de dados.
praticar
Vamos Praticar
saiba mais
Saiba mais
O R fornece suporte para diversos testes
inferenciais estatísticos, como t de Student,
Anova, o teste de normalidade de Shapiro-
Wilk, dentre outros.
Para mais informações, consulte a
documentação o�cial.
Fonte: o autor.
ACESSAR
https://cran.r-project.org/doc/manuals/r-release/fullrefman.pdf
Um aluno está realizando uma pesquisa sobre a in�uência do tamanho do motor de
um veículo no arranque do veículo. Para isso ele utilizou o dataset mtcars disponível
no R. Ele realizou um teste de correlação, usando o comando cor.test(mtcars$disp,
mtcars$qsec) , para saber se poderia considerar a correlação como válida, obtendo
como p-valor 0.01314. Assinale a alternativa correta que explique o signi�cado desse
valor
a) Signi�ca que ele deve considerar que existe um relacionamento entre
tamanho do motor e arranque.
b) Signi�ca que existe uma correlação direta entre o tamanho do motor e
arranque.
c) Signi�ca que ele deve considerar que existe um relacionamento entre
tamanho do motor e arranque
d) Signi�ca que existe uma correlação direta entre o tamanho do motor e
arranque.
e) Não é possível tirar nenhuma conclusão, pois faltam dados para embasar a
análise
Uma distribuição de probabilidade descreve como os valores de uma variável
aleatória são distribuídos. Por exemplo, sabe-se que a coleção de todos os
resultados possíveis de uma sequência de lançamento de moedas segue a
distribuição binomial. Considerando que amostras su�cientemente grandes de
uma população de dados são semelhantes à distribuição normal. Como as
características dessas distribuições teóricas são bem compreendidas, elas
podem ser usadas para fazer inferências estatísticas sobre toda a população de
dados como um todo.
Distribuição Binomial
A distribuição binomial é uma distribuição de probabilidade discreta. Ele
descreve o resultado de n ensaios independentes em um experimento.
Presume-se que cada tentativa tenha apenas dois resultados, sucesso ou
fracasso.
Em R, para calcular a probabilidade de um evento, a probabilidade acumulada
ou gerar uma amostra baseada em uma distribuição binomial, utilizam-se as
funções:
Distribuição deDistribuição de
ProbabilidadesProbabilidades
dbinom(x, size, prob)
pbinom(x, size, prob)
rbinom(n, size, prob) onde:
x = número de ocorrências de um evento
n = tamanho da amostra a ser gerada
size = número de tentativas
prob = probabilidade de sucesso em cada tentativa
Distribuição de Poisson
A distribuição de Poisson é a distribuição de probabilidade de ocorrências de
eventos DISCRETOS independentes em um intervalo de tempo ou espaço
contínuo, mas �nito. Em R, para calcular a probabilidade de um evento, a
probabilidade acumulada ou gerar uma amostra baseada em uma distribuição
de Poisson, utilizam-se as funções:
dpois(x, lambda)
ppois(x, lambda)
rpois(n, lambda) onde:
x = número de ocorrências de um evento
n = número de amostras randômicas a serem geradas
lambda = vetor de médias não negativas
Distribuição Normal
Em uma coleta aleatória de dados de fontes independentes, geralmente é
observado que a distribuição dos dados é normal. O que signi�ca que, ao plotar
um grá�co com o valor da variável no eixo horizontal e a contagem dos valores
no eixo vertical, obtemos uma curva em forma de sino. O centro da curva
representa a média do conjunto de dados. Em um grá�co, 50% dos valores
estão à esquerda da média e os outros 50% estão à direita do grá�co.
Em R, para calcular a probabilidade de um evento, a probabilidade acumulada
ou gerar uma amostra baseada em uma distribuição normal, utilizam-se as
funções:
dnorm(x, mean, sd)
pnorm(x, mean, sd)
rnorm(n, mean, sd) onde:
x = ponto do grá�co a ser avaliado
n = número de amostras
mean = média
sd = desvio padrão
saiba mais
Saiba mais
Além das distribuições binomial, Poisson e
normal, o R oferece suporte a mais tipos de
distribuição, como a distribuição Qui-
Quadrado, t de Student, Exponencial dentre
outras.
Para maiores informações, consulte a
documentação o�cial do R
Fonte: o autor.
ACESSAR
https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Distributions.html
O R fornece suporte para diversos tipos de distribuição, sendo uma excelente
ferramenta para a geração de amostras e estudos. Aproveite!
praticar
Vamos Praticar
Suponha que em uma determinada ponte atravessem, em média, doze carros por
minuto. Utilizando as funções de cálculo de probabilidades do R, indique qual seria a
alternativa que apresenta a função para calcular a probabilidade de dezessete ou mais
carros atravessarem a ponte em um minuto especí�co.
a) ppois(16, lambda=12)
b) pbinom(17, 12, 0.5)
c) 1-ppois(16, lambda=12)
d) pnorm(17, 12, 1D.
e) 1-pnorm(17, 12, 1)
A análise de regressão é uma ferramenta estatística amplamente utilizada para
estabelecer um modelo de relacionamento entre duas variáveis. Uma dessas
variáveis é chamada variável preditora, cujo valor é coletado por meio de
experimentos. A outra variável é chamada variável de resposta cujo valor é
derivado da variável preditora.
Na regressão linear, essas duas variáveis são relacionadas por meio de uma
equação, onde o expoente (poder) de ambas as variáveis é 1. Matematicamente,
uma relação linear representa uma linha reta quando plotada como um grá�co.
Uma relação não linear em que o expoente de qualquer variável não é igual a 1
cria uma curva.
A equação matemática geral para uma regressão linear é y = a + bx , sendo que:
y é a variável alvo.
x é a variável preditora.
a e b são constantes chamadas de coe�cientes
Etapas para de�inir uma regressão
Análise de RegressãoAnálise de Regressão
Um exemplo simples de regressão é prever o peso de uma pessoa quando sua
altura é conhecida. Para fazer isso, precisamos ter a relação entre altura e peso
de uma pessoa.
As etapas para criar o relacionamento são :
Reunir uma amostra dos valores observados de altura e peso
correspondentes
Criar um modelo de relacionamento usando a função lm() em R
Encontrar os coe�cientes do modelo criado e criar a equação
matemática usando estes
Obter um resumo do modelo de relacionamento para saber o erro
médio (resíduos) na previsão
Para prever o peso de novas pessoas, use a função predict () em R.
Função lm()
Essa função cria o modelo de relacionamento entre o preditor e a variável alvo.
A sintaxe básica da função lm() na regressão linear é -
lm(fórmula, dados), onde:
fórmula - é um símbolo que apresenta a relação entre x e y.
dados - é o vetor no qual a fórmula será aplicada.
Exemplo:
x <- c (151, 174,138, 186, 128, 136, 179, 163, 152, 131)
y <- c (63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
# Aplique a função lm().
relacao <- lm (y ~ x)
print (relacao)
Ao executar o código acima, será retornado o seguinte resultado:
Call:
lm(formula = y ~ x)
Coe�cients:
(Intercept) x
-38.4551 0.6746
Para visualizar o resumo da função, basta executar o comando:
print (summary(relacao))
O resultado exibido será:
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-6.3002 -1.6629 0.0412 1.8944 3.9775
Coe�cients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -38.45509 8.04901 -4.778 0.00139 **
x 0.67461 0.05191 12.997 1.16e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.253 on 8 degrees of freedom
Multiple R-squared: 0.9548, Adjusted R-squared: 0.9491
F-statistic: 168.9 on 1 and 8 DF, p-value: 1.164e-06
Função predict()
A função predict é a responsável por prever valores a partir de uma regressão
linear.
A sintaxe básica para predict() na regressão linear é:
predict(objeto, novos_dados) , sendo:
Objeto - fórmula criada pela função lm()
Novos_dados - vetor contendo os novos valores para a variável preditora
Exemplo:
# Encontrar o peso de uma pessoa com altura 170.
a <- data.frame (x = 170)
resultado <- predict(relacao, a)
print(resultado)
Ao executar o código acima, será retornado o seguinte resultado:
1
76.22869
Visualização grá�ica
Para visualizar gra�camente a regressão, basta criar um grá�co de dispersão
com os pontos e uma reta, indicando a fórmula de regressão.
Exemplo:
# Traçar o grá�co.
plot (y, x, col = "blue", main = "Regressão de Altura e Peso",
abline (lm (x ~ y)), cex = 1.3, pch = 16, xlab = "Peso em kg", ylab = "Altura em cm")
Figura 4.1 - Regressão de altura e peso
Fonte: Elaborada pelo autor
Dessa forma, ao combinar a informação da distribuição dos pontos com a reta
da regressão linear, pode-se visualmente veri�car o quanto o modelo está
ajustado à distribuição, ou seja, o quanto os pontos estão distantes da reta.
Lembrando que, quanto mais próximo da reta os pontos estiverem, melhor será
o modelo para prever resultados.
A visualização da linha de regressão juntamente com um grá�co de dispersão
fornece uma possibilidade rica de leitura dos dados, permitindo que seja
possível identi�car como os dados se comportam e se eles estão próximos dos
valores esperados quando comparados à reta de regressão.
praticar
V P ti
reflita
Re�ita
A regressão é uma ferramenta estatística que funciona como
um oráculo. Através da observação de um conjunto de
informações, tenta entender e mensurar o quanto duas
variáveis estão relacionadas.
Nas indústrias, a regressão é bastante utilizadas em processos
de melhoria contínua, como por exemplo, no Lean Six Sigma ,
em visualização de dados para Data Analytics , na previsão de
faturamento de empresas e no ajuste de processos.
Com base no que você aprendeu, como acha que a regressão
pode ajudar as indústrias, seja na prevenção de perdas ou na
otimização de processos ?
Fonte: Elaborado pelo autor
praticar
Vamos Praticar
O modelo de regressão linear leva em consideração os pontos em 2 dimensões para
que seja possível prever, dado um valor x, o valor de y. Sabendo disso, qual ponto em
negrito, se removido, terá o maior efeito na linha de regressão ajustada, como
mostrado na �gura (tracejado)?
Assinale a alternativa que apresenta a resposta correta:
a) A.
b) B.
c) C.
d) D.
e) Falta informação para tomar uma decisão
Figura 4.2 - Pontos a serem analisados Fonte: Elaborada pelo autor
indicações
Material
Complementar
WEB
Nome : Why you should love statistics
Ano : 2016
Comentário : Nesta envolvente palestra do TED, Alan
Smith, especialista em visualização de dados, mostra
como as estatísticas podem nos dar uma veri�cação da
realidade. E ele também demonstra maneiras
visualmente interessantes de trabalhar com estatísticas.
Para conhecer mais sobre o �lme, acesse em
ACESSAR
https://www.ted.com/talks/alan_smith_why_you_should_love_statistics
LIVRO
Nome do livro : Estatística Prática para Cientistas de
Dados: 50 Conceitos Essenciais
Editora : O’Reilly
Autor : Bruce, Andrew e Bruce, Peter
ISBN : 978-8550806037
Comentário : Este guia prático explica como aplicar
vários métodos estatísticos à ciência de dados, mostra
como evitar o uso indevido e fornece conselhos sobre o
que é importante e o que não é.
conclusão
Conclusão
A utilização do R oferece ao desenvolvedor um conjunto de funcionalidades e
ferramentas bastante poderosas para a elaboração de análises.
Contando com o suporte da probabilidade e estatística, o R é a ferramenta ideal
para o dia-a-dia dos cientistas de dados, pois fornece de maneira simples e
e�caz rotinas para a realização das suas rotinas cotidianas.
Como toda linguagem de programação, para dominar o R é necessário esforço e
dedicação. Não basta apenas realizar os exercícios aqui propostos: há de
sempre procurar fazer mais, pesquisar mais e principalmente: ser criativo na
resolução de problemas.
Testes, grá�cos, análises, ferramentas estatísticas… Tudo isso está à sua
disposição! Aproveite !
referências
Referências
Bibliográ�cas
SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e Análise de Dados
para Gestão do Negócio . Porto Alegre: Bookman, 2019
ZIBETTI, A. Teste de Hipóteses. Veículo de divulgação . Disponível em:
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.html
Acesso em: 30 dez 2019.
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.html