Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO A PROGRAMAÇÃO EMINTRODUÇÃO A PROGRAMAÇÃO EM BIG DATABIG DATA PROBABILIDADE E ESTATÍSTICAPROBABILIDADE E ESTATÍSTICA EM REM R Autor: Me. Ricardo Alexandre G. C. Martins Revisor : Fe l ipe Oviedo Fros i IN IC IAR introdução Introdução O folclore comum é que a probabilidade existe há milênios, mas somente por volta de 1654 chamou a atenção, quando o Chevalier de Méré teve uma pergunta sobre a divisão justa do pagamento de um jogo para os dois jogadores, se o jogo tivesse que terminar prematuramente. Estatísticas dizem respeito a dados: sua coleta, análise e interpretação. Nesta unidade serão abordadas aspectos da estatística descritiva e da inferencial. Na estatística descritiva tem-se um conjunto de dados e o descrevemos de várias maneiras. Geralmente, isso implica realizar cálculos sobre os dados, chamados medidas descritivas, como porcentagens, somas, médias e assim por diante. Já as estatísticas inferenciais permitem tirar uma conclusão sobre a população da qual os dados se originaram. Segundo SHARDA; DELEN; TURBAN (2019, pg 25): “A análise de dados descritiva diz respeito a conhecer o que está acontecendo na organização e entender tendências e causas subjacentes de tais ocorrências”. Estatísticas descritivas são usadas para descrever os recursos básicos dos dados em um estudo. Elas fornecem resumos simples sobre a amostra e as medidas. Juntamente com a análise grá�ca simples, eles formam a base de praticamente todas as análises quantitativas de dados. A estatística descritiva pode ser útil para dois propósitos: 1. Fornecer informações básicas sobre variáveis em um conjunto de dados; 2. Destacar os possíveis relacionamentos entre variáveis. As estatísticas descritivas mais comuns podem ser exibidas gra�camente e são medidas de: Métodos grá�cos Medidas de tendência central Medidas de dispersão Medidas de associação Estatística DescritivaEstatística Descritiva Métodos Grá�icos Existem vários métodos grá�cos que auxiliam a compreensão dos pesquisadores sobre variáveis individuais e as relações entre elas. Os métodos grá�cos fornecem uma representação visual dos dados. Algumas dessas representações grá�cas incluem: Histogramas Grá�cos de dispersão Grá�cos de pizza Boxplots Os grá�cos disponíveis não se resumem apenas aos quatro indicados. Qualquer grá�co que represente visualmente dados e auxiliam a compreensão deles entraria nessa categoria. Já vimos anteriormente como criar esses grá�cos em R, entretanto, grá�cos mais elaborados geralmente necessitam de pacotes especí�cos destinados para a sua criação. Medidas de tendência central As medidas de tendência central são a descrição mais básica e, muitas vezes, a mais informativa das características de uma população. Eles descrevem o membro “médio” da população de interesse. Existem três medidas de tendência central: Média - a soma dos valores de uma variável dividida pelo número total de valores Mediana - o valor médio de uma variável Moda - o valor que ocorre com mais frequência dentro da variável Exemplo: A renda anual de cinco pessoas selecionadas aleatoriamente no Brasil é de R$ 10.000, R$ 10.000, R$ 45.000, R$ 60.000 e R$ 1.000.000. Para calcular as medidas de tendência central do vetor vet <- c(10000, 10000, 45000, 60000, 1000000), utilizamos as seguintes funções: Quadro 4.1 - Funções de tendência central Fonte: Elaborado pelo autor Medidas de Dispersão Medidas de dispersão fornecem informações sobre a propagação dos valores de uma variável. Existem quatro medidas principais de dispersão: Intervalo - é a diferença entre o menor e o maior valor nos dados, sendo que o intervalo interquartil é a diferença entre os valores no percentil 75 e no percentil 25 dos dados Variância - é a medida de dispersão mais comumente usada. É calculada considerando a média das diferenças quadráticas entre cada valor e a média Desvio padrão - outra estatística comumente usada, é a raiz quadrada da variação Inclinação - medida que indica se alguns valores de uma variável são extremamente diferentes da maioria dos valores. Utilizando a mesma variável vet do exemplo anterior, temos: Medida Função Exemplo Resultado Média mean() mean(vet) 225000 Mediana median() median(vet) 45000 Moda Não existe função nativa. É necessário criar uma getmode <- function(v) { uniqv <- unique(v) uniqv[which.max(tabulate(match(v, uniqv)))] } getmode(vet) 10000 Quadro 4.2 - Funções de tendência central Fonte: Elaborado pelo autor Segundo o quadro, a inclinação é positiva. Assim, existe uma tendência de crescimento dos valores. Medidas de Associação Medidas de associação indicam se duas variáveis estão relacionadas. Duas medidas são comumente usadas: Qui-quadrado Correlação Qui-Quadrado Como medida de associação entre variáveis, os testes qui-quadrado são usados em dados nominais (ou seja, dados que são colocados em classes: por exemplo, sexo [masculino, feminino] e tipo de trabalho [não quali�cado, semi-quali�cado, Medida Função Exemplo Resultado Intervalo / Intervalo interquartil max()-min() IQR() max(vet) - min(vet) IQR(vet) 990000 50000 Variância var() var(vet) 1.88175e+11 Desvio padrão sd() sd(vet) 433791.4 Inclinação *É necessário carregar a biblioteca e1071 skewness() library(e1071) skewness(vet) 1.066496 quali�cado]) para determinar se eles estão associados. Serve para avaliar se existe uma relação entre os resultados obtidos e os resultados esperados. A função responsável por realizar o teste do qui-quadrado no R é a função chisq.test() Correlação Um coe�ciente de correlação é usado para medir a força do relacionamento entre variáveis numéricas (por exemplo, peso e altura), sendo o coe�ciente de correlação mais comum o r² de Pearson, que pode variar de -1 a +1. A função responsável por realizar o teste de correlação no R é a função cor.test(). praticar Vamos Praticar Utilizando o dataset mtcars disponível no R, é possível realizar algumas análises sobre veículos e suas características. Ao realizar a análise entre o rendimento dos veículos ( mtcars$mpg ) e o peso dos veículos ( mtcars$wt ), tem-se uma correlação medida através do coe�ciente de Pearson com valor de -0.8676594. Assinale a alternativa correta: a) Signi�ca que para cada 1 unidade em mtcars$mpg deve-se subtrair 0.8676594 de mtcars$wt. b) Signi�ca que quanto maior o peso do veículo, maior será seu rendimento. c) Indica que se alguém quiser comprar um carro econômico, deve procurar modelos de 4 cilindros. d) Indica que existe uma forte relação indicando que quanto mais leve o carro, melhor será seu consumo e) Indica que carros mais pesados tem um ligeiro consumo superior à média dos outros veículos As estatísticas inferenciais usam uma amostra aleatória de dados coletados de uma população para descrever e fazer inferências sobre a população, quando o exame de cada membro dessa população não é conveniente ou possível. Assim, ao de�nir uma amostra de uma população, as inferências baseiam-se na ideia de que as características da amostra respeitem as características da população para que essas inferências sobre a amostra possam representar a população. Segundo (ZIBETTI, André, 2019), “O teste de hipóteses fornecem ferramentas que nos permitem rejeitar ou não rejeitar uma hipótese estatística através da evidência fornecida pela amostra.” O teste de hipótese contam com uma hipótese nula (chamada de H0), que sempre descreve o caso em que, por exemplo, dois grupos não são diferentes ou não há correlação entre duas variáveis, etc. A hipótese alternativa (chamada de H1) é contrária à hipótese nula e, portanto, descreve os casos em que há uma diferença entre grupos ou uma correlação entre duas variáveis, etc. Estatística InferencialEstatística Inferencial Para avaliar se devemos aceitar ou rejeitar a hipótese nula, utilizamos uma estatística chamada p-valor. Dado o pressuposto de que a hipótese nula é verdadeira, o p-valor é de�nido como a probabilidade de obter um resultadoigual ou mais extremo do que o que foi realmente observado nos dados. Para decidir se devemos ou não aceitar a hipótese nula usamos a seguinte regra: O p-valor para os dados fornecidos será determinado pela realização do teste estatístico Este p-valor é então comparado com um valor alfa pré-determinado (geralmente 0,05) Se o valor p para o teste for menor que alfa, rejeitamos a hipótese nula. Se o valor-p for maior ou igual a alfa, falhamos em rejeitar a hipótese nula. Utilizando como exemplo o exercício anterior, onde tínhamos uma correlação de -0.8676594 entre rendimento e peso do veículo, ao formularmos as hipóteses H0 e H1 teríamos: H0 - não existe correlação entre os conjuntos de dados H1 - existe correlação entre os conjuntos de dados Ao executar no R o comando cor.test(mtcars$mpg, mtcars$wt) tem-se como resposta: Pearson's product-moment correlation data: mtcars$mpg and mtcars$wt t = -9.559, df = 30, p-value = 1.294e-10 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.9338264 -0.7440872 sample estimates: cor -0.8676594 Ao constatar o p-valor (p-value, na resposta do R), tem-se que é de 1.294-10 , ou seja, menor que 0.05 e com isso rejeitando a hipótese nula. A aplicação do teste de hipóteses em R acaba sendo uma tarefa bastante simples e prática, possibilitando um enorme ganho de performance nas atividades cotidianas de um cientista de dados. praticar Vamos Praticar saiba mais Saiba mais O R fornece suporte para diversos testes inferenciais estatísticos, como t de Student, Anova, o teste de normalidade de Shapiro- Wilk, dentre outros. Para mais informações, consulte a documentação o�cial. Fonte: o autor. ACESSAR https://cran.r-project.org/doc/manuals/r-release/fullrefman.pdf Um aluno está realizando uma pesquisa sobre a in�uência do tamanho do motor de um veículo no arranque do veículo. Para isso ele utilizou o dataset mtcars disponível no R. Ele realizou um teste de correlação, usando o comando cor.test(mtcars$disp, mtcars$qsec) , para saber se poderia considerar a correlação como válida, obtendo como p-valor 0.01314. Assinale a alternativa correta que explique o signi�cado desse valor a) Signi�ca que ele deve considerar que existe um relacionamento entre tamanho do motor e arranque. b) Signi�ca que existe uma correlação direta entre o tamanho do motor e arranque. c) Signi�ca que ele deve considerar que existe um relacionamento entre tamanho do motor e arranque d) Signi�ca que existe uma correlação direta entre o tamanho do motor e arranque. e) Não é possível tirar nenhuma conclusão, pois faltam dados para embasar a análise Uma distribuição de probabilidade descreve como os valores de uma variável aleatória são distribuídos. Por exemplo, sabe-se que a coleção de todos os resultados possíveis de uma sequência de lançamento de moedas segue a distribuição binomial. Considerando que amostras su�cientemente grandes de uma população de dados são semelhantes à distribuição normal. Como as características dessas distribuições teóricas são bem compreendidas, elas podem ser usadas para fazer inferências estatísticas sobre toda a população de dados como um todo. Distribuição Binomial A distribuição binomial é uma distribuição de probabilidade discreta. Ele descreve o resultado de n ensaios independentes em um experimento. Presume-se que cada tentativa tenha apenas dois resultados, sucesso ou fracasso. Em R, para calcular a probabilidade de um evento, a probabilidade acumulada ou gerar uma amostra baseada em uma distribuição binomial, utilizam-se as funções: Distribuição deDistribuição de ProbabilidadesProbabilidades dbinom(x, size, prob) pbinom(x, size, prob) rbinom(n, size, prob) onde: x = número de ocorrências de um evento n = tamanho da amostra a ser gerada size = número de tentativas prob = probabilidade de sucesso em cada tentativa Distribuição de Poisson A distribuição de Poisson é a distribuição de probabilidade de ocorrências de eventos DISCRETOS independentes em um intervalo de tempo ou espaço contínuo, mas �nito. Em R, para calcular a probabilidade de um evento, a probabilidade acumulada ou gerar uma amostra baseada em uma distribuição de Poisson, utilizam-se as funções: dpois(x, lambda) ppois(x, lambda) rpois(n, lambda) onde: x = número de ocorrências de um evento n = número de amostras randômicas a serem geradas lambda = vetor de médias não negativas Distribuição Normal Em uma coleta aleatória de dados de fontes independentes, geralmente é observado que a distribuição dos dados é normal. O que signi�ca que, ao plotar um grá�co com o valor da variável no eixo horizontal e a contagem dos valores no eixo vertical, obtemos uma curva em forma de sino. O centro da curva representa a média do conjunto de dados. Em um grá�co, 50% dos valores estão à esquerda da média e os outros 50% estão à direita do grá�co. Em R, para calcular a probabilidade de um evento, a probabilidade acumulada ou gerar uma amostra baseada em uma distribuição normal, utilizam-se as funções: dnorm(x, mean, sd) pnorm(x, mean, sd) rnorm(n, mean, sd) onde: x = ponto do grá�co a ser avaliado n = número de amostras mean = média sd = desvio padrão saiba mais Saiba mais Além das distribuições binomial, Poisson e normal, o R oferece suporte a mais tipos de distribuição, como a distribuição Qui- Quadrado, t de Student, Exponencial dentre outras. Para maiores informações, consulte a documentação o�cial do R Fonte: o autor. ACESSAR https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Distributions.html O R fornece suporte para diversos tipos de distribuição, sendo uma excelente ferramenta para a geração de amostras e estudos. Aproveite! praticar Vamos Praticar Suponha que em uma determinada ponte atravessem, em média, doze carros por minuto. Utilizando as funções de cálculo de probabilidades do R, indique qual seria a alternativa que apresenta a função para calcular a probabilidade de dezessete ou mais carros atravessarem a ponte em um minuto especí�co. a) ppois(16, lambda=12) b) pbinom(17, 12, 0.5) c) 1-ppois(16, lambda=12) d) pnorm(17, 12, 1D. e) 1-pnorm(17, 12, 1) A análise de regressão é uma ferramenta estatística amplamente utilizada para estabelecer um modelo de relacionamento entre duas variáveis. Uma dessas variáveis é chamada variável preditora, cujo valor é coletado por meio de experimentos. A outra variável é chamada variável de resposta cujo valor é derivado da variável preditora. Na regressão linear, essas duas variáveis são relacionadas por meio de uma equação, onde o expoente (poder) de ambas as variáveis é 1. Matematicamente, uma relação linear representa uma linha reta quando plotada como um grá�co. Uma relação não linear em que o expoente de qualquer variável não é igual a 1 cria uma curva. A equação matemática geral para uma regressão linear é y = a + bx , sendo que: y é a variável alvo. x é a variável preditora. a e b são constantes chamadas de coe�cientes Etapas para de�inir uma regressão Análise de RegressãoAnálise de Regressão Um exemplo simples de regressão é prever o peso de uma pessoa quando sua altura é conhecida. Para fazer isso, precisamos ter a relação entre altura e peso de uma pessoa. As etapas para criar o relacionamento são : Reunir uma amostra dos valores observados de altura e peso correspondentes Criar um modelo de relacionamento usando a função lm() em R Encontrar os coe�cientes do modelo criado e criar a equação matemática usando estes Obter um resumo do modelo de relacionamento para saber o erro médio (resíduos) na previsão Para prever o peso de novas pessoas, use a função predict () em R. Função lm() Essa função cria o modelo de relacionamento entre o preditor e a variável alvo. A sintaxe básica da função lm() na regressão linear é - lm(fórmula, dados), onde: fórmula - é um símbolo que apresenta a relação entre x e y. dados - é o vetor no qual a fórmula será aplicada. Exemplo: x <- c (151, 174,138, 186, 128, 136, 179, 163, 152, 131) y <- c (63, 81, 56, 91, 47, 57, 76, 72, 62, 48) # Aplique a função lm(). relacao <- lm (y ~ x) print (relacao) Ao executar o código acima, será retornado o seguinte resultado: Call: lm(formula = y ~ x) Coe�cients: (Intercept) x -38.4551 0.6746 Para visualizar o resumo da função, basta executar o comando: print (summary(relacao)) O resultado exibido será: Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -6.3002 -1.6629 0.0412 1.8944 3.9775 Coe�cients: Estimate Std. Error t value Pr(>|t|) (Intercept) -38.45509 8.04901 -4.778 0.00139 ** x 0.67461 0.05191 12.997 1.16e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.253 on 8 degrees of freedom Multiple R-squared: 0.9548, Adjusted R-squared: 0.9491 F-statistic: 168.9 on 1 and 8 DF, p-value: 1.164e-06 Função predict() A função predict é a responsável por prever valores a partir de uma regressão linear. A sintaxe básica para predict() na regressão linear é: predict(objeto, novos_dados) , sendo: Objeto - fórmula criada pela função lm() Novos_dados - vetor contendo os novos valores para a variável preditora Exemplo: # Encontrar o peso de uma pessoa com altura 170. a <- data.frame (x = 170) resultado <- predict(relacao, a) print(resultado) Ao executar o código acima, será retornado o seguinte resultado: 1 76.22869 Visualização grá�ica Para visualizar gra�camente a regressão, basta criar um grá�co de dispersão com os pontos e uma reta, indicando a fórmula de regressão. Exemplo: # Traçar o grá�co. plot (y, x, col = "blue", main = "Regressão de Altura e Peso", abline (lm (x ~ y)), cex = 1.3, pch = 16, xlab = "Peso em kg", ylab = "Altura em cm") Figura 4.1 - Regressão de altura e peso Fonte: Elaborada pelo autor Dessa forma, ao combinar a informação da distribuição dos pontos com a reta da regressão linear, pode-se visualmente veri�car o quanto o modelo está ajustado à distribuição, ou seja, o quanto os pontos estão distantes da reta. Lembrando que, quanto mais próximo da reta os pontos estiverem, melhor será o modelo para prever resultados. A visualização da linha de regressão juntamente com um grá�co de dispersão fornece uma possibilidade rica de leitura dos dados, permitindo que seja possível identi�car como os dados se comportam e se eles estão próximos dos valores esperados quando comparados à reta de regressão. praticar V P ti reflita Re�ita A regressão é uma ferramenta estatística que funciona como um oráculo. Através da observação de um conjunto de informações, tenta entender e mensurar o quanto duas variáveis estão relacionadas. Nas indústrias, a regressão é bastante utilizadas em processos de melhoria contínua, como por exemplo, no Lean Six Sigma , em visualização de dados para Data Analytics , na previsão de faturamento de empresas e no ajuste de processos. Com base no que você aprendeu, como acha que a regressão pode ajudar as indústrias, seja na prevenção de perdas ou na otimização de processos ? Fonte: Elaborado pelo autor praticar Vamos Praticar O modelo de regressão linear leva em consideração os pontos em 2 dimensões para que seja possível prever, dado um valor x, o valor de y. Sabendo disso, qual ponto em negrito, se removido, terá o maior efeito na linha de regressão ajustada, como mostrado na �gura (tracejado)? Assinale a alternativa que apresenta a resposta correta: a) A. b) B. c) C. d) D. e) Falta informação para tomar uma decisão Figura 4.2 - Pontos a serem analisados Fonte: Elaborada pelo autor indicações Material Complementar WEB Nome : Why you should love statistics Ano : 2016 Comentário : Nesta envolvente palestra do TED, Alan Smith, especialista em visualização de dados, mostra como as estatísticas podem nos dar uma veri�cação da realidade. E ele também demonstra maneiras visualmente interessantes de trabalhar com estatísticas. Para conhecer mais sobre o �lme, acesse em ACESSAR https://www.ted.com/talks/alan_smith_why_you_should_love_statistics LIVRO Nome do livro : Estatística Prática para Cientistas de Dados: 50 Conceitos Essenciais Editora : O’Reilly Autor : Bruce, Andrew e Bruce, Peter ISBN : 978-8550806037 Comentário : Este guia prático explica como aplicar vários métodos estatísticos à ciência de dados, mostra como evitar o uso indevido e fornece conselhos sobre o que é importante e o que não é. conclusão Conclusão A utilização do R oferece ao desenvolvedor um conjunto de funcionalidades e ferramentas bastante poderosas para a elaboração de análises. Contando com o suporte da probabilidade e estatística, o R é a ferramenta ideal para o dia-a-dia dos cientistas de dados, pois fornece de maneira simples e e�caz rotinas para a realização das suas rotinas cotidianas. Como toda linguagem de programação, para dominar o R é necessário esforço e dedicação. Não basta apenas realizar os exercícios aqui propostos: há de sempre procurar fazer mais, pesquisar mais e principalmente: ser criativo na resolução de problemas. Testes, grá�cos, análises, ferramentas estatísticas… Tudo isso está à sua disposição! Aproveite ! referências Referências Bibliográ�cas SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e Análise de Dados para Gestão do Negócio . Porto Alegre: Bookman, 2019 ZIBETTI, A. Teste de Hipóteses. Veículo de divulgação . Disponível em: https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.html Acesso em: 30 dez 2019. https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.html
Compartilhar