Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada a Inteligência de Negócios Estatística é a área responsável por estudar e definir as técnicas para coletar, organizar, apresentar e analisar dados. A estatística pode ser classificada como: Descritiva - refere-se as técnicas de sintetização, organização e descrição de dados. Inferencial - compreende as técnicas por meio das quais são tomadas decisões sobre a população baseadas na observações de amostras. A probabilidade é a ferramenta matemática utilizada no estudo de eventos aleatórios. Para o estudo desse curso é recomendado o uso da ferramenta R, a seguir um breve passo a passo para a instalação do programa. 1. Acesse r-project.org 2. Selecione o CRAN de sua preferência, nesse caso selecionamos o destacado a seguir 3. Selecione o link correspondente ao seu sistema operacional 4. Selecione Install R for the first time 5. Clique em Download R 4.0.0 for Windows ( A versão pode estar atualizada) 6. Efetue a Instalação 7. Selecione o idioma 8. Leia os termos de uso e clique em Próximo 9. Selecione o local de instalação (Recomendável deixar o definido por padrão) 10. Clique em Próximo 11. Clique em Próximo 12. Crie o Atalho 13. Crie um atalho na área de trabalho Na estatística é necessário conhecer as definições de População e Amostra: População - Conjunto “Universo” dos dados sobre os quais se deseja estudar Amostra - Subconjunto da população que contenha todas as suas propriedades As variáveis são uma abstração que se refere a um determinado aspecto do fenômeno que está sendo estudado. A notação adotada são letras maiúsculas por exemplo X e Y. Dados são os valores reais da variável. Eles podem ser números ou podem ser palavras. Os dados podem vir de uma população ou de uma amostra. Letras minúsculas como x ou y geralmente são usadas para representar valores de dados. A maioria dos dados pode ser colocada nas seguintes categorias: Dados qualitativos são o resultado de categorizar ou descrever atributos de uma população. Dados qualitativos também são chamados de dados categóricos. A cor do cabelo, o tipo sanguíneo, o grupo étnico, o carro em que uma pessoa dirige e a rua em que a pessoa vive são exemplos de dados qualitativos (categóricos). Dados qualitativos (categóricos) são geralmente descritos por palavras ou letras. Por exemplo, a cor do cabelo pode ser preta, marrom escura, marrom clara, loira, cinza ou vermelha. O tipo sanguíneo pode ser AB +, O- ou B +. Os pesquisadores geralmente preferem usar dados quantitativos em vez de qualitativos. (categóricos), porque se prestam mais facilmente à análise matemática. Por exemplo, não faz sentido encontrar uma cor de cabelo ou tipo de sangue médio. Dados quantitativos são o resultado da contagem ou medição de atributos de uma população. Quantidade de dinheiro, taxa de pulso, peso, número de pessoas que vivem em sua cidade e número de estudantes que fazem estatísticas são exemplos de dados quantitativos. Os dados quantitativos podem ser discretos ou contínuos. Amostragem A coleta de informações sobre uma população inteira geralmente custa muito ou é praticamente impossível. Em vez disso, usamos uma amostra da população. Uma amostra deve ter as mesmas características que a população que está representando. A maioria dos estatísticos usa vários métodos de amostragem aleatória na tentativa de atingir esse objetivo. Esta seção descreverá alguns dos métodos mais comuns. Existem vários métodos diferentes de amostragem aleatória. Em cada forma de amostragem aleatória, cada membro de uma população inicialmente tem uma chance igual de ser selecionado para a amostra. Cada método tem prós e contras. O método para descrever é chamado de amostra aleatória simples. Qualquer grupo de n indivíduos é igualmente provável que seja escolhido como qualquer outro grupo de n indivíduos se a técnica simples de amostragem aleatória for usada. Em outras palavras, cada amostra do mesmo tamanho tem uma chance igual de ser selecionada. Além da amostragem aleatória simples, existem outras formas de amostragem que envolvem um processo aleatório para obter a amostra. Outros métodos bem conhecidos de amostragem aleatória são a amostra estratificada, a amostra de cluster e a amostra sistemática. Para escolher uma amostra estratificada, divida a população em grupos chamados estratos e, em seguida, pegue um número proporcional de cada estrato. Por exemplo, você pode estratificar (agrupar) a população de sua faculdade por departamento e, em seguida, escolher uma amostra aleatória simples proporcional de cada estrato (cada departamento) para obter uma amostra aleatória estratificada. Para escolher uma amostra aleatória simples de cada departamento, numere cada membro do primeiro departamento, numere cada membro do segundo departamento e faça o mesmo para os demais departamentos. Para escolher uma amostra de cluster, divida a população em clusters (grupos) e selecione aleatoriamente alguns dos clusters. Todos os membros desses clusters estão na amostra de cluster. Por exemplo, se você amostrar aleatoriamente quatro departamentos da população da faculdade, os quatro departamentos compõem a amostra de cluster. Para escolher uma amostra sistemática, selecione aleatoriamente um ponto de partida e pegue todos os enésimos dados de uma lista da população. Por exemplo, suponha que você precise fazer uma pesquisa por telefone. Sua lista telefônica contém 20.000 listagens de residências. Você deve escolher 400 nomes para a amostra. Numere a população de 1 a 20.000 e use uma amostra aleatória simples para escolher um número que represente o primeiro nome na amostra. Escolha cada quinquagésimo nome a seguir até ter um total de 400 nomes (talvez seja necessário voltar ao início da sua lista telefônica). A amostragem sistemática é frequentemente escolhida porque é um método simples. Um tipo de amostragem não aleatória é a amostragem por conveniência. A amostragem de conveniência envolve o uso de resultados que estão prontamente disponíveis. Por exemplo, uma loja de software de computador realiza um estudo de marketing entrevistando clientes em potencial que estão na loja navegando pelo software disponível. Os resultados da amostragem por conveniência podem ser muito bons em alguns casos e altamente tendenciosos (favorecem certos resultados) em outros. Os dados de amostragem devem ser feitos com muito cuidado. A coleta descuidada de dados pode ter resultados devastadores. Pesquisas enviadas para as famílias e depois devolvidas podem ser muito tendenciosas (podem favorecer um determinado grupo). É melhor para a pessoa que conduz a pesquisa selecionar os respondentes da amostra. A maneira como um conjunto de dados é medido é chamado de nível de medição. Os procedimentos estatísticos corretos dependem de um pesquisador estar familiarizado com os níveis de medida. Nem toda operação estatística pode ser usada com todos os conjuntos de dados. Os dados podem ser classificados em quatro níveis de medição. Eles são (do nível mais baixo ao mais alto): • Nível da escala nominal • Nível da escala ordinal • Nível de escala de intervalo Nível de escala de proporção Os dados medidos usando uma escala nominal são qualitativos (categóricos). Categorias, cores, nomes, rótulos e alimentos favoritos, juntamente com respostas sim ou não, são exemplos de dados de nível nominal. Os dados da escala nominal não são ordenados. Por exemplo, tentar classificar as pessoas de acordo com sua comida favorita não faz sentido. Colocar a pizza em primeiro lugar e o sushi em segundo não é significativo. As empresas de smartphones são outro exemplo de dados em escala nominal. Os dados são os nomes das empresas que fabricam smartphones, mas não há uma ordem acordada dessas marcas, mesmo que as pessoas possam ter preferências pessoais. Os dados da escala nominal não podem ser usados nos cálculos. Atividade Extra Para realização da atividade,leia o texto a seguir: O USO DA ESTATÍSTICA DESCRITIVA NA PESQUISA EM CUSTOS: no link https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605 Referência Bibliográfica ● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605 https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605 ● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. ● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. Estatística Descritiva Depois de coletar os dados, o que você fará com eles? Os dados podem ser descritos e apresentados em muitos formatos diferentes. Por exemplo, suponha que você esteja interessado em comprar uma casa em uma área específica. Você pode não ter ideia sobre os preços da habitação; portanto, peça ao seu agente imobiliário uma amostra do conjunto de dados. Observar todos os preços da amostra geralmente é esmagador. Uma maneira melhor seria considerar o preço médio e a variação de preços. A mediana e a variação são apenas duas maneiras pelas quais você aprenderá a descrever dados. Seu agente também pode fornecer um gráfico dos dados. Nesta aula, você estudará maneiras numéricas e gráficas para descrever e exibir seus dados. Essa área de estatística é chamada "Estatística Descritiva". Você aprenderá como calcular, e ainda mais importante, como interpretar essas medidas e gráficos. Um gráfico estatístico é uma ferramenta que ajuda você a aprender sobre a forma ou distribuição de uma amostra ou população. Um gráfico pode ser uma maneira mais eficaz de apresentar dados do que uma massa de números, porque podemos ver onde os agrupamentos de dados e onde existem apenas alguns valores de dados. Os jornais e a Internet usam gráficos para mostrar tendências e permitir que os leitores comparem fatos e números rapidamente. Os estatísticos geralmente fazem um gráfico dos dados primeiro para obter uma imagem dos dados. Então, ferramentas mais formais podem ser aplicadas. Gráfico de Caule e Folhas Um gráfico simples, o gráfico de caule e folhas, ou stemplot, vem do campo da análise exploratória de dados. É uma boa escolha quando os conjuntos de dados são pequenos. Para criar o gráfico, divida cada observação de dados em um tronco e uma folha. Folha consiste em um dígito significativo final. Para criar o gráfico de Caule e Folhas no R vamos utilizar o comando stem(variável): x<- c(33, 42, 49, 49, 53, 55, 55, 61, 63, 67, 68, 68, 69, 69, 72, 73, 74, 78, 80, 83, 88, 88, 88, 90, 92, 94, 94, 94, 94, 96, 100) stem(x) Gráfico de Linhas O gráfico de linhas útil para valores de dados específicos, no gráfico de linhas: Eixo x → conhecido como eixo das abcissas consiste em valores de dados Eixo y → conhecida como ordenada àEixo vertical consiste em frequência de pontos A frequência de pontos são conectados por segmentos de reta. Exemplo: Em uma pesquisa, 40 mães foram questionadas quantas vezes por semana um adolescente deve ser lembrado para realizar suas tarefas. Os resultados são mostrados na tabela No R você pode proceder da seguinte forma: ● numero_de_vezes_que_precisam_lembrar <- c(0, 1, 2, 3, 4, 5) ● Frequencia <- c(2, 5, 8, 14, 7, 4) ● plot(numero_de_vezes_que_precisam_lembrar, Frequencia, type="l") Gráfico de Barras Os gráficos de barra consistem em barras separadas uma da outra. As barras podem ser retângulos ou podem ser caixas retangulares (usadas em gráficos tridimensionais) e podem ser verticais ou horizontais. Exemplo: Até o final de 2011, o Facebook tinha mais de 146 milhões de usuários nos Estados Unidos. A Tabela mostra três faixas etárias, o número de usuários em cada faixa etária e a proporção (%) de usuários em cada faixa etária. ● faixa_etaria <-c('13-25', '24-44', '45-64’) ● numero_usuario_FB <-c(65082280, 53300200, 27885100) ● barplot(numero_usuario_FB,names.arg=faixa_etaria) Histograma Um histograma consiste em caixas (adjacentes), o eixo horizontal e um eixo vertical, o eixo horizontal é identificado com o que os dados representam e o eixo vertical é rotulado como frequência ou frequência relativa. As frequências em estatísticas são classificadas como: ● Frequência absoluta corresponde ao número de observações de um determinado atributo de uma variável qualitativa ● Frequência relativa é dada pelo número de vezes que o uma variável aparece dividido pelo número de observações realizadas. Para construir o histograma você deve: 1. Decidir quantas barras ou intervalos – Conhecidos como Classes 2. Defina o ponto de partida para o primeiro intervalo ser menor que o menor valor de dados No R O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado. Por praticidade utilizaremos dados disponíveis no R data(mtcars): ● data(mtcars) ● attach(mtcars) ● hist(hp) Séries Temporais Os gráficos de séries temporais são ferramentas importantes em várias aplicações estatísticas, ao gravar valores da mesma variável por um longo período de tempo, às vezes é difícil discernir qualquer tendência ou padrão, os gráficos de séries temporais facilitam a identificação das tendências. Aplicação no R ● ano<-c(2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012) ● taxa_anual<-c(184, 188.9, 195.3, 201.6, 207.342, 215.303, 214.537, 218.056, 224.939, 229.594) ● plot(ano,taxa_anual,type="l") Medidas de Posição As medidas comuns de localização são quartis e percentis. Quartis: ● São percentis especiais ○ O primeiro quartil, Q1 – 25% ○ O segundo quartil, Q2 – 50% ○ O terceiro quartil, Q3 – 75% Percentis ● Os percentis dividem os dados ordenados em centésimos. Os dados devem ser ordenados do menor para o maior. Marcar no percentil 90 de um exame não significa, necessariamente, que você recebeu 90% em um teste. Isso significa que 90% das pontuações dos testes são iguais ou inferiores à sua pontuação e 10% das pontuações dos testes são iguais ou superiores à sua pontuação. Os percentis são úteis para comparar valores. Por esse motivo, universidades e faculdades usam percentis extensivamente. Uma instância em que faculdades e universidades usam percentis é quando os resultados do SAT são usados para determinar uma pontuação mínima de teste que será usada como fator de aceitação. Por exemplo, suponha que Duke aceite pontuações SAT igual ou superior ao 75º percentil. Isso se traduz em uma pontuação de pelo menos 1220. Medidas de posição no R. Vamos utilizar os dados a seguir: dados<-c(1, 11.5, 6, 7.2, 4, 8, 9, 10, 6.8, 8.3, 2, 2, 10, 1) ● Quartil ○ quantile(dados) ● Mediana ○ Median(dados) ● Percentil ○ quantile(dados, 0.1) ○ quantile(dados, 0.2) ○ quantile(dados, 0.3) Intervalo Interquartil O intervalo interquartil é um número que indica a dispersão da metade do meio ou dos 50% do meio dos dados. É a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). IRQ = Q3 – Q1 O IRQ pode ajudar a determinar possíveis discrepâncias Discrepância ● menor que (1,5) (IQR) abaixo do Primeiro Quartil ● mais que (1,5) (IQR) acima do terceiro quartil. Medidas de Posição Central dos Dados O "centro" de um conjunto de dados também é uma maneira de descrever a localização. ● Média ● Mediana A média é definida como a soma das observações dividida pelo número de observações. Se tivermos, por exemplo, n valores, temos: No R podemos utilizar o comando mean(dados) Mediana A mediana é um número que mede o "centro" dos dados. Você pode pensar na mediana como o "valor médio", mas na verdade não precisa ser um dos valores observados. É um número que separa os dados ordenados em metades. Metade dos valores é o mesmo número ou menor que a mediana e metade dos valores é o mesmo número ou maior. No Rpodemos usar median(dados): Moda A moda é o valor mais frequente no conjunto de dados. Pode haver mais de uma moda em um conjunto de dados, desde que esses valores tenham a mesma frequência e essa frequência seja a mais alta. No R: ● notas<-c(50, 53, 59, 59, 63, 63, 72, 72, 72, 72, 72, 76, 78, 81, 83, 84, 84, 84, 90, 93) ● table(notas) ● Com o resultado podemos saber o valor que aparece com mais frequência. Média Geométrica A média geométrica responde à pergunta: "se todas as quantidades tivessem o mesmo valor, qual seria esse valor para alcançar o mesmo produto?" A média geométrica recebe esse nome pelo fato de que, quando redistribuídos dessa maneira, os lados formam uma forma geométrica para a qual todos os lados tem o mesmo comprimento. Para ver isso, considere o exemplo dos números 10, 51.2 e 8. A média geométrica é o produto da multiplicação desses três números (4.096) e da raiz do cubo, porque há três números entre os quais esse produto deve ser distribuído. Portanto, a média geométrica desses três números é 16. Isso descreve um cubo 16x16x16 e tem um volume de 4.096 unidades. A média geométrica é relevante em Economia e Finanças para lidar com o crescimento: crescimento de mercados, investimento, população e outras variáveis, crescimento em que há interesse. Imagine que nossa caixa de 4.096 unidades (talvez dólares) seja o valor de um investimento após três anos e que os retornos do investimento em porcentagem sejam os três números em nosso exemplo. A média geométrica nos fornecerá a resposta para a pergunta, qual é a taxa média de retorno: 16%. Medidas de Dispersão de Dados Uma característica importante de qualquer conjunto de dados é a variação nos dados. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximo à média; em outros conjuntos de dados, os valores dos dados são mais amplamente difundidos da média. A medida mais comum de variação, ou spread, é o desvio padrão. O desvio padrão é um número que mede a que distância os valores dos dados estão da média. Desvio Padrão ● O desvio padrão é um número que mede a que distância os valores dos dados estão da média. ● fornece uma medida numérica da quantidade geral de variação em um conjunto de dados ● pode ser usado para determinar se um valor de dados específico está próximo ou longe da média. ● Desvio padrão é sempre positivo ou zero ● O desvio padrão é pequeno quando todos os dados estão concentrados perto da média, exibindo pouca variação ou dispersão. ● O desvio padrão é maior quando os valores dos dados são mais dispersos da média, exibindo mais variação. Se x é um número, a diferença "x menos a média" é chamada de desvio. Em um conjunto de dados, há tantos desvios quanto itens no conjunto de dados. Os desvios são usados para calcular. Se os números pertencem a uma população, em símbolos um desvio é x - μ. Para dados de amostra, em símbolos, um desvio é x - x. O procedimento para calcular o desvio padrão depende se os números são a população inteira ou são dados de uma amostra. Atividade Extra Em muitas atividades devemos acessar o site de um órgão público ou empresa para realizar a análise, existem comandos no R que efetuam a leitura de arquivos, acesse uma tabela do IBGE de sua escolha e realize calculo de media, mediana e desvio padrão. Referência Bibliográfica ● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. ● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. ● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. Probabilidade Muitas vezes, é necessário "adivinhar" o resultado de um evento para tomar uma decisão. Os políticos estudam pesquisas para adivinhar sua probabilidade de ganhar uma eleição. Os professores escolhem um curso específico de estudo com base no que eles acham que os alunos podem compreender. Os médicos escolhem os tratamentos necessários para várias doenças com base na avaliação dos resultados prováveis. Você pode ter escolhido seu curso com base na provável disponibilidade de empregos. Você aprenderá como resolver problemas de probabilidade usando uma abordagem sistemática. Probabilidade é uma medida que está associada a quão certos somos de resultados de um experimento ou atividade em particular. Um experimento é uma operação planejada realizada sob condições controladas. Se o resultado não for predeterminado, o experimento é considerado um experimento casual. Um resultado de um experimento é chamado de resultado. Evento - Um evento é qualquer combinação de resultados. Letras maiúsculas como A e B representam eventos. Por exemplo, se o experimento for jogar uma moeda justa, o evento A pode estar recebendo no máximo uma cabeça. A probabilidade de um evento A é escrita P (A). A probabilidade de qualquer resultado é a frequência relativa de longo prazo desse resultado. As probabilidades estão entre 0 e 1 • P(A)=0 • P(A)=1 • P(A)=0,5 Lei dos grandes números - Essa importante característica dos experimentos de probabilidade é conhecida como lei dos grandes números, que afirma que, à medida que o número de repetições de um experimento é aumentado, a frequência relativa obtida no experimento tende a se aproximar cada vez mais da probabilidade teórica. Embora os resultados não ocorram de acordo com qualquer padrão ou ordem definida, no geral, a frequência relativa observada a longo prazo se aproximará da probabilidade teórica. (A palavra empírico é frequentemente usada em vez da palavra observada.) • Evento "∪": A União • seja A = {1, 2, 3, 4, 5} e B = {4, 5, 6, 7, 8}. • A ∪B = {1, 2, 3, 4, 5, 6, 7, 8}. • Evento "∩": a interseção • Sejam A e B {1, 2, 3, 4, 5} e {4, 5, 6, 7, 8}, respectivamente. • A ∩B = {4, 5}. • O complemento do evento A é denotado A ′ • Consiste em todos os resultados que NÃO estão em A. • Seja S = {1, 2, 3, 4, 5, 6} • A = {1, 2, 3, 4}. • Então, A ′ = {5, 6}. P (A) =, P (A ′) = e Probabilidade condicional A probabilidade condicional de A dado B é escrita P (A | B). P (A | B) é a probabilidade de o evento A ocorrer, já que o evento B já ocorreu. Um condicional reduz o espaço da amostra Calculamos a probabilidade de A partir do espaço reduzido da amostra B. As chances de um evento apresentam a probabilidade como uma razão de sucesso para fracasso. Isso é comum em vários formatos de jogo. Matematicamente, as chances de um evento podem ser definidas como: onde P (A) é a probabilidade de sucesso e, é claro, 1 - P (A) é a probabilidade de falha. As probabilidades são sempre citadas como "numerador para denominador", p. 2 a 1. Classificação de Eventos Evento - Um evento é qualquer combinação de resultados. Letras maiúsculas como A e B representam eventos. Por exemplo, se o experimento for jogar uma moeda justa, o evento A pode estar recebendo no máximo uma cabeça. A probabilidade de um evento A é escrita P (A). Eventos independentes Dois eventos são independentes se um dos seguintes for verdadeiro: ● P(A | B) = P(A) ● P(B | A) = P(B) ● P(A ∩ B) = P(A)P(B) Dois eventos A e B são independentes se o conhecimento de que um ocorreu não afeta a chance do outro ocorrer. Se dois eventos são não independentes eles são chamados eventos dependentes. A amostragem pode ser feita com substituição ou sem substituição ● Com substituição ● Sem substituição Se não se souber se A e B são independentes ou dependentes, suponha que eles sejam dependentes até que você possa mostrar o contrário. Eventos mutuamente exclusivos A e B são eventos mutuamente exclusivos se não puderem ocorrer ao mesmo tempo. Isso significa que A e B não compartilham nenhum resultado. P (A ∩B) = 0. Duas regras básicas de probabilidade Ao calcular a probabilidade, há duas regras a seremconsideradas ao determinar se dois eventos são independentes ou dependentes e se são mutuamente exclusivos ou não: ● Regra da Multiplicação ● Regra da Adição Regra da Multiplicação Se A e B são dois eventos definidos em um espaço de amostra, então: P (A ∩B) = P (B) P (A | B). Podemos pensar no símbolo de interseção como substituto da palavra "e". Esta regra pode ser escrita por: Regra da Adição Se A e B são definidos em um espaço de amostra, então: P (A ∪ B) = P (A) + P (B) - P (A ∩ B). Então P (A ∩ B) = 0 Então P (A ∪ B) = P (A) + P (B) - P (A ∩ B) P (A ∪ B) = P (A) + P (B). Tabelas de Contingência ● Uma tabela de contingência fornece uma maneira de retratar dados que podem facilitar o cálculo de probabilidades ● A tabela ajuda a determinar probabilidades condicionais com bastante facilidade. ● A tabela exibe valores de amostra em relação a duas variáveis diferentes que podem ser dependentes ou contingentes uma da outra Árvores de Probabilidade ● Às vezes, quando os problemas de probabilidade são complexos, pode ser útil representar graficamente a situação. ● Os diagramas de árvore podem ser usados para visualizar e resolver probabilidades condicionais. ● Consiste em "ramificações" rotuladas com frequências ou probabilidades Diagrama de Venn Os diagramas de Venn são nomeados por seu inventor, John Venn, professor de matemática em Cambridge e ministro anglicano. Seu trabalho principal foi realizado no final da década de 1870 e deu origem a todo um ramo da matemática e a uma nova maneira de abordar questões de lógica. Desenvolveremos as regras de probabilidade abordadas usando essa poderosa maneira de demonstrar os postulados de probabilidade, incluindo a Regra de Adição, Regra de Multiplicação, Regra de Complemento, Independência e Probabilidade Condicional. Complemento de um evento A, é representado por A’ ou AC, é o conjunto de todos os eventos em S que não estão contidos em A: União de dois eventos A e B, representado por A ∪ B, deve ser lida como A união B, é o evento que consiste em todos os resultados que estão no evento A ou no evento B ou em A e B. Interseção de dois eventos A e B, representado por A ∩ B, deve ser lida como A interseção B, é o evento que consiste em todos os resultados contidos de forma simultânea em A e B: Referência Bibliográfica ● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. ● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. ● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. ● DEVORE, Jay L.; CORDEIRO, Marcos Tadeu Andrade. Probabilidade e estatística: para engenharia e ciências. Cengage Learning Edições Ltda., 2014. Variáveis Discretas Pequenas empresas podem estar interessadas no número de chamadas interurbanas que seus funcionários fazem durante o horário de pico do dia. Suponha que a média histórica seja de 20 chamadas. Qual é a probabilidade de os funcionários fazerem mais de 20 chamadas telefônicas de longa distância durante o horário de pico? Os dados discretos são dados que você pode contar; A variável aleatória pode assumir apenas valores numéricos inteiros; Uma variável aleatória descreve os resultados de um experimento estatístico em palavras; Os valores de uma variável aleatória podem variar a cada repetição de um experimento, geralmente chamado de tentativa. Utilizamos a letra maiúscula X indica uma variável aleatória, letras minúsculas como x ou y denotam o valor de uma variável aleatória. Função Densidade de Probabilidade Uma função de densidade de probabilidade (FDP) parcialmente porque a mesma fórmula geralmente descreve tipos muito diferentes de eventos. Por exemplo, o FDP binomial calculará probabilidades de lançamento de moedas, perguntas de sim / não em um exame, opiniões de eleitores em uma pesquisa de opinião para cima ou para baixo, na verdade qualquer evento binário. Outras funções de densidade de probabilidade fornecerão probabilidades pelo tempo até uma parte falhar, quando um cliente chegar ao estande da rodovia, o número de chamadas telefônicas chegando a uma central telefônica, a taxa de crescimento de uma bactéria e assim por diante. Existem famílias inteiras de funções de densidade de probabilidade que são usadas em uma ampla variedade de aplicações, incluindo medicina, negócios e finanças, física e engenharia, entre outras. Para nossas necessidades aqui, nos concentraremos em apenas algumas funções de densidade de probabilidade à medida que desenvolvemos as ferramentas da estatística inferencial. Fórmula da Contagem Para repetir, a probabilidade do evento A, P (A) é simplesmente o número de maneiras pelas quais o experimento resultará em A, em relação ao número total de possíveis resultados do experimento. Quando analisamos o espaço da amostra para lançar 3 moedas, poderíamos escrever facilmente o espaço amostral completo e, assim, contar o número de eventos que atingiram o resultado desejado, por exemplo x = 1, onde X é a variável aleatória definida como o número de Caras. Como temos um número maior de itens no espaço de amostra, como um baralho completo de 52 cartas, a capacidade de escrever o espaço de amostra se torna impossível. Essa é a fórmula que informa o número de subconjuntos não ordenados exclusivos de tamanho x que podem ser criados a partir de n elementos exclusivos: Lemos n combinacional x. A fórmula é denominada Fórmula Combinatória e também denominada Coeficiente Binomial. Vamos encontrar da maneira mais difícil o número total de combinações dos quatro ases em um baralho de cartas, se quisermos levá-los dois de cada vez. O espaço de amostra seria: S = {(Espada, Copas);(Espada, Ouro);(Espada, Paus);(Ouro, Paus); (Ouro, Copas); (Copas, Paus)} Existem 6 combinações; formalmente, seis subconjuntos não ordenados exclusivos de tamanho 2 que podem ser criados a partir de 4 elementos exclusivos. Para usar a fórmula combinatória, resolveríamos a fórmula da seguinte maneira: Distribuição Hipergeométrica: A função de densidade de probabilidade mais simples é a hipergeométrica e combina: • Diagrama de Venn • Regras de adição • Regras da multiplicação • Fórmula Combinatória Para encontrar o número de maneiras de obter 2 ases dos quatro no baralho, calculamos A distribuição hipergeométrica é um exemplo de uma distribuição de probabilidade discreta porque não há possibilidade de sucesso parcial, Para a Distribuição Hipergeométrica funcionar é necessário: • A população deve ser dividida em dois e apenas dois subconjuntos independentes. A variável aleatória X = o número de itens do grupo de interesse. • O experimento deve ter probabilidades variáveis de sucesso em cada experimento • A variável aleatória deve ser discreta, em vez de contínua. A distribuição hipergeométrica descreve o número de sucessos em uma sequência de n amostras de uma população finita sem reposição. Em geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros m, n, e k, então a probabilidade de termos exatamente j sucessos é dada por: dbinom(1, size = 20, prob =0.01) Características de um experimento Binomial Há um número fixo de tentativas. Pense nas tentativas como repetições de um experimento. A letra n indica o número de tentativas. A variável aleatória, x, número de sucessos, é discreta. Existem apenas dois resultados possíveis, chamados "sucesso" e "fracasso", para cada tentativa. Os n ensaios são independentes e são repetidos usando condições idênticas ● rbinom(Quantidade, Tamanho, Probabilidade) ● Instale o pacote distr ● X <- dbinom(size = 20, prob = 0.01) ● plot(x) Distribuição Geométrica A função de densidade de probabilidade geométrica baseia-se no queaprendemos com a distribuição binomial. Nesse caso, o experimento continua até que um sucesso ou um fracasso ocorra, e não para um número definido de tentativas. Existem três características principais de um experimento geométrico. Existem um ou mais ensaios de Bernoulli com todas as falhas, exceto a última, o que é um sucesso. Em outras palavras, você continua repetindo o que está fazendo até o primeiro sucesso. Então você para. Por exemplo, você lança um dardo em um alvo até atingir o alvo. A primeira vez que você bate no alvo é um "sucesso", então você para de jogar o dardo. Pode levar seis tentativas até você acertar o alvo. Você pode pensar nas tentativas como falha, falha, falha, falha, falha, sucesso, STOP. Em teoria, o número de tentativas poderia durar para sempre. A probabilidade, p, de um sucesso e a probabilidade, q, de uma falha são as mesmas para cada tentativa. p + q = 1 e q = 1 - p. Por exemplo, a probabilidade de rolar um três quando você joga um dado justo é 1/6. Isso é verdade, não importa quantas vezes você jogue o dado. Suponha que você queira saber a probabilidade de obter os três primeiros no quinto rolo. Nas jogadas de um a quatro, você não tem cara de três. A probabilidade para cada um dos rolos é q = 5/6, a probabilidade de uma falha. A probabilidade de obter três no quinto lançamento é (5/6)(5/6)(5/6)(5/6)(1/6)= 0,0804 X = o número de tentativas independentes até o primeiro sucesso. A notação adotada na distribuição geométrica é X~G(p) A Função de Distribuição de Probabilidade geométrico nos diz a probabilidade de que a primeira ocorrência de sucesso exija x número de tentativas independentes, cada uma com probabilidade de sucesso p. Se a probabilidade de sucesso em cada tentativa for p, então a probabilidade de que a xª tentativa (de x tentativas) seja o primeiro sucesso é: P(X = x) = (1 - p)x-1p para x = 1, 2, 3... Nesse caso, a tentativa que é um sucesso não é contada como uma tentativa na fórmula: x = número de falhas. O valor esperado, médio, dessa distribuição é De certa forma, a distribuição de Poisson pode ser pensada como uma maneira inteligente de converter uma variável aleatória contínua, geralmente o tempo, em uma variável aleatória discreta, dividindo o tempo em intervalos independentes discretos. Essa maneira de pensar sobre o Poisson nos ajuda a entender por que ele pode ser usado para estimar a probabilidade da variável aleatória discreta da distribuição binomial. O Poisson está pedindo a probabilidade de um número de sucessos durante um período de tempo, enquanto o binômio está pedindo a probabilidade de um certo número de sucessos para um determinado número de tentativas. No R ● dpois(0, lambda = 1.4) ● Z <- Pois(lambda = 1.4) Referência Bibliográfica BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F. Minicurso de Estatística Básica: Introdução ao Software R. Universidade Federal de Santa Maria. Obtido em http://www.ufsm.br/pet-ee em 1-11-19. BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. http://www.ufsm.br/pet-ee CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada - Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo, 2012. Solução do professor Se a probabilidade de a lâmpada sair aprovada é de 80% e como o outro resultado possível é ela ser reprovada, P(reprovada) = 1 - P(aprovada) → P(reprovada) = 1 - 0,8 =0,2 = 20%. Variáveis Contínuas Ográfico de uma distribuição de probabilidade contínua é uma curva. A probabilidade é representada pela área abaixo da curva. A área relativa de uma faixa de valores era a probabilidade de desenhar aleatoriamente uma observação nesse grupo. A probabilidade de um valor específico de uma variável aleatória contínua será zero porque a área sob um ponto é zero. Probabilidade é área. A curva é chamada função de densidade de probabilidade (abreviada como pdf). Usamos o símbolo f (x) para representar a curva. f (x) é a função que corresponde ao gráfico; usamos a função de densidade f (x) para desenhar o gráfico da distribuição de probabilidade. A área sob a curva é dada por uma função diferente chamada função de distribuição cumulativa (abreviada como cdf). A função de distribuição cumulativa é usada para avaliar a probabilidade como área. Matematicamente, a função de densidade de probabilidade cumulativa é a integral do pdf, e a probabilidade entre dois valores de uma variável aleatória contínua será a integral do pdf entre esses dois valores: a área sob a curva entre esses valores. Lembre-se de que a área sob o pdf para todos os valores possíveis da variável aleatória é uma, com certeza. A probabilidade, portanto, pode ser vista como a porcentagem relativa de certeza entre os dois valores de interesse. Os resultados são medidos, não contados. A área inteira sob a curva e acima do eixo x é igual a um. Probabilidade encontrada para intervalos de valores x em vez de valores x individuais. P (c <x <d) é a probabilidade de que a variável aleatória X esteja no intervalo entre os valores c e d. P (c <x <d) é a área abaixo da curva, acima do eixo x, à direita de c e à esquerda de d. P (x = c) = 0 A probabilidade de x assumir qualquer valor individual é zero. A área abaixo da curva, acima do eixo x e entre x = ce x = c não tem largura e, portanto, não possui área (área = 0). Como a probabilidade é igual à área, a probabilidade também é zero. P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é igual à área. Existem muitas distribuições de probabilidade contínuas. Ao usar uma distribuição de probabilidade contínua para modelar a probabilidade, a distribuição usada é selecionada para modelar e ajustar a situação específica da melhor maneira. A área sob a curva é dada por uma função diferente chamada função de distribuição acumulativa (abreviada como FDA) Os resultados são medidos, não contados. A área inteira sob a curva e acima do eixo x é igual a um. Probabilidade encontrada para intervalos de valores x em vez de valores x individuais. P (c <x <d) é a probabilidade de que a variável aleatória X esteja no intervalo entre os valores c e d. P (c <x <d) é a área abaixo da curva, acima do eixo x, à direita de c e à esquerda de d. P (x = c) = 0 A probabilidade de x assumir qualquer valor individual é zero. A área abaixo da curva, acima do eixo x e entre x = ce x = c não tem largura e, portanto, não possui área (área = 0). Como a probabilidade é igual à área, a probabilidade também é zero. P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é igual à área. P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é igual à área. Distribuição Uniforme A distribuição uniforme é uma distribuição de probabilidade contínua e preocupa-se com eventos com a mesma probabilidade de ocorrer. Ao resolver problemas com uma distribuição uniforme, observe se os dados são inclusivos ou exclusivos de terminais. Onde a = o menor valor de x e b = o maior valor de x. Representada pela expressão: NO R O R inclui funcionalidade para operações com distribuições de probabilidades. Para cada distribuição há 4 operações básicas indicadas pelas letras: • d → calcula a densidade de probabilidade f(x) no ponto • P → calcula a função de probabilidade acumulada F(x) no ponto • q → calcula o quantil correspondente a uma dada probabilidade • r → retira uma amostra aleatória da distribuição • args(runif) → Argumentos da função • runif(5) → e tira 5 valores de uma distribuição uniforme • runif(5, min=5, max=20) • punif(0.75) • Considere a função f(x) = 1/20 para 0 ≤ x ≤ 20 • x → Um número realO gráfico de f(x) = 1/20 é uma linha horizontal. Encontre a probabilidade de 0 ≤ x ≤ 2 punif(2, min=0, max=20) Distribuição Exponencial A distribuição exponencial geralmente se preocupa com a quantidade de tempo até que algum evento específico ocorra. Tempo médio de espera μ Desvio médio 1/μ f(x) = me-mx Para calcular probabilidades para funções específicas de densidade de probabilidade, é usada a função de densidade acumulativa. A função de densidade acumulativa (FDA) é simplesmente a integral do FDP e é: Exemplo → Deixe X = quantidade de tempo (em minutos) que um funcionário postal gasta com um cliente. O tempo é conhecido nos dados históricos como tendo uma quantidade média de tempo igual a quatro minutos. É dado que µ = 4 minutos, ou seja, o tempo médio que o funcionário passa com um cliente é de 4 minutos • Deseja-se saber o valor da densidade para o tempo de espera x = 5. • dexp(5, rate=0.25) Distribuição Normal A função normal de densidade de probabilidade, uma distribuição contínua, é a mais importante de todas as distribuições. É amplamente utilizado e ainda mais amplamente abusado. Seu gráfico é em forma de sino. Você vê a curva do sino em quase todas as disciplinas. Alguns deles incluem psicologia, negócios, economia, ciências, enfermagem e, é claro, matemática. Alguns de seus instrutores podem usar a distribuição normal para ajudar a determinar sua nota. A maioria das pontuações de QI são normalmente distribuídas. Frequentemente, os preços dos imóveis se ajustam a uma distribuição normal. A distribuição normal é extremamente importante, mas não pode ser aplicada a tudo no mundo real. Lembre-se aqui que ainda estamos falando sobre a distribuição de dados da população. Esta é uma discussão sobre probabilidade e, portanto, são os dados da população que normalmente podem ser distribuídos e, se for, é assim que podemos encontrar probabilidades de eventos específicos, exatamente como fizemos para dados da população que podem ser distribuídos binomialmente ou Poisson distribuídos. . Essa cautela está aqui porque no próximo capítulo veremos que a distribuição normal descreve algo muito diferente dos dados brutos e forma a base da estatística inferencial. A distribuição normal possui dois parâmetros (duas medidas numéricas descritivas): a média (μ) e o desvio padrão (σ). Se X é uma quantidade a ser medida que possui uma distribuição normal com média (μ) e desvio padrão (σ), designamos isso escrevendo o seguinte: Referência Bibliográfica BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F. Minicurso de Estatística Básica: Introdução ao Software R. Universidade Federal de Santa Maria. Obtido em http://www.ufsm.br/pet-ee em 1-11-19. BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada - Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo, 2012. http://www.ufsm.br/pet-ee Solução do professor (50-40)/20 = 0,5 Solução do professor (12,5-0)(1/15)=0,8333 Teorema do Valor Central OTeorema do Limite Central é uma das ideias mais poderosas e úteis em todas as estatísticas. É um teorema que significa que NÃO é uma teoria ou apenas a ideia de alguém da maneira como as coisas funcionam. Como teorema, ele se classifica com o Teorema de Pitágoras, ou o teorema que nos diz que a soma dos ângulos de um triângulo deve somar 180. O Teorema do Limite Central preocupa-se em extrair amostras finitas de tamanho n de uma população com média conhecida, μ e desvio padrão conhecido, σ. A conclusão é que, se coletarmos amostras do tamanho n com um "n suficientemente grande", calcularmos a média de cada amostra e criarmos um histograma (distribuição) desses meios, a distribuição resultante tenderá a ter uma distribuição normal aproximada. O resultado surpreendente é que não importa qual é a distribuição da população original ou se você precisa conhecê-la. O fato importante é que a distribuição das médias amostrais tende a seguir a distribuição normal. O tamanho da amostra, n, necessário para ser "grande o suficiente" depende da população original da qual as amostras são coletadas (o tamanho da amostra deve ser pelo menos 30 ou os dados devem ser de uma distribuição normal). Se a população original estiver longe do normal, serão necessárias mais observações para as médias da amostra. A distribuição amostral é uma distribuição teórica. Ele é criado com muitas amostras de tamanho n de uma população. Cada média amostral é então tratada como uma única observação dessa nova distribuição, a distribuição amostral. A genialidade de pensar assim é que reconhece que, quando provamos, estamos criando uma observação e essa observação deve provir de alguma distribuição específica. O Teorema do Limite Central responde à pergunta: de que distribuição veio uma amostra? Se isso for descoberto, podemos tratar uma média da amostra como qualquer outra observação e calcular probabilidades sobre quais valores ela pode assumir. Nós efetivamente passamos do mundo das estatísticas, onde sabemos apenas o que temos da amostra, para o mundo das probabilidades, onde sabemos a distribuição da qual a média da amostra veio e os parâmetros dessa distribuição. As razões pelas quais se experimenta uma população são óbvias. O tempo e as despesas de verificação de todas as faturas para determinar sua validade ou remessa para verificar se ela contém todos os itens podem exceder o custo de erros no faturamento ou no envio. Para alguns produtos, a amostragem exigiria sua destruição, chamada amostragem destrutiva. Um exemplo é medir a capacidade de um metal de resistir à corrosão da água salgada em peças de embarcações oceânicas. A amostragem, portanto, levanta uma questão importante; apenas qual amostra foi retirada. Mesmo que a amostra tenha sido sorteada aleatoriamente, existe teoricamente um número quase infinito de amostras. Com apenas 100 itens, existem mais de 75 milhões de amostras únicas do tamanho cinco que podem ser coletadas. Se seis estiverem na amostra, o número de amostras possíveis aumenta para pouco mais de um bilhão. Dos 75 milhões de amostras possíveis, qual você conseguiu? Se houver variação nos itens a serem amostrados, haverá variação nas amostras. Pode-se tirar uma amostra "infeliz" e tirar conclusões muito erradas a respeito da população. Esse reconhecimento de que qualquer amostra que extraímos é realmente apenas uma de uma distribuição de amostras nos fornece o que provavelmente é o teorema mais importante é a estatística: o Teorema do Limite Central. Sem o Teorema do Limite Central, seria impossível proceder à estatística inferencial a partir da simples teoria das probabilidades. Na sua forma mais básica, o Teorema do Limite Central afirma que, independentemente da função de densidade de probabilidade subjacente dos dados da população, a distribuição teórica das médias das amostras da população será normalmente distribuída. Em essência, isso diz que a média de uma amostra deve ser tratada como uma observação extraída de uma distribuição normal. O Teorema do Limite Central somente é válido se o tamanho da amostra for "grande o suficiente", o que demonstrou ser apenas 30 observações ou mais. Para demonstrar vamos apresentar no R: ● Retira-se a média de 100 amostras de tamanho n=5, isto é, recolhe-se 5 números de uma distribuição qualquer, neste caso a binominal, e retira-se sua média 100 vezes. ● xbarra<-replicate(100,mean(rbinom(5,3,0.2))) ● Histograma usando as funções a seguir ● x_hist<-hist(xbarra,plot=F) ● x_density<-density(xbarra) ●hist(xbarra,probability = T,xlim=range(c(x_hist$breaks,x_density$x)) ,ylim = range(c(x_hist$density,x_density$y))) ● lines(x_density,lwd=2) Repetindo as atividades temos: ● xbarra<-replicate(1000,mean(rbinom(5,3,0.2))) ● Histograma usando as funções a seguir ● x_hist<-hist(xbarra,plot=F) ● x_density<-density(xbarra) ● hist(xbarra,probability = T,xlim=range(c(x_hist$breaks,x_density$x)) ,ylim = range(c(x_hist$density,x_density$y))) ● lines(x_density,lwd=2) Referência Bibliográfica BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F. Minicurso de Estatística Básica: Introdução ao Software R. Universidade Federal de Santa Maria. Obtido em http://www.ufsm.br/pet-ee em 1-11-19. BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013. CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R. Educação Estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011. LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M. Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed. LTC, 2011. SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada - Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo, 2012. E-book Toquato. Entenda Tudo Sobre Análise Preditiva. 2018. Obtido em https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise -preditiva, acesso em 01-11-19. http://www.ufsm.br/pet-ee https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise-preditiva https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise-preditiva
Compartilhar