Estatística Aplicada a Inteligência de Negócios

•

UNIP

Weverton Castro

01/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Inteligência de Negócios - Business Intelligence

1.942 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Estatística Aplicada a
Inteligência de
Negócios
Estatística é a área responsável por estudar e definir as técnicas
para coletar, organizar, apresentar e analisar dados.
A estatística pode ser classificada como:
Descritiva - refere-se as técnicas de sintetização, organização e
descrição de dados.
Inferencial - compreende as técnicas por meio das quais são
tomadas decisões sobre a população baseadas na observações de
amostras.
A probabilidade é a ferramenta matemática utilizada no estudo de
eventos aleatórios.
Para o estudo desse curso é recomendado o uso da ferramenta R,
a seguir um breve passo a passo para a instalação do programa.
1. Acesse r-project.org
2. Selecione o CRAN de sua preferência, nesse caso selecionamos
o destacado a seguir
3. Selecione o link correspondente ao seu sistema operacional
4. Selecione Install R for the first time
5. Clique em Download R 4.0.0 for Windows ( A versão pode estar
atualizada)
6. Efetue a Instalação
7. Selecione o idioma
8. Leia os termos de uso e clique em Próximo
9. Selecione o local de instalação (Recomendável deixar o definido
por padrão)
10. Clique em Próximo
11. Clique em Próximo
12. Crie o Atalho
13. Crie um atalho na área de trabalho
Na estatística é necessário conhecer as definições de População e
Amostra:
População - Conjunto “Universo” dos dados sobre os quais se
deseja estudar
Amostra - Subconjunto da população que contenha todas as suas
propriedades
As variáveis são uma abstração que se refere a um determinado
aspecto do fenômeno que está sendo estudado.
A notação adotada são letras maiúsculas por exemplo X e Y.
Dados são os valores reais da variável. Eles podem ser números
ou podem ser palavras.
Os dados podem vir de uma população ou de uma amostra. Letras
minúsculas como x ou y geralmente são usadas para representar
valores de dados. A maioria dos dados pode ser colocada nas
seguintes categorias:
Dados qualitativos são o resultado de categorizar ou descrever
atributos de uma população. Dados qualitativos também são
chamados de dados categóricos. A cor do cabelo, o tipo
sanguíneo, o grupo étnico, o carro em que uma pessoa dirige e a
rua em que a pessoa vive são exemplos de dados qualitativos
(categóricos). Dados qualitativos (categóricos) são geralmente
descritos por palavras ou letras. Por exemplo, a cor do cabelo pode
ser preta, marrom escura, marrom clara, loira, cinza ou vermelha.
O tipo sanguíneo pode ser AB +, O- ou B +. Os pesquisadores
geralmente preferem usar dados quantitativos em vez de
qualitativos. (categóricos), porque se prestam mais facilmente à
análise matemática. Por exemplo, não faz sentido encontrar uma
cor de cabelo ou tipo de sangue médio.
Dados quantitativos são o resultado da contagem ou medição de
atributos de uma população. Quantidade de dinheiro, taxa de pulso,
peso, número de pessoas que vivem em sua cidade e número de
estudantes que fazem estatísticas são exemplos de dados
quantitativos. Os dados quantitativos podem ser discretos ou
contínuos.
Amostragem
A coleta de informações sobre uma população inteira geralmente
custa muito ou é praticamente impossível. Em vez disso, usamos
uma amostra da população. Uma amostra deve ter as mesmas
características que a população que está representando. A maioria
dos estatísticos usa vários métodos de amostragem aleatória na
tentativa de atingir esse objetivo. Esta seção descreverá alguns
dos métodos mais comuns. Existem vários métodos diferentes de
amostragem aleatória. Em cada forma de amostragem aleatória,
cada membro de uma população inicialmente tem uma chance
igual de ser selecionado para a amostra. Cada método tem prós e
contras.
O método para descrever é chamado de amostra aleatória simples.
Qualquer grupo de n indivíduos é igualmente provável que seja
escolhido como qualquer outro grupo de n indivíduos se a técnica
simples de amostragem aleatória for usada. Em outras palavras,
cada amostra do mesmo tamanho tem uma chance igual de ser
selecionada. Além da amostragem aleatória simples, existem
outras formas de amostragem que envolvem um processo aleatório
para obter a amostra. Outros métodos bem conhecidos de
amostragem aleatória são a amostra estratificada, a amostra de
cluster e a amostra sistemática.
Para escolher uma amostra estratificada, divida a população em
grupos chamados estratos e, em seguida, pegue um número
proporcional de cada estrato. Por exemplo, você pode estratificar
(agrupar) a população de sua faculdade por departamento e, em
seguida, escolher uma amostra aleatória simples proporcional de
cada estrato (cada departamento) para obter uma amostra
aleatória estratificada. Para escolher uma amostra aleatória
simples de cada departamento, numere cada membro do primeiro
departamento, numere cada membro do segundo departamento e
faça o mesmo para os demais departamentos.
Para escolher uma amostra de cluster, divida a população em
clusters (grupos) e selecione aleatoriamente alguns dos clusters.
Todos os membros desses clusters estão na amostra de cluster.
Por exemplo, se você amostrar aleatoriamente quatro
departamentos da população da faculdade, os quatro
departamentos compõem a amostra de cluster.
Para escolher uma amostra sistemática, selecione aleatoriamente
um ponto de partida e pegue todos os enésimos dados de uma lista
da população. Por exemplo, suponha que você precise fazer uma
pesquisa por telefone. Sua lista telefônica contém 20.000 listagens
de residências. Você deve escolher 400 nomes para a amostra.
Numere a população de 1 a 20.000 e use uma amostra aleatória
simples para escolher um número que represente o primeiro nome
na amostra.
Escolha cada quinquagésimo nome a seguir até ter um total de 400
nomes (talvez seja necessário voltar ao início da sua lista
telefônica). A amostragem sistemática é frequentemente escolhida
porque é um método simples.
Um tipo de amostragem não aleatória é a amostragem por
conveniência. A amostragem de conveniência envolve o uso de
resultados que estão prontamente disponíveis. Por exemplo, uma
loja de software de computador realiza um estudo de marketing
entrevistando clientes em potencial que estão na loja navegando
pelo software disponível.
Os resultados da amostragem por conveniência podem ser muito
bons em alguns casos e altamente tendenciosos (favorecem certos
resultados) em outros. Os dados de amostragem devem ser feitos
com muito cuidado. A coleta descuidada de dados pode ter
resultados devastadores.
Pesquisas enviadas para as famílias e depois devolvidas podem
ser muito tendenciosas (podem favorecer um determinado grupo).
É melhor para a pessoa que conduz a pesquisa selecionar os
respondentes da amostra.
A maneira como um conjunto de dados é medido é chamado de
nível de medição. Os procedimentos estatísticos corretos
dependem de um pesquisador estar familiarizado com os níveis de
medida. Nem toda operação estatística pode ser usada com todos
os conjuntos de dados. Os dados podem ser classificados em
quatro níveis de medição. Eles são (do nível mais baixo ao mais
alto):
• Nível da escala nominal
• Nível da escala ordinal
• Nível de escala de intervalo
Nível de escala de proporção
Os dados medidos usando uma escala nominal são qualitativos
(categóricos). Categorias, cores, nomes, rótulos e alimentos
favoritos, juntamente com respostas sim ou não, são exemplos de
dados de nível nominal. Os dados da escala nominal não são
ordenados. Por exemplo, tentar classificar as pessoas de acordo
com sua comida favorita não faz sentido. Colocar a pizza em
primeiro lugar e o sushi em segundo não é significativo.
As empresas de smartphones são outro exemplo de dados em
escala nominal. Os dados são os nomes das empresas que
fabricam smartphones, mas não há uma ordem acordada dessas
marcas, mesmo que as pessoas possam ter preferências pessoais.
Os dados da escala nominal não podem ser usados nos cálculos.
Atividade Extra
Para realização da atividade,leia o texto a seguir:
O USO DA ESTATÍSTICA DESCRITIVA NA PESQUISA EM
CUSTOS: no link
https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605
Referência Bibliográfica
● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto.
Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013.
https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605
https://www.seer.ufrgs.br/ConTexto/article/download/11157/6605
● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON,
M. Estatística - Teoria e Aplicações - Usando Microsoft Excel.
6ª Ed. LTC, 2011.
● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de
modelagem matemática. Belo Horizonte: Autêntica Editora,
2011.
Estatística Descritiva
Depois de coletar os dados, o que você fará com eles? Os dados
podem ser descritos e apresentados em muitos formatos
diferentes. Por exemplo, suponha que você esteja interessado em
comprar uma casa em uma área específica. Você pode não ter
ideia sobre os preços da habitação; portanto, peça ao seu agente
imobiliário uma amostra do conjunto de dados. Observar todos os
preços da amostra geralmente é esmagador. Uma maneira melhor
seria considerar o preço médio e a variação de preços. A mediana
e a variação são apenas duas maneiras pelas quais você
aprenderá a descrever dados. Seu agente também pode fornecer
um gráfico dos dados.
Nesta aula, você estudará maneiras numéricas e gráficas para
descrever e exibir seus dados. Essa área de estatística é chamada
"Estatística Descritiva". Você aprenderá como calcular, e ainda
mais importante, como interpretar essas medidas e gráficos.
Um gráfico estatístico é uma ferramenta que ajuda você a aprender
sobre a forma ou distribuição de uma amostra ou população. Um
gráfico pode ser uma maneira mais eficaz de apresentar dados do
que uma massa de números, porque podemos ver onde os
agrupamentos de dados e onde existem apenas alguns valores de
dados. Os jornais e a Internet usam gráficos para mostrar
tendências e permitir que os leitores comparem fatos e números
rapidamente. Os estatísticos geralmente fazem um gráfico dos
dados primeiro para obter uma imagem dos dados. Então,
ferramentas mais formais podem ser aplicadas.
Gráfico de Caule e Folhas
Um gráfico simples, o gráfico de caule e folhas, ou stemplot, vem
do campo da análise exploratória de dados.
É uma boa escolha quando os conjuntos de dados são pequenos.
Para criar o gráfico, divida cada observação de dados em um
tronco e uma folha.
Folha consiste em um dígito significativo final.
Para criar o gráfico de Caule e Folhas no R vamos utilizar o
comando stem(variável):
x<- c(33, 42, 49, 49, 53, 55, 55, 61, 63, 67, 68, 68, 69, 69, 72, 73,
74, 78, 80, 83, 88, 88, 88, 90, 92, 94, 94, 94, 94, 96, 100)
stem(x)
Gráfico de Linhas
O gráfico de linhas útil para valores de dados específicos, no
gráfico de linhas:
Eixo x → conhecido como eixo das abcissas consiste em valores
de dados
Eixo y → conhecida como ordenada àEixo vertical consiste em
frequência de pontos
A frequência de pontos são conectados por segmentos de reta.
Exemplo: Em uma pesquisa, 40 mães foram questionadas quantas
vezes por semana um adolescente deve ser lembrado para realizar
suas tarefas. Os resultados são mostrados na tabela
No R você pode proceder da seguinte forma:
● numero_de_vezes_que_precisam_lembrar <- c(0, 1, 2, 3, 4,
5)
● Frequencia <- c(2, 5, 8, 14, 7, 4)
● plot(numero_de_vezes_que_precisam_lembrar, Frequencia,
type="l")
Gráfico de Barras
Os gráficos de barra consistem em barras separadas uma da outra.
As barras podem ser retângulos ou podem ser caixas retangulares
(usadas em gráficos tridimensionais) e podem ser verticais ou
horizontais.
Exemplo: Até o final de 2011, o Facebook tinha mais de 146
milhões de usuários nos Estados Unidos. A Tabela mostra três
faixas etárias, o número de usuários em cada faixa etária e a
proporção (%) de usuários em cada faixa etária.
● faixa_etaria <-c('13-25', '24-44', '45-64’)
● numero_usuario_FB <-c(65082280, 53300200, 27885100)
● barplot(numero_usuario_FB,names.arg=faixa_etaria)
Histograma
Um histograma consiste em caixas (adjacentes), o eixo horizontal e
um eixo vertical, o eixo horizontal é identificado com o que os
dados representam e o eixo vertical é rotulado como frequência ou
frequência relativa.
As frequências em estatísticas são classificadas como:
● Frequência absoluta corresponde ao número de observações
de um determinado atributo de uma variável qualitativa
● Frequência relativa é dada pelo número de vezes que o uma
variável aparece dividido pelo número de observações
realizadas.
Para construir o histograma você deve:
1. Decidir quantas barras ou intervalos – Conhecidos como Classes
2. Defina o ponto de partida para o primeiro intervalo ser menor
que o menor valor de dados
No R O primeiro passo na construção do gráfico é ter os dados
armazenados em objeto apropriado. Por praticidade utilizaremos
dados disponíveis no R data(mtcars):
● data(mtcars)
● attach(mtcars)
● hist(hp)
Séries Temporais
Os gráficos de séries temporais são ferramentas importantes em
várias aplicações estatísticas, ao gravar valores da mesma variável
por um longo período de tempo, às vezes é difícil discernir qualquer
tendência ou padrão, os gráficos de séries temporais facilitam a
identificação das tendências.
Aplicação no R
● ano<-c(2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
2011, 2012)
● taxa_anual<-c(184, 188.9, 195.3, 201.6, 207.342, 215.303,
214.537, 218.056, 224.939, 229.594)
● plot(ano,taxa_anual,type="l")
Medidas de Posição
As medidas comuns de localização são quartis e percentis.
Quartis:
● São percentis especiais
○ O primeiro quartil, Q1 – 25%
○ O segundo quartil, Q2 – 50%
○ O terceiro quartil, Q3 – 75%
Percentis
● Os percentis dividem os dados ordenados em centésimos.
Os dados devem ser ordenados do menor para o maior.
Marcar no percentil 90 de um exame não significa,
necessariamente, que você recebeu 90% em um teste. Isso
significa que 90% das pontuações dos testes são iguais ou
inferiores à sua pontuação e 10% das pontuações dos testes são
iguais ou superiores à sua pontuação.
Os percentis são úteis para comparar valores. Por esse motivo,
universidades e faculdades usam percentis extensivamente.
Uma instância em que faculdades e universidades usam percentis
é quando os resultados do SAT são usados para determinar uma
pontuação mínima de teste que será usada como fator de
aceitação. Por exemplo, suponha que Duke aceite pontuações SAT
igual ou superior ao 75º percentil. Isso se traduz em uma
pontuação de pelo menos 1220.
Medidas de posição no R. Vamos utilizar os dados a seguir:
dados<-c(1, 11.5, 6, 7.2, 4, 8, 9, 10, 6.8, 8.3, 2, 2, 10, 1)
● Quartil
○ quantile(dados)
● Mediana
○ Median(dados)
● Percentil
○ quantile(dados, 0.1)
○ quantile(dados, 0.2)
○ quantile(dados, 0.3)
Intervalo Interquartil
O intervalo interquartil é um número que indica a dispersão da
metade do meio ou dos 50% do meio dos dados. É a diferença
entre o terceiro quartil (Q3) e o primeiro quartil (Q1).
IRQ = Q3 – Q1
O IRQ pode ajudar a determinar possíveis discrepâncias
Discrepância
● menor que (1,5) (IQR) abaixo do Primeiro Quartil
● mais que (1,5) (IQR) acima do terceiro quartil.
Medidas de Posição Central dos Dados
O "centro" de um conjunto de dados também é uma maneira de
descrever a localização.
● Média
● Mediana
A média é definida como a soma das observações dividida pelo
número de observações. Se tivermos, por exemplo, n valores,
temos:
 
No R podemos utilizar o comando mean(dados)
Mediana
A mediana é um número que mede o "centro" dos dados.
Você pode pensar na mediana como o "valor médio", mas na
verdade não precisa ser um dos valores observados. É um número
que separa os dados ordenados em metades.
Metade dos valores é o mesmo número ou menor que a mediana e
metade dos valores é o mesmo número ou maior.
No Rpodemos usar median(dados):
Moda
A moda é o valor mais frequente no conjunto de dados. Pode haver
mais de uma moda em um conjunto de dados, desde que esses
valores tenham a mesma frequência e essa frequência seja a mais
alta.
No R:
● notas<-c(50, 53, 59, 59, 63, 63, 72, 72, 72, 72, 72, 76, 78, 81,
83, 84, 84, 84, 90, 93)
● table(notas)
● Com o resultado podemos saber o valor que aparece com
mais frequência.
Média Geométrica
A média geométrica responde à pergunta: "se todas as
quantidades tivessem o mesmo valor, qual seria esse valor para
alcançar o mesmo produto?"
A média geométrica recebe esse nome pelo fato de que, quando
redistribuídos dessa maneira, os lados formam uma forma
geométrica para a qual todos os lados tem o mesmo comprimento.
Para ver isso, considere o exemplo dos números 10, 51.2 e 8. A
média geométrica é o produto da multiplicação desses três
números (4.096) e da raiz do cubo, porque há três números entre
os quais esse produto deve ser distribuído. Portanto, a média
geométrica desses três números é 16. Isso descreve um cubo
16x16x16 e tem um volume de 4.096 unidades.
A média geométrica é relevante em Economia e Finanças para
lidar com o crescimento: crescimento de mercados, investimento,
população e outras variáveis, crescimento em que há interesse.
Imagine que nossa caixa de 4.096 unidades (talvez dólares) seja o
valor de um investimento após três anos e que os retornos do
investimento em porcentagem sejam os três números em nosso
exemplo. A média geométrica nos fornecerá a resposta para a
pergunta, qual é a taxa média de retorno: 16%.
Medidas de Dispersão de Dados
Uma característica importante de qualquer conjunto de dados é a
variação nos dados.
Em alguns conjuntos de dados, os valores dos dados estão
concentrados próximo à média; em outros conjuntos de dados, os
valores dos dados são mais amplamente difundidos da média.
A medida mais comum de variação, ou spread, é o desvio padrão.
O desvio padrão é um número que mede a que distância os valores
dos dados estão da média.
Desvio Padrão
● O desvio padrão é um número que mede a que distância os
valores dos dados estão da média.
● fornece uma medida numérica da quantidade geral de
variação em um conjunto de dados
● pode ser usado para determinar se um valor de dados
específico está próximo ou longe da média.
● Desvio padrão é sempre positivo ou zero
● O desvio padrão é pequeno quando todos os dados estão
concentrados perto da média, exibindo pouca variação ou
dispersão.
● O desvio padrão é maior quando os valores dos dados são
mais dispersos da média, exibindo mais variação.
Se x é um número, a diferença "x menos a média" é chamada de
desvio.
Em um conjunto de dados, há tantos desvios quanto itens no
conjunto de dados. Os desvios são usados para calcular.
Se os números pertencem a uma população, em símbolos um
desvio é x - μ.
Para dados de amostra, em símbolos, um desvio é x - x.
O procedimento para calcular o desvio padrão depende se os
números são a população inteira ou são dados de uma amostra.
Atividade Extra
Em muitas atividades devemos acessar o site de um órgão público
ou empresa para realizar a
análise, existem comandos no R que efetuam a leitura de arquivos,
acesse uma tabela do IBGE
de sua escolha e realize calculo de media, mediana e desvio
padrão.
Referência Bibliográfica
● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto.
Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013.
● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON,
M. Estatística - Teoria e Aplicações - Usando Microsoft Excel.
6ª Ed. LTC, 2011.
● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de
modelagem matemática. Belo Horizonte: Autêntica Editora,
2011.
Probabilidade
Muitas vezes, é necessário "adivinhar" o resultado de um evento
para tomar uma decisão. Os políticos estudam pesquisas para
adivinhar sua probabilidade de ganhar uma eleição. Os professores
escolhem um curso específico de estudo com base no que eles
acham que os alunos podem compreender. Os médicos escolhem
os tratamentos necessários para várias doenças com base na
avaliação dos resultados prováveis.
Você pode ter escolhido seu curso com base na provável
disponibilidade de empregos. Você aprenderá como resolver
problemas de probabilidade usando uma abordagem sistemática.
Probabilidade é uma medida que está associada a quão certos
somos de resultados de um experimento ou atividade em particular.
Um experimento é uma operação planejada realizada sob
condições controladas. Se o resultado não for predeterminado, o
experimento é considerado um experimento casual. Um resultado
de um experimento é chamado de resultado.
Evento - Um evento é qualquer combinação de resultados. Letras
maiúsculas como A e B representam eventos. Por exemplo, se o
experimento for jogar uma moeda justa, o evento A pode estar
recebendo no máximo uma cabeça. A probabilidade de um evento
A é escrita P (A).
A probabilidade de qualquer resultado é a frequência relativa de
longo prazo desse resultado.
As probabilidades estão entre 0 e 1
• P(A)=0
• P(A)=1
• P(A)=0,5
Lei dos grandes números - Essa importante característica dos
experimentos de probabilidade é conhecida como lei dos grandes
números, que afirma que, à medida que o número de repetições de
um experimento é aumentado, a frequência relativa obtida no
experimento tende a se aproximar cada vez mais da probabilidade
teórica. Embora os resultados não ocorram de acordo com
qualquer padrão ou ordem definida, no geral, a frequência relativa
observada a longo prazo se aproximará da probabilidade teórica.
(A palavra empírico é frequentemente usada em vez da palavra
observada.)
• Evento "∪": A União
• seja A = {1, 2, 3, 4, 5} e B = {4, 5, 6, 7, 8}.
• A ∪B = {1, 2, 3, 4, 5, 6, 7, 8}.
• Evento "∩": a interseção
• Sejam A e B {1, 2, 3, 4, 5} e {4, 5, 6, 7, 8}, respectivamente.
• A ∩B = {4, 5}.
• O complemento do evento A é denotado A ′
• Consiste em todos os resultados que NÃO estão em A.
• Seja S = {1, 2, 3, 4, 5, 6}
• A = {1, 2, 3, 4}.
• Então, A ′ = {5, 6}. P (A) =, P (A ′) = e
Probabilidade condicional A probabilidade condicional de A dado B
é escrita P (A | B). P (A | B) é a probabilidade de o evento A
ocorrer, já que o evento B já ocorreu.
Um condicional reduz o espaço da amostra Calculamos a
probabilidade de A partir do espaço reduzido da amostra B.
As chances de um evento apresentam a probabilidade como uma
razão de sucesso para fracasso. Isso é comum em vários formatos
de jogo. Matematicamente, as chances de um evento podem ser
definidas como:
onde P (A) é a probabilidade de sucesso e, é claro, 1 - P (A) é a
probabilidade de falha.
As probabilidades são sempre citadas como "numerador para
denominador", p. 2 a 1.
Classificação de Eventos
Evento - Um evento é qualquer combinação de resultados. Letras
maiúsculas como A e B representam eventos. Por exemplo, se o
experimento for jogar uma moeda justa, o evento A pode estar
recebendo no máximo uma cabeça. A probabilidade de um evento
A é escrita P (A).
Eventos independentes Dois eventos são independentes se
um dos seguintes for verdadeiro:
● P(A | B) = P(A)
● P(B | A) = P(B)
● P(A ∩ B) = P(A)P(B)
Dois eventos A e B são independentes se o conhecimento de que
um ocorreu não afeta a chance do outro ocorrer. Se dois eventos
são não independentes eles são chamados eventos dependentes.
A amostragem pode ser feita com substituição ou sem substituição
● Com substituição
● Sem substituição
Se não se souber se A e B são independentes ou dependentes,
suponha que eles sejam dependentes até que você possa mostrar
o contrário.
Eventos mutuamente exclusivos A e B são eventos
mutuamente exclusivos se não puderem ocorrer ao mesmo
tempo. Isso significa que A e B não compartilham nenhum
resultado.
P (A ∩B) = 0.
Duas regras básicas de probabilidade
Ao calcular a probabilidade, há duas regras a seremconsideradas
ao determinar se dois eventos são independentes ou dependentes
e se são mutuamente exclusivos ou não:
● Regra da Multiplicação
● Regra da Adição
Regra da Multiplicação
Se A e B são dois eventos definidos em um espaço de amostra,
então: P (A ∩B) = P (B) P (A | B).
Podemos pensar no símbolo de interseção como substituto da
palavra "e".
Esta regra pode ser escrita por:
Regra da Adição
Se A e B são definidos em um espaço de amostra, então: P (A ∪
B) = P (A) + P (B) - P (A ∩ B).
Então P (A ∩ B) = 0
Então P (A ∪ B) = P (A) + P (B) - P (A ∩ B)
P (A ∪ B) = P (A) + P (B).
Tabelas de Contingência
● Uma tabela de contingência fornece uma maneira de retratar
dados que podem facilitar o cálculo de probabilidades
● A tabela ajuda a determinar probabilidades condicionais com
bastante facilidade.
● A tabela exibe valores de amostra em relação a duas
variáveis diferentes que podem ser dependentes ou
contingentes uma da outra
Árvores de Probabilidade
● Às vezes, quando os problemas de probabilidade são
complexos, pode ser útil representar graficamente a situação.
● Os diagramas de árvore podem ser usados para visualizar e
resolver probabilidades condicionais.
● Consiste em "ramificações" rotuladas com frequências ou
probabilidades
Diagrama de Venn
Os diagramas de Venn são nomeados por seu inventor, John Venn,
professor de matemática em Cambridge e ministro anglicano. Seu
trabalho principal foi realizado no final da década de 1870 e deu
origem a todo um ramo da matemática e a uma nova maneira de
abordar questões de lógica. Desenvolveremos as regras de
probabilidade abordadas usando essa poderosa maneira de
demonstrar os postulados de probabilidade, incluindo a Regra de
Adição, Regra de Multiplicação, Regra de Complemento,
Independência e Probabilidade Condicional.
Complemento de um evento A, é representado por A’ ou AC, é o
conjunto de todos os eventos em S que não estão contidos em A:
União de dois eventos A e B, representado por A ∪ B, deve ser
lida como A união B, é o evento que consiste em todos os
resultados que estão no evento A ou no evento B ou em A e B.
Interseção de dois eventos A e B, representado por A ∩ B, deve
ser lida como A interseção B, é o evento que consiste em todos os
resultados contidos de forma simultânea em A e B:
Referência Bibliográfica
● BUSSAB, Wilton de O; MORET TIN, Pedro Alberto.
Estatística Básica. 8ª ed. São Paulo: Saraiva, 2013.
● LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON,
M. Estatística - Teoria e Aplicações - Usando Microsoft Excel.
6ª Ed. LTC, 2011.
● CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de
modelagem matemática. Belo Horizonte: Autêntica Editora,
2011.
● DEVORE, Jay L.; CORDEIRO, Marcos Tadeu Andrade.
Probabilidade e estatística: para engenharia e ciências.
Cengage Learning Edições Ltda., 2014.
Variáveis Discretas
Pequenas empresas podem estar interessadas no número de
chamadas interurbanas que seus funcionários fazem durante o
horário de pico do dia. Suponha que a média histórica seja de 20
chamadas. Qual é a probabilidade de os funcionários fazerem mais
de 20 chamadas telefônicas de longa distância durante o horário de
pico?
Os dados discretos são dados que você pode contar;
A variável aleatória pode assumir apenas valores numéricos
inteiros;
Uma variável aleatória descreve os resultados de um experimento
estatístico em palavras;
Os valores de uma variável aleatória podem variar a cada repetição
de um experimento, geralmente chamado de tentativa.
Utilizamos a letra maiúscula X indica uma variável aleatória, letras
minúsculas como x ou y denotam o valor de uma variável aleatória.
Função Densidade de Probabilidade
Uma função de densidade de probabilidade (FDP) parcialmente
porque a mesma fórmula geralmente descreve tipos muito
diferentes de eventos.
Por exemplo, o FDP binomial calculará probabilidades de
lançamento de moedas, perguntas de sim / não em um exame,
opiniões de eleitores em uma pesquisa de opinião para cima ou
para baixo, na verdade qualquer evento binário.
Outras funções de densidade de probabilidade fornecerão
probabilidades pelo tempo até uma parte falhar, quando um cliente
chegar ao estande da rodovia, o número de chamadas telefônicas
chegando a uma central telefônica, a taxa de crescimento de uma
bactéria e assim por diante.
Existem famílias inteiras de funções de densidade de probabilidade
que são usadas em uma ampla variedade de aplicações, incluindo
medicina, negócios e finanças, física e engenharia, entre outras.
Para nossas necessidades aqui, nos concentraremos em apenas
algumas funções de densidade de probabilidade à medida que
desenvolvemos as ferramentas da estatística inferencial.
Fórmula da Contagem
Para repetir, a probabilidade do evento A, P (A) é simplesmente o
número de maneiras pelas quais o experimento resultará em A, em
relação ao número total de possíveis resultados do experimento.
Quando analisamos o espaço da amostra para lançar 3 moedas,
poderíamos escrever facilmente o espaço amostral completo e,
assim, contar o número de eventos que atingiram o resultado
desejado, por exemplo x = 1, onde X é a variável aleatória definida
como o número de Caras.
Como temos um número maior de itens no espaço de amostra,
como um baralho completo de 52 cartas, a capacidade de escrever
o espaço de amostra se torna impossível.
Essa é a fórmula que informa o número de subconjuntos não
ordenados exclusivos de tamanho x que podem ser criados a partir
de n elementos exclusivos:
Lemos n combinacional x. A fórmula é denominada Fórmula
Combinatória e também denominada Coeficiente Binomial.
Vamos encontrar da maneira mais difícil o número total de
combinações dos quatro ases em um baralho de cartas, se
quisermos levá-los dois de cada vez. O espaço de amostra seria:
S = {(Espada, Copas);(Espada, Ouro);(Espada, Paus);(Ouro,
Paus); (Ouro, Copas); (Copas, Paus)}
Existem 6 combinações; formalmente, seis subconjuntos não
ordenados exclusivos de tamanho 2 que podem ser criados a partir
de 4 elementos exclusivos. Para usar a fórmula combinatória,
resolveríamos a fórmula da seguinte maneira:
Distribuição Hipergeométrica:
A função de densidade de probabilidade mais simples é a
hipergeométrica e combina:
• Diagrama de Venn
• Regras de adição
• Regras da multiplicação
• Fórmula Combinatória
Para encontrar o número de maneiras de obter 2 ases dos quatro
no baralho, calculamos
A distribuição hipergeométrica é um exemplo de uma distribuição
de probabilidade discreta porque não há possibilidade de sucesso
parcial,
Para a Distribuição Hipergeométrica funcionar é necessário:
• A população deve ser dividida em dois e apenas dois
subconjuntos independentes. A variável aleatória X = o número de
itens do grupo de interesse.
• O experimento deve ter probabilidades variáveis de sucesso
em cada experimento
• A variável aleatória deve ser discreta, em vez de contínua.
A distribuição hipergeométrica descreve o número de sucessos em
uma sequência de n amostras de uma população finita sem
reposição.
Em geral, se uma variável aleatória X segue uma distribuição
hipergeométrica com parâmetros m, n, e k, então a probabilidade
de termos exatamente j sucessos é dada por:
dbinom(1, size = 20, prob =0.01)
Características de um experimento Binomial
Há um número fixo de tentativas. Pense nas tentativas como
repetições de um experimento. A letra n indica o número de
tentativas.
A variável aleatória, x, número de sucessos, é discreta.
Existem apenas dois resultados possíveis, chamados "sucesso" e
"fracasso", para cada tentativa.
Os n ensaios são independentes e são repetidos usando condições
idênticas
● rbinom(Quantidade, Tamanho, Probabilidade)
● Instale o pacote distr
● X <- dbinom(size = 20, prob = 0.01)
● plot(x)
Distribuição Geométrica
A função de densidade de probabilidade geométrica baseia-se no
queaprendemos com a distribuição binomial. Nesse caso, o
experimento continua até que um sucesso ou um fracasso ocorra,
e não para um número definido de tentativas. Existem três
características principais de um experimento geométrico.
Existem um ou mais ensaios de Bernoulli com todas as falhas,
exceto a última, o que é um sucesso. Em outras palavras, você
continua repetindo o que está fazendo até o primeiro sucesso.
Então você para. Por exemplo, você lança um dardo em um alvo
até atingir o alvo. A primeira vez que você bate no alvo é um
"sucesso", então você para de jogar o dardo. Pode levar seis
tentativas até você acertar o alvo. Você pode pensar nas tentativas
como falha, falha, falha, falha, falha, sucesso, STOP.
Em teoria, o número de tentativas poderia durar para sempre.
A probabilidade, p, de um sucesso e a probabilidade, q, de uma
falha são as mesmas para cada tentativa. p + q = 1 e q = 1 - p.
Por exemplo, a probabilidade de rolar um três quando você joga
um dado justo é 1/6. Isso é verdade, não importa quantas vezes
você jogue o dado.
Suponha que você queira saber a probabilidade de obter os três
primeiros no quinto rolo. Nas jogadas de um a quatro, você não
tem cara de três. A probabilidade para cada um dos rolos é q = 5/6,
a probabilidade de uma falha. A probabilidade de obter três no
quinto lançamento é (5/6)(5/6)(5/6)(5/6)(1/6)= 0,0804
X = o número de tentativas independentes até o primeiro sucesso.
A notação adotada na distribuição geométrica é X~G(p)
A Função de Distribuição de Probabilidade geométrico nos diz a
probabilidade de que a primeira ocorrência de sucesso exija x
número de tentativas independentes, cada uma com probabilidade
de sucesso p.
Se a probabilidade de sucesso em cada tentativa for p, então a
probabilidade de que a xª tentativa (de x tentativas) seja o primeiro
sucesso é:
P(X = x) = (1 - p)x-1p para x = 1, 2, 3...
Nesse caso, a tentativa que é um sucesso não é contada como
uma tentativa na fórmula: x = número de falhas.
O valor esperado, médio, dessa distribuição é
De certa forma, a distribuição de Poisson pode ser pensada como
uma maneira inteligente de converter uma variável aleatória
contínua, geralmente o tempo, em uma variável aleatória discreta,
dividindo o tempo em intervalos independentes discretos. Essa
maneira de pensar sobre o Poisson nos ajuda a entender por que
ele pode ser usado para estimar a probabilidade da variável
aleatória discreta da distribuição binomial. O Poisson está pedindo
a probabilidade de um número de sucessos durante um período de
tempo, enquanto o binômio está pedindo a probabilidade de um
certo número de sucessos para um determinado número de
tentativas.
No R
● dpois(0, lambda = 1.4)
● Z <- Pois(lambda = 1.4)
Referência Bibliográfica
BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F.
Minicurso de Estatística Básica: Introdução ao Software R.
Universidade Federal de Santa Maria. Obtido em
http://www.ufsm.br/pet-ee em 1-11-19.
BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística
Básica. 8ª ed. São Paulo: Saraiva, 2013.
http://www.ufsm.br/pet-ee
CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de modelagem
matemática. Belo Horizonte: Autêntica Editora, 2011.
LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M.
Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed.
LTC, 2011.
SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada -
Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo,
2012.
Solução do professor
Se a probabilidade de a lâmpada sair aprovada é de 80% e como o
outro resultado possível é ela ser reprovada,
P(reprovada) = 1 - P(aprovada) → P(reprovada) = 1 - 0,8 =0,2 =
20%.
Variáveis Contínuas
Ográfico de uma distribuição de probabilidade contínua é uma
curva. A probabilidade é representada pela área abaixo da curva.
A área relativa de uma faixa de valores era a probabilidade de
desenhar aleatoriamente uma observação nesse grupo.
A probabilidade de um valor específico de uma variável aleatória
contínua será zero porque a área sob um ponto é zero.
Probabilidade é área.
A curva é chamada função de densidade de probabilidade
(abreviada como pdf). Usamos o símbolo f (x) para representar a
curva.
f (x) é a função que corresponde ao gráfico; usamos a função de
densidade f (x) para desenhar o gráfico da distribuição de
probabilidade.
A área sob a curva é dada por uma função diferente chamada
função de distribuição cumulativa (abreviada como cdf). A função
de distribuição cumulativa é usada para avaliar a probabilidade
como área. Matematicamente, a função de densidade de
probabilidade cumulativa é a integral do pdf, e a probabilidade
entre dois valores de uma variável aleatória contínua será a integral
do pdf entre esses dois valores: a área sob a curva entre esses
valores. Lembre-se de que a área sob o pdf para todos os valores
possíveis da variável aleatória é uma, com certeza. A
probabilidade, portanto, pode ser vista como a porcentagem
relativa de certeza entre os dois valores de interesse.
Os resultados são medidos, não contados.
A área inteira sob a curva e acima do eixo x é igual a um.
Probabilidade encontrada para intervalos de valores x em vez de
valores x individuais.
P (c <x <d) é a probabilidade de que a variável aleatória X esteja
no intervalo entre os valores c e d. P (c <x <d) é a área abaixo da
curva, acima do eixo x, à direita de c e à esquerda de d.
P (x = c) = 0 A probabilidade de x assumir qualquer valor individual
é zero. A área abaixo da curva, acima do eixo x e entre x = ce x = c
não tem largura e, portanto, não possui área (área = 0). Como a
probabilidade é igual à área, a probabilidade também é zero.
P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é
igual à área.
Existem muitas distribuições de probabilidade contínuas. Ao usar
uma distribuição de probabilidade contínua para modelar a
probabilidade, a distribuição usada é selecionada para modelar e
ajustar a situação específica da melhor maneira.
A área sob a curva é dada por uma função diferente chamada
função de distribuição acumulativa (abreviada como FDA)
Os resultados são medidos, não contados. A área inteira sob a
curva e acima do eixo x é igual a um.
Probabilidade encontrada para intervalos de valores x em vez de
valores x individuais.
P (c <x <d) é a probabilidade de que a variável aleatória X esteja
no intervalo entre os valores c e d. P (c <x <d) é a área abaixo da
curva, acima do eixo x, à direita de c e à esquerda de d.
P (x = c) = 0 A probabilidade de x assumir qualquer valor individual
é zero. A área abaixo da curva, acima do eixo x e entre x = ce x = c
não tem largura e, portanto, não possui área (área = 0). Como a
probabilidade é igual à área, a probabilidade também é zero.
P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é
igual à área.
P (c <x <d) é o mesmo que P (c ≤ x ≤ d) porque a probabilidade é
igual à área.
Distribuição Uniforme
A distribuição uniforme é uma distribuição de probabilidade
contínua e preocupa-se com eventos com a mesma probabilidade
de ocorrer.
Ao resolver problemas com uma distribuição uniforme, observe se
os dados são inclusivos ou exclusivos de terminais.
Onde a = o menor valor de x e b = o maior valor de x.
Representada pela expressão:
NO R
O R inclui funcionalidade para operações com distribuições de
probabilidades.
Para cada distribuição há 4 operações básicas indicadas pelas
letras:
• d → calcula a densidade de probabilidade f(x) no ponto
• P → calcula a função de probabilidade acumulada F(x) no ponto
• q → calcula o quantil correspondente a uma dada probabilidade
• r → retira uma amostra aleatória da distribuição
• args(runif) → Argumentos da função
• runif(5) → e tira 5 valores de uma distribuição uniforme
• runif(5, min=5, max=20)
• punif(0.75)
• Considere a função f(x) = 1/20 para 0 ≤ x ≤ 20
• x → Um número realO gráfico de f(x) = 1/20 é uma linha horizontal.
Encontre a probabilidade de 0 ≤ x ≤ 2
punif(2, min=0, max=20)
Distribuição Exponencial
A distribuição exponencial geralmente se preocupa com a
quantidade de tempo até que algum evento específico ocorra.
Tempo médio de espera μ
Desvio médio 1/μ
f(x) = me-mx
Para calcular probabilidades para funções específicas de
densidade de probabilidade, é usada a função de densidade
acumulativa. A função de densidade acumulativa (FDA) é
simplesmente a integral do FDP e é:
Exemplo → Deixe X = quantidade de tempo (em minutos) que um
funcionário postal gasta com um cliente. O tempo é conhecido nos
dados históricos como tendo uma quantidade média de tempo igual
a quatro minutos. É dado que µ = 4 minutos, ou seja, o tempo
médio que o funcionário passa com um cliente é de 4 minutos
• Deseja-se saber o valor da densidade para o tempo de
espera x = 5.
• dexp(5, rate=0.25)
Distribuição Normal
A função normal de densidade de probabilidade, uma distribuição
contínua, é a mais importante de todas as distribuições. É
amplamente utilizado e ainda mais amplamente abusado. Seu
gráfico é em forma de sino.
Você vê a curva do sino em quase todas as disciplinas. Alguns
deles incluem psicologia, negócios, economia, ciências,
enfermagem e, é claro, matemática. Alguns de seus instrutores
podem usar a distribuição normal para ajudar a determinar sua
nota.
A maioria das pontuações de QI são normalmente distribuídas.
Frequentemente, os preços dos imóveis se ajustam a uma
distribuição normal.
A distribuição normal é extremamente importante, mas não pode
ser aplicada a tudo no mundo real. Lembre-se aqui que ainda
estamos falando sobre a distribuição de dados da população. Esta
é uma discussão sobre probabilidade e, portanto, são os dados da
população que normalmente podem ser distribuídos e, se for, é
assim que podemos encontrar probabilidades de eventos
específicos, exatamente como fizemos para dados da população
que podem ser distribuídos binomialmente ou Poisson distribuídos.
. Essa cautela está aqui porque no próximo capítulo veremos que a
distribuição normal descreve algo muito diferente dos dados brutos
e forma a base da estatística inferencial.
A distribuição normal possui dois parâmetros (duas medidas
numéricas descritivas): a média (μ) e o desvio padrão (σ). Se X é
uma quantidade a ser medida que possui uma distribuição normal
com média (μ) e desvio padrão (σ), designamos isso escrevendo o
seguinte:
Referência Bibliográfica
BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F.
Minicurso de Estatística Básica: Introdução ao Software R.
Universidade Federal de Santa Maria. Obtido em
http://www.ufsm.br/pet-ee em 1-11-19.
BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística
Básica. 8ª ed. São Paulo: Saraiva, 2013.
CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de modelagem
matemática. Belo Horizonte: Autêntica Editora, 2011.
LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M.
Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed.
LTC, 2011.
SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada -
Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo,
2012.
http://www.ufsm.br/pet-ee
Solução do professor
(50-40)/20 = 0,5
Solução do professor
(12,5-0)(1/15)=0,8333
Teorema do Valor
Central
OTeorema do Limite Central é uma das ideias mais poderosas e
úteis em todas as estatísticas. É um teorema que significa que
NÃO é uma teoria ou apenas a ideia de alguém da maneira como
as coisas funcionam.
Como teorema, ele se classifica com o Teorema de Pitágoras, ou o
teorema que nos diz que a soma dos ângulos de um triângulo deve
somar 180.
O Teorema do Limite Central preocupa-se em extrair amostras
finitas de tamanho n de uma população com média conhecida, μ e
desvio padrão conhecido, σ.
A conclusão é que, se coletarmos amostras do tamanho n com um
"n suficientemente grande", calcularmos a média de cada amostra
e criarmos um histograma (distribuição) desses meios, a
distribuição resultante tenderá a ter uma distribuição normal
aproximada.
O resultado surpreendente é que não importa qual é a distribuição
da população original ou se você precisa conhecê-la.
O fato importante é que a distribuição das médias amostrais tende
a seguir a distribuição normal.
O tamanho da amostra, n, necessário para ser "grande o
suficiente" depende da população original da qual as amostras são
coletadas (o tamanho da amostra deve ser pelo menos 30 ou os
dados devem ser de uma distribuição normal).
Se a população original estiver longe do normal, serão necessárias
mais observações para as médias da amostra.
A distribuição amostral é uma distribuição teórica.
Ele é criado com muitas amostras de tamanho n de uma
população.
Cada média amostral é então tratada como uma única observação
dessa nova distribuição, a distribuição amostral.
A genialidade de pensar assim é que reconhece que, quando
provamos, estamos criando uma observação e essa observação
deve provir de alguma distribuição específica.
O Teorema do Limite Central responde à pergunta: de que
distribuição veio uma amostra?
Se isso for descoberto, podemos tratar uma média da amostra
como qualquer outra observação e calcular probabilidades sobre
quais valores ela pode assumir. Nós efetivamente passamos do
mundo das estatísticas, onde sabemos apenas o que temos da
amostra, para o mundo das probabilidades, onde sabemos a
distribuição da qual a média da amostra veio e os parâmetros
dessa distribuição.
As razões pelas quais se experimenta uma população são óbvias.
O tempo e as despesas de verificação de todas as faturas para
determinar sua validade ou remessa para verificar se ela contém
todos os itens podem exceder o custo de erros no faturamento ou
no envio.
Para alguns produtos, a amostragem exigiria sua destruição,
chamada amostragem destrutiva. Um exemplo é medir a
capacidade de um metal de resistir à corrosão da água salgada em
peças de embarcações oceânicas. A amostragem, portanto,
levanta uma questão importante; apenas qual amostra foi retirada.
Mesmo que a amostra tenha sido sorteada aleatoriamente, existe
teoricamente um número quase infinito de amostras.
Com apenas 100 itens, existem mais de 75 milhões de amostras
únicas do tamanho cinco que podem ser coletadas. Se seis
estiverem na amostra, o número de amostras possíveis aumenta
para pouco mais de um bilhão.
Dos 75 milhões de amostras possíveis, qual você conseguiu?
Se houver variação nos itens a serem amostrados, haverá variação
nas amostras. Pode-se tirar uma amostra "infeliz" e tirar conclusões
muito erradas a respeito da população. Esse reconhecimento de
que qualquer amostra que extraímos é realmente apenas uma de
uma distribuição de amostras nos fornece o que provavelmente é o
teorema mais importante é a estatística: o Teorema do Limite
Central.
Sem o Teorema do Limite Central, seria impossível proceder à
estatística inferencial a partir da simples teoria das probabilidades.
Na sua forma mais básica, o Teorema do Limite Central afirma que,
independentemente da função de densidade de probabilidade
subjacente dos dados da população, a distribuição teórica das
médias das amostras da população será normalmente distribuída.
Em essência, isso diz que a média de uma amostra deve ser
tratada como uma observação extraída de uma distribuição normal.
O Teorema do Limite Central somente é válido se o tamanho da
amostra for "grande o suficiente", o que demonstrou ser apenas 30
observações ou mais.
Para demonstrar vamos apresentar no R:
● Retira-se a média de 100 amostras de tamanho n=5, isto é,
recolhe-se 5 números de uma distribuição qualquer, neste
caso a binominal, e retira-se sua média 100 vezes.
● xbarra<-replicate(100,mean(rbinom(5,3,0.2)))
● Histograma usando as funções a seguir
● x_hist<-hist(xbarra,plot=F)
● x_density<-density(xbarra)
●hist(xbarra,probability =
T,xlim=range(c(x_hist$breaks,x_density$x)) ,ylim =
range(c(x_hist$density,x_density$y)))
● lines(x_density,lwd=2)
Repetindo as atividades temos:
● xbarra<-replicate(1000,mean(rbinom(5,3,0.2)))
● Histograma usando as funções a seguir
● x_hist<-hist(xbarra,plot=F)
● x_density<-density(xbarra)
● hist(xbarra,probability =
T,xlim=range(c(x_hist$breaks,x_density$x)) ,ylim =
range(c(x_hist$density,x_density$y)))
● lines(x_density,lwd=2)
Referência Bibliográfica
BORTOLUZZI, Mathias A.;DINIZ, Jean. DA SILVA; Bruno F.
Minicurso de Estatística Básica: Introdução ao Software R.
Universidade Federal de Santa Maria. Obtido em
http://www.ufsm.br/pet-ee em 1-11-19.
BUSSAB, Wilton de O; MORETTIN, Pedro Alberto. Estatística
Básica. 8ª ed. São Paulo: Saraiva, 2013.
CAMPOS, C. R.; WODEWONOTZKI, M. L.; JACOBINI, O.R.
Educação Estatística: teoria e prática em ambientes de modelagem
matemática. Belo Horizonte: Autêntica Editora, 2011.
LEVINE, D.M.; STEPHAN, D.F.; KREBIEL, T. e BERENSON, M.
Estatística - Teoria e Aplicações - Usando Microsoft Excel. 6ª Ed.
LTC, 2011.
SICSÙ, Abrahan Laredo; DANA, Samy. Estatística Aplicada -
Análise Exploratória de Dados. Ebook, Editora Saraiva. São Paulo,
2012.
E-book Toquato. Entenda Tudo Sobre Análise Preditiva. 2018.
Obtido em
https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise
-preditiva, acesso em 01-11-19.
http://www.ufsm.br/pet-ee
https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise-preditiva
https://materiais.toccato.com.br/e-book-entenda-tudo-sobre-analise-preditiva