Buscar

UNIDADE 4 - Estatistica aplicada e probabilidade AMPLI

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 62 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 62 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 62 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Introdução da Unidade
Objetivos da Unidade
Ao final desta Unidade, você será capaz de:
· descrever os fundamentos probabilísticos e estatísticos; 
· calcular medidas de tendência central e de dispersão; 
· empregar regressão linear e correlação. 
Estudante, você sabia que uma das melhores maneiras de representar dados é com gráficos e tabelas? E fazendo esse tipo de representação, você está trabalhando com estatística? Nesta unidade, vamos trabalhar com os principais conceitos de estatística, iniciando-se com a estatística descritiva e os principais tipos de gráficos. Logo em seguida, vamos revisar algumas definições de população e amostra, além dos conceitos de probabilidade. No entanto, nosso foco será trabalhar com resumo de dados e cálculos de probabilidades condicionais que são amplamente utilizados em testes de diagnósticos e também para encontrar o padrão-ouro, que é fundamental para comparação de parâmetros. Por fim, vamos entender os testes de hipóteses, que são fundamentais quando o assunto é tomar uma decisão. Vamos entender todos os fatores que afetam uma tomada de decisão e como decidir, estatisticamente falando.
Algo que você pode estar se perguntando é: mas como utilizamos a estatística em áreas como a Engenharia? Para exemplificar, suponha que você trabalhe com energia eólica e seu patrão te faça tomar uma decisão se este tipo de energia é útil e se vai gerar lucros e ser sustentável. O que você faria? Naturalmente, você coletaria dados e elaboraria uma hipótese que seria validada por métodos estatísticos para apresentar seus resultados e apresentaria gráficos. Viu como a estatística é importante nesse aspecto? Para lhe auxiliar, vamos, no decorrer desta unidade, aprender um pouco mais sobre ela! Então, mãos à obra!
Introdução da Aula
Qual é o foco da aula?
Nesta aula, você estudará sobre estatística descritiva. 
Objetivos gerais de aprendizagem
Ao final desta aula, você será capaz de:
· aplicar métodos tabulares e métodos gráficos; 
· identificar tipos de variáveis
· empregar o Excel para métodos tabulares e gráficos.
Situação-problema
Nesta aula, iremos entender como construir gráficos e tabela e como trabalhar com isso na prática. Esses conceitos são fundamentais, uma vez que são úteis para resumir informações e gerar apresentações a comitês sobre os resultados.
Como exemplo dessa abordagem, podemos considerar que você tenha interesse em lançar um serviço no mercado. Para isso, você deve realizar um experimento que irá gerar dados e você deve organizá-los em tabelas e gráficos para poder fazer um resumo dos seus resultados para a apresentação em um determinado comitê para aprovação do seu serviço. Viu como é importante entender essa questão? Gráficos bem detalhados e corretos te dão uma boa visão do que está ocorrendo em determinado setor e também é útil para mostrar à empresa as projeções.
Nos dias atuais, em qualquer apresentação empresarial, os gráficos fazem parte desse mundo, trazendo e até às vezes inovando a forma de exibir os resultados de uma empresa. Pensando nisso, seu gerente pediu sua sugestão para propor uma nova apresentação das vendas do último trimestre dos últimos 10 anos da empresa. A ideia é fazer com que esses valores fiquem apresentáveis, porém ele não tem nenhuma ideia de como fazer isso. Como você faria essa apresentação? Que tipo de gráfico você utilizaria para expor as vendas? E como você interpretaria esse gráfico?
Que tal começar esse entendimento agora? Você será acompanhado em todo o processo! Iniciaremos com os conceitos de tabelas e, depois, passaremos para os gráficos e uso do Excel!
Conceito de estatística e variável
Quando falamos de dados e o que eles mostram, estamos falando de estatística, mas o que é estatística? Como podemos definir esse conceito? Em termos gerais, podemos definir estatística como um conjunto de técnicas e métodos para realização de experimentos, coleta e análise de dados (NETO, 2006). Duas ferramentas são essenciais quando trabalhamos com estatística: população e amostra.
______
🔁 Assimile 
População: dizemos que um conjunto de elementos é uma população se tais elementos têm pelo menos uma característica em comum. Como exemplo de populações, temos árvores de uma determinada espécie, poluentes atmosféricos, pessoas que têm olhos de cor clara, etc.
Amostra: dizemos que um subconjunto de elementos é uma amostra quando ele for subconjunto de uma dada população. Como exemplo de amostra, podemos considerar um subconjunto de pessoas que têm olhos azuis da população de pessoas de olhos de cor clara.
______
Certo, agora que sabemos o que é uma população e uma amostra, que são as bases dos trabalhos de estatística, vamos introduzir um novo conceito que nos auxilia a construir métodos estatísticos no futuro. Esse conceito é o conceito de variável.
______
🔁 Assimile 
Variável: dizemos que uma determinada característica é uma variável se determina a natureza de uma população e pode assumir diversas classificações de acordo com a origem da população. No planejamento da pesquisa, por exemplo, devemos definir quais são as nossas características de interesse, antes da coleta dos dados.
______
É importante lembrar que as variáveis, em geral, têm natureza diferente, o que nos leva à classificá-las em dois grupos: quantitativas e qualitativas. Como definimos esses conceitos? Vamos começar com as variáveis quantitativas. Tais variáveis dizem respeito a características que podem ser medidas ou contadas, por exemplo, o preço de um ativo no mercado financeiro, o número de árvores de uma determinada espécie, a taxa de hemoglobina de um paciente, etc. E as variáveis qualitativas, como definimos? Ora, como o próprio nome já diz, qualidade. Essas variáveis estão ligadas à descrição de uma característica, não podendo ser contada ou medida, mas podendo ser observada, por exemplo, o nível educacional, a cor dos olhos, o sexo de um animal, etc. 
Além dessas classificações de variáveis, podemos ainda classificá-las em subcategorias. Isto é, no caso das variáveis qualitativas, podemos classificá-las em qualitativa nominal (quando não há uma ordem de classificação) ou qualitativa ordinal (quando há uma ordem de classificação). Exemplos de variáveis qualitativas nominais envolvem espécie de uma planta, cor dos olhos, sexo de um animal, etc. Já os exemplos de variáveis qualitativas ordinais envolvem a classificação do nível escolar, nível de urgência em um hospital, etc. (NETO, 2006).
Por outro lado, podemos também classificar as variáveis quantitativas em dois grupos: discretas ou contínuas. As discretas são aquelas que são originadas de um processo de contagem, como o número de peixes de uma espécie X em um determinado lago. Já as contínuas, bem, não existe uma contagem e podem assumir qualquer valor na reta real, como temperatura, índices pluviométricos, etc. (NETO, 2006).
______
💭 Reflita
Como você acha que devemos representar as variáveis? É possível ter um novo tipo de classificação de uma variável?
Tabelas de frequência
Certo, agora que sabemos o que é uma variável e suas classificações, vamos trabalhar com a exposição de dados. Em geral, representamos os dados por tabelas de frequência, que consiste, basicamente, em listar os valores possíveis da variável, numéricos ou não, e fazer a contagem na tabela de dados brutos do número de suas ocorrências (VIRGILITO, 2017). De acordo com Magalhães (2002), são componentes de uma tabela de frequência:
______
📝 Exemplificando
Suponha que uma dada variável que representa a concentração de metal no sangue (em μg/ml) de um paciente tenha como dados observados os valores: 20, 20, 20, 20, 21, 21, 21, 22, 22, 22, 22, 22, 23, 24, 24. Como representamos esses dados em tabela de frequência? Nesse caso, podemos trabalhar com a seguinte tabela de frequência:
Concentração de um metal no sangue (em μg/ml) dos pacientes. Fonte: elaborada pelo autor (2021).
______
No exemplo anterior, trabalhamos com uma representação de dados discretos. Mas como trabalhamos com dados contínuos? Nesse caso, dado que não podemosfazer uma contagem, trabalhamos com faixa de variações divididas em intervalos de classes, onde o menor valor da classe é denominado limite inferior (li) e o maior valor da classe é denominado limite superior (Li) (NETO, 2006). O intervalo ou a classe podem ser representados das seguintes maneiras (MAGALHÃES, 2002):
1. li⊢Li, onde o limite inferior da classe é incluído na contagem da frequência absoluta, mas o superior não;
2. i⊣Li, onde o limite superior da classe é incluído na contagem, mas o inferior não;
______
📝 Exemplificando
Suponha que em uma cidade X as precipitações diárias (em mm) foram dadas por 350, 260, 390, 250, 390, 210, 400, 160, 320, 390, 230, 150, 270, 440, 500 no mês de agosto de 2020. A partir dessas observações, pela regra de Surges, vamos considerar cinco classes, uma vez que k=4,88≈5. Nesse caso, uma tabela de frequência relativa a essas precipitações diárias (em mm) da cidade é descrita por:
Precipitações diárias (em mm) em uma cidade X em agosto de 2020. Fonte: elaborada pelo autor (2021).
______
Entendemos então como funcionam as tabelas de frequência, vamos agora para outra ferramenta importante para a análise de dados: os gráficos. As representações gráficas de tabelas de distribuições de frequências permitem uma visualização a respeito do comportamento das variáveis, incluindo sua dispersão. Em geral, a utilização de gráficos para resumir os resultados de uma pesquisa é comum e é sempre recomendável. E já que estamos falando de gráficos, alguns pontos devem ser levados em conta na sua construção (MAGALHÃES, 2002):
1. devem ser claros, simples, atrair a atenção e inspirar confiança;
2. servem para resumir resultados importantes de uma pesquisa;
3. sempre devem ter um título completo e ser colocado na parte superior do gráfico;
4. devem ser construídos numa escala que não implique outros tipos de interpretações;
5. deve-se sempre especificar (dar nome) e graduar (criar escala) os eixos;
6. quando os dados não são próprios, deve-se citar a fonte de origem dos dados do gráfico. 
Vamos então trabalhar com alguns tipos de gráficos, iniciando-se com o gráfico de barras. O gráfico de barras apresenta dados categorizados em barras retangulares em que cada barra é proporcional ao número de observações naquela categoria da variável (NETO, 2006). Utilizamos esse tipo de gráfico, em geral, para realizar comparações entre as categorias de uma variável qualitativa ou quantitativa discreta. E como fazemos esse gráfico em um software como o Excel? Ora, nesse caso, digitamos os nossos dados na planilha e vamos em Inserir > Gráficos > Barra. Como exemplo, vamos considerar o gráfico de barras feito no Excel exposto na figura abaixo. 
Gráfico de barras correspondente à precipitação total (em mm) de 1 ano em quatro cidades diferentes. Fonte: elaborada pelo autor (2021).
Vimos que o gráfico de barras é um gráfico para variáveis qualitativas ou variável quantitativa discreta, mas e para variável quantitativa contínua, qual gráfico utilizamos? Nesse caso, trabalhamos com o histograma, que é uma representação gráfica da distribuição de frequências em intervalos de classes de dados quantitativos contínuos. E como fazemos esse gráfico no Excel? Ora, seguimos o mesmo caminho do gráfico de barras, só mudamos o tipo de gráfico. Nesse caso, vamos na opção Inserir > Gráficos > Histograma. Como exemplo, vamos considerar o histograma feito no Excel exposto na figura abaixo. 
Precipitação (mm) em 15 cidades no mês de agosto. Fonte: elaborada pelo autor (2021).
Vimos então como lidar com gráficos de barras e com o histograma. No entanto, temos um terceiro tipo de gráfico que é de suma importância para variáveis qualitativas nominais, que é o gráfico de setores. Esse tipo de gráfico é a representação gráfica da frequência relativa (percentagem) de cada categoria da variável qualitativa (NETO, 2006). E no Excel, como fazemos esse tipo de gráfico? Ora, trabalhamos como nos anteriores, Inserir > Gráfico > Pizza 2D, nesse caso. Como exemplo, vamos considerar a representação dos dados de duas espécies de plantas descritos na tabela a seguir
Dados relativos a duas espécies de plantas e suas respectivas porcentagens em um dado estudo biológico. Fonte: elaborada pelo autor (2020).Gráfico de setores do número de plantas de espécies carnívoras e não carnívoras em uma determinada região. Fonte: elaborada pelo autor (2021).
Um outro tipo de gráfico popular é o de linhas. É um tipo de gráfico que exibe informações de uma série temporal em que os valores do eixo x representam a escala de tempo e os valores do eixo y os dados observados. Os pontos são ligados por segmentos de reta (MAGALHÃES, 2002). E como fazemos no Excel? Da mesma forma que os anteriores, Inserir > Gráfico > Gráfico de linhas. Como exemplo, considere a concentração de nitrogênio no decorrer dos anos em um determinado rio, conforme a figura abaixo. 
Concentrações de nitrogênio em um determinado rio nos últimos anos. Fonte: elaborada pelo autor (2021).
Agora, para encerrar nosso estudo de gráficos e tabelas, vamos considerar o boxplot, que é gráfico utilizado para avaliar a distribuição empírica dos dados e é extremamente comum em pesquisas médicas, por exemplo. Esse gráfico é, basicamente, formado pelo primeiro e terceiro quartil e pela mediana. No Excel, trabalhamos da mesma forma que nos anteriores, Inserir > Gráfico > Boxplot. Como exemplo, vamos trabalhar com as concentrações de chumbo no sangue de pacientes de um determinado hospital após sofrerem um acidente de trabalho em uma mina. As concentrações (em μg/ml) de cada paciente estudado são dadas por: 15.2; 10.5; 20.1; 14.2; 13.2; 15.8; 15.7; 14.2; 11.5; 17.8; 18.5. Utilizando-se o Excel, o gráfico dessa situação é dado pela figura abaixo.
Boxplot das concentrações de chumbo no sangue de pacientes após um acidente de trabalho em uma mina. Fonte: elaborada pelo autor (2021).
E com isso encerramos nossa aula sobre tabelas e gráficos, que são as ferramentas essenciais quando trabalhamos com estatística. Lembre-se sempre de usá-los quando você estiver atuando em sua área de trabalho!
Conclusão
Visto que a natureza da variável é quantitativa contínua, devemos pensar em gráficos relacionados com essa variável. Uma outra coisa deve ser levada em conta também, a escala temporal. Isto é, a ideia é avaliar as vendas do último trimestre nos últimos 10 anos da empresa, então temos uma escala temporal de 10 anos, uma observação por ano. Isso nos define um tipo de gráfico chamado gráfico de linha, que nos traz a informação de uma variável quantitativa contínua em escala temporal, como podemos ver, por exemplo, na figura abaixo. 
Exemplo de gráfico de linha para variáveis em escala temporal. Fonte: elaborada pelo autor (2021).
Podemos interpretar esse gráfico da seguinte maneira: o lucro da empresa sofreu uma alta nos anos de 2011 e 2017, sendo a maior alta em 2017, e uma queda brusca entre 2011 e 2012. Embora entre 2012 e 2017 a empresa estava se recuperando, em 2018 ela teve outra queda brusca e o menor lucro dos 10 anos considerado na análise. Voltou a crescer em 2019, chegando próximo ao valor do lucro obtido no ano de 2010 somente no ano de 2020, após a queda de 2018.
Introdução da Aula
Qual é o foco da aula?
Nesta aula, você estudará sobre interpolação. 
Objetivos gerais de aprendizagem
Ao final desta aula, você será capaz de:
· descrever as técnicas de contagem da probabilidade; 
· calcular probabilidade condicional; 
· aplicar distribuições de probabilidade para variáveis discretas e contínuas;
Situação-problema
Estudante, nesta aula iremos entender o conceito de probabilidade e o que são as distribuições de probabilidade. Tais conceitos são fundamentais quando trabalhamos, por exemplo, com modelagem ou, até mesmo, previsão de lucros de uma empresa.
Como exemplo dessa abordagem, imagine que você tenha interesse em saber, em média, quanto tempo irá demorar para o seu maquinário falhar para saber quando será necessário trocar e se programar com o orçamento. Para fazer isso, você deve considerar a distribuiçãode probabilidade do tempo de falhar e trabalhar com a média dessa distribuição. Percebe a importância desse conteúdo?
Os acidentes industriais, na atualidade, embora reduzidos, ainda são um problema complexo para muitas indústrias. Pensando nisso, você foi contratado para estimar a probabilidade de acidentes anuais de uma determinada empresa. A única informação que o dono da empresa lhe passou foi de que a chance de um único trabalhador se envolver em um acidente é de aproximadamente 0,00024 e que a empresa tem muitos trabalhadores. Como você faria para estimar esse número? Como você pode interpretar esse resultado?
Que tal começar esse entendimento agora? Você será acompanhado em todo o processo! Iniciaremos com os conceitos básicos de probabilidade e, depois, passaremos para as distribuições de probabilidade.
Conceito de probabilidade e Variável aleatória
Antes de começar nossos estudos, vamos relembrar um pouquinho da história da probabilidade. De acordo com o contexto histórico, acredita-se que a teoria da probabilidade que conhecemos hoje teve seu início com os matemáticos franceses Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665) em estudos sobre jogos de dados, em que o objetivo era determinar a probabilidade exata (NETO, 2006). 
De acordo com Magalhães (2002), na literatura, há três interpretações do conceito de probabilidade: a frequentista, a clássica e a subjetiva. Ele é válido para o conceito de experimentos, que são classificados em aleatórios e determinísticos.
______
🔁 Assimile
______
Pronto, agora sabemos o que é uma probabilidade no sentido matemático. Como a calculamos, é com base nas interpretações frequentista, clássica e subjetiva supracitadas. O nosso foco agora é, a partir desse conceito, definir o que é uma distribuição de probabilidade. Mas antes necessitamos de alguns conceitos preliminares que são de suma importância, como a regra da adição.
Regra da adição (MAGALHÃES, 2002): sejam A, B∈Λ. Então P(A∪B) = P(A) + P(B) − P(A∩B). Por outro lado, se A e B são eventos mutuamente exclusivos, a probabilidade P(A∪B) se reduz a P(A∪B) = P(A) + P(B).
Com a regra da adição em mãos, temos ferramentas para definir a probabilidade condicional. Antes de fazer essa definição, vamos a uma questão: por que necessitamos de probabilidade condicional? Ora, em algumas situações, a probabilidade necessita ser reavaliada sempre que novas informações se tornam disponíveis e essa nova informação pode causar algum tipo de interferência no resultado anterior. Nessa situação, trabalhamos então com a chamada probabilidade condicional. 
______
📝 Exemplificando
Isto é, como (PA∣B)=0,33 e sabendo que a face foi menor ou igual a 3, temos evidências de que a chance de sair par é improvável de acontecer.
______
Bom, definimos a nossa primeira regra, a regra da adição, que foi base para a probabilidade condicional. Será que existem outras regras que são bases para outros tipos de probabilidade? A resposta é sim. Vamos trabalhar com a regra da multiplicação, que é base do famoso teorema de Bayes.
A partir dessa regra, podemos definir dois teoremas de suma importância no contexto de probabilidade: o teorema da probabilidade total e o teorema de Bayes. Esses dois teoremas são a base do que chamamos de inferência bayesiana. Vamos à definição deles?
Uma das principais aplicações do tão famoso teorema de Bayes é em análises clínicas no contexto de teste de diagnósticos, em que o objetivo é definir os falsos positivos e falsos negativos, a fim de encontrar um padrão-ouro.
______
💭 Reflita
Em que outras situações você acha que o teorema de Bayes pode ser aplicado? Existe condições especiais para essa aplicação?
Bom, fizemos então um resumo dos principais conceitos de probabilidade que necessitamos para trabalhar com nossas distribuições de probabilidade. No entanto, ainda falta uma ferramenta essencial: a variável aleatória. O que é uma variável aleatória? No que consiste a ideia desse conceito? Basicamente, a ideia de variáveis aleatórias consiste no conceito de que é possível associar um número real a cada resultado no espaço amostral Ω. Matematicamente, podemos definir uma variável aleatória como:
Certo, agora sim temos todas as ferramentas necessárias para lidar com as distribuições de probabilidade. Mas antes, vamos primeiro classificar as variáveis aleatórias. Lembra-se de que tínhamos dois tipos de dados quantitativos, discretos ou contínuos? Pois então, temos a mesma classificação para variáveis aleatórias.
e obedece às seguintes propriedades:
Uma vez que sabemos o que é uma função de distribuição acumulada, podemos calcular a função densidade de probabilidade. No entanto, devemos tomar cuidado com essa função já que ela possui definições diferentes dependendo da natureza da nossa variável aleatória. Por exemplo, se X é uma variável aleatória discreta, então a função de probabilidade é definida como P(X=x)=F(x)−F(x+1). Por outro lado, se X é uma variável aleatória contínua, então a função densidade de probabilidade é descrita como 
É importante destacar também que o nome “função densidade de probabilidade” muda de acordo com a natureza da variável aleatória justamente para diferenciar as duas, tudo bem?
Distribuição de probabilidade
Bom, definimos as duas funções fundamentais para determinar uma distribuição de probabilidade. Vamos começar então? Iremos dividir as distribuições de probabilidade em dois grupos: contínuas e discretas, iniciando-se pelas discretas. Vale a ressalva que, neste texto, nosso enfoque será entender a equação da distribuição, e não detalhá-la matematicamente.
A primeira distribuição de probabilidade discreta que vamos estudar é a distribuição de Bernoulli. Essa distribuição, em particular, trata de uma variável em que se observa apenas dois tipos de probabilidade: sucesso e fracasso. Matematicamente, podemos defini-la como:
Distribuição de Bernoulli (MAGALHÃES, 2002): seja X uma variável aleatória discreta com as seguintes características:
x: Sucesso, se x = 1
x: Fracasso, se x = 0
Logo, a função de probabilidade que caracteriza X é descrita por
A distribuição de probabilidade de X é conhecida como distribuição de Bernoulli com parâmetro e função de probabilidade dada pela expressão anterior. Se X~Bernoulli(ρ), então E(X) =ρ e Var(X) = 1 −ρ, em que E(X) representa a média da distribuição e Var(X) a variância da distribuição.
A segunda distribuição discreta que vamos trabalhar é a distribuição binomial. Ela é basicamente uma generalização da distribuição de Bernoulli, aqui estamos interessados em n sucessos. Matematicamente, essa distribuição pode ser definida como:
Distribuição Binomial (MAGALHÃES, 2002): seja X uma variável aleatória discreta, tal que X conta o número de tentativas que resultam em um sucesso em n tentativas. Nesse caso, a distribuição de probabilidade de X é conhecida como distribuição binomial com parâmetro ρ e função de probabilidade caracterizada por:
A terceira distribuição de probabilidade discreta mais famosa é a distribuição geométrica, diferente das duas anteriores, nosso interesse aqui é trabalhar com o número de fracassos até o primeiro sucesso. Matematicamente, ela pode ser definida como:
Distribuição geométrica (MAGALHÃES, 2002): seja X uma variável aleatória discreta, tal que X conte o número de fracassos anteriores ao primeiro sucesso. Nesse caso, a distribuição de probabilidade de X é conhecida como distribuição geométrica com parâmetro ρ e tem função de probabilidade escrita na forma:
Por fim, a última distribuição discreta que vamos abordar neste texto é a distribuição de Poisson. Em comparação às outras três, a distribuição de Poisson não lida com fracasso e sucesso, mas sim com número de eventos em um dado intervalo de tempo. Matematicamente, essa distribuição pode ser definida como:
Beleza, encerramos as distribuições de probabilidade discretas. Vamos então para as distribuições de probabilidade contínuas. Vamos dar início aos estudos dessas distribuições com a distribuição uniforme que trabalha com intervalos (a,b). Matematicamente,essa distribuição é definida como:
Distribuição uniforme (MAGALHÃES, 2002): Dizemos que uma variável aleatória contínua X é distribuída uniformemente ao longo do intervalo (a,b) se sua função densidade de probabilidade é dada por:
Uma segunda distribuição de probabilidade contínua extremamente conhecida é a distribuição beta, que é uma distribuição para lidar com dados no intervalo (0,1), como taxas sanguíneas que estão limitadas a esse intervalo. As principais aplicações dessa distribuição, em geral, são na área da saúde. Matematicamente, podemos definir a distribuição beta como:
Para encerrar nossos estudos sobre distribuições contínuas, vamos trabalhar com três distribuições que são muito famosas, especialmente no contexto de teste de hipóteses, que são as distribuições qui-quadrado, t de Student e normal. Essas distribuições têm seus valores tabelados (que chamamos de Tabela da Normal, Tabela do Qui-Quadrado, Tabela t de Student), o que facilita o cálculo das probabilidades dessas distribuições. Mas o maior interesse nelas é, justamente, quando lidamos com testes de hipóteses em que precisamos decidir sobre uma hipótese (veremos mais sobre esses conceitos na Aula 3 desta unidade). Essas distribuições são definidas, matematicamente, como:
Distribuição qui-quadrado (MAGALHÃES, 2002): uma variável aleatória contínua X segue uma distribuição qui-quadrado com ν graus de liberdade se sua função densidade for escrita na forma:
Distribuição t de Student (MAGALHÃES, 2002): uma variável aleatória contínua X tem distribuição t de Student com ν graus de liberdade se sua função densidade de probabilidade é dada por:
e é conhecida como distribuição normal padrão. Nesse caso, dizemos que X~N(0,1). Para transformar uma variável da distribuição normal para a distribuição normal padrão, utilizamos a seguinte equação:
que é chamada de normalização padrão da variável e Z segue uma distribuição normal padrão. Com isso, então, fechamos o nosso conteúdo sobre probabilidade e distribuições de probabilidade. Agora é hora de colocar a mão na massa e trabalhar com esses conceitos!
Conclusão
Veja que o problema em questão envolve contagem e tempo, visto que são acidentes anuais. Naturalmente, esse problema seria trabalhar com a questão de sofrer ou não um acidente que remete à distribuição binomial, porém ela pode se tornar complexa devido ao grande número de funcionários. Nesse caso, trabalhamos com a aproximação da distribuição binomial para a distribuição de Poisson, em que tiramos que o parâmetro λ é estimado por:
λ=np
Em que n é o número de trabalhadores e p é a probabilidade de um único trabalhador se envolver em um acidente. Vamos supor que nessa empresa tenha 100.000 trabalhadores. Nesse caso, temos que:
Isso quer dizer que, em média, o número de trabalhadores envolvidos em acidentes seria de 24 trabalhadores anualmente. Assumindo que a distribuição de Poisson é recomendada para esses dados, temos que a probabilidade de nenhum trabalhador sofrer acidente é descrita por:
Ou seja, a chance de ninguém sofrer acidente é muito baixa. Agora, a chance de mais do que 24 trabalhadores sofrer acidentes é descrita por:
Isto é, a chance de mais de 24 trabalhadores sofrerem acidentes nessa empresa é de aproximadamente 44,6%. Conclusão, há poucas chances de um número X de trabalhadores não sofrerem acidente, mas há uma chance muito grande de, acima de um limiar, muitos trabalhadores sofrerem acidente.
Introdução da Aula
Qual é o foco da aula?
Nesta aula, você estudará métodos de tomada de decisão. 
Objetivos gerais de aprendizagem
Ao final desta aula, você será capaz de:
· empregar hipótese estatística;
· aplicar testes de hipóteses.
· diferenciar teste de uma cauda e de duas caudas, teste t e teste z e testes referentes à proporção amostral;
Situação-problema
Estudante, nesta aula iremos entender como fazemos para tomar uma decisão com embasamento estatístico. Este é um dos tópicos mais importantes que você irá estudar nesta unidade, visto que a tomada de decisões faz parte do nosso cotidiano.
Como exemplo dessa abordagem, considere que você precisa decidir sobre a eficácia de uma vacina. Após realizações de experimentos, você chega à seguinte hipótese: “a vacina é eficaz?”. Para saber como responder essa pergunta, você deve se basear em métodos estatísticos para fundamentar sua resposta, pois é com base nessa experimentação que você vai decidir se a vacina é ou não eficaz.
Os níveis de colesterol, em geral, são indicadores de boa saúde. Em um dado estudo envolvendo adultos hipertensos e fumantes, o pesquisador-chefe lhe convidou para auxiliá-lo em um teste de hipóteses. Sabendo que o desvio-padrão populacional é descrito por 46 mg/ml, o pesquisador deseja testar a hipótese de que o nível médio de colesterol nessa população é de 211 mg/ml a partir de uma amostra de 12 adultos hipertensos e fumantes que têm como nível médio de colesterol cerca de 217 mg/ml ao nível de significância de 5%. Como você faria para auxiliar esse pesquisador? Qual tipo de teste você recomendaria para testar a hipótese dele? Qual seria o p-valor obtido no teste definido?
Que tal começar esse entendimento agora? Você será acompanhado em todo o processo! Iniciaremos com os conceitos de hipóteses e, depois, passaremos para os métodos estatísticos para a tomada de decisões.
Hipótese estatística e teste de hipótese
Você já imaginou como são feitas as tomadas de decisões acerca de um medicamento? De um júri? Ou até mesmo de um material de construção? Não? Pois então, nesta se iremos trabalhar com os métodos que fundamentam a tomada de decisões com base em experimentação. Vamos começar com um pequeno exemplo antes de definir as condições para tomar uma decisão.
Suponha que um certo indivíduo está sendo julgado por um certo crime. Naturalmente, o júri precisa decidir sobre a culpa ou não desse indivíduo, com base em fatos, testemunhas e leis. Nesse caso, então, duas hipóteses podem ser formuladas:
H0: {o indivíduo é culpado}
H1: {o indivíduo é inocente}
A decisão por cada uma das hipóteses está sujeita a erros, é claro. Por exemplo, ao tomar a decisão por H0, o júri pode cometer um erro, uma vez que o indivíduo pode ser inocente. O mesmo vale se for tomada a decisão por H1. No entanto, na prática, uma das decisões deve ser tomada, mesmo com essa possibilidade de se cometer um erro. Então, sabendo das condições de erro, como fazemos para tomar a decisão mais coerente? Antes de responder essa questão, vamos a algumas definições importantes.
A primeira definição que vamos trabalhar é com a de hipótese estatística, que é a base fundamental da tomada de decisões. Mas o que é uma hipótese estatística? Ora, uma hipótese estatística nada mais é do que qualquer tipo de afirmação que se faça sobre a distribuição de probabilidade de uma ou mais variável aleatória em que H0 representa a hipótese nula e H1 a hipótese alternativa. Certo, mas você deve estar se perguntando o que essa definição tem a ver com a questão exposta sobre o júri, por exemplo. Veja que, embora não foi citado, a distribuição de probabilidade no exemplo estava implícita. Em geral, trabalhamos com essas distribuições implicitamente nas questões práticas, quando o assunto é tomar uma decisão, isto é, elas funcionam, basicamente, como uma ferramenta.
Certo, sabemos o que é uma hipótese. Precisamos entender agora o que é um teste de hipóteses. Em termos matemáticos, um teste de uma hipótese estatística é uma função de decisão d: X→ {a0, a1}, em que a1 corresponde à ação de considerar a hipótese H0 como verdadeira, corresponde à de considerar a hipótese H1 como verdadeira e X é o espaço amostral associado à amostra X1, …, Xn (CASELLA; BERGER, 2010). 
______
🔁 Assimile 
Certo, temos as hipóteses, mas como escrevemos a região de aceitação e região de rejeição que formam a base do teste de hipóteses? Para isso, vamos trabalhar com a distribuição de probabilidade da situação ilustrada. Logo, seja Xi a variável aleatória de Bernoulli que assume valor 1 se ocorrer cara no i-ésimo lançamento, eo valor 0 caso contrário, i = 1,2,3. Nesses termos, o espaço amostral X é descrito por:
X={(0,0,0), (1,0,0), (0,1,0), (0,0,1), (0,1,1), (1,0,1), (1,1,0), (1,1,1)}
Logo, podemos escrever a região de rejeição (ou crítica) para esse teste de hipóteses como:
de modo que a região de aceitação seja: 
A0={(x1, x2, x3); x1+ x2+ x3< 2}.
______
Bom, agora sabemos o que é uma hipótese, um teste de hipótese e como determinar a região crítica, porém, no início da aula falamos também sobre os possíveis erros ao se tomar uma decisão. Temos dois tipos de erros a considerar: o erro do tipo I e o erro do tipo II. O que significam esses erros? Ora, quando rejeitamos a hipótese nula quando de fato ela é verdadeira, estamos cometendo o que chamamos de erro do tipo I. Por outro lado, quando não rejeitamos a hipótese nula quando de fato ela é falsa, estamos cometendo erro do tipo II (CASELLA; BERGER, 2010). No geral, denotamos as probabilidades desses dois tipos de erro como α e β, respectivamente.
Outro fator importante quando trabalhamos com testes de hipóteses é a função de risco, que vai determinar para nós a probabilidade dos erros do tipo I e tipo II. Mas antes de trabalhar com essa função, precisamos de uma definição da função de perda, que é a seguinte:
Agora sim podemos trabalhar com a função de risco. Nesse caso, a função de risco que determina a probabilidade dos erros do tipo I e II, com base na função de perda, é dada por:
Em que E representa o valor esperado (ou média).
Certo, vimos muitas componentes sobre os testes de hipóteses, mas ainda faltam duas que são as mais usuais de aparecerem nos trabalhos científicos e nos trabalhos diários envolvendo testes de hipóteses: o nível de significância nominal e o nível descritivo do teste (ou p-valor). Vamos entender esses conceitos pelas definições a seguir:
Nível de significância nominal de um teste de hipótese (CASELLA; BERGER, 2010): é caracterizado pela probabilidade de se cometer o erro do tipo I. Em grande parte dos estudos, adota-se, em geral, o nível de significância α=0.05. 
Nível descritivo do teste, ou p-valor (CASELLA; BERGER, 2010): traduz a probabilidade de que a estatística do teste (como variável aleatória) tenha valor extremo em relação ao valor observado (estatística) quando a hipótese nula é verdadeira. Em outras palavras, sob o ponto de vista matemático, considere um teste de hipóteses no qual Rα é a região de rejeição com nível de significância α e suponha que, para diferentes valores de α, as regiões Rα e Rα1 satisfazem Rα⊂Rα1 com α<α1. Dessa forma, sob essas condições, o p-valor é definido por: p = p(X)=inf{α: X∈ Rα} em que X representa a amostra aleatória e inf é o ínfimo do conjunto. 
É importante destacar que com essa definição de p-valor, podemos reescrever a nossa definição anterior de região a fim de definir o que é poder do teste, que é um dos conceitos mais importantes quando se trabalha com teste de hipóteses. Nesse caso, o poder do teste pode ser definido como:
______
📝 Exemplificando
Hipótese simples, teste ótimo e lema de Neyman-Pearson
Agora já sabemos trabalhar com testes de hipóteses! Antes de ir para os tipos de testes mais comuns da prática cotidiana, vamos trabalhar com mais três conceitos para fechar esse aparato teórico. Tais conceitos são: hipótese simples, teste ótimo e, finalmente, o lema de Neyman-Pearson. O lema de Neyman-Pearson é o que nos assegura a construção de qualquer tipo de teste de hipóteses, isto é, é o resultado mais importante e fundamental desse contexto teórico. Mas vamos começar com a hipótese simples.
A partir dessa definição e da definição da função de verossimilhança de uma distribuição de probabilidade (ver Casella; Berger, 2010), podemos definir o conceito de teste ótimo.
Agora, com as definições de hipótese simples e teste ótimo, temos as ferramentas necessárias para enunciar o lema de Neyman-Pearson, que é um dos resultados mais importantes quando se fala de teste de hipóteses.
Neyman-Pearson (CASELLA; BERGER, 2010): considere o teste com região crítica descrita por:
Testes de hipóteses na prática
Encerramos então a nossa primeira parte desta aula, que era a parte teórica a respeito dos testes de hipóteses. Agora, vamos trabalhar com alguns testes comuns na prática. O primeiro que iremos trabalhar é o teste Z.
O teste Z para média é um teste estatístico baseado na distribuição normal para amostras grandes e desvio-padrão conhecido. Nesse caso, a estatística do teste é descrita por:
O teste Z é um dos testes mais simples que temos para fazer comparação de médias, porém ele pode ser ruim quando trabalhamos com amostras muito pequenas e não aplicável quando não conhecemos o valor do desvio-padrão populacional. E como resolvemos se isso acontecer? Ora, nesse caso, temos um teste análogo ao teste Z, que é o teste t baseado na distribuição t de Student. Esse teste é utilizado, em geral, quando não conhecemos o valor do desvio-padrão populacional e a amostra é pequena. A estatística do teste é dada por:
Além disso, podemos testar os mesmos tipos de hipóteses anteriores para o teste bicaudal e unicaudal. E quando temos duas médias, podemos trabalhar também com o teste t? Sim, podemos, porém há uma diferença em relação ao teste Z. Nesse caso, temos duas considerações: variâncias iguais e variâncias diferentes. No caso em que elas são iguais, a estatística do teste é dada por:
E no caso em que elas são diferentes, a estatística do teste é dada por:
Agora já sabemos como testar a média. Mas esse é o único tipo de teste que pode ser feito? Não, podemos trabalhar também com testes de proporção, além de outras medidas. Neste texto, nosso foco serão os testes de média e de proporção. Então, para encerrar nossa aula, vamos considerar o teste para proporção, que é baseado no teorema central do limite e no teste Z, com estatística de teste dada por:
Como exemplo de aplicação desse teste, podemos testar hipóteses do tipo “um engenheiro garante que 95% dos seus projetos estão de acordo com as normas da ABNT” ou “uma empresa garante que é responsável por apenas 10% da contaminação de um determinado lago”, e assim por diante. E para duas proporções, também conseguimos trabalhar com esse teste? Sim, nesse caso, a estatística do teste é dada por:
______
💭 Reflita
No caso de proporções, você acha que é possível trabalhar com o teste t em vez do teste Z? Se sim, como você acha que ficaria a estatística do teste?
______
Com isso fechamos o nosso conteúdo sobre testes de hipóteses, que são ferramentas fundamentais para lidar com a tomada de decisões. Agora é hora de colocar a mão na massa e trabalhar com esses conceitos.
Conclusão
A primeira coisa que devemos analisar é se o teste será unicaudal ou bicaudal. Na situação exposta, notemos que o nível médio de colesterol da subpopulação de hipertensos e fumantes pode ser maior ou menor do que o nível médio de colesterol considerado na hipótese de teste, então, nossa hipótese alternativa é descrita por:
Isto é, estamos considerando um teste bicaudal nas condições do problema. A segunda observação que devemos ter em mente é de que o tamanho da amostra considerada é pequeno, o que nos indica que o teste t seria apropriado. No entanto, devemos notar também que o desvio-padrão populacional é conhecido, nossa terceira observação. Então, nesse caso, podemos utilizar o teste Z. Assim, após esses critérios, podemos recomendar ao pesquisador o uso do teste Z, que é baseado na estatística:
Que, usando os dados do nosso problema, é dado por:
Nesse caso, como Z segue a distribuição normal padrão, temos que o p-valor, ao nível de significância de 5% e com base na tabela da distribuição normal para teste bicaudal, é igual a 0,652. Como esse valor é maior do que 0,05, não rejeitamos a hipótese nula (ou de pesquisa). Ou seja, podemos concluir ao pesquisador que, baseado nessa amostra, não há evidências de que o nível médio de colesterol dessa população de fumantes hipertensos seja diferente de 211 mg/ml.
Referências
CASELLA, G.; BERGER, R. L. Inferência Estatística.São Paulo: Cengage Learning Brasil, 2010.
HENRIQUES, C. Análise de regressão linear simples e múltipla. Departamento de Matemática. Escola Superior de Tecnologia de Viseu. Portugal, 2011.
JUNIOR, P. J. R. Introdução ao Ambiente Estatístico R. In: JUNIOR, P. J. R. Gráficos no R. Universidade Federal do Paraná, Curitiba, 2011. Disponível em: http://www.leg.ufpr.br/~paulojus/embrapa/Rembrapa/Rembrapase9.html. Acesso em: 18 mar. 2022. 
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Editora da Universidade de São Paulo, 2002.
NETO, P. L. O. C. Estatística. São Paulo: Blucher, 2006.
SOUZA, N. Visualização de dados e testes de hipóteses com R: uma breve abordagem prática. Universidade Aberta do Brasil, 2018. Disponível em: https://repositorioaberto.uab.pt/bitstream/10400.2/5952/10/R_text_v9_ReposAb.pdf. Acesso em: 18 mar. 2022. 
THE R Project for Statistical Computing. Disponível em: https://www.r-project.org. Acesso em: 18 mar. 2022. 
VIRGILITO, S. B. Estatística Aplicada. São Paulo: Saraiva, 2017.

Continue navegando

Outros materiais