Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Unidade I ESTATÍSTICA Prof. Emanuel Matos Sumário 1 As três subdivisões da estatística: Estatística descritiva – Probabilidades – Inferência. Dados estatísticos: Tipos de dados Tipos de dados. Dados quantitativos – Dados qualitativos. Como identificar o tipo de uma variável? Classificação de variáveis. ç Dados brutos. Estatística Segundo o prof. Costa Neto, “podemos considerar a Estatística como a Ciência que se preocupa com a organização, descrição, análise e interpretação de dados experimentais”. Definição ampla. Estatística descritiva A chamada estatística descritiva diz respeito à organização e ao resumo dos dados a respeito do conjunto estudado, de modo a descrevê-lo de maneira apropriada. Fazem parte dessa subdivisão a elaboração de tabelas esubdivisão a elaboração de tabelas e gráficos para a apresentação dos dados e a determinação de parâmetros que representem o conjunto, como a moda, a mediana, a média e as medidas de dispersão, que dizem respeito aode dispersão, que dizem respeito ao nível de similaridade entre os elementos do conjunto. Estatística descritiva – Exemplo Repositório de dados – UCI. Dados relativos ao vinho. Título de banco de dados: dados de reconhecimento de vinho – Atualizado 21 de setembro de 1998 por C. Blake:de setembro de 1998 por C. Blake: informações atributo adicionado 2.2. Fontes: (a) Forina, M. et al, PARVUS Estatística descritiva – Exemplo 13 variáveis, 1 classe, 178 registros Abaixo exemplo de tabela, não completa (25 registros). Classes Alcool Acido málico Cinzas Alcalinidade das cinzas Magnésio Fenóis totais Flavonóides Fenóis sem sabor Proanthocyanins Intensidade da Cor Hue OD280/OD315 de vinhos diluídos Prolina 1 14.23 1.71 2.43 15.6 127 2.8 3.06 0.28 2.29 5.64 1.04 3.92 1065 1 13.2 1.78 2.14 11.2 100 2.65 2.76 0.26 1.28 4.38 1.05 3.4 1050 1 13.16 2.36 2.67 18.6 101 2.8 3.24 0.3 2.81 5.68 1.03 3.17 1185 ´ ´ 1 13.16 2.36 2.67 18.6 101 2.8 3.24 0.3 2.81 5.68 1.03 3.17 1185 1 14.37 1.95 2.5 16.8 113 3.85 3.49 0.24 2.18 7.8 0.86 3.45 1480 1 13.24 2.59 2.87 21 118 2.8 2.69 0.39 1.82 4.32 1.04 2.93 735 1 14.2 1.76 2.45 15.2 112 3.27 3.39 0.34 1.97 6.75 1.05 2.85 1450 1 14.39 1.87 2.45 14.6 96 2.5 2.52 0.3 1.98 5.25 1.02 3.58 1290 1 14.06 2.15 2.61 17.6 121 2.6 2.51 0.31 1.25 5.05 1.06 3.58 1295 1 14.83 1.64 2.17 14 97 2.8 2.98 0.29 1.98 5.2 1.08 2.85 1045 1 13.86 1.35 2.27 16 98 2.98 3.15 0.22 1.85 7.22 1.01 3.55 1045 1 14.1 2.16 2.3 18 105 2.95 3.32 0.22 2.38 5.75 1.25 3.17 1510 1 14.12 1.48 2.32 16.8 95 2.2 2.43 0.26 1.57 5 1.17 2.82 1280 1 13.75 1.73 2.41 16 89 2.6 2.76 0.29 1.81 5.6 1.15 2.9 1320 1 14.75 1.73 2.39 11.4 91 3.1 3.69 0.43 2.81 5.4 1.25 2.73 1150 1 14.38 1.87 2.38 12 102 3.3 3.64 0.29 2.96 7.5 1.2 3 1547 1 13 63 1 81 2 7 17 2 112 2 85 2 91 0 3 1 46 7 3 1 28 2 88 13101 13.63 1.81 2.7 17.2 112 2.85 2.91 0.3 1.46 7.3 1.28 2.88 1310 1 14.3 1.92 2.72 20 120 2.8 3.14 0.33 1.97 6.2 1.07 2.65 1280 1 13.83 1.57 2.62 20 115 2.95 3.4 0.4 1.72 6.6 1.13 2.57 1130 1 14.19 1.59 2.48 16.5 108 3.3 3.93 0.32 1.86 8.7 1.23 2.82 1680 1 13.64 3.1 2.56 15.2 116 2.7 3.03 0.17 1.66 5.1 0.96 3.36 845 1 14.06 1.63 2.28 16 126 3 3.17 0.24 2.1 5.65 1.09 3.71 780 1 12.93 3.8 2.65 18.6 102 2.41 2.41 0.25 1.98 4.5 1.03 3.52 770 1 13.71 1.86 2.36 16.6 101 2.61 2.88 0.27 1.69 3.8 1.11 4 1035 1 12.85 1.6 2.52 17.8 95 2.48 2.37 0.26 1.46 3.93 1.09 3.63 1015 1 13.5 1.81 2.61 20 96 2.53 2.61 0.28 1.66 3.52 1.12 3.82 845 Estatística descritiva – Exemplo Dados relativos ao vinho – Exemplo de histograma – Variável álcool 20 25 30 0 5 10 15 Probabilidades O estudo das probabilidades busca definir se um determinado evento tende a acontecer frequentemente ou não. A utilização de probabilidades ajuda a fundamentar tomadas de decisão, avaliando riscos e permitindo que seavaliando riscos e permitindo que se façam escolhas mais seguras. Ex.: jogar na Mega Sena, possibilidade de chuva, cálculo de seguro etc. Probabilidades – Exemplo Variável álcool – Database / Wine Bloco Freqüência % de Ocorrência 11.03 1 0.6% 11.32 0 0.0% 11.61 5 2.8% 11.91 12 6.7% Variável AlcoolVariável Álcool 12.20 13 7.3% 12.49 26 14.6% 12.78 16 9.0% 13.08 21 11.8% 13.37 18 10.1% 13.66 20 11.2% 13.95 24 13.5% 14.25 14 7.9% 14.54 6 3.4% Mais 2 1.1% 178 100.0% Inferência A inferência estatística é o ramo de maior importância, visto que é este o instrumental utilizado para transcender as informações a respeito de um dado conjunto para uma realidade maior, ou seja é a maneira de entender o todo aseja, é a maneira de entender o todo a partir de uma parte. Por exemplo, é a inferência que nos permite extrapolar os resultados de uma pesquisa de opinião para toda a população. Análise / Interpretação Análise / Interpretação. Inferência – Exemplo Utilizando o exemplo do Database Wine Um exemplo que ainda falta às análises devidas, mas, como exemplo de possibilidade, temos: Se interpretarmos que meu banco é umaSe interpretarmos que meu banco é uma população, ao retirarmos uma amostra, teremos as possíveis frequências de resultado; essa é a ideia de inferência. Classe Média de Alcool Contagem de Indivíduos % de Ocorrencia 1 13.74 59.00 33.1% 2 12 28 71 00 39 9% Á 2 12.28 71.00 39.9% 3 13.15 48.00 27.0% Total Geral 13.00 178.00 100.0% Interatividade Qual é a parte da estatística que tem seu foco na organização dos dados? a) Estatística indutiva. b) Estatística probabilística. c) Estatística descritivac) Estatística descritiva. d) Clustering. e) Inferência estatística. Dados estatísticos Conforme dissemos anteriormente, nosso objetivo é descrever conjuntos. Para tanto, o primeiro passo é definir quais grandezas a respeito de um conjunto são de nosso interesse no estudo em particular. Por exemplo, se alguém vai estudar a população de uma cidade, pode estar interessado em diferentes tipos de informações a respeito dela. Um estudo sociológico poderá buscar níveis de desemprego, educação etc. Tipos de dados Dados quantitativos. Dados qualitativos. Dados quantitativos São chamados de dados quantitativos aqueles que expressam quantidades. Nesse caso, os valores associados a tais grandezas serão sempre valores numéricos. São exemplos de dados quantitativos: renda altura peso idadequantitativos: renda, altura, peso, idade, área cultivada, número de computadores, tamanho da memória, rapidez do processador etc. Dados quantitativos – Exemplo População: casais residentes numa cidade número de filhos; idade. População: as jogadas de um dado pontos obtidos em cada jogada. População: indústrias índice de liquidez; número de defeitos por unidade. Dados quantitativos – Contínuos São valores contínuos aqueles que podem assumir qualquer valor num certo intervalo. Dos exemplos dados anteriormente, citamos a altura, os dados do Database Wine, variável álcool. Dados quantitativos – Discretos São valores discretos aqueles que podem assumir apenas alguns valores num certo intervalo, notadamente quando só se podem ter números inteiros. Dos exemplos anteriores, um caso desses é o número de computadoresdesses é o número de computadores. Número de peças produzidas com defeito. Dados qualitativos São chamados dados qualitativos aqueles que expressam qualidades que não se podem medir ou quantificar. Os valores associados a essas variáveis podem não ser numéricos. Podemos citar como exemplo de variáveiscitar como exemplo de variáveis qualitativas: nome, escolaridade, cor, sabor, patente etc. Dados qualitativos Assim como os dados quantitativos, os qualitativos têm uma subdivisão. Eles podem ser nominais ou ordinais. Dados qualitativos – Nominais Não importa a ordem; pelo nome, cor – uma qualidade em que a ordem não é relevante. População: moradores de uma cidade. Variável: cor dos olhos (pretos,Variável: cor dos olhos (pretos, castanhos, azuis). População: indústria. Qualidade da peça (defeituosa / perfeita). Dados qualitativos – Ordinais Os dados ordinais são aqueles que se podem ordenar. Entre os citados anteriormente, teríamos como ordinais as variáveis “escolaridade” e “patente militar”. Pode-se transformar uma variável de dados qualitativos de nominal para ordinal; temos sempre que verificar “o que” buscamos. Interatividade Os dados representam as idades, em anos completos, de todas as crianças de uma sala de aula. Dados: 1 0 4 4 3 1 0 4 5 Que tipo de dado é esse?Que tipo de dado é esse? a) Quantitativo discreto. b) Quantitativo contínuo. c) Qualitativo discreto. d) Qualitativo ordinal.) Q e) NDA. Como identificar o tipo de uma variável? 1/2 Para identificar de que tipo é uma variável, devemos fazer as seguintes perguntas: Primeira: este valor representa uma quantidade, um valor numérico? Se a resposta for sim, será quantitativa; caso contrário, será qualitativa. Como identificar o tipo de uma variável? 2/2 Segunda pergunta para a quantitativa: pode ter qualquer valor intermediário ou apenas alguns valores (em particular), inteiros? Se a resposta for sim, ela é contínua; caso contrário, é discreta. Segunda pergunta para a qualitativa: Existe uma ordem “natural” para os valores dessa variável? Se sim, ela é ordinal; caso contrário, é nominal. Classificação de variáveis Veja o exemplo a seguir: Queremos realizar um estudo a respeito das vendas de sucos prontos para beber de uma determinada marca, num supermercado. Para isso, a primeira coisa a fazer é definir quais as características de interesse do estudo ecaracterísticas de interesse do estudo e, para cada característica: 1. Definir uma variável que armazene seu valor. 2. Verificar que tipo de valores a variável assume. 3. Classificar a variável. Classificação de variáveis Para efetuar tal estudo, é preciso, primeiro, ver quais são os dados que caracterizam o produto: Pode ser encontrado nos sabores maracujá, caju e uva. É vendido em embalagens de três tamanhos: pequeno, médio e grande. Variável sabor Pergunta 1: Esse valor representa uma quantidade, um valor numérico? Resposta: Não. Logo, é qualitativa. Pergunta 2 das qualitativas: Existe uma ordem “natural” dos sabores?ordem natural dos sabores? Resposta: Não, pois não se pode dizer que uma fruta seja anterior ou posterior a outra. Logo, é nominal. Classificação da variável sabor: qualitativa nominalqualitativa nominal. Variável tamanho Pergunta 1: Esse valor representa uma quantidade, um valor numérico? Resposta: Não, pois ainda que o volume possa ser medido em valores numéricos, as embalagens estão classificadas como pequena, média e grande, que não são quantidades especificadas. Logo, é qualitativa. Pergunta 2 das qualitativas: Existe uma ordem “natural” dos tamanhos? Resposta: Sim, há uma hierarquia natural. Logo, é ordinal. Classificação da variável “tamanho”: qualitativa ordinal. Variável vendas Pergunta 1: Esse valor representa uma quantidade, um valor numérico? Resposta: Sim, pois é o número de vendas efetuadas. Logo, é quantitativa. Pergunta 2 das quantitativas: Pode terPergunta 2 das quantitativas: Pode ter qualquer valor intermediário ou apenas alguns valores (em particular), inteiros? Resposta: Não, pois não posso vender metade ou um terço da embalagem, por exemplo. Logo, é discreta.exemplo. Logo, é discreta. Classificação da variável “vendas”: quantitativa discreta. Variável preço Pergunta 1: Esse valor representa uma quantidade, um valor numérico? Resposta: Sim, pois é a quantidade de dinheiro que se deve pagar. Logo, é quantitativa. Pergunta 2 das quantitativas: Pode ter qualquer valor intermediário ou apenas alguns valores (em particular), inteiros? Resposta: Sim, pois o preço não precisa ser um número inteiro de reais; logo, éser um número inteiro de reais; logo, é contínua. Classificação da variável “preço”: quantitativa contínua. Interatividade No Estado de São Paulo, foram coletados dados da população. Um dos dados foi a cor de pele, e outro foi o peso de cada indivíduo. Quais os tipos de variáveis encontradas acima? a) Quantitativa nominal e qualitativa. b) Qualitativa discreta e quantitativa contínua. c) Qualitativa nominal e quantitativa discreta.discreta. d) Qualitativa nominal e quantitativa contínua. e) Quantitativa ordinal e quantitativa nominal. Dados brutos Uma vez definidos o tema de interesse de um estudo estatístico e as variáveis de interesse, passa-se à etapa de obtenção dos dados. A forma de obter dados dependerá do tipo de pesquisa a ser realizada Geralmente estudos deser realizada. Geralmente, estudos de áreas técnicas obtêm seus dados por meio de medidas diretas das grandezas. Nas áreas de humanas, no entanto, é muito comum a utilização de pesquisas de campo que envolvem entrevistas oude campo que envolvem entrevistas ou observações de situações. Dados brutos Em qualquer dos casos, o procedimento a seguir é aquele que permitirá ter um conjunto significativo de valores para as variáveis de interesse. Uma vez obtidos os dados, monta-se uma tabela em que, para cada elemento pesquisado, colocam-se os valores correspondentes de cada variável. É comum chamar essa etapa de tabulação dos dados. O resultado final será, então, a tabela de dados brutos, ou seja, dados que ainda não foram lapidados, analisados. Dados brutos – Exemplo Como vimos no caso do Database Wine, os dados foram coletados através de experimento, e foi obtida a tabela (não completa):´ ´ Classes Alcool Acido málico Cinzas Alcalinidade das cinzas Magnésio Fenóis totais Flavonóides Fenóis sem sabor Proanthocyanins Intensidade da Cor Hue OD280/OD315 de vinhos diluídos Prolina ´ ´ 1 14.23 1.71 2.43 15.6 127 2.8 3.06 0.28 2.29 5.64 1.04 3.92 1065 1 13.2 1.78 2.14 11.2 100 2.65 2.76 0.26 1.28 4.38 1.05 3.4 1050 1 13.16 2.36 2.67 18.6 101 2.8 3.24 0.3 2.81 5.68 1.03 3.17 1185 1 14.37 1.95 2.5 16.8 113 3.85 3.49 0.24 2.18 7.8 0.86 3.45 1480 1 13.24 2.59 2.87 21 118 2.8 2.69 0.39 1.82 4.32 1.04 2.93 735 1 14.2 1.76 2.45 15.2 112 3.27 3.39 0.34 1.97 6.75 1.05 2.85 1450 1 14.39 1.87 2.45 14.6 96 2.5 2.52 0.3 1.98 5.25 1.02 3.58 1290 1 14.06 2.15 2.61 17.6 121 2.6 2.51 0.31 1.25 5.05 1.06 3.58 1295 1 14.83 1.64 2.17 14 97 2.8 2.98 0.29 1.98 5.2 1.08 2.85 1045 1 13.86 1.35 2.27 16 98 2.98 3.15 0.22 1.85 7.22 1.01 3.55 1045 Dados brutos – Exemplo Foram observadas compras de 12 clientes. A tabela traz os valores de cada variável para cada um deles. Note que cliente não é uma nova variável, no sentido de que os valores referentes a ele não são uma característica deleele não são uma característica dele. Dados brutos – Exercício Para cada uma das variáveis da tabela: a) Classifique o tipo de variável. Dados brutos – Resposta Para cada uma das variáveis da tabela: a) Classifique o tipo de variável. Os intervalos da tabela das alturas e o tipo de gráfico em cada caso dependem de escolhas; logo, há diversas respostasde escolhas; logo, há diversas respostas possíveis. Apresentamos aqui uma das possibilidades. a) Classificação das variáveis Gênero: qualitativa nominal. Altura: quantitativa contínua Altura: quantitativa contínua. Filhos: quantitativa discreta. Escolaridade: qualitativa ordinal. Dados brutos – Exercício 2 Para cada uma das variáveis da tabela: b) Construa tabelas de frequência e faça um gráfico que apresente os dados de maneira clara. A tabela de frequência é dada pelaA tabela de frequência é dada pela contagem de elementos em determinado intervalo. Dados brutos – Exemplo Para cada uma das variáveis da tabela: b) Construa tabelas de frequência e faça um gráfico que apresente os dados de maneira clara. Genero n de Indivíduos ^ Setorial por Gênero Genero n. de Indivíduos M 12 F 8 Total Geral 20 60% 40% M F Dados brutos – Exemplo Para cada uma das variáveis da tabela: b) Construa tabelas de frequência e faça um gráfico que apresente os dados de maneira clara. Intervalo Freqüência Variável Altura Intervalo Freqüência 1.45‐1.54 3 1.55‐1.63 5 1.64‐1.72 4 1.73‐1.81 5 1.82‐1.9 2 Mais 1.9 1 Variável Altura ‐ Histograma 0 1 2 3 4 5 6 1.45‐1.54 1.55‐1.63 1.64‐1.72 1.73‐1.81 1.82‐1.9 Mais 1.9 Moda e mediana Mediana: É uma quantidade que, como a média, também procura caracterizar o centro da distribuição ou do conjunto de dados. Ela é calculada com base na ordem dos elementos que formam o conjunto. Moda: A moda (ou modas) é a máxima frequência de um conjunto de valores, aquele que mais se apresenta.aquele que mais se apresenta. Moda e mediana – Exercício Para os conjuntos de dados a seguir, encontre a moda e a mediana. a) Conjunto A = {3,20; 3,20; 3,20; 3,20; 3,31; 3,33; 3,25; 3,45; 3,47; 3,58; 4,70} b) Conjunto B = {5,20; 5,21; 5,23; 5,27; 5,30;b) Conjunto B {5,20; 5,21; 5,23; 5,27; 5,30; 5,31; 5,32; 5,32; 5,32; 5,32} Moda e mediana – Resposta Para resolver, devemos: Ordenar os conjuntos, aplicar as regras. Para a mediana , se o no de elementos é ímpar, para o cálculo da mediana utilizamos o valor do centro; se outilizamos o valor do centro; se o numero de elementos é par, calculamos com base nos dois centrais. Para a moda, verificar qual ou quais as maiores frequências. Moda e mediana – Resposta Já ordenados: a) Conjunto A = {3,20; 3,20; 3,20; 3,20; 3,25; 3,31; 3,33; 3,45; 3,47; 3,58; 4,70} b) Conjunto B = {5,20; 5,21; 5,23; 5,27; 5,30; 5,31; 5,32; 5,32; 5,32; 5,32}5,31; 5,32; 5,32; 5,32; 5,32} a) Moda = 3,20. Mediana = 3,31 b) Moda = 5,32. Mediana = 5,305 Frequência e média ponderada Encontre a média final dos alunos listados a seguir, sabendo que a primeira avaliação tem peso 2, a segunda, peso 3, e a terceira, peso 5. Aluno n1 n2 n3 1 10 0 0 2 8 5 2 3 6 6 6 4 2 8 4 5 7 7 9 Frequência e média ponderada Encontre a média final dos alunos listados a seguir, sabendo que a primeira avaliação tem peso 2, a segunda, peso 3, e a terceira, peso 5. Aluno n1 n2 n3 1 10 0 0 2 8 22 8 5 2 3 6 6 6 4 2 8 4 5 7 7 9 n1x2 n2x3 n3x5 Aluno 2 3 5 Soma Nota Final 1 20 0 0 20 2.00 2 16 15 10 41 4.102 16 15 10 41 4.10 3 12 18 30 60 6.00 4 4 24 20 48 4.80 5 14 21 45 80 8.00 Média, variância e desvio-padrão A média é uma medida de posição, é uma medida de tendência central. Temos vários tipos de cálculos de média; apontaremos a média aritmética, que podemos definir como: Média, variância e desvio-padrão A variância é marcada como uma medida de dispersão dos dados. Assim como o desvio-padrão, esta medida tem como base o deslocamento dos pontos da média. Pode-se calcular a variância populacional e o seu desvio assim:o seu desvio assim: Exemplo Para o conjunto de dados a seguir, calcule a média, a variância e o desvio- padrão, assumindo que os mesmos sejam dados amostrais e considerando que cada valor xi tenha peso pi. xi pi 5 5 8 8 12 9 15 3 Exemplo – Resposta Para o conjunto de dados a seguir, calcule a média, a variância e o desvio- padrão, assumindo que os mesmos sejam dados amostrais e considerando que cada valor xi tenha peso pi. xi pi xi x pi xi ‐ Media (xi ‐ Media)^2 (xi ‐ Media)^2 x pi 5 5 25 ‐4.68 21.90 109.51 8 8 64 ‐1.68 2.82 22.58 12 9 108 2.32 5.38 48.44 15 3 45 5.32 28.30 84.91 Soma 25 242 265.44 Médi 9 68 V i i 10 62 ^ ´ ´ ´ Média 9.68 Variancia 10.62 Desvio Padrão 3.26 - Interatividade Qual é a medida de dispersão que leva em conta uma medida de tendência central? a) Kernel. b) Amplitude geral. c) Variânciac) Variância. d) Média. e) NDA. ATÉ A PRÓXIMA!
Compartilhar