Baixe o app para aproveitar ainda mais
Prévia do material em texto
PROBABILIDADE E ESTATÍSTICA (Caderno) AULA 01 – INTRODUÇÃO À ESTATÍSTICA Objetivos: 1. Conhecer um panorama histórico e a natureza da Estatística; 2. Entender a importância da Estatística como uma poderosa ferramenta de análise de dados para tomada de decisões e a sua utilização em diversos tipos de pesquisa; 3. Identificar as diferenças entre os três ramos da Estatística: a Descritiva, Das possibilidades e a Inferencial; 4. Diferenciar uma população de uma amostra; 5. Classificar os tipos de dados em função de seus níveis de informação; 6. Começar a organizar os dados de um fenômeno coletivo de forma eficiente. A NATUREZA DA ESTATÍSTICA – UM PANORAMA HISTÓRICO Antiguidade: na Antiguidade, os povos já sentiam a necessidade de um desenvolvimento social, registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individuais e sociais. As primeiras estatísticas foram realizadas para que os governantes das grandes civilizações antigas tomassem conhecimento dos bens que o Estado possuía e como estavam distribuídos pela população; Idade média: já na idade média estatísticas eram feiras com finalidades de cobranças de impostos e para recenseamento militar; Século XVI: no século XVI surgiram as primeiras tábuas e tabelas que registravam fatos sociais, como batizados, casamentos e funerais; Século XVIII: no século XVIII o estudo dessas informações foi adquirindo um caráter mais científico e o alemão Gottfried Achemmel, que sugeriu o nome de “Estatística” para esta nova Ciência, determinou quais eram os seus objetivos e relações com as demais Ciências. Historicamente, o crescimento e o desenvolvimento da estatística moderna estão relacionados a três fenômenos isolados: as necessidades dos governantes colocarem dados sobre os seus cidadãos, o desenvolvimento da teoria da probabilidade e o advento da informática. Para estatísticas como SAS, Eviews, R-Project e outros se tornaram populares e vem ajudando no processamento das informações. O QUE É ESTATÍSTICA? É a Ciência que estuda método de coleta, organização, descrição, análise e interpretação de dados, para obtenção de conclusões válidas e tomadas de decisões. APLICAÇÃO DA ESTATÍSTICA Seguem situações distintas e influências em processos decisórios: Em Marketing: testa a reação de um grupo de consumidores sobre um novo produto e com base nas respostas decidem-se pela produção e distribuição do mesmo em uma escala nacional; Na Mídia: Calcula índices de audiência de um determinado canal e em um determinado horário, para estabelecer o preço a ser sobrado aos anunciantes pela veiculação de suas propagandas; No Controle de Qualidade: testa a reação de um grupo de consumidores sobre um novo produto e com base nas respostas decidem-se pela produção e distribuição do mesmo em uma escala nacional. Na Política: utiliza-se de pesquisas prévias de opiniões para muitas vezes corrigir estratégias de campanha para uma determinada eleição; Na Saúde: fornece metodologia adequada que possibilita decidir sobre a eficiência de um novo tratamento no combate à determinada doença; Em Finanças: observa índices de inflação, emprego e desemprego para estimar alguns aspectos econômicos do cenário nacional. POPULAÇÃO E AMOSTRA Ao conjunto ou grupo de indivíduos que possuem pelo menos uma característica em comum, denominados de população estatística ou de universo estatístico. Uma amostra é subconjunto finito não vazio de uma população estatística. Exemplos: apenas estudantes universitários, apenas os eleitores do Sul do país ou apenas peças produzidas na última semana do mês. Para obtermos previsões válidas sobre um determinado problema quase nunca utilizamos todos os elementos da população, trabalhamos apenas com amostras desta população. Para cada experimento ou informação obtemos um número de resultados possíveis, por exemplo: Se o experimento refere-se a uma categoria como "gênero de uma pessoa" são dois os resultados possíveis: masculino ou feminino. Se o experimento refere-se a uma categoria como "estatura de uma pessoa"temos vários resultados possíveis dentro de um intervalo de números. Variável: é o conjunto de resultados possíveis de um experimento ou informação. Dependendo dos dados coletados em um experimento as variáveis podem ser classificadas em qualitativas e quantitativas: o Qualitativas: são assim quando os seus valores são expressos por um atributo como: gênero (masc. ou fem.), cor da pele (branco, pardo, negro, amarelo), estatura (alto, médio ou baixo), etc. As variáveis qualitativas podem ser subdivididas em nominais e ordinais: Nominais: são classificadas assim quando permitem comparações, como o nome ou o gênero de um indivíduo (João ou Maria; masculino ou feminino). Não é possível estabelecer que há prioridade ou o mais importante nessa característica; Ordinais: são assim classificadas quando permitem comparações, como atribuição de status alto, médio ou baixo para um indivíduo. É possível estabelecer comparações de intensidade e ordenamento; o Quantitativas: são quando os seus valores são expressos em números como: quantidade de filhos, salários de empregados, idades dos alunos de uma faculdade, etc. AS variáveis quantitativas podem ser subdivididas em discretas e contínuas: Discretas: é quando assumir valores pertencentes a um conjunto enumerável, como por exemplo o número de filhos de um casal, que pode ser 0, 1, 2, 3,..., n; Contínuas: quando assumir valores em um determinado intervalo, como pelo de um indivíduo com a precisão desejada, como 52 kg; 52,3 kg; 52,217 kg, etc.; Para ilustrar, a tabela seguinte mostra uma base de dados de uma loja de modas: A classificação das seis variáveis apresentadas a seguir: ORGANIZANDO E CONTANDO DADOS Os dados coletados da observação de um fenômeno coletivo, sem manipulação ou ordenação, são chamados de dados brutos. Exemplo: As notas de matemática de um grupo de alunos ao final da primeira avaliação são: 2,1; 7,1; 4,3; 3,3; 4,7; 6,9; 6,1; 7,1 e 8,3; 6,9. A série numérica exposta poderia ser de melhor forma apresentada se estabelecêssemos uma ordenação para as notas. Esta etapa consiste na elaboração de um Rol ou conjunto ordenado de dados. Um tipo de Rol para esta série de notas poderia ser colocá-las e mordem crescente na forma: {2,1; 3,3; 4,3; 4,7; 6,1; 6,9; 6,9; 7,1; 7,1; 8,3} Além de visualizar melhor a série o Rol evidência os seus valores extremos (maiores e menores notas). “Neste ponto vale comentar que as presenças de valores extremos em conjuntos de dados distorcem a maior parte das medidas estatísticas obtidas. Esta discussão será abordada com mais profundidade em aulas futuras”. Além disso, observamos que existem repetições de notas no conjunto. Sendo assim, uma forma mais fácil de representar a série de notas será por uma tabela de frequência do tipo: Fim############################# AULA 02 – APRESENTAÇÃO E ORGANIZAÇÃO DE DADOS Objetivos: 1. Organizar conjunto de dados discretos em tabelas estatísticas; 2. Conhecer os elementos que compõem uma distribuição de frequência; 3. Construir uma distribuição de frequência para dados agrupados sem intervalos de classes; 4. Elaborar gráficos representativos de uma distribuição de frequências de dados agrupados sem intervalos de classes. Na primeira aula vimos que a etapa inicial para obtermos uma melhor visibilidade dos dados brutos extraídos de um fenômeno coletivo é a construção de um rol. Nesta segunda etapa vamos introduzir os conceitos necessários para a elaboração de uma tabela estatística, denominada Distribuição de Frequências, considerando apenaso caso de dados discretos agrupados sem intervalos de classes. DISTRIBUIÇÃO DE FREQUÊNCIAS É uma tabela que viabiliza a extração rápida de uma grande quantidade de informações sobre um problema aplicado. Para ilustrar, vamos iniciar a construção de uma distribuição de frequências considerando o seguinte exemplo: Suponha que a tabela abaixo represente os dados brutos sobre as vendas diárias de um determinado aparelho elétrico durante um mês, por uma firma comercial: Vendas Diárias 14 12 11 13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14 Como vimos anteriormente, um rol para estas informações pode ser descrito por uma série numérica ordenada de forma crescente do tipo: {10, 11, 11, 11, 12, 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 14, 14, 14, 14, 14, 15, 15, 16, 17} Pelo rol observamos que as vendas de 11, 12, 13, 14, 15 aparelhos ocorreram em 3, 4, 5, 7 e 2 dias no mês, respectivamente, e, as vendas de 10, 16 e 17 aparelhos ocorreram em apenas um dia no mês. Observe neste exemplo que a variável em questão, vendas diárias, pode ser obtida e estudada mais facilmente se dispusermos seus valores ordenados em uma coluna e colocarmos, ao lado de cada valor, os totais de dias no mês em que as respectivas vendas ocorreram. Vamos então começar a inserir colunas nesta tabela com alguns tipos de frequências de dados que definiremos a seguir: FRQUÊNCIAS SIMPLES OU ABSOLUTA Denotada por fi, representa o número de repetições com que o dado i aparece no rol. Observe no rol do exemplo trabalhado: O primeiro dado (i = 1) aparece com frequência simples f1=1; O segundo dado (i = 2) aparece com frequência simples f2= 3; E assim por diante. Acrescentando, portanto, a coluna das frequências fi no exemplo trabalhado, podemos então estabelecer uma tabela mais elaborada como pode ser vista na figura abaixo: É comum incluirmos sempre a uma tabela de frequências uma última linha contendo a soma de todas as frequências simples. Evidentemente, esta soma é igual ao número total de dados do problema. Para analisarmos ainda de forma mais fácil os dados da nossa tabela podemos inserir mais duas outras colunas, uma com os dados relativos ao tamanho da amostra e outra com esses mesmos dados só que expressos em suas formas percentuais. Para tal, considere as definições a seguir: FREQÜÊNCIAS RELATIVAS (fri) Denotadas por fri, são obtidas pelas razões entre as freqüências simples e o tamanho da amostra. FREQUÊNCIAS RELATIVAS PERCENTUAIS Denotadas por fri%, são as frequências relativas simples escritas em suas formas percentuais. Podem ser obtidas pela equação: fri % = fri * 100% Olhando tabela podemos, por exemplo, responder facilmente às questões: a. No mês, qual o percentual de vendas diárias de 12 aparelhos? A melhor opção é a leitura pura e simples na coluna da freqüência relativa percentual do dado três, fr3 % = 17 %, isto é, em 17% dos dias no mês foram vendidos 12 aparelhos. b. Em quantos dias no mês foram vendidos 15 aparelhos? Basta analisar o valor da frequência simples do dado seis, f6 = 2 dias. c. Qual o dado que aparece mais frequentemente na tabela? Basta olhar o dado com a maior frequência simples (i = 5), isto é, 14 aparelhos. Para respondermos ainda a outros tipos de questionamentos podemos inserir mais três novas colunas na distribuição de frequências: a primeira com as frequências acumuladas simples, a segunda com as frequências acumuladas relativas e a terceira com as frequências acumuladas relativas percentuais, conforme as definições a seguir: FREQUÊNCIA ACUMULADA SIMPLES Denotadas por fi, são obtidas pelas somas de todas as frequências simples até o elemento analisado. O cálculo de fi é dado pela equação: No exemplo analisado as frequências acumuladas são obtidas por: F1 = 1; F2 = F1 + f2 = 4; F3 = F2 + f3 = 8; F4 = F3 + f4 = 13; F5 = F4 + f5 = 20; F6 + f6 = 22 ; F7 = F6 + f7 = 23 e F8 = F7 + f8 = 24. FREQUÊNCIAS RELATIVAS ACUMULDAS Denotadas por fri, são as razões entre as frequências acumuladas fi e o tamanho da amostra. Por exemplo, a frequência relativa acumulada do dado seis é dada por: Fr6 = 22/24 = 0, 96. As frequências relativas acumuladas na forma de porcentagens são obtidas pela equação a seguir: Por exemplo, a frequência relativa acumulada do dado seis é dada por: Fr6 = 0, 96. 100 % = 96%. Acrescentando a tabela do exemplo às novas colunas, obtemos finalmente uma tabela Distribuição de Frequências completa como mostraremos a seguir: Com o conhecimento dos vários tipos de frequências, podemos extrair com facilidades vários tipos de informações da distribuição de frequências, como por exemplo: a. As vendas diárias de no máximo 14 aparelhos ocorreram em 20 dias no mês. Na tabela, a opção de leitura é a do dado 5 na coluna das frequências acumuladas simples, F5 = 20. b. O percentual de vendas diárias de pelo menos 13 aparelhos é de 66%. Na tabela, os dados considerados irão de i = 4 até i = 8, assim nas colunas das frequências acumuladas percentuais basta calcularmos: F8 % - F3% = 100 – 34 = 66 % dos dias. c. O percentual de vendas diárias de 10 aparelhos é de 4%. Na tabela, a opção de leitura é do dado 1 na coluna das frequências percentuais, relativas fr1 = 4. UTILIZANDO GRÁFICOS A visualização gráfica para uma distribuição de frequências é sempre bastante esclarecedora quanto desejamos extrair informações de um problema aplicado, a seguir apresentaremos alguns tipos de gráficos úteis e simples que representam distribuição de frequências para o caso de dados agrupados sem intervalos de classes. DIAGRAMA REPRESENTATIVO PARA UMA DISTRIBUIÇÃO DE FREQUÊNCIAS SME INTERVALOS DE CLASSES É um tipo de gráfico estatístico que para elaborá-lo, dispomos na linha horizontal os valores assumidos pela variável do problema e a seguir levantamos sobre cada valor da variável um segmento de reta vertical com medida correspondente ao valor da sua frequência simples. GRÁFICO DE COLUNAS É uma boa forma de visualizar a distribuição de frequências, apresenta as frequências sob a forma de barras verticais levantadas sobre os dados que aparecem organizados na linha horizontal. Observe o gráfico de colunas que representa a tabela 1 do exemplo trabalhado. DIAGRAMA OU GRÁFICO DE BARRAS Apresenta as frequências simples ou relativas sob a forma de barras horizontais, separadas entre si. O gráfico de barras a seguir representa a frequência simples das vendas diárias do aparelho elétrico exposto na tabela 01. GRÁFICO OU DIAGRAMA DE SETORES Representa as frequências simples ou relativas sob a forma de setores de um círculo, aponta de forma muito clara os dados mais representativos da distribuição de frequências. O gráfico de setores a seguir representa as frequências simples da tabela 1, a legenda mostra as cores dos setores associados a cada uma das frequências simples da variável venda diária. Nota-se neste gráfico que o setor circular de maior área está associado a 14 aparelhos que é o dado com a maior frequência simples (dado 5: na cor azul claro), seguido por 13 aparelhos (dado 4: na cor lilás). Os setores de menor área estão associados a 10, 16, 17 aparelhos que são os dados com menores frequências simples (dado 1: na cor azul índigo, dado 7: na cor azul escuro e dado 8: na cor vinho). Recomendação: Faça uma ampla pesquisa na internet relacionada aos gráficos da estatística no Excel e descubra como plotar um histograma, um gráfico de colunas, um gráfico de barras e um gráfico de setores circulares. TESTE O QUE VOCÊ APRENDEU 1. Complete as informações ausentes na seguinte distribuição de frequências:Lembre-se que Xi é a variável do problema e fi, fi%, Fi e Fi% são respectivamente as frequências simples, simples percentual, acumulada e acumulada percentual. 2. Após completar a distribuição de frequências, use o Excel e plote alguns tipos de gráficos estatísticos que representam esta tabela. Fim########################## AULA 03 – APRESENTAÇÃO E ORGANIZAÇÃO DE DADOS AGRUPADOS EM CLASSES Objetivos: 1. Agrupar ou compactar os dados de um problema em intervalos que, em Estatística, são chamados de intervalos de classes; 2. Calcular o número de intervalos de classes que devemos utilizar em função do tamanho da amostra de dados; 3. Entender as vantagens e desvantagens de agrupar dados em relação a uma listagem não agrupada ou completa; 4. Construir uma distribuição de frequências para dados agrupados em classes; 5. Elaborar gráficos representativos de uma distribuição de frequências para dados agrupados e deles extrair uma grande quantidade de informações. Na segunda aula aprendemos a montar e representar graficamente uma distribuição de freqüências para um conjunto de dados discretos. Nesta terceira aula veremos que quando os dados coletados possuem vários valores diferentes, uma melhor distribuição de freqüências poderá ser obtida por meio de agrupamentos desses dados em intervalos de classes, com limites inferior e limites superior. Para ilustrar a criação de classes de freqüências considere o problema a seguir: Exemplo Suponha que tenha sido feita uma coleta de dados relativos às estaturas de quarenta alunos da faculdade A. O resultado da pesquisa foi apresentado na seguinte tabela primitiva. Tabela 1: Tabela Primitiva Estatura de 40 alunos da faculdade A Esses são os dados primitivos que estão apresentados sem nenhuma ordenação. O primeiro passo é ordená-los em um Rol para que possamos separá–los posteriormente em intervalos de classes. Tabela 2: Rol Estatura de 40 alunos da faculdade A Com a tabela ordenada fica fácil visualizarmos, por exemplo, que o menor valor da variável estatura é 150 cm, e que, o maior valor é 173 cm. Podemos então calcular com facilidade a Amplitude Amostral, denotada por AA, que é a diferença entre o maior valor e o menor valor da variável do problema. AA = x máximo – x mínimo Assim em nosso problema, definindo a variável x como a estatura dos alunos, a amplitude total da nossa amostra será dada por: AA = 173 – 150 = 23 Para determinar o Número de Intervalos de Classes (i) que devemos utilizar no problema adotaremos a “Regra de Sturges” que nos dá uma estimativa do número de classes em termos do tamanho da amostra (n). I ≈ (aproxim.) 1 + 3,3*log n (*) log n é o logaritmo na base 10 de n. Assim, o número de classes que devemos adotar em nosso problema será de: i = 1=3,3* log 40 = 6,286797970 ≈ (aproxim.) 6 classes. Nota: arredonda-se sempre o valor de i para o número inteiro mais próximo, pois o número de classes deve ser sempre inteiro. Decidido o número de intervalos de classes, devemos então determinar a Amplitude (h) desses intervalos, que é obtida pelo resultado da divisão entre a amplitude amostral (AA) e o número de classes (i): H =AA/i Assim, a amplitude de classe do nosso problema é dada por: h 23/6 = 3,8 ≈ (aproxim.) 4. Por fim, o nosso problema deve ter seus dados agrupados em 6 classes distintas de intervalos com amplitudes iguais a 4. Mas atenção: O arredondamento de h deve ser sempre efetuado para cima usando o mesmo número de casas decimais dos elementos da amostra para que nenhum elemento fique fora da tabela. VAMOS ENTÃO MOSTRAR COMO DEVEMOS MONTAR AS CLASSES PARA TABULAR OS DADOS Devemos construir as classes começando do menor valor que a variável assume na amostra. A partir daí, devemos ir somando a amplitude de classe de modo que o limite superior de uma classe anterior seja o limite inferior da nova classe. A convenção adotada para a representação de uma classe é a seguinte: |- : Limite inferior incluído na classe e superior não. |-|: limite inferior e superior incluídos na classe. No nosso exemplo, a classe i = 1 terá como limite inferior 150 cm e limite superior 154 cm; a classe i = 2 terá como limite inferior 154 cm e superior 158 cm e assim por diante. Com essa lei de formação a tabela de freqüências para as estaturas pode ser apresentada na seguinte forma: Tabela 3 – Distribuição de frequências - Estatura de 40 alunos da faculdade A Observe que a última coluna da tabela representa a freqüência simples das estaturas dos alunos encontrados na respectiva classe. Por exemplo, pela classe i = 2, observamos que existem na amostra 9 alunos com estaturas entre 154 cm (inclusive) e 158 cm (exclusive). Com objetivo de extrair vários tipos de informações da distribuição de freqüências poderemos acrescentar a nossa tabela outros tipos de frequências. São elas: É comum acrescentarmos a nossa tabela uma coluna com os pontos médios de cada uma das classes, que é o ponto que divide a classe em duas partes iguais. Ou ainda, o ponto médio da classe i, denotado por x i, é igual a: Note que o ponto médio de uma classe é o valor que a representa. Acrescentando a tabela 3 uma coluna com os pontos médios das classes, e, ainda, mais outras colunas com os vários tipos de freqüências que conhecemos, vamos obter por fim a seguinte distribuição de freqüências para o problema: Tabela 4- Distribuição de freqüências - Estatura dos alunos da faculdade Agora que você já tem o conhecimento da distribuição de freqüências tabela do problema responda aos seguintes questionamentos: 1. Quantos alunos têm estatura entre 162 cm, inclusive, e 166 cm? 2. Qual a percentagem de alunos cujas estaturas são inferiores a 158 cm? 3. Quantos alunos possuem estatura abaixo de 162 cm? 4. Quantos alunos possuem estatura igual ou superior a 158 cm? 5. Qual a estatura que representa a classe cinco? 1. Basta observar f4 = 8 alunos. 2. Basta observar Fr2% = 32, 5% dos alunos. 3. Basta observar F3 = 24 alunos. 4. Basta fazer a seguinte conta: F6 – F2 = 27 alunos. 5. Basta observar o ponto médio da classe i = 5: x5 = 168 cm. Proposta de Atividade I - A tabela a seguir apresenta uma distribuição de freqüências das áreas de 400 lotes: a) A amplitude total; b) O limite superior da quinta classe; c) O limite inferior da oitava classe; d) O ponto médio da sétima classe; e) A amplitude do intervalo da segunda classe; f) A freqüência da quarta classe; g) A freqüência relativa da sexta classe; h) A freqüência acumulada da quinta classe i) O número de lotes cuja área não atinge 700 m2; j) O número de lotes cuja área atinge e ultrapassa 800 m2; l) A percentagem de lotes cuja área não atinge 600 m2; m) A percentagem de lotes cuja área seja maior ou igual a 900 m2; n) A percentagem de lotes cuja área é de 500 m2, no mínimo, mas inferior a 1000 m2; o) A classe do 72º lote; p) Até que classe está incluída 60% dos lotes; Respostas: a. 900 b. 800 c. 1000 d. 950 e. 100 f. 76 g. 0,155 h. 262 i. 194 j. 138 k. XXXX l. 29,5% m. 19% n. 78% o. i=3 p. i=5 A utilização de gráficos para representar problemas de natureza prática é usual em nossa cultura, se percorrermos os jornais e revistas no nosso dia a dia iremos nos defrontar a cada momento com essas figuras ilustrativas que nos possibilitam uma boa compreensão dos fatos estudados. No caso da Estatística, as representações gráficas de uma distribuição de freqüências para dados agrupados por classes que aparecem mais frequentemente são: HISTOGRAMA Apresenta as freqüências das classes em colunas e possui as seguintes características: As frequências apresentadas podemser simples ou relativas; As colunas possuem bases da mesma largura; Não existem espaços entre classes. POLÍGONO DE FREQUÊNCIA E um gráfico de linha que representa as frequências simples dos pontos médios das classes. Mas atenção: Para obtermos um polígono, que é representado por uma linha fechada, devemos complementar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira classe e da posterior à última classe, da distribuição. POLÍGONO DE FREQUÊNCIA ACUMULADA É um gráfico de linha obtido representando as freqüências acumuladas dos limites superiores das classes. Proposta de Atividade 2 - O seguinte histograma foi construído com base numa pesquisa do tempo de serviço dos empregados de uma determinada empresa: Determine: a. O número de classes. b. A amplitude total. c. A frequência total. d. O limite inferior da primeira classe. e. O limite superior da primeira classe. f. A frequência relativa da primeira classe. g. A frequência acumulada da segunda classe. h. A frequência acumulada relativa da terceira classe. i. O limite inferior da quarta classe. j. O limite superior da quinta classe. k. A amplitude da quarta classe. l. O ponto médio da terceira classe. m. A frequência da quarta classe. n. A frequência relativa da quarta classe. Respostas: a. 5 b. 30 c. 25 d. 0 e. 6 f. 0,12 g. 9 h. 0,64 i. 18 j. 30 k. 6 l. 15 m. 4 n. 0,16 Proposta de Atividade 3 - A MKT Image é uma empresa de consultoria em marketing e iniciou um trabalho de pesquisa para a TDI, que pretende lançar um novo produto no mercado brasileiro. Foram aplicadas algumas pesquisas de mercado para verificar o potencial de compra por parte da população. A tabela abaixo mostra os dados sobre uma amostra da população pesquisada, referente à renda familiar mensal (em salário mínimo): Determine se verdadeiro ou falso: A. 30% da amostra ganham 10 salários ou mais; B. Somente 44,08% da amostra ganha abaixo de 10 salários mínimos; C. Menos de 10% da amostra ganham 15 salários mínimos ou mais; D. Mais de 75% da amostra ganham abaixo de 10 salários mínimos; E. Mais de 5% da amostra ganham 20 salários mínimos ou mais. Respostas: A. Falso, 24% da amostra ganham 10 salários mínimos ou mais; B. Falso, 76% da amostra ganham abaixo de 10 salários mínimos; C. Falso, 12% da amostra ganham 15 salários mínimos ou mais; D. Verdadeiro, mais de 75% da amostra ganham abaixo de 10 salários mínimos; E. Falso, 4% da amostra ganham 20 salários mínimos ou mais. End############################ AULA 04 – MEDIDAS DEPOSIÇÃO Objetivos: 1. Conhecer as medidas descritivas da Estatística que buscam o ponto central de um conjunto de dados; 2. Calcular, interpretar, localizar e comparar em uma distribuição de frequências, as medidas de tendência central: média aritmética, moda e mediana; 3. Usar essas medidas de posição como uma poderosa ferramenta matemática de análise de tendências para os dados de um problema de natureza. Nas aulas anteriores aprendemos a organizar os dados de um problema em tabelas estatísticas de distribuição de frequências. Nesta aula vamos ilustrar, por meio de um problema-exemplo, algumas questões que vamos responder após os estudos realizados nesta aula sobre as medidas de tendência central definidas na Estatística: média aritmética, mediana e moda. MEDIDAS DE TENDÊNCIA CENTRAL São medidas importantes que tentam apontar para o valor central de um conjunto de dados. Destacamos como medidas de tendência central: Média Aritmética: A Média Aritmética é a medida de posição central da Estatística que encontra o ponto médio de um conjunto de dados. As principais características da média aritmética são: o O cálculo da média envolve todos os elementos do conjunto de dados; o A média é influenciada por dados com valores muito pequenos ou muito grandes; o A média aritmética é única; Mediana: A MEDIANA é uma medida de posição central da Estatística que busca dividir um conjunto de dados em dois grupos que contenham o mesmo número de elementos. As principais características da MEDIANA são: o Para qualquer conjunto de dados haverá sempre uma única mediana; o A mediana não é influenciada para dados valores muito pequenos ou muito grandes. Moda: A Moda é a medida de posição da Estatística que encontra o dado que aparece mais frequentemente em uma série de valores. As principais características da MODA são: o Pode não ser única; Exemplo: A série de dados: 2; 3; 4; 6; 4; 8; 6, possui duas modas Mo= 4 e M’o= 6. Este tipo de série é chamado de série bimodal. o Pode não existir. Exemplo: A série de dados: 2; 3; 4; 6; 8, não possui valor repetido, logo não possui moda. Este tipo de série de dados é chamado de série amodal. o Por ser o valor mais frequente da série, é caracterizada como valor mais típico do conjunto de dados. CASO: DADOS NÃO AGRUPADOS A Média Aritmética ou simples Média é obtida pela soma de todos os valores numéricos do conjunto de dados, dividido pela quantidade de dados. Para o conjunto de n dados, x1, x2,..., xn, a média aritmética pode ser obtida aplicando-se a fórmula: Exemplo 1. Suponha que as notas de um condidato, em seis provas de um concurso, sejam: 8,4; 9,2; 7,2; 6,8; 8,7 e 7,2 A média deste candidato no concurso é dada por: CASO: DADOS AGRUPADOS SEM INTERVALOS DE CLASSES Exemplo 2. Considere uma distribuição de frequências simples como mostra o exemplo a seguir: em uma prateleira de uma loja de departamentos foram encontrados 4 tipos de produtos com os seguintes preços e respectivas quantidades: Valores em R$ (ci) Quantidades (fi) 50 8 60 5 80 4 90 3 Neste caso, podemos pensar que as quantidades (frequências simples) atuam como fatores de ponderação para os valores dos produtos, o que nos leva a calcular o preço médio pela Média Aritmética Ponderada, que é dada pela fórmula: Aplicando a fórmula ao exemplo, temos: Ou ainda, o preço médio de todos os produtos da prateleira é de R$ 64,50. CASO: DADOS AGRUPADOS COM INTERVALOS DE CLASSES Neste caso, a média aritmética é obtida utilizando-se a fórmula da Média Ponderada vista anteriormente, com as seguintes ressalvas: As frequências fi correspondem às frequências simples dos intervalos de classes. Os valores utilizados para as variáveis xi correspondem aos pontos médios dos intervalos de classes. Exemplo 3. Considere a distribuição de frequências do problema das estaturas de 40 alunos a faculdade A. Para calcularmos a estatura média dos alunos da turma aplicamos a fórmula da média ponderada aos dados da tabela. Ou ainda, podemos concluir que a altura média dos estudantes da amostra é de 161 cm. CASO: DADOS NÃO AGRUPADOS Neste caso a mediana é o valor da variável que ocupa a posição central de um conjunto de dados ordenados de forma crescente ou decrescente. Para calcularmos a mediana de um conjunto de n dados devemos adotar os seguintes procedimentos: Ordenar os dados de forma crescente; Após a ordenação dos dados: o Se o número de dados for ímpar, a mediana será o termo de ordem central que divide a série em duas partes iguais, isto é, a mediana será o valor do termo de posição (n+1)/2; o Se o número de dados for par, a medida será a média aritmética dos termos que ocupam as posições n/2 e (n/2)+1. EXERCÍCIO PROPOSTO Para a série de dados: 5; 13; 10; 2; 4; 7; 6. Qual é o valor da mediana? Ordenando a série na forma crescente obtemos 2; 4; 5; 6; 7; 10; 13 A mediana é dada por Md = 6 Observe que três termos da série estão situados à esquerda de 6 e os outros três termosa direita. Isto é, a mediana dividiu a série de dados em partes iguais. CASO: DADOS AGRUPADOS SEM INTERVALOS DE CLASSES Neste caso, para calcularmos a MEDIANA devemos adotar os seguintes procedimentos: Incluir na distribuição de frequencias simples uma coluna com as frequencias acumuladas. Identificar a frequencia acumulada imediatamente superior à metade do somatório das frequencias simples. Observar o valor da variável associado à frequencia acumulada identificada no procedimento anterior. O valor da variável obtido é a MEDIANA (Md) da distribuição de frequência. EXEMPLO 2: O primeiro passo é incluir uma coluna com as freqüências acumuladas na distribuição de freqüências dada como mostramos a seguir: O segundo passo é calcular o valor da metade do tamanho da amostra A maior frequência acumulada que supera o número 10 encontrado é F2 = 13. Logo, a MEDIANA distribuição é dada por Md = 60, que corresponde ao valor da variável associado à frequência acumulada F2. CASO: DADOS AGRUPADOS SEM INTERVALOS DE CLASSES Atenção: no caso o valor de Efi/2 ser exatamente igual a uma das frequências acumuladas Fi, o cálculo da mediana será a m´dia aritmética entre os valores das variáveis xi e xi+1. Exemplo 3. Suponha que desejamos encontrar a mediana da distribuição de frequências a seguir Observe que Efi/2-50=F2 No caso, a mediana da distribuição será dada pela média aritmética entre os valores das variáveis x2 e x3. Ou ainda, Md = 58+66/2=62 CASO: DADOS AGRUPADOS COM INTERVALO DE CLASSES A forma prática de calcular a MEDIANA de uma distribuição de frequências deste tipo é estabelecida adotando-se os seguintes procedimentos: Acrescentar a tabela uma coluna com as frequências acumuladas Fi da distribuição; Calcular a metade do tamanho da amostra, isto é, E fi/2; Encontrar a classe mediana que corresponde à classe associada à frequência acumulada imediatamente superior à E fi/2; Aplicar a fórmula a seguite, onde LImd é o limite inferior da classe mediana, Fmd é a frequência simples da classe mediana, Fmd-1 é a frequência acumulada da classe anterior à classe mediana e Amd é a amplitude da classe mediana. Exemplo 3. Observe que como Efi/2=20, a classe mediana é a que está realçada na tabela. Uma vez estabelecida à classe mediana, podemos extrair os dados necessários para a aplicação da fórmula, isto é, para: LImd = 158; Fmf = 11; Amd = 4 e Fmd-1 = 13; Temos a mediana da distribuição dada por: Md = 158+4/11. (20-13) = 160, 54. A Moda é uma medida que pode ser calculada de forma rápida, mas que possui pouca aplicabilidade do ponto de vista prático. CASO: DADOS NÃO AGRUPADOS Neste caso a moda é facilmente reconhecida, basta buscar o valor que mais se repete no conjunto. Exemplo 1. Série de dados 804; 9,2; 7,2; 6,8; 8,7 e 7,2 Tem moda igual a 7,2, que corresponde ao dado que se repete no conjunto de valores. CASO: DADOS AGRUPADOS SEM INTERVALOS DE CLASSE Neste caso, basta observar na distribuição de frequências a variável que possui a maior frequência. Exemplo 2. O cálculo da moda: Observe que a maior frequência da distribuição é f1 = 8, logo a moda é o valor correspondente à variável x1. Ou ainda, M0 = 50. CASO: DADOS AGRUPADOS COM INTERVALOS DE CLASSES Neste caso, inicialmente identificamos a classe modal que corresponde à classe com maior freqüência de dados. Então o cálculo da Moda Bruta será dado por: M0 = l + L/2, onde l = limite inferior da classe modal e L = limite superior da classe modal. Fim########################### AULA 05 – MEDIDAS DE POSIÇÃO RELATIVA E MEDIDAS DE DISPERSÃO Objetivos: 1. Aprender o conceito de Média Geométrica e entender a sua aplicabilidade em problemas populacionais e financeiros; 2. Calcular, interpretar e aplicar outros tipos de medidas de posição, chamadas de medidas de posição relativa, em uma distribuição de frequências; 3. Calcular e interpretar os principais indicadores de dispersão em uma amostra de dados. MÉDIA GEOMÉTRICA E APLICAÇÕES A média geométrica é a raiz enésima dos produtos dos valores encontrados em um conjunto numérico. Para o conjunto X = {x1, x2,..., xn}, onde cada xi é um número real não negativo, a média geométrica (MG) será calculada aplicando-se a fórmula. Exemplo: Seja o conjunto X = {3, 5, 7, 16}. Então a média geométrica dos valores de X é igual a ALGUMAS CONIDERAÇÕES SOBRE A MÉDIA GEOMÉTRICA Como a média geométrica é sempre menor ou igual que a média aritmética, muitos a utilizam como uma forma de medida mais conservadora de análise central para um conjunto de dados. Para certos tipos de problema ela será a única medida que refletirá a resposta correta. Sua grande aplicabilidade está em estimar a média de razões de crescimentos de dados em problemas dos tipos populacionais e financeiros. Por exemplo, a tabela abaixo reflete as vendas anuais e a razão de crescimento anual das vendas de uma determinada empresa: A razão média de crescimento nas vendas ao longo desses anos é medida com base na média geométrica entre as razões anuais, a saber: Com base na razão média poderíamos estimar, por exemplo, as vendas em 2009 a partir de 2005. Como existe um intervalo de quatro anos, a venda estimada para 2009 seria em torno de VENDAS ESTIMADAS = 100000. (1, 28540)4=272230. Pela tabela observamos que o valor estimado para as vendas se aproxima do valor real (273000). Desafio: Suponha que nos últimos quatro anos a inflação tenha sido respectivamente de i1= 15%; i2= 20%; i3= 25% e i4= 50%. Qual a inflação média anual? Gabarito: A inflação média anual será de 26,83%. Sugestão: No cálculo de variações médias percentuais ou taxas de juros devemos adotar o seguinte esquema para o cálculo da Média Geométrica. MEDIDAS DE POSIÇÃO RELATIVA Além da média, moda e mediana que são consideradas medidas de posições centrais existem outras medidas de posições denominadas de relativas. Dentre elas destacamos os: QUARTIS, DECIS e PERCENTIS. Todas essas medidas são destinadas a indicar a posição que um determinado dado ocupa em relação à amostra como um todo. Já sabemos que a MEDIANA divide um conjunto de dados em duas partes iguais. Os QUARTIS são os valores que dividem a série de dados em quatro partes iguais sendo que após a ordenação dos dados: O primeiro quartil (Q1) é o valor que deixa a quarta parte ou 25% das observações dos dados abaixo dele; O segundo quartil (Q2) coincide com a mediana (Md) do conjunto; O terceiro quartil (Q3) é o valor que deixa três quartos 93/40 ou 75% das observações dos dados abaixo dele. ALGUMAS CONSIDERAÇÕES SOBRE A MÉDIA GEOMÉTRICA Caso 1: Dados não agrupados Para determinarmos os quartis para um conjunto com n dados devemos adotar os seguintes passos: Ordenar o conjunto. o O quartil Q1 será o valor da variável que ocupar a posição (n/4); Q2 o valor da variável que ocupar a posição (2n/4) e o Q3 o valor da variável que ocupar a posição (3n/4); Para a determinação dos quartis devemos adotar a seguinte convenção: Se a divisão indicada no item for um número fracionário, arredonde-o para cima e o valor do quartil será a variável encontrado nesta posição. Se a divisão for um número inteiro, o quartil será a média aritmética da variável que ocupar a posição encontrada com o valor da variável que ocupar a posição seguinte. Exemplo: Suponha que você queira fazer uma análise sobre o tempo que utiliza para se aprontar pela manhã de modo a minimizar atrasos excessivos ou chegar com muita antecedência aos seus compromissos. Para tal você coletou, durante dez dias consecutivos, os tempos mostrados a seguir desde a hora que levantou da camaaté sair de casa? Para tirar conclusões você resolveu calcular os quartis da série obtida. Vamos inicialmente ordenar, do menor para o maior, os tempos gastos para se aprontar nos dez dias consecutivos: Série ordenada de tempos gastos: Tempo (minutos) 29 31 35 39 39 40 43 44 44 52 Posição de Q1 Observe que n/4=10/5=2,5. Como 2,5 é um número fracionário devemos inicialmente arredondar 2,5 para 3. Pelas regras estabelecidas, a posição do quartil Q1 será definida pelo terceiro elemento da série ordenada de tempos gastos. Ou ainda, o tempo de 35 minutos. Podemos então concluir que: Em 25% dos dias você levou um tempo menor ou igual a 35 minutos para se aprontar e em 75% dos dias você levou um tempo maior ou igual que 35 minutos para se aprontar. Posição de Q2 ou da Mediana Observe que 2n/4=5. Como 5 é um número inteiro, pelas regras estabelecidas, o Quartil Dois ou Mediana será dado pela média aritmética dos tempos situados nas posições cinco e seis da série ordenada. Ou ainda, Q1 = Md = (39+40)/2 = 39,5. Podemos então concluir que: Para a metade dos dias você levou um tempo menor ou igual a 39,5 minutos para ficar pronto e para a outra metade dos dias um tempo maior ou igual a 39,5 minutos. Posição de Q3 Observe que 3n/4=7,5. Como 7,5 é um número fracionário devemos inicialmente arredondar 7,5 para 8. Pelas regras estabelecidas, a posição do quartil Q3 será definida pelo oitavo elemento da série ordenada de tempos gastos. Ou ainda, o tempo de 44 minutos. Podemos então concluir que: Em 75% dos dias você levou um tempo menor ou igual a 44 minutos para ficar pronto e em 25% dos dias você levou um tempo maior ou igual a 44 minutos para ficar pronto. Caso 2: Dados Agrupados De forma semelhante aos quartis, os PERCENTIS podem ser calculados, para dados agrupados em classes, pela fórmula Onde k é a ordem do percentil que se deseja encontrar. Assim no exemplo das estaturas dos 40 alunos da distribuição a seguir O percentil de ordem 20 (P20 ) será calculado da seguinte forma: Ou ainda, P20 = 155,78 cm. Atenção: Agora que você já sabe calcular Quartis e Percentis faça uma pesquisa sobre determinação dos Decis. Considere os casos de dados não agrupados e agrupados. MEDIDAS DE DISPERSÃO Nem sempre o cálculo da média, da moda e da mediana nos permite uma análise clara do comportamento de dados de uma amostra. Observe, por exemplo, os três grupos de notas de um teste: GRUPO 1 3 4 5 6 7 GRUPO 2 1 3 5 7 9 GRUPO 3 5 5 5 5 5 Apesar de todos terem as mesmas médias e medianas (Verifique!), torna- se evidente que o comportamento das notas dos três grupos não é o mesmo. Desta forma é sempre necessário uma análise conjunta entre as medidas de posição já estudadas e as medidas de dispersão que definiremos a seguir. AMPLITUDE INTERQUARTIL Mede a dispersão nos dados que estão entre as 50% observações centrais. Sendo assim, não é influenciada pelos valores extremos da amostra de dados. Amplitude Interquartil = Quartil 3 – Quartil 1. Para a série ordenada de tempos gastos no exemplo já visto. Série ordenada de tempos gastos: A amplitude Interquartil é de (44 – 35) = 9 minutos. VARIÂNCIA Denotada por (s²), é a medida de dispersão que mede a variação média dos dados de uma amostra em relação a sua média aritmética. Pode ser calculada pela fórmula Em que: Xi é o valor de cada observação; X (com negador em cima) é a média aritmética das observações e n o tamanho da amostra (número de dados). DESVIO PADRÃO Denotado por s, é uma medida conhecida pela sua utilidade e aplicação prática. É calculada extraindo-se a raiz quadrada da variância (s ). COEFICIENTE DE VARIAÇÃO Denotado por (CV), é uma medida de dispersão relativa, elimina o efeito da magnitude dos dados, exprime na forma percentual a dispersão dos dados em relação à média. É dado pela fórmula a seguir em que: s é o desvio padrão e é a média aritmética da amostra. Vamos a seguir calcular a variância, o desvio padrão e o coeficiente de variação para o problema da série ordenada de tempos gastos para se aprontar. A média aritmética X (com negador) = 39,6. RESOLVA AGORA AS MEDIDAS DE DISPERSÃO PARA O EXEMPLO DOS TRÊS GRUPOS DE NOTAS DE TESTES Observe o resultado obtido: Para o caso de Dados Agrupados as freqüências simples das variáveis devem ser consideradas ao fazermos o cálculo das medidas de dispersão. Neste caso, a fórmula do desvio padrão resultará em: No exemplo a seguir vamos considerar uma distribuição de freqüências em que os dados estão agrupados sem intervalos de classes pela tabela: Xi 1 2 3 4 5 6 Fix 2 5 8 6 3 1 O desvio padrão da amostra poderá ser obtido organizando- se o seguinte esquema facilitador de cálculos: No caso de dados agrupados com intervalos de classes, o cálculo de s é feito utilizando-se da mesma fórmula do exemplo anterior. O valor da variável xi fica determinado pelo ponto médio do intervalo da classe i. Veja, por exemplo, o cálculo do desvio padrão para a distribuição de frequências a seguir: Fim############################### AULA 06 – ANALISE COMBINATÓRIA – REVISÃO Objetivos: 1. Conhecer os fundamentos da análise combinatória; 2. Conhecer as propriedades de fatorial de um número natural; 3. Conhecer o princípio fundamental da contagem; 4. Resolver problemas que envolvam Permutação, Combinação e Arranjo.
Compartilhar