Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA PARA CURSOS DE ENGENHARIA E INFORMÁTICA 1. A ESTATÍSTICA Em nosso dia a dia, estamos sempre fazendo observações de fenômenos ou gerando dados. Os engenheiros estão frequentemente analisando dados de propriedades dos materiais; os profissionais da informática estão avaliando dados de desempenho de novos sistemas computacionais; e todos nós, ao lermos jornais e revistas, estamos vendo resulta dos estatísticos provenientes do censo demográfico, de pesquisas eleitorais etc. Os dados podem provir de estudos observacionais ou de experimentos planejados. Ao acompanhar o desempenho de um processo produtivo em sua for ma natural, estamos fazendo um estudo observacional; ao alterar de forma proposital as variáveis do processo para verificar seus efeitos nos resultados, estamos realizando um experimento. A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais. A análise estatística de dados geralmente tem por objetivo tomadas de decisões, resoluções de problemas ou produção de conhecimento. Mas novos conhecimentos normalmente geram novos problemas de pesquisa, resultando em um processo iterativo (veja a Figura 1.1). Estudaremos técnicas de amostragens e de planejamento de experimentos, as quais permitem que tenhamos observações — ou da dos — capazes de responder a um problema. Mas as informações relevantes, que devem estar contidas nos dados, normalmente precisam ser realçadas para que possamos enxergá-las. Isso pode ser feito através da análise exploratória de dados. As observações de um experimento costumam vir acompanhadas de erro experimental, ou seja, variações aleatórias devidas a uma infinidade de fatores não controláveis. E a tarefa de verificar se alguma variação é real (devida a algum fator em estudo) ou meramente resultado de flutuações aleatórias não é fácil. É por isso que estudaremos a probabilidade, parte da matemática preocupada em modelar fenômenos aleatórios. Inferências estatísticas, ou seja, generalizações de amostras para populações de onde elas foram extraídas, são fundamentais na resolução de problemas de engenharia e nos processos de tomada de decisões. E através de inferências estatísticas que podemos chegar à conclusão de que um material é mais resistente do que outro, que um sistema computacional gera resultados mais precisos do que outro ou, ainda, que um candidato tem intenção de voto no intervalo 30% ± 2%, com nível de confiança de 95%. A essência de uma análise estatística é tirar conclusões sobre uma população, ou universo, com base em uma amostra de observações. 2 - PESQUISAS, DADOS, VARIABILIDADE E ESTATÍSTICA As pessoas normalmente associam o termo estatística a números, tabelas e gráficos, mas a importância da estatística fica melhor representada por dois ingredientes comuns em nosso dia a dia: dados e variabilidade. Para o engenheiro conhecer as propriedades físicas de um novo material, ele pode medir algumas de suas características, tais como a dureza, a flexibilidade, a densidade, a porosidade etc. Mas se ele medir a dureza em vários corpos de prova do mesmo material com um instrumento de alta precisão, encontrará valores diferentes. Subestimar a presença da variabilidade pode pôr a casa a pique! Da mesma forma, observações do tempo demandado para transmitir da dos através da rede mundial de computadores, ou do número de bytes que passam por um servidor, variam uma enormidade ao longo do tempo. O conhecimento desses dados e de sua variabilidade torna-se imprescindível para se projetar um sistema de transmissão de dados, ou mesmo para usar o sistema existente com eficiência. Em geral, a busca por melhorias na qualidade de um processo produtivo implica a redução da variabilidade. O que você como consumidor pensa quando vê refrigerantes de certa marca com grandes variações de conteúdo nas garrafas? E quando você resolve medir o peso de 2 pacotes de café de 500 g e verifica que alguns têm mais de 520 g e outros têm menos que 480 g? A variabilidade pode ser reduzida com investimentos em pessoal, máquinas e tecnologia, mas muitas vezes ela pode ser acomodada com o conhecimento de relações entre fatores do processo e características funcionais do produto, o que envolve conhecimentos de engenharia, pesquisas, dados e análises estatísticas. Com a alta competitividade de hoje, para que uma empresa sobreviva, ela tem o desafio de adequar o produto ao cliente. Por exemplo, a demanda exige que certo material tenha um valor específico de dureza. Mas como obter este valor de dureza, com a menor variabilidade possível, alterando fatores do processo, tais como: temperatura do forno, temperatura de têmpera, meio de têmpera, alterações nos componentes do material etc.? A resposta pode ser um es tudo experimental, em que os fatores do processo são manipulados dentro de uma região operacional de forma planejada. Observações são obtidas e, através de uma análise estatística dos dados, podemos chegar à combinação ideal dos fatores do processo. Por outro lado, adequar o produto ao cliente envolve saber o que o consumidor deseja. Mas os consumidores têm preferências diferentes, o que exige a realização de pesquisas observacionais (ou de levantamento) com os consumidores. Essas pesquisas envolvem planejamento, técnicas de amostragem, construção de questionários, organização dos dados, análises estatísticas e interpretação prática dos resultados. 3 - A ESTATÍSTICA NA ENGENHARIA Logo após a Revolução Industrial, métodos estatísticos foram incorporados nos processos industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas sistematicamente para inferir se o processo es tava sob controle. Mais recentemente, a avaliação da qualidade passou a ser feita ao longo de todo o processo produtivo como forma de corrigir eventuais falhas no sistema assim que elas aparecessem. Isso levou a um aumento da qualidade do produto final e redução de custos, pois se reduziram drasticamente as perdas por defeitos. Além do acompanhamento estatístico da qualidade, as indústrias costumam fazer experimentos estatisticamente planejados para encontrar a combinação dos níveis dos fatores do processo que levem a melhor qualidade possível. Na outra ponta, as empresas levantam dados de amostras de consumidores para realizar pesquisas de marketing direcionadas ou para adequar os produtos aos clientes. O planejamento dessas amostras e a análise dos dados necessitam de técnicas estatísticas. Muitas vezes, a relação entre estatística e engenharia é ainda mais estreita. Os próprios métodos de engenharia costumam incorporar intrinsecamente procedimentos probabilísticos ou estatísticos. Assim, para que um aluno possa entender certos métodos de engenharia, é necessário que tenha conhecimentos de probabilidade e estatística. 4 - A ESTATÍSTICA E A INFORMÁTICA Enquanto a Informática é a ciência que trata da informação através de meios eletrônicos, a Estatística procura obter informações relevantes de massas de dados e, nos dias de hoje, isso costuma ser feito com auxílio do computador. A variabilidade está onipresente nos sistemas computacionais atuais. Você pode observar diferentes tempos de resposta ao carregar um aplicativo num sistema compartilhado, ao transmitir uma mensagem no correio eletrônico etc. Portanto, a análise do desempenho desses sistemas computacionais exige trata mento estatístico. É comum construir sistemas para simular certas situações reais. Mas, como no mundo real os acontecimentos nem sempre são previsíveis, torna- se necessário incluir no modelo de simulação alguma aleatoriedade, que pode ser feita com base em modelos de probabilidade. Por exemplo, pode ser razoável supor que em uma fila cheguem, em média, cincoindivíduos por minuto, mas o número exato de indivíduos que vão chegar no próximo minuto não é totalmente previsível. Outra relação importante é o uso conjunto de banco de dados, estatística e inteligência artificial para extrair informações relevantes e não triviais de grandes arquivos de dados, armazenados sob diferentes formatos e em diferentes locais. Por exemplo, as empresas telefônicas têm dados das ligações telefônicas de seus milhares ou até milhões de clientes. Mas é um grande desafio encontrar, com base nesses dados, possíveis fraudes, tais como as clonagens de telefones celulares. Este é um caso típico da necessidade de 3 usar de forma conjunta técnicas estatísticas e informática. 5 - MODELOS Os modelos podem ser considerados como alguma representação da realidade em estudo, destacando aspectos relevantes e desprezando detalhes insignificantes. Em geral, eles servem para simplificar, descrever e facilitar a interpretação daquilo que se está estudando. Na engenharia, o estudante costuma defrontar com os chamados modelos determinísticos, isto é, conhecidas as entradas x1, x2, x3, ..., xk, o modelo permite chegar ao resultado y, usando uma função y = f(x1, x2, x3, ..., xk). É o que acontece, por exemplo, com a Lei de Ohm, em que, dadas a tensão (x1) e a resistência (x2) de um circuito simples, podemos calcular o fluxo da corrente elétrica (y) por: Muitas vezes, porém, as condições do experimento não permitem deduzir qual o resultado, mas somente a chance (ou a probabilidade) de possíveis resultados. É o caso da observação da face voltada para cima no lançamento imparcial de uma moeda perfeitamente equilibrada. Antes da realização do experimento não se tem como dizer o resultado, mas é razoável atribuir probabilidade 0,5 para cara e 0,5 para coroa. E um exemplo de modelo probabilístico ou estocástico. Um exemplo menos trivial de modelo probabilístico é a descrição do número de indivíduos que chegam a uma fila, ou do número de pacotes de dados que chegam a um servidor por segundo. Sob certas condições e admitindo que a taxa média de chegadas por segundo é λ(um valor positivo fixo), a probabilidade de chegar exatamente k pacotes num dado segundo é de, aproximadamente: Esse tipo de modelo pode auxiliar o projetista a planejar a capacidade de um sistema computacional. Todo estudante já deve ter-se defrontado com os modelos mecanísticos, caracterizados por serem totalmente deduzidos do conhecimento sobre o fenômeno físico em questão — a Lei de Ohm é um exemplo. De outro lado estão os chamados modelos empíricos, que são construídos com base em observações reais sobre o problema em estudo. Por exemplo, podemos ter interesse em conhecer a relação entre a resistência à compressão de um concreto e seu tempo de hidratação. Para isso, podemos realizar um experimento, que resulta em observações dessas duas variáveis. A Figura 1.2 apresenta os resultados da resistência (MPa) de 11 corpos de prova, com tempos de hidratação entre 10 e 20 dias. A Figura 1.2 mostra que não se tem uma função matemática simples para explicar exatamente a relação entre as duas variáveis em questão. Contudo, o gráfico expõe os pontos em torno de uma reta. Ou seja, podemos admitir que a resistência esperada do concreto se relaciona linearmente com o tempo de hidratação; e o fato de os pontos observados não estarem exatamente sobre uma reta é porque existem inúmeros fatores não controláveis que agem sobre o processo — o erro experimental. Uma função matemática que explica aproximadamente o relacionamento entre duas ou mais variáveis, construída com base em dados observados, pode ser considerada um modelo de regressão, um tipo especial de modelo empírico. Dado um problema, o conhecimento de engenharia é fundamental para escolher adequadamente as variáveis e, às vezes, a forma funcional (uma reta, uma parábola etc.), mas a construção completa do modelo é feita através dos dados. No exemplo em questão, a Figura 1.2 sugere que uma reta (y = α + βx) descreve aproximadamente o relacionamento. As 11 observações da resistência (y) para diferentes 4 tempos de hidratação (x) são usadas para obter valores de α e β adequados, conforme estudaremos. A Figura 1.3 mostra a equação de regressão analítica e graficamente. O chapéu sobre y é para diferenciar o modelo (a reta) dos valores efetivamente observados (os pontos). 6 - CONCEITOS BÁSICOS Apresentaremos alguns conceitos que facilitarão a leitura deste livro. Esses conceitos serão retomados nos capítulos seguintes com definições mais precisas. O exemplo seguinte será usado para ilustrar os principais conceitos. Exemplo 1.1 Considere uma indústria processadora de suco de frutas. Ao receber um carregamento de laranjas, os técnicos fazem inspeção da qualidade nas frutas. Examinam uma amostra de cinco caixas, tomadas de forma aleatória dentre toda a população de caixas do carregamento. Algumas características (ou variáveis) podem ser observadas nas cinco caixas de laranjas amostradas, tais como: População: conjunto de elementos que formam o universo de nosso estudo que são passíveis de ser observados, sob as mesmas condições. Amostra: parte dos elementos de uma população. Amostragem: processo de seleção da amostra. Amostragem aleatória simples: o processo de seleção dos elementos é feito por sorteios, fazendo com que todos os elementos da população tenham a mesma chance de ser escolhidos e, além disso, todo subconjunto de n elementos tenha a mesma chance de fazer parte da amostra. a) uma classificação por um técnico especializado (ótima, boa, regular, ruim ou péssima); b) número de laranjas não aproveitáveis por caixa; c) peso de cada caixa de laranja etc. O nível de mensuração de uma variável pode ser qualitativo, como no caso (a), em que o resultado é uma qualidade ou atributo; ou quantitativo, como nos demais casos, em que o resultado é um valor numa dada escala de medidas. As variáveis mensuradas ao nível qualitativo serão chamadas de variáveis qualitativas, e as mensuradas ao nível quantitativo, de variáveis quantitativas. Ao selecionar uma caixa de laranja do carregamento, podemos contar o número de laranjas não aproveitáveis e medir o peso da caixa. Gomo o resulta do de cada variável depende do processo aleatório de seleção da caixa de laranja, preferimos usar a denominação variável aleatória. Uma variável aleatória pode ser entendida como uma variável quantitativa, cujo resultado depende de fatores aleatórios. Ao realizar as observações de certa variável aleatória X, estamos observando uma amostra de n elementos, {x1, x2, x3, ..., xn}da variável aleatória X. Por exemplo, ao contar o número de laranjas não aproveitáveis em cada uma das cinco caixas amostradas, temos um conjunto de cinco valores, digamos {4, 6, 2, 3, 0}, que corresponde à amostra efetivamente observada da variável aleatória X = número de laranjas não aproveitáveis por caixa.’ Dada uma amostra, é comum calcular medidas descritivas das observações. Em nosso exemplo, podemos dizer que o número médio de laranjas não aproveitáveis por caixa é (4 + 6 + 2 + 3 + 0)/5 = 3. Esse valor descreve o que se observou na amostra, mas também pode ser interpretado como uma estimativa do número médio de laranjas não aproveitáveis por caixa, no carregamento todo. Parâmetro: uma medida que descreve certa característica dos elementos da população. Estatística: uma medida que descreve certa característica dos elementos da amostra. Estimativa: valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro de interesse. Exemplos de parâmetros podem ser: • média do número de laranjas não aproveitáveis por caixa; • proporção do número de caixas classificadas como ótima etc. Uma média ou proporção, quando referente a uma amostra e não a toda a população, é chamada de estatística.Note que as definições de parâmetro e estatística são muito parecidas, só que parâmetro refere-se à população e estatística, à amostra. Por sua vez, o termo estimativa refere-se a um resultado numérico, referente à amostra efetivamente observada. (BARBETTA, P. A. Estatística: para cursos de engenharia e informática. 3. ed. São Paulo : Atlas, 2010.)
Compartilhar