Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada I Capítulo I – Estatística Descritiva Universidade Federal do Pará Campus Universitário de Tucuruí Faculdade de Engenharia Civil Prof. Karen Bernardo Tucuruí - PA I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear Introdução • ESTATÍSTICA: É a disciplina que objetiva estudar os métodos científicos para a coleta, organização, resumo, apresentação e análise de dados, bem como obter conclusões válidas e tomar decisões razoáveis baseadas em tais análise. • Técnicas Estatísticas: São as várias técnicas por meio das quais é possível estudar conjuntos de dados e, a partir de uma amostra (se necessária) tirar conclusões válidas para conjuntos maiores (população). Introdução • De uma maneira geral, as técnicas estatísticas são utilizadas em três etapas principais do trabalho de pesquisa: A coleta de dados, incluindo o planejamento do trabalho e da pesquisa; A apresentação dos dados coletados; e A análise dos dados coletados, com a formulação de conclusões e generalizações. Introdução 1. Coleta de dados: ▫ Estabelecimento do método de coleta de dados (questionário ou teste ou ensaio de material) ▫ Elaboração dos questionamentos; ▫ Determinação das variáveis que serão estudadas, de acordo com o interesse do pesquisador; ▫ E o cálculo do tamanho da amostra, de acordo com a natureza da pesquisa, do tempo e do orçamento disponíveis. Introdução 2. Apresentação dos dados coletados ▫ A segunda etapa requer técnicas específicas para a transformação dos dados numéricos em gráficos ou tabelas (é a partir da organização dos dados coletados que se poderá elaborar a interpretação). 3. Análise dos dados coletados ▫ Essa etapa é simultânea à anterior, pois durante a própria organização dos dados já é possível ir percebendo a tendência geral da pesquisa. Introdução • No sentido de melhor esclarecer o significado da análise e interpretação dos dados, deve-se estabelecer uma distinção entre: Estatística Descritiva Inferência Estatística. Introdução • Estatística Descritiva: Objetiva sintetizar e representar de uma forma compreensível a informação contida num conjunto de dados. ▫ Constitui-se num conjunto de técnicas que objetivam descrever, analisar e interpretar os dados numéricos de uma população ou amostra. ▫ Adquire importância quando o volume de dados for significativo. ▫ Materializa-se na construção de tabelas e/ou gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados. Introdução • Inferência Estatística: Baseada na análise de um conjunto limitado de dados (uma amostra), objetiva caracterizar o todo a partir do qual tais dados foram obtidos (a população). ▫ Objetivo mais ambicioso que o da estatística descritiva. ▫ Os métodos e técnicas utilizados são mais sofisticados. Introdução Figura 1.1- Diferença entre Estatística Descritiva e Inferência Estatística (Silva e Carvalho, 2006). Introdução Figura 1.2- Diferença entre Estatística Descritiva e Inferência Estatística (Silva e Carvalho, 2006). I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear Conceitos e definições • População: É o conjunto de todos os elementos que contêm uma certa característica que se deseja estudar. ▫ Como é comum a todos os elementos, esta característica varia em quantidade ou qualidade. ▫ Uma população pode ter dimensão finita ou infinita. • Amostra: É um subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas através de processos (técnicas de amostragem) que garantem que o subconjunto obtido é representativo da população. Conceitos e definições Principais motivos para o estudo da amostra: 1. População infinita; 2. Custo em termos de tempo ou de dinheiro que um estudo em toda a população implicaria; 3. Obtenção de informação por meio de testes destrutivos, no âmbito industrial; 4. Impossibilidade de acesso a todos os elementos da população. Conceitos e definições Fases do método de análise estatística: • No âmbito da Estatística, o método de abordagem dos problemas pode ser dividido em cinco fases: 1. Estabelecimento do objetivo da análise a efetuar (questões a serem resolvidas) e definição das populações; 2. Concepção de um procedimento adequado para a seleção de uma ou mais amostras (escolha da técnica de amostragem). 3. Coleta de dados. 4. Análise dos dados (Estatística Descritiva). 5. Estabelecimento de inferências a respeito da população (Inferência Estatística) Conceitos e definições Fases do método de análise estatística: Identificação do problema • Objetivo da análise Planejamento da experiência • Técnicas de Amostragem Coleta de dados Análise exploratória dos dados • Estatística Descritiva Análise e interpretação dos resultados • Inferência Estatística I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear Classificação dos dados • Iniciando o estudo: ▫ Não existe uma estratégia única para iniciar o estudo descritivo, embora uma primeira recomendação seja começar por uma exploração visual dos dados levantados. ▫ Isso é necessário, pois podem ocorrer registros que não se encaixam no padrão geral observado e, dessa forma, a sua veracidade deve ser averiguada, pois podem tratar-se de erros de observação, bem como do próprio registro ou provenientes de alterações do fenômeno em estudo. Classificação dos dados • Iniciando o estudo: ▫ Para se ter uma ideia mais concreta sobre os dados levantados, deve-se recorrer à tabelas e/ou gráficos que podem representar, de maneira sintética, as informações sobre o comportamento de variáveis numéricas levantadas. ▫ Embora estas análises já se encontrem disponíveis em vários softwares e calculadoras programáveis, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas. Classificação dos dados • Iniciando o estudo: ▫ Portanto, para se proceder um estudo descritivo, é importante: Ordenação dos dados – fase onde se começa a ter uma ideia a respeito de algumas medidas de posição (média, mediana, quartis etc.); Estatísticas amostrais – a partir de algumas medidas promove-se um resumo dos dados levantados, relativamente à posição, dispersão e forma; Agrupamento dos dados e representação gráfica – revela a forma possível para a população em estudo e permites escolher a classe de modelos que deve ser explorada nas análises mais sofisticadas. Classificação dos dados • Dados brutos: Como primeiro resultado de uma pesquisa, obtêm-se dados brutos, ou seja, um conjunto de números ainda sem organização alguma. • Rol: Os dados brutos são então ordenados de forma crescente ou decrescente, com a indicação da frequência de cada um, dando origem ao chamado rol. • Tabulação dos dados: Depois de elaborar o rol é preciso determinar quantas faixas terá a tabela de frequência. A fórmula de Sturges é utilizada para estabelecer o número aproximado de classes onde: n = número de elementosda amostra (tamanho da amostra) k = número de classes que a tabela de classes deverá contar. Classificação dos dados Observações: - k deverá ser no mínimo 3 e no máximo 20; - Como a variável k é um número inteiro, ela deverá ser aproximada para o maior inteiro (por exemplo, se k 6,4, usa-se k = 7). • Frequência de classes: O passo seguinte é subdividir os dados pelas classes ou categorias e determinar o número de indivíduos pertencentes a cada uma, resultando nas frequências de classes. • Apresentação final dos dados (tabela completa): Com base em todos os cálculos feitos anteriormente, pode-se fazer uma nova tabela com todas as frequências, as quais serão estudadas a posteriori. • Gráficos: A partir da tabela de frequências, faz-se o desenho gráfico, um recurso de visualização dos dados constantes na tabela. Classificação dos dados • Os dados que constituem uma amostra podem ser de quatro tipos, assim distribuídos: Qualitativos ▫ Nominal ▫ Ordinal Quantitativos ▫ Intervalar ▫ Absoluto Classificação dos dados • Os dados que constituem uma amostra podem ser de quatro tipos, assim distribuídos: Qualitativos ▫ Nominal ▫ Ordinal Quantitativos ▫ Intervalar ▫ Absoluto Classificação dos dados a) Dados nominais: Quando cada um deles for identificado pela atribuição de um nome que designa uma classe. As classes devem ser: a) Exaustivas - qualquer dado pertence a uma das classes; b) Mutuamente exclusivas - cada dado pertence somente a uma classe; c) Não ordenáveis - não existe nenhum critério relevante que permita estabelecer preferência por qualquer classe em relação às restantes. Exemplo: Classificação das pessoas pela cor do cabelo (preto, castanho, louro etc.) Classificação dos dados b) Dados ordinais: São semelhantes aos dados nominais; contudo, nessa escala existe a possibilidade de se estabelecer uma ordenação dos dados nas classes, segundo algum critério relevante. Exemplo: Classificação de conceitos de avaliação na disciplina em insuficiente, regular, bom e excelente. Classificação dos dados c) Dados intervalares: No caso da escala intervalar, os dados são diferenciados e ordenados por números expressos em uma ordem cuja origem é arbitrária. Exemplo: Registro de temperaturas em ºC, em determinadas horas de dias sucessivos. Se em três dias consecutivos a temperatura atingir 5ºC, 10°C e 20ºC, não faz sentido dizer que o terceiro dia esteve duas vezes mais quente que o segundo, pois se a temperatura fosse expressa em outra escala, a razão entre os valores registrados naqueles dias seria diferente. Classificação dos dados d) Dados absolutos: Contrariamente ao que sucede com a escala intervalar, a escala absoluta tem origem fixa. Nesta escala, o valor zero tem significado. Observação: Na escala intervalar, dizer que a temperatura é de 0ºC não significa que não haja temperatura. Em consequência ao fato da origem ser fixa, a razão entre os dados expressos numa escala absoluta passa a ter significado. Exemplo: Pesos de pessoas expressos em kg. Classificação dos dados • Observação: Quando se trabalha com dados quantitativos, é necessário que se faça a distinção entre os dados discretos e os contínuos. • Os dados denominam-se discretos quando são valores de uma variável aleatória discreta, que é a aquela que assume valores em pontos da reta real (por exemplo, número de páginas em um livro: 1, 2, 3, 4, 5...). • Os dados são contínuos quando são valores de uma variável aleatória contínua, que é aquela que pode assumir qualquer valor em certo intervalo da reta real (por exemplo, a altura de funcionários de uma fábrica: 60,5 kg; 60,52 kg; ...) Classificação dos dados • Arredondamento de dados: O arredondamento de um dado estatístico deve obedecer as seguintes regras. 1. Arredondamento por falta: Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito remanescente (ou seja, frações de 0,000... a 0,4999... são simplesmente eliminadas, arredondadas para baixo). ▫ Exemplos: Classificação dos dados 2. Arredondamento por excesso: Quando o primeiro dígito após aquele que será arredondado for maior ou igual a cinco seguido por dígitos maiores que zero, o digito remanescente será acrescido de uma unidade. ▫ Exemplos: 3,688 -> 3,69; 5,6501 -> 5,7 Classificação dos dados 3. Arredondamento de dígitos seguidos do cinco: Quando o dígito situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito remanescente, se for par, não se alterará, e se for impar será aumentado de uma unidade (ou seja, se a fração a ser eliminada é exatamente 0,50000..., então o algarismo a ser arredondado, só aumentará de 1 unidade caso torne-se um algarismo par). ▫ Exemplos: Classificação dos dados Algarismos significativos • Os algarismos significativos de um número são os dígitos diferentes de zero, contados a partir da esquerda até o último dígito diferente de zero à direita, caso não haja vírgula decimal, ou até o último dígito (zero ou não) caso haja uma vírgula decimal. • Exemplos: Classificação dos dados • Exemplo: Caso seja apresentada uma temperatura como 32ºC (2 significativos), está indicado que a temperatura está entre 31,5 e 32,5ºC. Caso ela seja apresentada como 32,5ºC (3 significativos), está indicado que a temperatura está entre 32,45 e 32,55ºC. O valor de uma grandeza medida com 3 algarismos significativos, indica que o valor do 3º algarismo tem uma incerteza menor ± 0,5ºC. I - Estatística Descritiva • Introdução • Conceitos e definições • Classificação dos dados • Caracterização dos dados • Estatísticas amostrais • Regressão linear Caracterização dos dados • Tabela de frequências: ▫ Devido à necessidade das categorias estarem ordenadas, somente se pode falar de frequências acumuladas quando os dados estão em escalas ordinais, intervalar ou absoluta. ▫ A representação tabular com todos os tipos de frequências é mostrada a seguir: Caracterização dos dados a) frequência absoluta (ni): O número de dados contidos numa categoria qualquer i (i = 1,..., k) de um conjunto de dados designa- se por frequência absoluta da categoria i. • Denotando-se por ni tal frequência e admitindo que as categorias especificadas contêm todos os dados, o número total de dados (n) é calculado por : Caracterização dos dados b) frequência relativa (fi): O número total de dados que pertencem a uma categoria qualquer i, quando expressos como uma proporção do número total de dados, designa-se por frequência relativa da categoria e é dada por: As frequências relativas são muitas vezes definidas em termos percentuais. Caracterização dos dados c) frequência absoluta acumulada (Ni): representa para cada categoria i, a frequência absoluta de dados que pertencem à classe ou às classes anteriores. d) frequência relativa acumulada (Fi): representa para cada categoria i, a frequência relativa de dados que pertencem à classe ou às classes anteriores. Caracterização dos dados Caracterização dos dados • Gráficos estatísticos ▫ Uma vez elaborada a tabela de frequências, segue-se o desenho do gráfico, um recurso de visualização dos dados constantes na tabela. ▫ Os tipos de gráficos mais comuns são: histograma; polígono de frequência, setograma e ogiva de Galton. Caracterização dos dados • Histograma: Este tipo de gráfico é utilizado para representar as frequências absolutas (ni)em relação à sua classe, e é assim construído: 1. No eixo das abscissas marcam-se, em escala, as classes dos dados; 2. No eixo das ordenadas, marcam-se as frequências das classes; 3. Faz-se a correspondência entre cada intervalo no eixo das classes com um valor no eixo das frequências, formando um desenho de colunas paralelas. Caracterização dos dados • Polígono de frequência: Utilizado para indicar o ponto médio ou representante de classe em suas respectivas frequências absolutas; normalmente, é construído sobre o histograma, da seguinte forma: 1. No eixo das abscissas, coloca-se o ponto médio de cada intervalo de classe; 2. No eixo das ordenadas, permanecem as frequências absolutas das classes (ni) ; 3. Ligam-se os pontos médios por segmentos de reta; 4. Para completar o polígono, acrescenta-se um ponto médio com frequência zero em cada uma das extremidades da escala horizontal. Caracterização dos dados • Histograma • Polígono de frequência Caracterização dos dados Caracterização dos dados Gráficos estatísticos • Gráfico em setores (Setograma): Também conhecido como gráfico de pizza, é utilizado para representar valores relativos (%); Caracterização dos dados Gráficos estatísticos • Ogiva de Galton: Este tipo de gráfico é utilizada para representar as frequências acumuladas de uma distribuição; é construído da seguinte forma: 1. No eixo das abscissas coloca-se as classes dos dados, tal como no histograma; 2. No eixo das ordenadas, escreve-se uma das frequências acumuladas, marcando o ponto com os limites superiores (Li) de cada classe; inicia-se com a frequência zero e com limite inferior da 1ª classe. Caracterização dos dados • Gráficos estatísticos ▫ Gráfico linear: É o tipo de gráfico que apresenta os dados estatísticos por meio de uma linha poligonal. Caracterização dos dados • Gráficos estatísticos ▫ Gráfico de colunas: É o tipo de gráfico que apresenta os dados estatísticos por meio de retângulos (colunas) dispostas em posições vertical. Caracterização dos dados • Gráficos estatísticos ▫ Gráfico de barras: Este tipo de gráfico é semelhante ao de colunas, onde os retângulos (barras) estão dispostos horizontalmente. Caracterização dos dados • Exemplo: Em uma amostra constituída de 120 peças, constatou-se que 100 não tinham qualquer defeito, 15 tinham defeitos recuperáveis e 5 apresentavam defeitos irrecuperáveis. Representar em uma tabela, e também graficamente, as frequências (absolutas e relativas) dos dados que constituem essa amostra. Caracterização dos dados Caracterização dos dados • Exemplo: Em um estudo realizado com o objetivo de caracterizar o comportamento dos clientes de um supermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no estacionamento do referido supermercado, em um sábado. Os resultados encontram-se resumidos na tabela seguinte: Caracterização dos dados Caracterização dos dados • Distribuições agrupadas: Essas distribuições são úteis quando existe um grande número de dados relativos a uma variável contínua, cujos valores observados são muito próximos uns dos outros. ▫ A frequência de cada classe é o número de observações que ela contém. ▫ No exemplo anterior os dados observados correspondem a uma variável discreta; para o caso de dados relativos uma variável contínua existem algumas diferenças. Caracterização dos dados • Exemplo: O conjunto de dados baixo representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático: 302,25; 299,20; 300,24; 297,22; 298,35; 303,76; 298,65; 299,38; 300,36; 299,16; 300,86; 299,83; 302,52; 300,12; 301,81; 297,99; 299,23; 298,73; 303,07; 299,07; 297,83; ... ; 300,80 Caracterização dos dados • No conjunto de dados mostrado não existe praticamente repetição de valores; logo, não é vantagem se utilizar os dados agrupados numa tabela de frequências, pois a mesma teria tantas linhas quanto o número de dados. • No entanto, a tabela de frequências pode ser construída se os dados forem agrupados por classes: Caracterização dos dados Caracterização dos dados
Compartilhar