Prévia do material em texto
Estatística para Inteligência artificial Apresentação A inteligência artificial está diretamente relacionada à capacidade das máquinas de agirem como seres humanos, aprendendo e simulando um pensamento e raciocínio. É um conceito que surgiu na década de 1950, quando John McCarthy, um professor universitário, criou o termo para descrever um mundo em que as máquinas poderiam “resolver os tipos de problemas que hoje são reservados para humanos". Esse conceito surgiu amplamente apoiado pelas áreas da matemática e estatística, que associadas à teoria da probabilidade, auxiliam em tarefas como a análise dos dados, buscando identificar padrões e fazer previsões bem fundamentadas em testes de hipóteses a fim de tomar melhores decisões. Nesta Unidade de Aprendizagem, você vai estudar os métodos estatísticos como média, desvio padrão, variância, regressão linear, intervalo de confiança e medida de curtose, de modo a compreender de que forma se relacionam com a área da inteligência artificial. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Descrever o que é média, desvio padrão e variância relacionados à estimativa do intervalo de confiança. • Explicar regressão linear e seu intervalo de confiança e a medida de curtose.• Relacionar a utilização das medidas estatísticas em inteligência artificial.• Desafio Em uma estação meteorológica são atividades rotineiras a coleta e a medição de dados climáticos. Com a utilização de instrumentos coletores interligados com uma central de processamento, é possível automatizar a análise dos dados e realizar ajustes das previsões em tempo real. Você, estatístico, foi contratado por uma dessas estações com o objetivo de tornar o setor de monitoramento da estação mais eficiente e, por isso, eles desejam que você proponha um sistema inteligente para realizar esses cálculos em tempo real e ajustar as previsões. Diante disso, identifique quais métodos estatísticos poderiam ser utilizados como base para essa automação e justifique de acordo com sua fundamentação por que esses métodos seriam aplicados. Infográfico A estatística nos dias de hoje é uma ferramenta indispensável para qualquer profissional que necessita analisar informações em suas tomadas de decisões diárias, seja no seu trabalho ou na vida pessoal. No entanto, com o intuito de conhecer e aprofundar os estudos estatísticos é preciso conhecer alguns conceitos e fundamentos primordiais para o desenvolvimento de uma pesquisa. Veja no Infográfico a seguir as principais medidas estatísticas utilizadas na inteligência artificial. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/7ce5df76-10e8-4908-ad04-e181bd82d3da/0372842b-9f10-4641-aca1-0106a05e8b82.png Conteúdo do livro A estatística é uma ferramenta indispensável de apoio quando é necessário identificar a chance de algum resultado ocorrer dentro de todos os resultados possíveis de um experimento aleatório. É por isso que essa técnica é utilizada pelas sistemas inteligentes. Para saber mais, faça a leitura do capítulo Estatística para inteligência artificial da obra Inteligência Artificial, que serve como base teórica desta Unidade de Aprendizagem. Boa leitura. ESTATÍSTICA PARA INTELIGÊNCIA ARTIFICIAL Fabricio Machado da Silva Estatística para inteligência artificial Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Descrever média, desvio padrão e variância relacionados à estimativa do intervalo de confiança. � Explicar regressão linear, seu intervalo de confiança e medida de curtose. � Identificar a utilização das medidas estatísticas em inteligência artificial. Introdução Quando se fala em estatística, é impossível não considerar todo o viés matemático implícito nesse termo, cujo significado está muito relacio- nado às considerações, hipóteses e suposições. Já a inteligência artificial tem uma relação mais direta com a ciência da computação, as análises e previsões que incluem grande complexidade, estruturas abstratas de dados, entre outras. Ela ainda se refere a um grande conjunto de técnicas que visa construir sistemas cujo comportamento seja definido com base em dados existentes. Neste capítulo, você estudará a média, o desvio padrão e a variância relacionados à estimativa do intervalo de confiança; a regressão linear, seu intervalo de confiança e a medida de curtose; bem como a utilização das medidas estatísticas em inteligência artificial. Estatística A estatística é o ramo da matemática que objetiva oferecer métodos e técnicas de pesquisa, que envolvem coleta de dados, seu processamento, suas repre- sentações e sua análise. Ao longo da história, sua evolução sempre buscou aperfeiçoar os processos de se obter informações, possibilitando que o estudo de diversos fenômenos e comportamentos de eventos e ocorrências fosse pos- sível para o conhecimento humano. Para entender melhor como a estatística funciona, deve-se conhecer alguns critérios. Conceitos e fundamentos A população é o conjunto de elementos e o número de pessoas de uma cidade. Já a amostra envolve uma parte representativa de uma população. A variável depende da abordagem da pesquisa, da pergunta que será feita, por exemplo, qual sua marca de carro favorita? Ford, Volks, Fiat, Peugeot e Nissan são algumas respostas. Já a frequência absoluta se trata do valor exato, número de vezes que o valor da variável é citado. A frequência relativa, por sua vez, envolve o valor representado pela porcentagem, a divisão entre a frequência absoluta de cada variável e o somatório das absolutas. Medidas de tendência central A média aritmética é a medida de tendência central, o somatório dos valores dos elementos dividido pelo seu número. Já a média aritmética ponderada envolve o somatório dos valores dos elementos multiplicado pelos seus respectivos pesos e dividido pela soma dos pesos atribuídos. A moda é o valor de maior frequência em uma série de dados, o que mais se repete. Já a mediana trata-se da medida central em determinada sequência de dados numéricos. Medidas de dispersão A amplitude é a subtração entre o maior e o menor valor dos elementos do conjunto. Já a variância trata-se da dispersão dos dados variáveis em relação à média. Por fim, o desvio padrão envolve a raiz quadrada da variância, in- dicando a distância média entre a variável e a média aritmética da amostra. Estatística para inteligência artificial2 Aprender estatística é importante, porque muitas das decisões que se toma na vida cotidiana são baseadas nelas. As pessoas podem não perceber, mas as estatísticas permeiam a maior parte dessa tomada de decisões todos os dias. No fundo, todos têm uma compreensão intuitiva dos seus princípios, porém, ajuda muito entender seus conceitos formalmente. O conceito de média em estatística é basicamente achar um ponto de equilíbrio de determinada frequência de dados, um valor que representa a massa de dados da amostragem. Já a variância e o desvio padrão são medidas de dispersão, que indicam a regularidade do conjunto de dados em função da média aritmética. O termo desvio padrão também tem como objetivo demonstrar a regularidade referente a esse conjunto, para apontar o grau de oscilação deste em comparação à média dos seus valores. Média Comumente, escuta-se perguntas como qual a média de consumo que seu carro faz na cidade? A média é um dos conceitos mais básicos da estatística e um valor que representa vários outros. Usando o exemplo anterior, imagine que, no último mês, Carlos fez três abastecimentos completos de combustível no carro e marcou a quilometragem total percorrida até o outro abastecimento. Após o primeiro, ele conseguiu fazer 605 Km com seu carro, depois do segundo, percorreu o total de 590 Km e, com o último, fez 592 Km. Considerando a capacidade de 55 litrosdo reservatório de combustível, tem-se os seguintes dados: � o consumo após o primeiro abastecimento foi de 11 Km/L; � o consumo após o segundo abastecimento foi de 10,72 Km/L; � o consumo após o terceiro abastecimento foi de 10,76 Km/L; � a média (M) de consumo de combustível do carro de Carlos será M = soma dos consumos dividido pela quantidade de abastecimentos, ou seja; � M = 11 + 10,72 + 10,76 / 3; � M = 10,82 Km/L. 3Estatística para inteligência artificial Perceba que a média não é igual a nenhum consumo, mas representa a amostragem do consumo médio do carro. Portanto, obtém-se a média de um conjunto de dados numéricos ao somar os valores de todos e dividir essa soma pelo número de dados. Na Figura 1, você pode ver a altura isolada de cada jogador de uma equipe. Se quiser descobrir a média de altura, deve somar todas elas e dividir por 11, que é a quantidade de integrantes. Figura 1. Média de altura dos jogadores. Fonte: Côrtes (2016, documento on-line). Variância A variância se trata da soma dos quadrados dividida pelo número de ob- servações do conjunto menos uma, é representada por s2 e calculada pela seguinte fórmula: ∑ (xi – Média)2 / (n-1) Assim, s2 = SQ / (n-1) O denominador n-1 da variância se trata dos graus de liberdade, cujo princípio é constantemente usado na estatística. Considerando o conjunto de “n” observações (dados) e fixando uma média para ele, existe a liberdade Estatística para inteligência artificial4 de escolher os valores numéricos de n-1 observações, sendo que o valor da última estará fixado para atender ao requisito de ser a soma dos desvios da média igual a zero. No caso específico do cálculo da variância, tem-se que os “n” graus originalmente disponíveis no conjunto sofreram a redução de uma unidade, pois uma estatística (média) já foi calculada dos dados e aplicada na determinação da variância. Desvio padrão Muito utilizado, o desvio padrão é uma medida de variação de um conjunto de dados. Sua vantagem sobre a variância inclui permitir uma interpretação direta da variação desse grupo, pois ele é expresso na mesma unidade que a variável (Kg, cm, atm.), sendo representado por “s” e calculado pela seguinte fórmula: s = √∑ ( xi – Média)2/ (n-1) Pode-se entender o desvio padrão como a média dos valores absolutos dos desvios, considerados todos com sinal positivo, obtida por um processo bastante elaborado, no qual se calcula o quadrado de cada um, obtém-se sua média e, depois, encontra-se a raiz quadrada da média dos quadrados dos desvios. A estatística é utilizada em vários casos, como campanhas políticas, seguro de carro, testes de medicamentos, consumo de produtos e mercado de ações, que são apenas alguns exemplos de aplicação dos seus métodos. Porém, você sabia que, em alguns países, as escolas já começaram a ensinar estatística e linguagens de programação ainda na fase inicial de aprendizado? Regressão linear e medida de curtose A regressão linear é o processo de traçar uma reta por meio dos dados em um diagrama de dispersão. Essa reta resume tais informações, sendo útil quando se faz previsões, por exemplo. Quando se vê uma relação em um diagrama de dispersão, pode-se usar uma reta para resumi-la nos dados ou para fazer 5Estatística para inteligência artificial previsões a partir destes. Em geral, ela ainda objetiva tratar de um valor que não se consegue estimar inicialmente. Com os resultados obtidos, a regressão visualiza as maiores tendências que essas variáveis analisadas apresentam e consiste em modelar, na estatística, os valores que se deseja observar. Ela é linear quando os acontecimentos observados na função têm um formato em linha reta, como você pode ver na Figura 2. Figura 2. Exemplo de regressão linear. Fonte: Dicionário Financeiro (2019, documento on-line). Dados obeservados Regressão linear Quando se faz um levantamento estatístico, dificilmente se encontra uma distribuição simétrica na prática, já em levantamentos de dados reais, existem medidas mais ou menos assimétricas em relação à frequência máxima. Desse modo, curtose (Figura 3) é o grau de achatamento de distribuição quanto à curva normal, uma distribuição padrão, que corresponde a uma distribuição teórica de probabilidade. Estatística para inteligência artificial6 Figura 3. Medida de curtose. Fonte: Yukio (2016, documento on-line). O achatamento de cada uma dessas curvas refere-se a como os dados se apresentam em torno da média, podendo ser mais concentrados ou mais dispersos Leptocúrtica Mesocúrtica Platicúrtica O coeficiente de curtose define sua medida ou o grau de achatamento da curva, sendo representado pela seguinte fórmula, que se denomina como coeficiente percentílico de curtose: C = (Q3 – Q1) / 2 (P90 – P10) Assim, esse coeficiente classifica o grau de achatamento da curva como medida de assimetria e curtose percentílico de curtose. C = 0,263 ==> curva mesocúrtica C curva leptocúrtica C > 0,263 ==> curva platicúrtica A análise conjunta da assimetria e de curtose da distribuição de frequências pode fornecer informações importantes sobre os dados/valores obtidos, que muitas vezes não aparecem na sua simples observação. Estatística e inteligência artificial Ao seu redor, o mundo tem se tornado cada vez mais automatizado e inteligente, com carros, televisores, drones, smartphones, relógios, eletrodomésticos e robôs ganhando uma estrutura de conexão singular e independente, que requer menos sua intervenção. Por trás de tudo isso, existe ciência e tecnologia, com a matemática, a estatística e a computação sendo os pilares responsáveis por essa transformação. 7Estatística para inteligência artificial Na Figura 4, você pode conferir o avanço da receita e o crescimento esperado até o ano de 2025 com os investimentos relacionados à inteligência artificial. Figura 4. Avanço da receita em inteligência artificial. Fonte: Costa (2018, documento on-line). U S$ B IL H Õ ES 60 50 40 30 20 10 0 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 Para saber mais sobre estatística e seus conceitos, acesse o link a seguir. https://qrgo.page.link/3xKQD Machine learning e deep learning O machine learning é uma subárea da inteligência artificial e a principal técnica por trás da automação. Trata-se da construção de algoritmos que aprendem a partir dos dados, em que a estatística tem um papel fundamental, oferecendo as ferramentas necessárias para o processo de análise e a construção de modelos. Assim, aprender análise estatística te tornará um profissional preparado para o novo mundo. Estatística para inteligência artificial8 Atualmente muito associado ao Big Data e a Analytics, o machine lear- ning foi defendido por T. Mitchell, em 1997, e surgiu dos sistemas baseados em conhecimento da inteligência artificial clássica. Seu grande objetivo é desenvolver sistemas que aprendem por si mesmos por meio de experiências e comportamentos passados (aprendizagem não supervisionada); entrada de mapas de dados (aprendizagem supervisionada); e interação com o ambiente (aprendizagem por reforço), por exemplo, dirigindo um carro. Para implementar o machine learning, diversas técnicas estão envolvidas, como uso de estatística para auxiliar na análise e predição de dados até técnicas de mineração de dados (data mining), algoritmos de árvore de decisão, redes bayesianas e processos de clustering. Já o deep learning é uma técnica de machine learning eficaz e precisa para aprendizagem de máquina, que utiliza grandes quantidades de dados não estruturados, possibilitando a representação hierárquica das suas camadas. Os algoritmos de rede neural artificial (RNA) são usados nele justamente por permitir que o aprendizado de padrões ocorra. Portanto, quaisquer soluções que envolvam o reconhecimento de voz, o processamento de imagem, a análise de comportamento, entre outras características, podem ser aplicações factíveis de deep learning. Para entender melhor o machinelearning e sua importância, acesse o link a seguir. https://qrgo.page.link/ZjMmV Conheça as diferenças entre machine learning e deep learning no link a seguir. https://qrgo.page.link/43jDf 9Estatística para inteligência artificial CÔRTES, R. Média, moda, mediana, variância e desvio padrão. Estatística no Enem, 16 jun. 2015. Disponível em: http://geniodamatematica.com.br/media-moda-mediana- -variancia-e-desvio-padrao/. Acesso em: 14 maio 2019. COSTA, O. Você sabe como a Inteligência Artificial pode impactar seus negócios? TI Inside, 26 jun. 2018. Disponível em: http://tiinside.com.br/tiinside/webinside/es- trategia/26/06/2018/voce-sabe-como-a-inteligencia-artificial-pode-impactar-seus- -negocios/. Acesso em: 17 maio 2019. DICIONÁRIO FINANCEIRO. Regressão linear. 2019. Disponível em: https://www.diciona- riofinanceiro.com/regressao-linear/. Acesso em: 17 maio 2019. YUKIO. Curtose. Estatsite.com, 14 fev. 2016. Disponível em: https://estatsite. com/2016/02/14/curtose/. Acesso em: 17 maio 2019. Leituras recomendadas BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2014. CHAUVIN, Y.; RUMELHART, D. E. Backpropagation: theory, architectures, and applications. Hillsdale, NJ: Lawrence Erlbaum Associates, 1995. CHERKASSKY, V.; MULIER, F. M. Learning from data: concepts, theory, and methods. 2nd. ed. Hobokrn: Wiley, 2007. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 3. ed. São Paulo: EDUSP, 2001. MARTINS, G. A.; DOMINGUES, O. Estatística geral e aplicada. 4. ed. São Paulo: Atlas, 2011. Estatística para inteligência artificial10 Dica do professor Quando se fala em aprendizagem de máquina na estatística, sabe-se que sua importância é devida ao fato de que, em determinado momento, o pesquisador vai precisar analisar e entender um determinado conjunto de dados que possa ser relevante ao seu objeto de estudo. Isso porque com o auxílio da aprendizagem de máquina, programas podem trabalhar esses dados, identificando informações relevantes e comparando-os com outros resultados, de modo a agilizar o trabalho do pesquisador. Acompanhe na Dica do Professor o que é e de que forma funciona o machine learning (aprendizagem de máquina) na estatística. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/92f6134de24e7ec33595493058770ce0 Exercícios 1) A média (Me) é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos desse conjunto. Identifique a fórmula a seguir que pode ser utilizada para calcular a média da altura de três pessoas, considerando que: A1 = Pessoa 1 A2 = Pessoa 2 A3 = Pessoa 3 Q = Quantidade de pessoas A) Média = A1+A2+A3 * Q B) Média = A1 * A2 * A3 C) Média = A1 + A2 + A3 / Q D) Média = A1 + A2 / Q E) Média = A1 + A2 + A3 * A3 2) Para encontrar a amplitude de um conjunto, basta calcular a diferença entre o maior e o menor valor da lista. Um professor fez uma pesquisa de idades em uma turma do ensino médio, composta por 15 alunos, e obteve os seguintes resultados: 15, 15, 15, 15, 16, 16, 16, 14, 16, 16, 16, 17, 17, 18, 18. Qual é a amplitude das idades dos alunos dessa sala de aula? A) 3 B) 6 C) 10 D) 4 E) 18 3) Acerca da definição do conceito de Variância e do desvio padrão, é correto afirmar que: A) Para encontrar o valor do desvio padrão é necessário antes determinar o valor da variância. B) A variância não tem relação com medidas de dispersão. C) Para encontrar o valor da variância, basta calcular o valor da média e elevar ao quadrado. D) A variância não tem relação com o desvio padrão. E) Para determinar o valor da variância é necessário que o desvio padrão seja maior que zero 4) Em Machine Learning temos a aprendizagem supervisionada. Na aprendizagem supervisionada existe um conjunto prévio de dados inseridos na máquina, e as sugestões que serão dadas ao usuário devem ser parecidas com os dados registrados. Quais das técnicas seguintes poderiam ser utilizadas para implementar esse tipo de algoritmo? A) Média, desvio padrão e regressão linear. B) Análise regressiva. C) Média e Deep Learning. D) Média ponderada e grafos. E) Somente variância e desvio padrão. 5) No mercado financeiro e nas instituições bancárias, os métodos estatísticos são empregados para modelagem financeira e econômica, visando modelar o comportamento do crédito e da inadimplência. Analise as afirmativas seguintes e indique qual seria útil para o cenário descrito. A) A implantação de sistemas de mineração de dados sem um método para análise e interpretação. B) O conceito de Business Inteligence (BI). C) Sistemas de suporte a decisão implementam regras de negócio que podem gerar essas informações. D) Seria importante o auxílio de um sistema Inteligente para analisar os dados e a implementação de algoritmos estatisticos para apoiar a tomada de decisão. E) O ideal seria uma combinação de BI com mineração de dados. Na prática Inteligência Artificial e Machine Learning (aprendizado de máquina) podem soar como cenário de filmes de ficção científica, mas empresas de investimentos e grandes bancos, por exemplo, já utilizam esses recursos para maximizar seus retornos. Veja Na Prática como funciona a utilização de técnicas de inteligência artificial nas aplicações financeiras, por meio dos robôs de investimento. Conteúdo interativo disponível na plataforma de ensino! Saiba + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Estatística (média, mediana, moda, variância e desvio padrão) Acompanhe por meio deste vídeo uma explicação sobre como calcular média, mediana, moda, variância e desvio padrão. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Variância e desvio padrão Variância e desvio padrão são medidas de dispersão que indicam a regularidade de um conjunto de dados em função da média aritmética. Saiba mais sobre seus conceitos por meio da leitura deste artigo. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Colocando os pingos nos “is” da inteligência artificial Aprofunde seus conhecimentos sobre a interação entre estatística e inteligência artificial por meio da leitura deste artigo. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://www.youtube.com/embed/CG_AGULJJz8 https://mundoeducacao.bol.uol.com.br/matematica/variancia-desvio-padrao.htm https://imasters.com.br/devsecops/colocando-os-pingos-nos-is-da-inteligencia-artificial