Baixe o app para aproveitar ainda mais
Prévia do material em texto
Ciência dos dados e inteligência artificial Objetivos Olá, estudante. Bem-vindo (a) à disciplina Ciência dos dados e inteligência artificial. Atualmente existem milhares de dispositivos eletrônicos inteligentes conectados à rede mundial de computadores, os quais, neste exato instante, estão produzindo e consumindo dados. Esses dados, que anteriormente eram gerados, armazenados e poucos explorados, deram origem a uma nova área dentro da ciência da computação, que atualmente chamamos de Big Data. Com o cenário tecnológico favorável e ferramentas disponíveis, o grande volume de dados gerados hoje consegue proporcionar às organizações uma análise de dados em tempo real, previsão de comportamentos, tendências mercadológicas, busca de respostas para doenças e tomada de decisões mais assertivas, baseadas em repositórios de dados, reduzindo tempo e custos. Para que tudo isto possa ser possível, é necessário que as organizações contem com profissionais qualificados para atuar nesse novo cenário, em que a demanda somente cresce. Diante dessa necessidade organizacional, temos de fato um mercado pronto para ser explorado. Vamos aprender mais sobre esta unidade curricular e desenhar um futuro promissor, onde as demandas crescentes nos apontam um oceano azul. Você está convidado a conhecer Ciência de dados e inteligência artificial. Bom estudo! Objetivos Ao final desta disciplina, você deverá ser capaz de: • Compreender as abordagens organizacionais ou de pesquisa em ciência de dados e inteligência artificial. • Analisar dados previamente obtidos com aplicação de técnicas estatísticas. • Compreender as abordagens sobre ciência de dados disponíveis para promover o alcance dos objetivos organizacionais ou de pesquisa. • Desenvolver a habilidade de profissionais na leitura de estatísticas para a tomada de decisão em temas que dizem respeito à sua área de atuação. • Discutir Inteligência Artificial com ênfase na utilidade e aplicação das diferentes abordagens de representação de dados e solução de problemas. Conteúdo Programático Esta disciplina está organizada de acordo com as seguintes unidades: • Unidade 1 – Ciência de Dados • Unidade 2 – Análise exploratória de dados e Análise Estatística • Unidade 3 – Os processos de negócios x ciência de dados • Unidade 4 – Fundamentos de Inteligência Artificial Autoria Professor Celso Barreto da Silva Graduado em Administração com Habilitação em Análise de Sistemas, licenciado em Matemática para o Ensino Básico, é pós-graduado em Metodologia do Ensino da Matemática e Docência no Ensino Superior. Mestrando em Sistemas e Computação. Possui experiência prática como professor titular nos Cursos de Administração e Gestão de Negócios em Turismo, Analise e Desenvolvimento de Sistemas e Redes de Computadores. Foi professor nível 3 nos cursos técnicos (Desenvolvimento de Sistemas e Redes de Computadores) entre 2012 e 2021. Ministrou treinamentos e capacitações em TI - Empresarial, desenvolveu atividades como professor líder na província de Bié, em Angola, de 2010 a 2011, para cursos técnicos pelo Ministério da Educação. Possui vasta experiência em análise de dados e diagnóstico de problemas com uso de ciência de dados. Trabalha com design thinking no processo de modelagem de produtos e experiência do usuário. É consultor em tecnologias e desenvolvimento de sistemas e gestão empresarial, com mais de 18 anos de experiência prática. Trabalha com banco de dados e linguagens de programação. Detém vasta experiência em desenvolvimento de projetos em tecnologia. Conhece os ambientes de softwares: MS-DOS, Windows, Word, Excel (avançado), PowerPoint, Access, Outlook, Internet, CorelDraw, PhotoShop, Firework , Flash, DreamWeaver, HTML5, CSS, JavaScript, Java OO, JSP, PHP, introdução a C#, Delphi, bancos de dados SQLSERVER, MySQL, FIREBIRD, POSTGREE, MARIA DB, Linguagem SQL, Administrador de Banco de DADOS. Conhece Modelagem de dados com UML. Ministra treinamentos em Didática e Recursos Pedagógicos Google for Education e ministra diversos cursos nas áreas correlatas. Possui conhecimentos com ferramentas administrativas para gestão de qualidade e satisfação do cliente, como SEIS SIGMA, PDCA, 5S, Análise de SWOT, 5W2H. Ciência de Dados Estamos vivenciando a Quarta Revolução Industrial, disponibilidade tecnológica e a produção diária e massiva de dados que chamamos de Big Data. Isso nos traz diversas e profundas mudanças, que acontecem quase que instantaneamente em nossas vidas pessoais, saúde, negócios, escolas, faculdades, casas, carros, amizades, empregos e tudo mais à nossa volta. Os dados que estão sendo criados e consumidos em escala gigantesca com variedade e velocidade nunca pensados têm trazido aos negócios descobertas fantásticas acerca das oportunidades ainda inexploradas contidas nos grandes repositórios chamados de Big Data. A proposta desta unidade curricular é criar valor acerca da análise de dados contidos nos bancos de dados e extrair informações relevantes sobre a pesquisa que se pretende realizar. Com o Big Data, o profissional poderá mudar a forma como as coisas na empresa ou no negócio são realizados, ou mesmo como são produzidas, ganhando tempo e dinheiro. Também por meio da análise de dados será possível produzir relatórios e dashboard para a tomada de decisão baseada em dados. Objetivo Ao final desta unidade, você deverá ser capaz de: • Compreender as abordagens organizacionais ou de pesquisa em ciência de dados e inteligência artificial.. Conteúdo Programático Esta unidade está organizada de acordo com os seguintes temas: • Tema 1 - Introdução à ciência de dados e conceitos introdutórios • Tema 2 - Evolução da Ciência de Dados no âmbito acadêmico e no mundo do trabalho. • Tema 3 - Elementos básicos de programação • Tema 4 - Introdução à linguagem R • Tema 5 - Big Data É possível utilizar o poder dos dados para prever o futuro? Quais pontos de vista devem ser observados? Estas questões podem ser respondidas após a leitura de nosso material e a análise do nosso vídeo de apoio do canal NERDOLOGIA TECH, onde encontraremos boas fontes de exemplos para a explicação sobre Ciência de Dados. Clique na imagem para visualizar o vídeo. Caso não consiga visualizar, clique aqui . Assistir o Vídeo até o tempo 6:26. https://www.youtube.com/watch?v=ykSILAQQu6o https://www.youtube.com/watch?v=ykSILAQQu6o Tema 1 Introdução à ciência de dados e conceitos introdutórios Qual a necessidade da ciência de dados e por que ela é indispensável? O que é ciência de dados? Antes de conceituamos Ciência de Dados, peço que se atente à imagem que mostraremos a seguir, que nos mostra algumas situações cotidianas vivenciadas na nossa cidade, que precisam ser adaptadas com a finalidade de melhorar o dia a dia e a vida dos cidadãos. Você poderia imaginar de que maneira a Ciência de Dados ajudaria a resolver essas dificuldades? Observe os setores destacados e os questionamentos dentro das caixas em azul. Após uma análise das informações contidas na imagem podemos verificar que ela nos mostra algumas aplicações da Ciência de Dados para melhorar a vida social. Observamos também que, a partir de problemas e perguntas iniciais, podemos iniciar algumas investigações. Tomando como exemplo o questionamento 1, em que espera-se que o ônibus passe no horário esperado, porém isso não ocorre. Por que não? O que impede? Existe solução para esse problema? Uma das maneiras pela qual poderíamos utilizar a ciência de dados para encontrar uma solução para o problema seria a partir de uma estimativa da frequência ideal de ônibus nesse local (ponto), com base emum tempo de espera que se imagina ser adequado. Ainda falando na solução desse problema, o que devemos coletar: • A frequência dos ônibus, que passam nesse local a fim de conhecer a situação atual • A quantidade de usuários que utilizam o transporte • A melhor rota percorrida, para evitar atrasos Conseguiu pensar em mais algum ponto para ser explorado? Para que possamos prosseguir é necessário definir esses tópicos importantes, pois eles indicam quais dados deve-se obter. É justamente a partir do momento em que os dados são obtidos que o processo investigativo evolui para se saber qual é a frequência ideal de ônibus nesse ponto da cidade. Observe a imagem e analise como temos diversos questionamentos em muitas áreas diferentes, ou seja, conforme Oracle (2020): “ A ciência de dados combina vários campos, incluindo estatísticas, métodos científicos, inteligência artificial (IA) e análise de dados para extrair valor dos dados. OCI, 2020 ” No uso do processo da Ciência de Dados, o dado bruto é transformado em informações úteis e relevantes por meio de algumas etapas que permitem analisar tendências e prever comportamentos futuros. As informações geradas permitem extrair conclusões e criar sacadas para responder a perguntas e solucionar problemas. https://www.oracle.com/br/data-science/what-is-data-science As ferramentas matemáticas estão vinculadas a ciências sociais, ciências biológicas, ciências ambientais, setor de negócios, tecnologia, entre outras, a fim de descobrir padrões e tendências em problemas de naturezas diferentes. Isso faz com que a Ciência de Dados se torne uma área interdisciplinar, facilitando o seu uso por pessoas de diversas áreas do conhecimento. Ao observar a imagem anterior, entende-se que, para que a ciência de dados atue de maneira correta e com alta margem de assertividade, é necessário que o estudante (profissional) detenha e entenda os conceitos básicos contidos em sua composição. O que são dados e como os encontramos? Uma das informações mais relevantes na área de ciência de dados é o reconhecimento de fontes. E que são dados? São todas as observações, documentos, medições e qualquer outra fonte que nos dê a oportunidade de obter informações acerca de qualquer objeto investigativo. Conforme Pinheiro(2011): “ Dados são observações documentadas ou resultados da medição. A disponibilidade dos dados oferece oportunidades para a obtenção de informações. Os dados podem ser obtidos pela percepção através dos sentidos (por exemplo observação) ou pela execução de um processo de medição. PINHEIRO, 2011 ” https://www.ime.unicamp.br/~hildete/dados.pdf O que são Informações e como as geramos? Quando buscamos dados como homem, mulher, professor ou até mesmo o nome ou a idade de alguém, possuímos apenas dados brutos, que não nos remetem a qualquer tomada de decisão ou análise crítica acerca dos dados que foram coletados. Porém, ao solicitarmos a quantidade de homens e mulheres ou faixa salarial de uma categoria profissional e após coletarmos essas informações e as tabularmos, será possível, gerar dashboard, gráficos, entre outras análises que nos fornecem um cenário para o processo decisório acerca de algum objeto investigado. Em resumo, estamos obtendo, com base nos dados, informações que irão nortear a nossa tomada de decisão. Então, concluímos que, ao darmos valor aos dados após análise, eles são transformados em informações úteis. Qual a necessidade da ciência de dados e por que ela é indispensável? Atenção: a Ciência de Dados é favorecida pela disponibilidade tecnológica, mas é importante destacar que são os seres humanos que coordenam, direcionam, criam regras, avaliam e manuseiam todo o processo investigativo. Assim, percebe-se a importância e a necessidade de um profissional capacitado que avalie a execução de cada etapa realizada e que possa garantir análises e interpretações coerentes a cada situação. Nos próximos temas abordaremos com mais profundidade alguns assuntos específicos do mundo da ciência de dados e sua aplicação a negócios e organizações. Tema 2 Evolução da Ciência de Dados no âmbito acadêmico e no mundo do trabalho Quais outras áreas poderíamos citar como exemplo para atuação do cientista de dados e possível desenvolvimento de negócios com o uso da Ciência de Dados? O novo petróleo - Dados No ano de 1859, em 27 de agosto, em uma cidade americana chamada Titusville, na Pensilvânia, foi perfurado o primeiro poço de petróleo do mundo. Por iniciativa do coronel norte-americano Edwin Drake e após 23 metros de profundidade, o ouro negro apareceu para mudar o percurso da história, gerando riqueza para todos que tinham reservas de petróleo. Após o período de estudos foi utilizado como querosene e outros derivados. Assim como o petróleo transformou o curso da história da humanidade trazendo inúmeros benefícios e oportunidades para diversas pessoas e empresas e gerando riquezas para quem o detinha, do mesmo modo acontece com o petróleo de nossa época, ou como é chamado pelos cientistas, o novo petróleo — os dados. A partir dos dados, as organizações conseguiram alcançar personalização de seus produtos e serviços em grande escala, trazendo maiores resultados aos seus negócios. De posse desses dados, que são gerados de diversas fontes, organizações como redes sociais, buscadores, sites de streaming de vídeos, sites de músicas, entre outros, conseguem realizar análises e geração de relatórios com diversos caminhos alternativos. Para refletir Assim, as organizações vislumbram novas formas de fazer negócio. Seria uma volta ao vale do silício, onde empresários aprendem formas inovadoras, diferentes e exponenciais de analisar dados para que possam tomar decisões com maior taxa de sucesso. Primeiro poço de petróleo nos Estados Unidos, construído em 1859 por Edwin L. Drake, Titusville, Pensilvânia. Os empresários e profissionais gestores sabem que uma decisão errada pode levar seu negócio a pagar um preço muito alto ou até levá-lo à falência. Os líderes são reconhecidos e avaliados a partir da qualidade de cada decisão que tomam, até porque o ser humano não é substituível para essa etapa do negócio. Por este motivo, os líderes valem-se dos dados para a assertividade no processo decisório. Alguns exemplos: Exemplo 1 – E-commerce Imagine neste momento as empresas na categoria e-commerce utilizando seus grandes volumes de dados, ou BIG DATA, para traçar estratégias de vendas mais agressivas em partes específicas do ano. Agora, vamos imaginar o processo de vendas e o processo de sugestão de vendas para os clientes que estão acessando os sites e-commerce. A esse processo chamamos BI – Bussiness Inteligence. Os algoritmos, ou sistemas implantados nos servidores que hospedam os sites, são desenvolvidos para coletar de cada cliente, de maneira única e personalizada, os dados de navegação e cliques que o cliente executa. Observe que durante o período natalino os produtos da época aparecem em sua tela de celular e computador como em um passe de mágica, sendo exatamente o produto que você quer comprar e com uma oferta que quase faz você sai de casa e ir até a loja naquele momento. Verdade? Claro que sim! Isso se dá devido à sua navegação nos sites e buscadores on-line, que mostram claramente quem é você e o que você quer. Exemplo 2 – Saúde Outro exemplo importante é a ciência de dados sendo aplicada na área da saúde, seja ela animal, vegetal ou humana. Alguns experimentos que eram quase impossíveis de analisar ou até mesmo de armazenar as informações sobre suas etapas e processos desenvolvidos devidos à riqueza de detalhes, hoje são possíveis de serem realizadas análises dos dados gerados por computadores robustose sistemas avançados. “ Dados são observações documentadas ou resultados da medição. A disponibilidade dos dados oferece oportunidades para a obtenção de informações. Os dados podem ser obtidos pela percepção através dos sentidos (por exemplo observação) ou pela execução de um processo de medição. PINHEIRO, 2011 ” Alguns fatos interessantes neste contexto: hoje é possível a análise de imagens médicas que são coletadas todos os dias e armazenadas nos grandes repositórios de dados, disponíveis ou não. Podemos ter acesso a alguns dados em sites oficiais com a finalidade de comparações e geração de estatísticas, como o do IBGE, ONU, entre outros. O que você faria se tivesse acesso ao volume de dados médicos registrados no sistema de saúde pública, o SUS? Pense um pouco sobre esta questão, pois você poderá inovar algum produto ou serviço em saúde ajudando inúmeras pessoas e gerando resultados surpreendentes. Se estiver interessado em analisar alguns dados, segue um link disponível no site do IBGE: Clique aqui – Micro Dados - IBGE Caso tenha interesse em mais dados e oportunidades de análise de dados, o site ainda dispõe de outros dados aos quais temos acesso por meio deste endereço eletrônico: Clique aqui – Estatísticas - IBGE Outras aplicações que evoluíram muito com a aplicação da ciência de dados é a área de saúde animal, ou veterinária. O Ministério da Agricultura, Pecuária e Abastecimento tem como base gerenciar os dados e informações sobre saúde animal em nosso pais por meio do SIZ - Sistema Nacional de Informação Zoossanitária. Conforme publicação em sua página da internet, o ministério relata as ações e objetivos do SIZ: https://www.ime.unicamp.br/~hildete/dados.pdf https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html?caminho=PNS/2019/Microdados/Dados https://www.ibge.gov.br/estatisticas/todos-os-produtos-estatisticas.html “ Os principais objetivos do SIZ são coletar, consolidar, analisar e divulgar informações zoossanitárias para apoiar a elaboração, implantação, avaliação e tomada de decisões sobre estratégias e ações de vigilância, prevenção, controle e erradicação de doenças animais de relevância para a pecuária e para a saúde pública. MINISTÉRIO DA AGRICULTURA PECUÁRIA E ABASTECIMENTO, 2022 ” Todos os dados que são coletados a partir das plataformas digitais oficiais servem como base para o início de investigações para o desenvolvimento de vacinas e produtos que visam o bem-estar animal. Conforme o portal do Ministério da Agricultura Pecuária e Abastecimento: “ Os dados são obtidos a partir dos registros dos Formulários de Investigação oficial de doenças e dos dados consolidados nos Informes Epidemiológicos Mensais, de responsabilidade do Serviço Veterinário Oficial - SVO dos estados (Órgão Estaduais de Saúde Animal), que realizam as investigações de doenças notificadas e compartilham as informações com as Superintendências Federais de Agricultura - SFA e Departamento de Saúde Animal - DSA, seguindo os procedimentos de vigilância e fluxos de informação do SIZ. MINISTÉRIO DA AGRICULTURA PECUÁRIA E ABASTECIMENTO, 2022 ” Observamos como por meio de artigos e sites de internet a ciência de dados está a cada dia ajudando as organizações com soluções e assertividade no processo de tomada de decisão baseada em dados. Além dessas fontes existem outras disponíveis na internet, que fazem com que o aluno ou profissional possa fazer consultas acerca de pesquisas e inovações em ciência de dados sobre os benefícios aos animais, plantas e seres humanos. https://bityli.com/caIRS https://bityli.com/caIRS Exemplo 3 – Financeiro Podemos também citar que, além das pesquisas envolvendo a saúde no âmbito da ciência de dados, outra área que utiliza profundamente a ciência de dados para manter seus negócios funcionando em grande escala é a financeira. Grandes instituições, que outrora eram pequenas, usaram a ciência de dados para alavancar seus negócios e aumentar sua margem de lucro a partir da coleta de informações, análise de resultados e tomada de decisão com maior taxa de assertividade. Podemos citar como um grande exemplo uma empresa na categoria de banco digital chamada Nu Bank, que hoje atua no Brasil e no mundo ofertando serviços bancários com agências digitais e outros negócios financeiros aos seus usuários. Exemplo 4 – Gestão e Marketing A área de gestão de pessoas ou recursos humanos necessita de análise de dados para poder atender de maneira personalizada, podendo criar novos produtos e serviços ao seu público, aumentando seus resultados qualitativos e quantitativos. Assim como a área de gestão de pessoas, o marketing necessita de análise profunda do perfil detalhado sobre seu público. Em marketing, é a chamada modelagem de persona que dá ao profissional de marketing as informações necessárias para traçar estratégias e escolhas de materiais publicitários que têm a ver com seu público. As campanhas desenvolvidas pela área de gestão ou pelo marketing, seja ele digital ou não, necessitam de alguns dados sobre seu público para que a campanha seja a mais assertiva possível. Por exemplo: • Ao postar em rede social, quem mais interage: homem ou mulher? • De qual região de sua cidade estas pessoas falam com você? • Qual é a média salarial destas pessoas? • Quais interesses em comum estas pessoas apresentam? • Qual a formação delas? • Qual o gênero? • Sua postagem tem foco em qual produto ou serviço? • Qual o nicho você está trabalhando? As respostas destes questionamentos podem nortear uma investigação acerca da modelagem de uma persona e podendo traçar estratégias para a alavancagem de negócios e serviços digitais. Vídeo Para saber mais, assista ao vídeo publicado na unidade da disciplina no Ambiente Virtual de Aprendizagem. Exemplo 5 – Produção acadêmica Outro exemplo bem interessante do uso da ciência de dados é a análise textual das produções acadêmicas. Tal análise tem a finalidade de orientar os alunos de nível técnico e superior quanto ao desenvolvimento de artefatos acadêmicos, como artigos científicos, trabalho de conclusão de curso, dissertações, entre outros. Mais um exemplo interessante para nossa análise sobre o uso da ciência de dados é o meio acadêmico falando um pouco sobre produção e análise textual, com foco em orientação e produção acadêmica. Ao final de um período, o aluno precisa produzir alguns artefatos acadêmicos, que conhecemos como artigo científico e trabalho de conclusão de curso. Por meio da ciência de dados é possível minerar toda produção acadêmica gerada pelo nosso aluno, sendo assim mais assertivo em sua orientação. Em relação a alguns trabalhos que apresentam textos que não foram produzidos pelo aluno com a ciência de dados, é possível realizar uma correção em tempo, orientando o aluno na citação do texto e de seu autor. Tema 3 Elementos básicos de programação Como entender estruturas de códigos utilizando os elementos básicos da programação? O que é ciência de dados? Pergunta em destaque Entendendo sobre os pilares da programação Na área de ciência de dados existem maneiras de obter informações a partir da análise dos dados. Uma dessas refere-se à utilização de linguagem de programação. Linguagem de programação é o mesmo que uma maneira padronizada de introduzir instruções em um computador. Para que essas instruções sejam inseridas com êxito dentro do computador, é necessário seguir alguns pilares funcionais de programação. São eles: vocabulário, sintaxe e semântica. Vocabulário Sintaxe Semântica É o mesmo que conjunto de palavras primitivas da linguagem de programação, ou palavras reservadas. Por exemplo: na linguagem R, utilizamos a palavra “sum”, que é uma funçãopara somar valores. Isso significa que não posso utilizar esta palavra para outra finalidade, senão para a que foi criada. Refere-se a todas as regras ou conjunto de regras que utilizamos para escrever comandos dentro da linguagem. Por exemplo: havendo dois números armazenados nas variáveis a e b, podemos somá-los utilizando o operador relacional de soma a + b. A partir da sintaxe determina-se do como os comandos devem ser escritos ou expressados. Trata-se do que representa cada comando dentro de uma linguagem de programação, é a maneira pela qual devo escrevê-lo de acordo com o seu significado e o que se pretende obter. Para que seja possível a coleta, análise e manipulação de dados, é necessária a utilização de armazenamento em espaços na memória do computador por meio do uso de variáveis, que são espaços na memória de um computador destinado ao armazenamento temporário de um dado durante a execução do sistema. Vale registrar que a memória não guardará seus dados no momento em que o seu computador for desligado, ou seja, as memórias são voláteis. Os dados armazenados na memória são de tipos específicos, como inteiro, fracionário, alfanumérico e booleano. Operadores relacionados As linguagens de programação utilizam os operadores relacionais dentro de seu script com a finalidade de comparar valores para se obter resultado verdadeiro ou falso. Vale registrar que as comparações dentro do script precisam ser de um mesmo tipo de dado. Não se pode comparar um valor alfanumérico com outro valor numérico, pois o resultado seria indefinido. Em muitos casos, o compilador da linguagem de programação retornará um erro. Por exemplo: Celso >= 1. Observe que, neste exemplo, está sendo comparada uma variável alfanumérica com o valor numérico. Neste caso, não se obtém resultado ou resposta para esta comparação. Tabela de operadores relacionais. Operador Significado == Igual a != Diferente de > Maior que < Menor que >= Maior ou igual a <= Menor ou igual a Operadores aritméticos Com a finalidade de executar operações matemáticas a linguagem de programação utiliza operadores aritméticos. Aqui encontramos adição, subtração, multiplicação, divisão, potência, módulo, entre outras operações por meio das quais se pretende obter resultado matemático. Tabela de operadores aritmético. Operador Significado Exemplo Descrição + adição d + e Soma de dois valores. - Subtração d - e Subtrai o segundo valor do primeiro. / Divisão d / e Divide o primeiro valor pelo segundo. * Multiplicação d * e Multiplica os dois valores ** Potência d ** e Eleva o primeiro valor pela potência do segundo. % Módulo d % e Divide o primeiro valor pelo segundo valor e produz a parte restante. Operadores lógicos Os operadores lógicos são utilizados com a finalidade de se obter comparações relacionais entre os valores trabalhados dentro de uma estrutura de dados. Tabela de operadores lógicos. Operador Significado Exemplo Descrição && E d && e Retorna verdadeiro se ambos o valores forem verdadeiro. || Ou d || e Retorna verdadeiro se pelo menos um valor for verdadeiro. Estrutura condicional Uma estrutura condicional dentro da programação é utilizada com a finalidade de se tomar uma decisão mediante análise e comparação dos dados que estão armazenados em variáveis. Por este motivo, também é chamada de estrutura de decisão. Analise o trecho de código a seguir: Explicando: x ← 10 (Nesta linha estamos armazenando o valor 10 na variável X) FORO comano “IF” é utilizado para a realização de um teste condicional. Caso o número armazenado em X seja igual a 10, vamos armazenar a frase: "Número igual a 10" em uma variável chamada “res”, e, posteriormente, esta frase será exibida a partir do comando print. Estrutura de repetição As estruturas de repetições são utilizadas comumente com o objetivo de listar diversos valores sem a necessidade de criar scripts gigantescos. Elas nos permitem, com poucas linhas de código, exibir inúmeras informações que estejam dentro de uma lista de dados ou repositório de dados. Falaremos especificamente nos próximos temas de duas estruturas de repetição utilizadas com maior frequência dentro da linguagem de programação. São elas a estrutura de repetição for e while. Ambas as estruturas são chamadas de laço de repetição e são frequentemente utilizadas para percorrer vetores e listas de dados. Tema 4 Introdução à linguagem R. De que maneira aprender introdução à linguagem R sem precisar instalar nenhum sistema? Introdução à Linguagem R Para que seja possível realizar a análise de um grande volume de dados, o cientista necessita contar com o uso da tecnologia da informação e comunicação com a finalidade de obter informações contidas no volume de dados. Neste tópico utilizaremos a tecnologia chamada de linguagem de programação R. Esta linguagem de programação é excelente para quem deseja tornar-se cientista de dados, pois ela é muito rica e de fácil aprendizado, atuando nas áreas de análise de dados, ciência de dados, inteligência artificial e machine learning. Vamos observar aqui os conceitos básicos dessa linguagem e desenvolver alguns scripts práticos em linguagem R. A linguagem R é excelente para quem está começando a aprender análise de dados, querendo conhecer mais sobre ciência de dados, machine learning e inteligência artificial. Por meio dela, mesmo quem nunca escreveu uma linha de código consegue rapidamente aprender o básico para criar seus primeiros scripts. As informações sobre esta linguagem você poderá obter no site oficial: R- PROJECT Para que seja possível a execução dos scripts gerados neste tópico vamos utilizar um ambiente on-line e gratuito com compilador R. O que é um compilador? Quando criamos um script utilizando uma linguagem de programação, as instruções nestes scripts são traduzidas para linguagem de máquina, chamada de linguagem binária (0 e 1). Esta tradução é realizada pelo sistema chamado de compilador. https://www.r-project.org/ https://www.r-project.org/ Acessando o ambiente on-line Para iniciar a criação dos nossos códigos em linguagem R, vamos utilizar um ambiente on-line com todos os recursos disponíveis gratuitamente. Para ter acesso ao ambiente, basta acessar o link: Online Rscript Compiler Observe que a tela inicial nos exibe um botão por título execute, localizado no alto à direita, onde os códigos digitados na área escura da tela serão traduzidos em um gráfico mostrado à direita da tela. Para podemos iniciar, vamos apagar todo conteúdo previamente exposto na área de códigos. Como estudado anteriormente, neste momento vamos utilizar os operadores relacionais, lógicos e aritméticos na geração do nosso primeiro script. Acessando o ambiente on-line Para não cairmos na maldição da linguagem de programação R, precisamos seguir um ritual que está presente em todas as linguagens de programação, o famoso hello world. Então, para isso usaremos o seguinte código: print ("hello world"). Após a digitação do nosso código inicial clique sobre o botão execute. Observe que será exibida a frase do lado direito da tela. Sempre que precisarmos exibir uma frase, utilizaremos este comando e o texto entre aspas. Em seguida, vamos utilizar os operadores como vistos acima nas tabelas. Digite a lista de operações a seguir e clique em execute. https://www.tutorialspoint.com/execute_r_online.php https://www.tutorialspoint.com/execute_r_online.php Em nosso código, estamos realizando as quatro operações básicas da matemática e, na linha de número 5, existe a operação de potência conforme descrito nas tabelas anteriores. Na linha de número 6 existe a criação de uma variávela. Esta variável está recebendo o valor 10. Na linha seguinte existe a criação de uma nova variável b, que recebe o valor 5. Na linha 8 foi criado uma variável x, que está recebendo a soma das variáveis A e B. Por fim, está sendo utilizado o comando print para mostrar o resultado da soma que está sendo armazenada na variável x. Observe na imagem ao lado direito o valor 15, que é o resultado da soma das variáveis A e B. Segundo código - Perguntando ao R Dentro do ambiente de programação R, é possível utilizar os operadores relacionais com a finalidade de se obter uma resposta a um questionamento escrito dentro de nosso script, como: Comparação numérica: 5 == 5 Comparação alfanumérica: "Celso" == "Celso" Na primeira comparação é analisado se o valor 5 = outro valor 5. Após clicar no botão Execute, você irá obter o resultado true, ou seja, verdadeiro. Em nossa segunda comparação, estamos analisando um valor alfanumérico com outro valor alfanumérico, e também vamos obter o resultado verdadeiro. Todas as vezes em que for necessária a comparação de valores alfanumérico, ou seja, textos, caracteres especiais e outros símbolos, eles precisarão estar entre aspas duplas. Poderíamos, ainda, estar utilizando outros operadores na realização de comparações entre valores. Então, vamos lá! Comparação numérica Resultados 5 == 5 [1] TRUE 5 != 5 [1] FALSE 5 > 5 [1] FALSE Comparação numérica Resultados 5 < 5 [1] FALSE 5 >= 5 [1] TRUE 5 <= 5 [1] TRUE Nas comparações descritas acima, estamos utilizando os operadores relacionais conforme nossas tabelas. Após clicar no botão execute, você irá obter o resultado conforme a coluna da direita. Nesse momento, com essas comparações, a linguagem R entende que está sendo perguntado acima o seguinte: 5 é maior do que 5? o R imediatamente responde que não, ou seja, false, conforme linha 3 em destaque. Vamos ver mais um exemplo simples de como calcular a média entre dois números quaisquer. Atribuição a ← 10 b ← 5 d ← c(a,b) Resultado mean(d) 7,5 No exemplo acima criamos as variáveis A e B e atribuímos-lhes os valores 10 e 5 respectivamente. Na linha seguinte criamos a variável D, que recebe e a partir de uma função C os valores de A e B. Chamamos a isto de passagem de parâmetros. Para que seja possível o cálculo da Média, utilizamos uma função mean, que recebe o valor da variável D. Como resultado, obtemos 7,5. Como sugestão de material de apoio, deixamos para você dois links contendo informações completas sobre a linguagem R e suas aplicações: • Ciência de Dados em R (curso-r.com) • Aprenda R em 14 minutos! (Para iniciantes) - YouTube https://livro.curso-r.com/index.html https://www.youtube.com/watch?v=pdRoIDQJ_x4 O primeiro link traz um material on-line com possibilidade de impressão, caso deseje para estudar e conhecer um pouco mais da linguagem. O segundo link é um vídeo com informações básicas. Esperamos que goste! Tema 5 Big Data O que é o big data e qual o seu valor para a minha formação profissional? O que é ciência de dados? O que é o Big Data? O termo “Big Data” está relacionado a todos os dados gerados por empresas no dia a dia. Com a evolução da tecnologia e a transformação digital, estão surgindo diversas e novas formas de computar e analisar esses dados, podendo transformá- los em serviços diferenciados. Ainda sobre o termo, este pode ser descrito como um alto volume de dados, que podem estar estruturados ou não, e que são resultado das interações de bilhões de pessoas conectadas em diversas plataformas virtuais, como redes sociais e sites de comércio eletrônico. De acordo com Gardnet (2020): “ Big data são ativos de informações de alto volume, alta velocidade e/ou alta variedade que exigem formas inovadoras e econômicas de processamento de informações que permitem uma visão aprimorada, tomada de decisões e automação de processos. (GARDNET, 2020) ” https://www.gartner.com/en/information-technology/glossary/big-data Conforme Boyd e Crawford (2011): “ O termo Big Data surge nos últimos anos em meio a este cenário. Ele representa grosso modo o grande volume de dados, base para a produção de informações não estruturadas e estruturadas, produzidos de maneira exponencial na contemporaneidade. Mais do que seu volume, sua articulação em rede, sua velocidade e diversidade possibilitam a produção de mais dados, a partir dos dados já existentes, sobre indivíduos, grupos ou sobre a própria informação, quaisquer que sejam ela, disponível. ” Em uma definição clara e objetiva, Big Data significa um grande volume de dados. A quantidade aumenta consideravelmente à medida que novos meios digitais aparecem para gerar dados, não só a cada dia, mas a cada minuto. Por que o Big Data? Os dados do Big Data podem ser estruturados ou não e incentivam o cruzamento de informações para chegar a insights e decisões estratégicas para uma empresa. Porém, diante desse cenário, alguns especialistas começaram a se perguntar ao longo dos anos: para que uma organização acumula esse grande volume de dados? Tais dados só estariam acumulando espaço em discos rígidos se informações não pudessem ser extraídas. O que é possível realizar com a análise de Big Data? • Entender o cenário do mercado. • Satisfação com uma marca. • Necessidades de determinado público. • Descoberta de negócios e oportunidades. • Curas de doenças. • Análise de padrões. • Outras análises. A partir dessa análise podemos afirmar de maneira assertiva que a Era do Big Data ou grande volume de dados se caracteriza pela necessidade de se analisarem esses dados e convertê-los, transformá-los em informação úteis e preciosas para governos e negócios de vários seguimentos. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431 Isso implica muitos desafios a serem superados, pois a maioria consiste de dados não estruturados, cujo potencial ainda não foi totalmente explorado. São necessárias técnicas mais complexas para sua exploração, mantendo ainda uma grande oportunidade de negócios para os profissionais com conhecimentos em ciência de dados. Prática de guardar e estruturar dados Embora o termo Big Data seja muito recente, sabe-se que a humanidade sempre conviveu com uma grande quantidade de dados, que eram armazenados de várias maneiras distintas ao longo do tempo. Existem evidências de registro de dados em pinturas que datam de 18.000 a.C. O uso de uma linguagem estruturada para registrar informações tornou-se mais comum a partir de 3.500 a.C. com a invenção da escrita. Com todas as informações sendo geradas ao longo dos anos pela humanidade, por que somente agora estamos usando-as? Qual a real relevância disso? O que nos impedia de analisar os dados gerados anteriormente? Diante destes questionamentos encontramos uma resposta simples: somente agora, a partir da revolução digital, encontramos ferramentas e disponibilidade tecnológica para tratarmos dessas questões. Essa revolução fez com que o volume de informações criado pela geração atual seja milhares de vezes maior do que o gerado nas gerações anteriores. E como que estamos gerando informações milhares de vezes maiores do que o que foi gerado nas gerações anteriores? Acompanhe as informações a seguir referentes somente ao ano de 2020: • Foram enviadas 100 bilhões de mensagens por dia no WhatsApp. • Foram enviadas mais de 59 milhões de mensagens por minuto no Facebook. • Foram enviados mais de 190 milhões de e-mails por minuto. • Foram processadas pelo Google mais de 3 bilhões de pesquisas por dia em todo o mundo. • Foram enviadas mais de 500 milhões de mensagens por dia pelo Twitter. Os “registros de contabilidade” gravados nos tabletes de argila de Uruk, datam desta época.Formação profissional Esses dados produzidos diariamente disponibilizam informações importantes para empresas dos mais diversos segmentos. Os profissionais preparados na área de ciência de dados poderão criar modelos destinados a explorar e prever o comportamento de usuários baseando-se nos dados coletados, com ajuda computacional e estatística na elaboração de algoritmos eficientes É necessário saber que o profissional atuante na área de ciência de dados irá imergir em áreas específicas como matemática, ciência da computação e conhecimento do domínio. Pode-se dizer que o profissional formado nesta unidade curricular terá uma visão multidisciplinar, sabendo usar técnicas estatísticas e de machine learning, alavancadas pela implementação computacional dessas soluções para analisar conjuntos massivos de dados de qualquer área. Importante Esse profissional estará qualificado para tratar de problemas diversos, como: uma empresa de streaming que procura aumentar o número de clientes identificando suas preferências pessoais, tendo como informação as escolhas passadas. O mesmo acontece com aplicativos de música e e- commerce. É aí que esse profissional entra para resolver esse problema. E a demanda é enorme. Outro exemplo que pode ser explorado: as startups, empresas que já nascem com DNA tecnológico e que disputam talentos que respiram ciência e análise de dados para poder alavancar os negócios. Percebe-se que esta profissão é globalizada, pois um cientista de dados pode atuar em diversas partes do mundo e de onde quiser, uma vez que considera-se a possibilidade e a facilidade do trabalho remoto, proporcionando a esse profissional altos salários, demanda de mercado crescente e oportunidades de vários negócios, inclusive já no início de sua carreira. Encerramento Qual a necessidade da ciência de dados e por que ela é indispensável? As organizações não mais farão negócios sem a aplicação das análises em ciência de dados. Vimos no Tema 1 que existem oportunidades em todas as áreas para profissionais capacitados e habilidosos em ciência de dados. Quais outras áreas poderíamos citar como exemplo para atuação do cientista de dados e possível desenvolvimento de negócios com o uso da Ciência de Dados? Não existe apenas uma área específica para atuação do cientista de dados. Ele poderá atuar em finanças, saúde, gestão e nas demais áreas que acumulam dados e necessitam de respostas para tomadas de decisão. Como entender estruturas de códigos utilizando os elementos básicos da programação? Foi demonstrado que a linguagem de programação é estruturada em três pilares e que, após os entendermos, é possível o desenvolvimento de scripts. De que maneira aprender introdução à linguagem R sem precisar instalar nenhum sistema? A linguagem R possui um ambiente chamado de R Studio. Porém, foram criados diversos ambientes on-line que nos entregam o mesmo poder do ambiente R Studio, como vimo no decorres do Tema 4. O que é o Big Data e qual o seu valor para a minha formação profissional? A geração de dados é uma realidade da nossa época digital e os profissionais que não entenderem os conceitos de Big Data estarão desatualizados e não conseguirão desenvolver novos produtos baseados em tendências. Resumo da Unidade Nesta unidade vimos os conceitos sobre Ciência de Dados e sua aplicação na atualidade, entendemos o conceito de dados e informação e a geração de valores baseada nos dados armazenados. Vimos também a evolução da ciência de dados no mercado profissional e suas aplicações em diversas áreas do conhecimento. Conseguimos entender quais são os elementos básicos de programação, quando vimos os conceitos de vocabulário, sintaxe e semântica, que são os pilares de uma linguagem de programação. Após esses conceitos, entramos em introdução à linguagem de programação R, que é uma linguagem poderosa no uso de análise de dados e geração de gráficos. Por fim, aprendemos sobre Big Data, seu conceito e sua utilização no mundo corporativo.
Compartilhar