Prévia do material em texto
UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE GEOCIÊNCIAS DEPARTAMENTO DE POLÍTICA CIENTÍFICA E TECNOLÓGICA Carolina Franchini Santiago Orientador: Prof. Dr. Sergio Luiz Monteiro Salles Filho TENDÊNCIAS E PERSPECTIVAS DO USO DE MINERAÇÃO DE DADOS E TEXTO PARA PROSPECÇÃO EM CIÊNCIA TECNOLOGIA E INOVAÇÃO. Campinas 2017 UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE GEOCIÊNCIAS DEPARTAMENTO DE POLÍTICA CIENTÍFICA E TECNOLÓGICA Carolina Franchini Santiago Orientador: Prof. Dr. Sergio Luiz Monteiro Salles Filho TENDÊNCIAS E PERSPECTIVAS DO USO DE MINERAÇÃO DE DADOS E TEXTO PARA PROSPECÇÃO EM CIÊNCIA TECNOLOGIA E INOVAÇÃO. Trabalho de Conclusão de Curso apresentado ao Instituto de Geociências da Universidade Estadual de Campinas como parte dos requisitos para obtenção do título de Bacharel em Geografia. Campinas 2017 AGRADECIMENTOS A Deus, por ter proporcionado graça todos os dias. Aos meus pais, Sergio (Pop´s) e Katia (Mamãe) pela paciência, amor e sempre estarem ao meu lado. Aos meus irmãos, Sergio (Rajintson/Branquinson) e Ana Cristina (Aninha) por compartilharem comigo os melhores e piores momentos. Aos meus avós, Eloy e Lourdes, os quais considero meus pais de criação e agradeço por todo o amor e carinho que me dedicaram todos os anos. As minhas amigas do coração "Geodivas Imbricadas": Bruna, Camila, Fernanda, Gisele, Marcela, Taciana. Aprendi com vocês mais do que eu poderia imaginar, vocês estavam sempre ao meu lado, com carinho e compreensão. A todos os meus colegas de Graduação, proporcionaram momentos hilariantes e, sem dúvidas, inesquecíveis. Ao meu orientador Prof. Dr. Sergio Luiz Monteiro Salles-Filho. A Unicamp, melhor Universidade que eu poderia estudar e que tanto ensinou sobre a vida e como superar os desafios da academia. A todos aqueles que, em algum momento, duvidaram de mim – assim consegui mais forças para continuar a minha caminhada. “Dias ruins existem para que possamos reconhecer os dias bons.” - Autor Desconhecido. RESUMO A prospecção em ciência, tecnologia e inovação (CTI) vem ganhando novos recursos metodológicos, especialmente aqueles baseados na busca, tratamento e análise de dados e informações em bases estruturadas e não estruturadas. O Foresight, ou mais precisamente o Foresight para Ciência, Tecnologia e Inovação - ForSTI tem se revelado uma abordagem dominante para os estudos do futuro. Cada vez mais a literatura de prospecção enfatiza a importância de métodos baseados em mineração de dados e texto, Big Data e, mais recentemente, no text-analytics. Há um número crescente de ferramentas aplicadas a bases estruturadas e não estruturadas que permite extrair informação qualificada e focalizada no objeto de estudo, oferecendo bases originais e abrangentes para identificação de tendências, sinais fortes e sinais fracos. No presente projeto pretende-se avaliar em que medida métodos baseados em busca e análise de dados e texto vêm sendo empregados em estudos prospectivos de CTI, particularmente para os estudos baseados em Foresight. Para tanto utilizar-se-á ferramenta de busca e análise e dados e texto aplicada a publicações em revistas internacionalmente importantes especializadas em estudos prospectivos e em estudos do futuro. A questão de pesquisa para a qual esse projeto pretende contribuir refere-se à identificação de tendências dos estudos prospectivos particularmente no tema da redução de incerteza pelo uso intensivo de dados e informações. Palavras-chave: Data Mining, Text Mining, Tech Mining, Foresight, Bibliometrics. ABSTRACT New methodological approaches have been developed in the field of prospective studies in science, technology and innovation, particularly those based on search and analysis of data and information both on structured and unstructured bases. Foresight, or more precisely Foresight for Science, Technology and Innovation – ForSTI has proved to be a dominant approach in future studies. The specialized literature has emphasized the importance of methods based on data mining and text mining, Big Data and, more recently, text-analytics. There is an increasing number of tools applied to structured and unstructured bases that allow the extraction of qualified and focused information, providing original and comprehensive platforms for the identification of trends based on strong and weak signals. This project aims to evaluate the extent to which methods based on data and text analyzes have been employed in prospective studies of science, technology and innovation, particularly for studies based on ForSTI. For this purpose it will be employed a search and analysis tool (Vantage Point) to identify the extent to which publications in selected specialized journals are adopting data and text mining analyzes to base prospective studies. The project aims to contribute to identify methodological trends in Foresight studies particularly to the understanding of how intensive data use is being employed to deal with situations of strong uncertainty. Keywords: Data Mining, Text Mining, Tech Mining, Foresight, Bibliometrics LISTA DE FIGURAS Figura 1: O "diamante" Foresight. Figura 2: O processo de criação do exercício Foresight. Figura 3: Processo de criação do exercício Foresight. Figura 4: Ganho acumulativo a partir das análises de área de cada uma das metodologias. Figura 5: Linha do tempo do desenvolvimento do text mining. Figura 6: Processo de formulação do text mining. Figura 7: Mapa semântico das regras do cricket. Figura 8: Processo de construção do data mining (mineração de dados). Figura 9: Metodologia de monitoramento de tendência tecnológicas. Figura 10: Mapa rede de coautoria entre países. Figura 11: Mapa de densidade de publicações com coautoria entre países. Figura 12: Mapa rede de coautoria de publicação entre os países: destaque para o Brasil. Figura 13: Principais países produtores de artigos por palavra-chave. Figura 14: Mapa rede de coautoria entre autores. Figura 15: Mapa rede dos 50 autores com maior número de publicações em coautoria. Figura 16: Mapa de densidade de coautoria entre autores. Figura 17: Mapa rede de co-ocorrências de citações entre os autores. Figura 18: Mapa de co-ocorrências de publicações entre instituições e organizações. Figura 19: Mapa de densidade e de co-ocorrência de publicação entre instituições e organizações. Figura 20: Mapa rede de co-ocorrência entre palavras-chave. Figura 21: Mapa rede de co-ocorrência entre palavras-chave: destaque para as conexões da palavra "Foresight". Figura 22: Mapa de densidade de co-ocorrência de palavras-chave. Figura 23: Evolução da utilização das principais palavras-chave por ano de acordo com o número de publicações. LISTA DE QUADROS Quadro 1: Principais metodologias utilizadas pelos países de acordo com o número de ocorrências de cada uma delas em publicações. Quadro 2: Evolução das Principais metodologias utilizadas de acordo com o número de ocorrências de cada uma delas em publicações. LISTA DE TABELAS Tabela 1: Correlações de possíveis problemas dos atributos dos dados à dimensão de análise dos dados. Tabela 2: Síntese dos procedimentos metodológicos. Sumário 1 INTRODUÇÃO ............................................................................................................... 10 2 OBJETIVOS .................................................................................................................... 12 3CONCEITOS E TEORIAS ............................................................................................ 12 3.1 BIG DATA ................................................................................................................ 12 3.1.1 Os 5 V’s de dimensão de dados ................................................................................ 14 3.1.2 Desafios para o Big Data ........................................................................................... 17 3.2 FORESIGHT ............................................................................................................. 18 3.2.1 Elementos para criação do exercício Foresight: Popper (2008). ................................. 24 3.2.2 Elementos para criação do exercício Foresight: Kayser & Blind (2017). ................. 26 3.3 DATA MINING E TEXT MINING ......................................................................... 28 3.3.1 Como o text mining funciona .................................................................................... 29 3.3.2 Como o data mining funciona ................................................................................... 33 3.4 PROSPECÇÃO EM CIÊNCIA, TECNOLOGIA E INOVAÇÃO ............................ 35 4 APLICAÇÕES DE DATA MINING E TEXT MINING EM CTI. ............................ 38 4.1 CO-RELAÇÃO DE ARTIGOS PUBLICADOS POR PAÍS .................................... 39 4.2 CO-RELAÇÃO DE PUBLICAÇÕES POR AUTOR ............................................... 44 4.3 CO-RELAÇÃO DE PUBLICAÇÕES POR INSTITUIÇÃO .................................... 49 4.4 CO-RELAÇÃO DE PALAVRAS-CHAVE .............................................................. 51 4.5 CO-RELAÇÕES DE METODOLOGIAS DE ANÁLISE ........................................ 54 5 MATERIAIS .................................................................................................................... 57 5.1 WEB OF SCIENCE (WoS) ....................................................................................... 57 5.2 THE VANTAGE POINT .......................................................................................... 57 5.3 VOSviewer ................................................................................................................ 58 6 METODOLOGIA ........................................................................................................... 59 7 RESULTADO .................................................................................................................. 60 8 DISCUSSÃO .................................................................................................................... 61 9 CONSIDERAÇÕES FINAIS ......................................................................................... 61 10 PUBLICAÇÕES .............................................................................................................. 62 REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................... 63 10 1 INTRODUÇÃO Os estudos prospectivos são baseados em metodologias que empregam tanto dados quanto opiniões. A razão de se combinar dados e opiniões reside nas dificuldades intrínsecas de previsão do futuro: assumindo que o futuro dificilmente será uma projeção do passado (ou do presente), não há como evitar opiniões mais ou menos especializadas quando se trata de avaliar como será o futuro em determinada situação. Atualmente é muito difícil encontrar algum estudo prospectivo baseado exclusivamente na projeção de dados e de séries históricas, como foi comum nas décadas de 1960 e 1970 (MILES, SARITAS e SOKOLOV, 2016; SARITAS e BURMAOGLU, 2015). Tendo em vista este cenário, nos últimos anos (década de 2000 até os dias atuais) o Foresight tem sido crescentemente empregado como ferramenta de planejamento, especialmente no que se refere à busca de mecanismos gerenciais capazes de fazer com que uma organização (pública ou privada) procure entender e acompanhar a construção de futuros que lhes são relevantes. Foresight inclui meios qualitativos e quantitativos para monitorar pistas e indicadores das tendências de desenvolvimento e seu desenrolar, e é melhor e mais útil quando diretamente ligado à análise de políticas e suas implicações [...]" (COATES, 1985). As técnicas e métodos empregados pelo Foresight são basicamente os mesmos empregados em estudos de previsão (Forecasting), o que muda essencialmente é a abordagem de construção e validação permanente e a busca de futuros plausíveis e não exatos. Popper (2009), relaciona 33 métodos normalmente aplicados em estudos de Foresight, subdivididos em 3 categorias: qualitativos, quantitativos e semi-quantitativos. Neste trabalho serão abordadas tendências de uso de técnicas quantitativas, como é o caso do data mining e text mining – ferramentas de mineração de dados e texto, respectivamente e suas aplicações para estudos prospectivos no campo da Ciência, Tecnologia e Inovação (CTI). As técnicas de data e text mining e a bibliometria em geral, por outro lado, vêm ocupando um espaço crescente nos estudos prospectivos: a presença de bases estruturadas e não estruturadas de dados e informações dos mais variados assuntos, associada ao avanço da capacidade computacional de análise dessa informação, não apenas amplia o alcance daquelas técnicas como ferramentas de bibliometria, como traz para dentro da prospecção o uso de outras fontes (não necessariamente análise de publicações, propriedade intelectual, citações e indicadores relacionados) que permitem tratar dados e opiniões de bases não estruturadas (FAHEY, 2014). Text mining e text analytics são expressões que agrupam tecnologias de análise de informações desestruturadas e semi-estruturadas. A principal questão desta ferramenta é tentar transformar “texto em dado”, por meio de algoritmos que podem ser aplicados em documentos para deles extrair informação qualificada (MINER, 2012). Este recurso ganhou destaque com o crescimento da internet, entre 1990 e 2000 e principalmente a partir desse período (FAHEY, 2014). Atualmente, o text mining é utilizado em conjunto com análises estatísticas, técnicas de modelagem que permitem fazer correlações entre os dados e gerar informações que ajudem a identificar tendências futuras (SANTO et al., 2006). Segundo Santo et al. (2006) o text mining, quando utilizado corretamente, pode trazer bons resultados relacionados ao conhecimento aprofundado do objeto de estudo, permitindo inclusive alimentar de forma mais completa os dados para posterior análise de especialistas. Alguns autores como Hedgebeth (2007) e Su e Lee (2010) argumentam que o emprego sistemático de dados, particularmente do Big Data, permite melhorar a acurácia dos resultados e, como consequência, melhorar a capacidade de previsão. O volume elevado de informações de qualidade ajudaria os tomadores de decisões a realizarem escolhas mais “racionais e lógicas” (KAIVO-OJA,2006). Mais recentemente, a noção de Big Data, que foca tanto bases estruturadas como não estruturadas para extração de informação das mais diferentes fontes para diferentes aplicações, ampliou ainda mais as expectativas de “melhor e maior” capacidade preditiva do comportamento e das decisões dos indivíduos e das organizações (MINER, 2012). A questão principal não seria obviamente a eliminação da incerteza, mas o aumento da acurácia da prospecção – e com isso o aumento da capacidade preditiva. Na verdade, as técnicas de Big Data, especialmente de text analytics, são meios de se juntar dados e opiniões de forma mais abrangente (GANDOMI & HAIDER, 2015). Neste sentido Gandomi e Haider (2015) apontam a abrangência do Big Data incluindo text analytics, áudio analytics e vídeo analytics,além é claro do uso de dados estruturados. Trata-se de técnicas que buscam padrões em fontes de dados e informações. Do ponto de vista da prospecção, seria um caminho para realizar estudos de futuro apenas com dados secundários. O uso de técnicas de busca e análise de dados e informação vem sendo largamente empregado especialmente em redes sociais e com aplicações em negócios de todo tipo, impactando diretamente áreas tais como marketing, vendas e a própria produção. Ademais, nota-se uso crescente dessa fonte para tomada de decisões de mais longo prazo em empresas. Hedgebeth (2007) argumenta que empresas que usam técnicas de decisão suportada por dados (data-driven decision) apresentam vantagens competitivas frente às que não trilham esse caminho. Para analisar a utilização deste tipo de técnica nos estudos de prospecção em CTI será utilizado o Software The Vantage Point. Ele permite analisar categoricamente como as técnicas são utilizadas por meio de verificação de publicações provenientes de banco de dados, como é o caso do Web Of Science. São índices de publicações por autores, principais países e tipos de pesquisa e estudos que foram realizados. Este tipo de dado ajudará a compor a análise final sobre prospecção em CTI com a utilização de ferramentas como o data mining e text mining. Dessa forma, a mensuração da utilização das técnicas será válida e constituída na porção final deste estudo. 2 OBJETIVOS Este trabalho tem como objetivo analisar a evolução quantitativa e qualitativa do uso de técnicas baseadas em análise de dados estruturados e não estruturados (data e text mining) como métodos empregados em estudos prospectivos de ciência, tecnologia e inovação de forma a contribuir para a compreensão das tendências metodológicas da prospecção em CTI. 3 CONCEITOS E TEORIAS 3.1 BIG DATA Recentemente tornou-se comum em discussões sobre gerenciamento e análise de dados a referência ao termo “Big Data”. Este termo é muito utilizado para fazer menção ao processamento de dados (FAHEY, 2014). De acordo com Fahey (2014) o termo Big Data pode ser definido como uma coleção de dados tão imensa que excede a capacidade de processamento em um determinado período de tempo, com as ferramentas usuais disponíveis para análise. Os autores Provost & Fawcett (2013), por sua vez, consideram o termo Big Data como os bancos de dados que são muito extensos para serem processados em sistemas de análises tradicionais e, por isso, requerem o uso de novas tecnologias. Outros autores como, Strawn (2012), Hagstrom (2012) e Manyika et al. (2012) sugerem que o Big Data pode ser visto como o quarto paradigma da ciência, um novo paradigma do conhecimento atual e a próxima fronteira para inovação, competitividade e produtividade – respectivamente. Ainda sobre as definições plausíveis para a terminologia Big Data existem algumas exposições interessantes e permitem maiores discussões sobre o tema. De acordo com Yang et al. (2016), Big Data pode ser definido como a base de dados digitais proveniente de inúmeras fontes digitais que incluem sensores, scanners, modelagem, telefones celulares, internet, vídeos, e-mail e redes sociais. Além disso, inclui uma grande diversidade de tipos de dados: textos, vídeos, sons, imagens e combinações de cada uma delas (YANG et al., 2017). Já Wamba et al. (2017) define Big Data como uma abordagem holística para gerenciar, processar e analisar os 5 V’s de dimensão dos dados: volume, variedade, velocidade, veracidade e valor (YANG et al., 2017; MARR, 2015; HSU, SLAGTER & CHUNG, 2015; MAYER-SCHÖNBERGER & CUKIER, 2013). Segundo Wamba et al. (2015) esses V’s auxiliam na criação de informações que sustentam valor, permitem medir a performance e criam vantagem competitiva. Estima-se que a origem de dados computacionais é datada dos períodos a partir da Segunda Guerra Mundial e, posteriormente, a Guerra Fria. Por décadas, o governo dos Estados Unidos concentrou seu investimento na maturação de supercomputadores, até que na década de 1990 uma nova geração de computadores de alta performance surgiu e, por sua vez, não estava baseada em hardwares especializados, mas sim estava voltada para a massificação da produção de computadores portáteis (FAHEY, 2014; PROVOST & FAWCETT, 2013). De acordo com um estudo realizado pela Hekima – BigData Business, o mundo gera, diariamente, 2,5 quintilhões de bytes (sendo 1 quintilhão igual a 10 elevado a 18ª potência). Desde a mais simples até a mais complexa utilização de dados, torna-se estatística.1 Big Data é o termo utilizado para conceituar o grande volume de dados, sejam eles estruturados ou não estruturados, que estão presentes no cotidiano2. Existe uma grande quantidade de dados sendo produzida e armazenada, entretanto apenas uma pequena quantidade desses dados é realmente analisado e possui potencial para tornar-se informação qualificada (SAS, 2018). 1 http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em 04/12/2017. 2 https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html# Acesso em 04//12/2017. http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html É importante constatar que o real valor dados provenientes do Big Data não estão conectados à sua forma bruta, mas sim ao líquido - ou seja - por meio do processamento e posterior análise dos dados3 (DAVENPORT & DYCHE, 2013). De acordo com uma reportagem produzida pelo jornal The Economist em maio de 2017, no século passado o maior commodity em questão era o petróleo. Entretanto, levanta-se a ideia de que o novo commodity são os dados, o petróleo da Era Digital. Segundo os autores da reportagem, a abundância de dados presente no atual contexto da informatização, a natureza da competição. Espera-se que, por meio da maior abrangência na coleta de dados, ocorra uma ampliação e melhorias no contexto de criação de novos produtos, por exemplo. Atualmente, o Big Data é considerado uma ferramenta diferencial que permite melhoria na eficiência e efetividade dos negócios, tendo em vista a sua grande capacidade operacional e o seu potencial estratégico (WAMBA et al., 2017). Ainda existem executivos, segundo McAfee & Brynjolfsson (2012) que acreditam no fato de que a terminologia Big Data serve apenas para fazer referência a um antigo termo, analytics. Entretanto, o que diferencia a atual conjectura do Big Data são os 5 V’s de dimensão de dados, que serão tratados com maior clareza a seguir. 3.1.1 Os 5 V’s de dimensão de dados As dimensões dos dados é o que diferencia a terminologia adotada para o Big Data de qualquer outra já utilizada (MCAFEE & BRYNJOLFSSON, 2012). Cada uma das dimensões fornece características intrínsecas ao conjunto que rege as normas de composição e caracterização do Big Data (WAMBA et al., 2017). São elas: volume, velocidade, variedade, veracidade e valor. Cada uma dessas características será explicitada e explicada com maior clareza nos tópicos a seguir e cada um desses tópicos também são considerados dimensões que são desafios para o avanço da agenda de pesquisa na área (YANG et al., 2017). 3.1.1.1 Volume Desde 2012, cerca de 2.5 exabytes de dados são criados dia após dia e, estima-se, que esse número está dobrando a cada quarenta meses. Atualmente mais dados cruzam a internet a cada segundo do que estava armazenado em toda a internet cerca de 20 anos atrás. Isto fornece para as empresas a oportunidade de trabalhar com tantos petabytes de dado em um único banco de dados – e não somente originários da internet (MCAFEE & BRYNJOLFSSON, 2012). 3 https://www.sas.com/pt_br/whitepapers/bigdata-bigcompanies-106461.html Acesso em 04/12/2017 https://www.sas.com/pt_br/whitepapers/bigdata-bigcompanies-106461.htmlO volume é a característica de descrição mais comum utilizada para compor a terminologia Big Data (YANG et al., 2017). Um outro exemplo pode ser dado pelas estimativas de coleta de dados da rede Walmart, agrupando mais de 2.5 petabyte de dados a cada hora a partir das transações comerciais realizadas pelos seus clientes. Um petabyte equivale a um quadrilhão de bytes, ou seja, equivalente a cerca de 20 milhões de armários de arquivos de texto (MCAFEE & BRYNJOLFSSON, 2012). 3.1.1.2 Velocidade Dependendo do tipo de utilização que será fornecida para o dado, a velocidade de criação e formulação de dado acaba sendo mais importante do que o seu volume em si. Informações que são adquiridas em tempo real ou perto do tempo real, faz com que a companhia se torne muito mais ágil em comparação aos seus competidores (MCAFEE & BRYNJOLFSSON, 2012). O maior exemplo é dado pelas redes sociais, em que dados são transferidos da escala micro (local) para a escala macro (global) em questão de segundos – os dados são levados de sensores em direção aos supercomputadores e em seguida chegam como informações úteis para os tomadores de decisão (YANG et al., 2017). Um exemplo prático deste fato pode ser fornecido por Alex “Sandy” Pentland e seu grupo de Mídia do MIT. Os pesquisadores utilizaram dados de localização a partir dos telefones celulares para aferir o número de pessoas que estavam no estacionamento de uma loja de departamento (Macy’s) durante a Black Friday – momento em que se dá início às compras para o Natal nos Estados Unidos. Com isso, foi possível estimar o número de vendas durante o dia intenso de compras, antes mesmo de que a Macy’s tenha noção da quantidade das vendas realizadas (MCAFEE & BRYNJOLFSSON, 2012). 3.1.1.3 Variedade O Big Data pode ter inúmeras formas, sejam mensagens, updates de sistemas e, imagens postadas em redes sociais, leituras de sensores, sinais GPS provenientes de telefones celulares e outros. A maioria das fontes de dados para o Big Data são relativamente novas. A grande quantidade de informação proveniente das redes sociais, por exemplo, são tão antigas quanto as redes em si – O Facebook foi lançado em 2004 e o Twitter em 2006 [são mais de 10 anos de rede online gerando informações sobre clientes, produtos, gostos e analisando possíveis tendências] (MCAFEE & BRYNJOLFSSON, 2012). O mesmo acontece com os smartphones e outros serviços para celular que podem proporcionar grandes fluxos de dados associados a pessoas, atividades e localidades. Esses aparelhos são renovados com tanta facilidade que, às vezes, esquecemos o fato de que o Iphone foi lançado a alguns anos atrás, em 2008 e o Ipad em 2010 (MCAFEE & BRYNJOLFSSON, 2012). A variedade de dados refere-se as diversas formas, aos modelos e estruturas nas quais os dados são arquivados (YANG et al., 2017). A cada vez mais as atividades de negócios são digitalizadas, novas fontes de informação são combinadas e juntas trazem grandes quantidades de informação contida no meio virtual que produzem, diariamente, vastos dados a serem analisados e tornam-se produtos em operação de análise cotidianas. Cada um de nós, agora, é um gerador de dados ambulante (MCAFEE & BRYNJOLFSSON, 2012). 3.1.1.4 Veracidade A veracidade dos dados está diretamente relacionada à diversidade de qualidade de dados que são produzidos, além de estar diretamente conectados com a acurácia de previsões e o quão confiável são os dados produzidos e analisados (YANG et al., 2017). Autores indicam que a veracidade dos dados está diretamente ligada à intensidade de sua performance após sua análise e aplicação (MCAFEE & BRYNJOLFSSON, 2012; WAMBA et al., 2017). O Big Data e suas ferramentas permite que utilizemos dados a partir de banco de dados considerados desestruturados, como é o caso do linguajar informal utilizado nas mensagens trocadas no Twitter. De acordo com Bernard Marr em um artigo escrito para a IBM em 2015, a criação de hashtags, ajuda a dimensionar o tipo de dado que será analisado e, por seguinte, o volume de dados fornece maior acuraria para as informações que serão adquiridas.4 3.1.1.5 Valor O valor é a variável que reúne todas as outras. O valor fornece sistemas decisão para aplicações de melhorias nas nossas vidas, trabalho e, gerando até prosperidade (MAYER- SCHÖNBERGER & CUKIER, 2013). De acordo com Bernard Marr em um artigo escrito para IBM em 2015, o valor é dado pela capacidade de transformar os dados em informação e, como consequência, a informação em lucro. Segundo Marr, a variável de maior importância dentro do contexto de Big Data analytics é transformar a velocidade de grandes conglomerados de variedade diversa e com potencial de veracidade em valor. O valor pode ser traduzido em diversas formas, como 4 http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters Acessado em 05/12/2017. http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters menciona Mayer-Schönberger & Cukier (2013) e varia de acordo com o propósito das análises5. 3.1.2 Desafios para o Big Data A aplicabilidade das ferramentas de Big Data é vasta: Ciências da Terra, Internet das Coisas, Ciências Sociais, Astronomia, Negócios, Indústrias diversas e outras áreas (YANG et al., 2017). Entretanto, mesmo com a diversidade de setores em que há grande utilização deste tipo de dado, os desafios são crescentes e estão diretamente relacionados às 5 V’ dimensões de dados. A Tabela 1 a seguir foi construída a partir de informações provenientes de Yang et al., (2017) e refere-se aos principais desafios que serão enfrentados pelos principais atributos dos 5 V’s dimensões de dados. Cada uma das regiões assinaladas representa potenciais questões que devem ser resolvidas para dar continuidade ao avanço das análises e ferramentas provenientes do Big Data, assim como melhoria de análises. Tabela 2: Correlações de possíveis problemas dos atributos dos dados à dimensão de análise dos dados. Dados Volume Velocidade Variedade Veracidade Valor Limitação Técnica Armazenamento X X X X Transmissão X X Gerenciamento X X X Processamento X X X Análise X X X Visualização X X X Integração X X X Arquitetura X X X X Segurança X X X Privacidade X X X X Qualidade X X X X X X Fonte: Adaptado de Yang et al. (2017). Para exemplificar a análise que foi realizada para a formulação da tabela o primeiro atributo será analisado Armazenamento. De acordo com Yang et al. (2017) os problemas de armazenamento estão diretamente relacionados ao Volume, Velocidade e Variedade. De acordo com os autores a capacidade de armazenamento em meios tradicionais é problemático, tendo em vista o volume crescente de dados, e existe uma grande possibilidade de falha dos 5 http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters Acessado em 05/12/2017. http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters meios mais comuns de armazenamento de dados, como é o caso de HD’s e discos rígidos. A velocidade da formação de transmissão de dados é dada como um outro desafio, já que dificulta ainda mais a questão do tipo de armazenamento de dado que será feito. A variedade dos dados é um outro fator que deve ser analisado, considerando as diversas fontes de produção de dados. Por fim, A limitação técnica é um fator que está presente como um problema em todos os atributos colocados por Yang et al. (2017), já que devem ser criados constantemente novas tecnologias e softwares para o manejo dos dados. Dessa forma, a técnica é um fator limitante do crescimento das análises e utilização das informações obtidas para a geração de valor, não só em áreas empresarias, mas para beneficiar a sociedade como um todo.Independente da aplicação dos dados, existem problemas técnicos e organizacionais que devem ser solucionados e tais questões estão associadas com o Big Data e suas ferramentas. Entretanto, a partir do momento em que não são feitos avanços nestes tópicos, as análises tornam-se custosas e as soluções derivadas das análises acabam por ser ineficientes (BIESDORF, COURT & WILLMOTT, 2013) 3.2 FORESIGHT Desde os anos 1950 e 1960, os estudos para prospecção são vistos como a junção de metodologias que utilizam dados e opiniões. Durante este período o tema da prospecção científica e tecnológica ganhou espaço e profissionalização, primeiro nos EUA e logo em seguida na Europa (JANTSCH, 1967). Foi entre o final dos anos 1970 e durante as décadas de 1980 e 1990 que autores como Godet (1985); Irvine et al, (1979); e Irvine & Martin (1984) deram início a uma mudança conceitual nos estudos prospectivos, passando de abordagens fundadas em previsão (Forecasting) para abordagens de antevisão e construção de futuros, como o Foresight (na vertente anglo-fônica) e a La Prospective (na vertente francesa). Segundo Havas, Shartinger & Weber (2010) O foresight foi concebido na Europa na década de 1990 e, a partir deste momento, sua história é um sucesso em inúmeros aspectos. O Foresight pode ser visto como um processo social complexo e que inclui diversos estágios, inúmeras tarefas e deve contar com um time de especialistas no assunto abordado. Um dos principais propósitos do Foresight envolve buscar tecnologias orientadas para o futuro, reduzir os potenciais riscos no desenvolvimento de tecnologias e manter o equilíbrio entre o meio ambiente, economia, sociedade e tecnologia (HAEGEMAN et al., 2013; MARTIN, 2010; FÖRSTER, 2015). Foresight pode ser definido como um discurso bem estruturado sobre futuros possíveis e plausíveis envolvendo, com certo grau de relevância, os tomadores de decisão (decision makers). Basicamente, assume-se que o futuro não é previsível. Entretanto, pensar sobre possíveis desdobramentos para o futuro e as consequências relacionadas, podem influenciar as decisões que são tomadas no presente e que, certamente, podem afetar o futuro. Dessa forma, uma análise mais profunda sobre como os atuais desenvolvimentos tecnológicos se disseminam e são aceitos pela sociedade é fundamental. A princípio, a análise de tecnologias futuras (em Inglês, Future Technology Analysis, FTA) (KAYSER, 2017; RAIDER & PORTER, 2008) e o Foresight, juntos, podem reorientar e melhorar os sistemas de inovação. Além disso, podem unir tomadores de decisão e atores, em diferentes perspectivas (KAYSER, 2017) Uma das principais diferenças entre o uso da terminologia Foresight e Forecasting, segundo Miles (2010) está associada ao fato de que o Foresight possui a conotação de prontidão e prudência. A essência desta mudança é que a prospecção passou a ser menos “preocupada” em prever o futuro e mais atenta às condições que moldam o futuro e à incerteza inerente desse tipo de atividade. Embora essa linha de pensamento tenha se dado de forma mais contundente nas décadas de 1980 e 1990, desde os anos 1960 o debate entre previsão e construção de futuros já se mostrava nos métodos e na literatura especializada da época. Uma outra definição para Foresight relaciona-se com o fato da metodologia proporcionar novas visões para o futuro e que, em seguida, deve-se escolher uma delas para desenvolver (SLAUGHTER, 1995). O relatório publicado por Erich Jantsch pela OCDE em 1967 (JANTSCH, 1967) tornou-se um clássico da literatura especializada em prospecção não apenas por mostrar claramente que prospecção depende de dados e opiniões, mas também porque registrou as principais técnicas e métodos que, consideradas nos dias atuais, seguem sendo as principais tendências (MILES et al., 2016). Uma rápida análise sobre os métodos descritos por Jantsch (1967) comparada com os descritos por Georghiou et al. (2008) mostra que houve poucas mudanças nas principais abordagens metodológicas da prospecção em 40 anos. Cenários, Delphi, Projeções de séries históricas, Painéis de especialistas, para citar as mais comuns, são técnicas que seguem sendo empregadas nos dias de hoje e provavelmente seguirão no futuro. A razão é simples: o futuro é moldado pela intersecção de decisões tomadas no presente por diversos agentes com perspectivas e rationales diferentes e, principalmente, não previsíveis. Sendo assim, a principal questão dos estudos prospectivos foi e segue sendo a busca por métodos e abordagens que permitam lidar com incerteza em diferentes circunstâncias e intensidades. Tendo em vista a capacidade do Foresight de conectar dados e opiniões, algumas definições sobre a metodologia são amplamente discutidas. A definição de Foresight dada por Coates em meados dos anos 1980 já apontava na direção da união de elementos que levavam em consideração o futuro e o presente, por meio de metodologias que combinam dados e opinião: Foresight é "um processo pelo qual se pode chegar a um entendimento mais completo das forças que moldam o futuro a longo-prazo e que devem ser levadas em consideração na formulação de políticas, planejamento e tomadas de decisão.” (COATES, 1985). Uma segunda definição para Foresight: " abrindo o futuro com todos os meios à nossa disposição, desenvolvendo visões de opções futuras e escolhendo entre eles" (SLAUGHTER, 1995). Desde o famoso caso de aplicação bem sucedida da metodologia de cenários pela Shell no final dos anos 1960 - que lhe teria trazido vantagens competitivas importantes quando da primeira grande crise do petróleo ocorrida alguns anos mais tarde (HAMMOUND & NASH, 2014 – p.42)1 -, até a aplicação sistemática de Foresight pela Comissão Europeia na definição de prioridades de pesquisa nos seus Programas Quadro, passando pelos exercícios sistemáticos de Delphi feitos pelo Japão a cada 5 anos para definição de investimentos em P&D desde 1971, o Foresight vem se constituindo em abordagem prevalecente de prospecção, seja em governos, seja em corporações privadas (SARITAS e BURMAOGLU, 2015). Foresight também pode ser visto como um processo sistemático de buscas a longo prazo para Ciência, Tecnologia e Inovação (CUHLS, 2003; MARTIN, 1995). O Foresight assim considera possíveis e plausíveis futuros, desde que não seja apenas um futuro. Principalmente, o futuro não pode ser previsto, mas é modelado pelas decisões e ações de hoje. Foresight ajuda a acessar as consequências e as implicações das ações do presente, fornecendo aviso prévio, pensando sobre futuros desejáveis, e implicações para possíveis eventos futuros. Dessa forma, o Foresight procura orientar ações e fornece suporte para decisões, em que os tomadores de decisão podem promover o seu discurso aberto para novas opções no futuro. O Foresight é construído por meio de uma sério de métodos (POPPER, 2008), como é o caso do roadmapping (MÖHRLE et al., 2013; BARKER & SMITH, 1995) ou o desenvolvimento de cenários (VAN DER HEIJDEN, 2005; REIBNITZ, 1991). O conjunto de métodos selecionados para as aplicações depende do escopo e do foco do exercício do Foresight e deve ser decidido caso a caso. Foresight, estudos do futuro e análise de tecnologias futuras não serão abordados nesta pesquisa. Em um estudo típico de Foresight, as abordagens devem facilitar a comunicação e interação das diversas dimensões capazes de moldar o futuro que se está escrutinando. O processo de validação é permanente e a combinação de métodos uma constante. (POPPER et al, 2009). As técnicas e métodos empregados pelo Foresight são basicamente os mesmos empregados em estudos de previsão (Forecasting), o que muda essencialmente é a abordagem de construção e validação permanente e a busca de futuros plausíveis e não exatos. Popper (2009), relaciona 33 métodos normalmente aplicados em estudos de Foresight, subdivididosem 3 categorias: qualitativos, quantitativos e semi-quantitativos. Além dessas categorias, o autor separa os métodos naqueles que são mais focados em opiniões de especialistas, em criatividade (busca de originalidades), em interações entre stakeholders e em evidências (data- driven). Nas análises qualitativas, utilizam-se métodos que possuem base mais subjetiva e interpretativa, muito utilizada quando não há dados suficientes ou confiáveis sobre o assunto abordado. Boa parte dessa categoria envolve a interpretação dos contextos subjetivos e processos criativos, desse modo, dá maior profundidade às opiniões discussões, compartilha pontos de vista e ajuda a entender outras perspectivas. São feitas consultas em especialistas da área, aplicações de Questionário Delphi e mobilizações por meio de Workshops. Em análises quantitativas são usadas bases de dados que podem ser manipuladas e ajudam a fornecer a informação necessária ao objeto e ao objetivo de avaliação. A Tecnologia da Informação é parte central desses métodos, dentre eles destaca-se a bibliometria, tanto de publicações como de patentes. A categoria dos semi-quantitativos é na verdade a combinação para mais ou para menos de técnicas que se valem de dados e opiniões. Além das análises associadas à natureza dos métodos, em seguida devem ser apontados outros atributos, os que estão conectados à capacidade de análise de cada um dos métodos, relacionada a habilidade de conseguir extrair e processar informações baseado em evidências, expertise, interação e criatividade (POPPER, 2008). As evidências identificam o grau de importância de identificar e explicar um determinado fenômeno a partir de informações confiáveis. Isto pode ser exemplificado através das análises compostas por modelos estatísticos e indicadores variados. Dessa forma, segundo Popper (2008), torna-se possível identificar o atual estado de desenvolvimento de uma determinada área de pesquisa (POPPER, 2008). A expertise está associada a habilidades e conhecimento de especialistas em uma determinada área ou objeto de pesquisa. Os métodos que são caracterizados desta forma, normalmente, dependem de criatividade, conhecimento tácito e de pessoas que possuem acesso à informação de alto grau de relevância ou com asnos de experiência no campo de pesquisa em um objeto específico. Este tipo de atributo está correlacionado com abordagens mais holísticas e conhecimentos aprofundados de teorias, hipóteses e outras observações de estudo (POPPER, 2008). A interação tende a reconhecer o fato de que a expertise absorve conteúdo considerável, a partir do momento, em que é colocado em contato com outras metodologias provenientes de outros atributos. Dessa forma, tendo em vista que os estudos Foresight ganham lugar em sociedades em que ideias democráticas possuem relevância e legitimidade – a participação e interação são processos de grande expressão e completam as evidências e expertise (POPPER, 2008). A criatividade proporciona um processo original e híbrido do pensamento imaginativo. Os métodos que são apoiados neste atributo possuem alto grau de pensamento inventivo e ingenuidade, como é o caso de brainstorms e outros momentos que proporcionam criação de ideias inovadoras e que se destacam dentro das outras (POPPER, 2008) Tendo em vista esta vasta caracterização de natureza a atributos dos métodos, a Figura 1, abaixo, explica as relações citadas por meio do “Diamante” Foresight idealizado por Popper (2008) e sintetiza as ideias exploradas anteriormente. Apesar de serem consideradas 33 metodologias, no diamante aparecem apenas 25. Dessa forma, estão inseridas no diamante apenas as metodologias que se relacionam diretamente com os atributos colocados em cada vértice do quadrado (os atributos das metodologias). Figura 24: O "diamante" Foresight. Fonte: Popper, 2008 Essas três categorias serão mais ou menos adequadas quando a prospecção necessitar de a) criatividade, originalidade e imaginação; b) de interação de diversos segmentos da sociedade para obter maior abrangência e legitimidade; c) opinião de especialistas; ou d) evidências baseadas em dados (POPPER et al, 2009). É neste último segmento, da prospecção baseada em evidências (tratamento de dados), que tem havido os maiores avanços. Do conjunto de técnicas listadas por Popper et al. (2009), boa parte veio das décadas de 1950 e 1960 (Delphi, cenários, projeções, para citar alguns), ou então são provenientes do planejamento estratégico (SWOT, benchmarking, Cross impact, dentre outros). Segundo Culhs (2003) o Foresight preocupa-se mais com a criação e melhoria da compreensão de possíveis avanços e as forças que o moldam. Segundo Martin (2010), a origem dos conceitos relativos ao Foresight são baseados em uma perspectiva mais interna de entendimento. O próximo tópico trata dos elementos essenciais para construção de um estudo de Foresight, incluindo os procedimentos mais fundamentais de acordo com duas metodologias de criação: a primeira e mais complexa idealizada por Popper (2008) em que a dinâmica do estudo é tratada pelas etapas: Pré-Foresight/Escopo, recrutamento, geração, ação e renovação; a segunda metodologia é apenas mais genérica e baseada em pensamentos de Popper (2008) e de outros autores como Da Costa et al. (2008); Voros (2003); Horton (1999) e Martin (1995). 3.2.1 Elementos para criação do exercício Foresight: Popper (2008). O Foresight pode ser compreendido como u processo sistemático de criação com cinco fases que são interconectadas e complementares umas às outras: Pré-Foresight/escopo, recrutamento, geração, ação e renovação. Os componentes desta análise serão descritos e posteriormente apresentados com suas associações na Figura 2. 3.2.1.1 O Pré-Foresight ou Escopo O Pré-Foresight ou escopo constroem as diretrizes estratégicas iniciais do estudo. Tais decisões estão diretamente relacionadas com os objetivos gerais do estudo (plano de trabalho, objetivos, resultados esperados), ou seja, o escopo do que será o estudo. Para que essa diretriz seja seguida, são levados em consideração seis elementos iniciais que influenciam a a seleção de métodos adotados: contexto de territorialidade de P&D ( fator de criação de clusters de países e regiões com altos investimentos em P&D); domínio de abrangência (setor, indústria ou tipo de pesquisa que será tratada no estudo); escala territorial (escopo geográfico do estudo); horizonte de tempo (tempo pré-determinado para realização do estudo) e, por último, o subsídio financeiro (entidade ou atores, de todos os tipos, patrocinadores da pesquisa). 3.2.1.2 Recrutamento A fase de recrutamento trata-se da identificação dos pesquisadores que realizarão o estudo e identificação de pessoas que podem contribuir com conhecimento e experiência em questões chave do estudo, além de promover a pesquisa dentro da sua própria rede de contatos. Popper (2008), menciona que, por razões práticas, esta se torna a segunda fase do processo, mas a interação dos interessados no estudo é essencial. Dessa forma, são analisados dois elementos principais: público-alvo (identificar quais os principais interessados envolvidos no estudo – agências governamentais, órgãos de pesquisa, empresas, federações, indústrias entre outros) e delimitar a escala de participação (definir o nível de abertura do estudo) (POPPER, 2008). 3.2.1.3 Geração A fase de geração é considerada o coração de todo o processo, dado que é neste momento em que as visões geradas são compartilhadas e o conhecimento que já foi codificado é difundido, analisado e sintetizado (POPPER, 2008). Nesta fase evolve a exploração (utilização de métodos mais criativos para compreender tendências e dispositivos de inovação), análise (estruturada por metodologias de cunho semi-qualitativo, envolvendo a criação de painéis de especialistas eanálises SWOT) e, por último, antecipação (ocorre a formulação do que se espera para o futuro, com Cenários ou Delphi). A partir dessa fase, somos introduzidos nas duas últimas: ação e renovação. 3.2.1.4 Ação e Renovação Com os resultados obtidos da fase anterior, inicia-se o processo de implementação dos resultados obtidos. As saídas codificadas são as indicações políticas, roteiros de possíveis tecnologias e o que pode ser esperado para o futuro. A ação combina uma grande quantidade de métodos, com o objetivo de qualificar as ações que podem ser estruturadas com os resultados da pesquisa. São estruturados perspectivas e meios de extrapolar os resultados obtidos. Por fim, as duas fases, são influenciadas pela qualidade, quantidade, relevância, usabilidade e produção. A ação descreve a tentativa de se alcançar os objetivos descritos no escopo do projeto, tais objetivos seriam alcançados com ferramentas de persuasão aos principais atores aos quais o estudo é indicado, com a tentativa de transformar e moldar o futuro com políticas e decisões direcionadas ainda na fase da geração. A visão do projeto, nesta fase, está delineada no planejamento estratégico. Com o planejamento espera-se chegar na renovação, último momento do projeto. Neste momento é esperado adquirir o máximo de conhecimento possível, formulando avaliação para direcionar o momento atual para o futuro desejado. Figura 25: O processo de criação do exercício Foresight. Fonte: Popper, 2008. 3.2.2 Elementos para criação do exercício Foresight: Kayser & Blind (2017). Para a segunda dinâmica do estudo, o Foresight é modular e construído por meio de etapas, independentemente do tipo de metodologia utilizada para compor o estudo (KAYSER & BLIND, 2017). As etapas de criação e procedimentos de continuidade dos estudos são os mesmos. Entretanto, dependendo dos objetivos e do nível de aplicação, diferentes métodos e tarefas são combinadas. Por meio de construções realizadas em estudos anteriores foi o caso de Popper (2008), o Foresight pôde categorizado através de três etapas (entrada, processamento e resultados) (KAYSER & BLIND, 2017; DA COSTA et al., 2008; DE MIRANDA SANTO et al., 2006; VOROS, 2003; HORTON, 1999; MATIN, 1995). A Figura 3 sintetiza como é feita a sistematização genérica do procedimento do Foresight, idealizada por Kayser & Blind (2017), independente da metodologia utilizada para realizar a pesquisa. Figura 26: Processo de criação do exercício Foresight. Fonte: Kayser & Blind, 2017. 3.2.2.1 Entradas (Input) Além de alguns objetivos, um escopo de processo é definido, um horizonte de tempo é estimado, e informações sobre tendência e desenvolvimentos recentes são reunidas em relação ao campo de estudo considerado. Logo no começo de quase todos os processos, o estado de arte deve ser sumarizado. Dessa forma, o primeiro passo está relacionado com a coleta e sumarização das informações disponíveis para se obter uma visão geral da situação presente (HORTON, 1999). 3.2.2.2 Processos (Process) A análise de tecnologias futuras pode ser vista como um processo de criação de conhecimento (EEROLA & MILES, 2011). Metodologias específicas de Foresight são aplicadas de acordo com o escopo do projeto e os objetivos do processo, como é possível observar na Figura 1. Tendo em vista isto, informações importantes sobre o futuro e desenvolvimentos possíveis para este são coletadas e o conhecimento é, de certa forma, generalizado e que mais tarde possa auxiliar como um suporte metodológico de apoio à decisão. 3.2.2.3 Resultados (Outputs) Os resultados obtidos são avaliados, prioridades são estabelecidas e, por final, estratégias são formuladas (DE MIRANDA SANTO et al., 2006). Nesta fase as ações são tomadas (HORTON, 1999). Inúmeros interesses ou, até mesmo, expectativas relacionadas ao o que os resultados do Foresight podem propor coexistem. Uma das intenções de formular o Foresight está associada ao fornecimento de suporte e a possibilidade de desenhar estratégias orientadas de acordo com o futuro proposto. Além disso, tomadores de decisão com intencionalidades governamentais ou políticas usualmente esperam recomendações para formulação de planejamentos ou, inclusive, para estabelecer prioridades em programas de pesquisa (HAVAS et al., 2010; KÖNNÖLÄ et al., 2011; DE SMEDT, 2013) 3.3 DATA MINING E TEXT MINING Identificar potenciais de pesquisa e áreas de desenvolvimento pode ser uma tarefa muito difícil, principalmente em tempos com escassez de recursos em que há a necessidade de alocação estratégica de subsídios (REZAEIAN et al., 2017). Tomar decisões bem informadas depende da obtenção de um conhecimento detalhado sobre questões do passado, tendências atuais e um profundo conhecimento sobre tecnologias emergentes (YOON & PARK, 2005). Neste contexto metodologias de mineração de dados e texto podem ser estratégicas, já que permitem identificar informações que, certamente, não estavam tão claras e, como consequência, ajusta-se a melhor alocação de recursos (MINER, 2012; REZAEIAN et al., 2017). A extração de dados a partir de um banco de dados é mais conhecida e mais utilizada do que a extração de informações em formato de texto. A questão é esclarecer como o uso das duas metodologias, data mining e text mining, podem melhorar a capacidade analítica e trazer para as fontes, principalmente governamentais, a ideia de melhor aplicação de recursos financeiros em temas de pesquisa. A Figura 4 mostra como a junção de duas metodologias pode trazer maiores benefícios para a análise dos dados em um contexto mais amplo. Figura 27: Ganho acumulativo a partir das análises de área de cada uma das metodologias. Fonte: Miner, 2012 A Figura 4 mostra, a partir das áreas, a importância da utilização de mais de uma metodologia para as análises. Em azul temos a linha básica (Baseline) que se refere à média do total sucesso de uma metodologia (100% da área) com relação ao fracasso total de uma metodologia (0% de área), dessa forma chega-se ao valor de 50% da área. A linha verde mostra o modelo a partir de dados provenientes apenas de banco de dados estruturados (Model using data variables only), com uma curva intermediária com o uso de apenas um tipo de metodologia. A linha em vermelho (Model using both text and data variables), por sua vez, é um modelo em que há a utilização de metodologias que usam variáveis dos tipos, seja em formato de texto e em formato de banco de dados estruturados. A linha em vermelho é a que possui maior área e, dessa forma, completa maiores ganhos em termos de acurácia e confiabilidade do que outras metodologias (MINER, 2012) 3.3.1 Como o text mining funciona A necessidade de ferramentas de mineração de texto surgiu com a carência de catalogar documentos em forma de texto, como é no caso de catalogar livros dentro de uma livraria (MINER, 2012). Entretanto, outras técnicas foram utilizadas para se extrair do texto informações por meio do processamento natural de linguagem (Natural Language Processing – NLP). Ainda hoje, por necessidades práticas, essas técnicas são utilizadas, mas com um viés diferenciado, por meio do “aprendizado de máquinas”, mais conhecido como machine learning (MINER, 2012). Os cientistas criaram estas máquinas com o intuito de fazer com que elas tenham a habilidade de compreender e extrair conhecimento válido a partir de textos. Esta habilidade é a chave principal no objetivo dos pesquisadores que lidam com inteligência artificial, dessa forma seria possível criar máquinas que, ao menos, podem simular de perto e com certa acurácia os efeitos do cérebro humano (MINER, 2012). A Figura 5 mostra a linha do tempo do desenvolvimento das técnicas do text mining, desde a necessidade de catalogação de livros, assim como a análise automática dos resumos de artigos de pesquisa, até os avançosmais recentes, relacionados com a análise de dados e, posteriormente, com a inserção de emoções e desenvolvimento do machine learning. Figura 28: Linha do tempo do desenvolvimento do text mining. Fonte: MINER, 2012 Em 2001 a internet era capaz de fornecer acesso a cerca de 10 milhões de páginas na web (mais de 100 terabytes). Em 2009 este volume cresceu para mais de 150 bilhões de páginas (cerca de 1,500 terabytes). Isto representa um crescimento de aproximadamente 40% ao ano. O corpo de texto presente nessas páginas inclui páginas pessoais, corporações, livros eletrônicos e teses diversas. Isso representa um grande crescimento no uso de ferramentas de pesquisa a partir de dados fornecidos em forma de texto (MINER, 2012). Certamente, o crescimento de páginas na web não ocorre de forma linear, ano após ano e, seguramente, isto não significa que o atual ritmo de crescimento será refletido da mesma forma no futuro. Entretanto, a atual acumulação de dados e texto por meio de páginas na web é somente um exemplo do quão rápido estamos acumulando dados em todo o mundo. Um fator componente desta análise é o crescimento de livros na forma online, conhecidos como e-books. Os e-books representam uma indústria que está em crescimento acelerado e converteu um grande número de texto em papel para cópias no formato eletrônico (MINER, 2012). Miner (2012) define text mining como a relativa descoberta do que é desconhecido, a informação que está inserida no texto, mas que não aparece de maneira clara. A ciência bibliométrica surgiu com o intuito de fornecer números para estudos, mensurar textos e informações (MINER, 2012). Uma das maiores aplicações é analisar o índice de citações, o que visualiza as referências de um documento em texto para outro documento em texto, com isso a importância de um documento em referência a outros documentos é exposta (MINER 2012; DE MIRANDA SANTO et al., 2006). Uma outra definição para text mining relaciona a identificação de informações com as relações, padrões e tendências do dado em formato de texto (GHAZINOORY et al., 2013). Para formular um processo eficiente de extração de dados em formato de texto, deve ser feita uma análise sintática das informações que se quer extrair do texto. O processo de construção de análise de mineração de texto consiste na estruturação de dados em formato de texto que estão desestruturados. O processo de análise dos dados envolve aspectos relacionados a banco de dados estruturados, softwares de interpretação de dados e expertises que cuidem das informações que serão geradas nos relatórios. A Figura 6 mostra o processo de criação da metodologia text mining e sua descrição é dada no contexto de análise dos tópicos seguintes. Figura 29: Processo de formulação do text mining. Fonte: KAYSER & BLIND, 2017 O processo todo pode ser resumido em três etapas: seleção da fonte de dados, processamento dos dados adquiridos e análise, por último os resultados obtidos são interpretados (KAYSER & BLIND, 2017). 3.3.1.1 Seleção do texto (text selection) A fonte dos dados deve ser capaz de responder a questão da pesquisa. Para a pesquisa dos dados, pelo menos um conhecimento principal do assunto ou tecnologia em questão deve ser considerado necessário. Enquanto alguns dados são essenciais a partir do banco de dados (patentes, publicações e artigos científicos) outros dados podem ser adquiridos manualmente, como é o caso de relatórios empresariais (KAYSER & BLIND, 2017). 3.3.1.2 Pré-processamento do texto (text preprocessing) O texto deve ser estruturado e transformado em um algoritmo que seja compreensível para as máquinas. Entretanto, o texto é dividido em elementos individuais de análise, como é o caso das palavras – tokenization. Para extrair os termos que não mais relevante, duas abordagens diferentes são colocadas: análise de palavras-chave e análise de instâncias gramaticais. Quando o texto é analisado a partir de instâncias gramaticais, momentos principais do discurso são assinalados a cada palavra, como um verbo, artigo ou substantivo. Para isso, frases relevantes ou correntes de palavras são extraídas. Alternativamente, palavras-chave são utilizadas para remover termos considerados irrelevantes e estabelecer as funções das palavras (artigos, conjunções, pronomes). Posteriormente, são adicionadas técnicas como o steeming que faz com que a palavra seja reduzida à sua forma original básica ou lemmatization que reduz a palavra para a forma baseada no dicionário. Por final, a frequência dos termos por documento é armazenada para análises futuras. 3.3.1.3 Análise dos dados (data analysis) Para a análise dos dados, métodos particulares provenientes de estatísticas e classificação e criação de clusters são aplicados, (HAN et al., 2012) e uma gama de softwares ajudam a solucionar os problemas relacionados a este processo. O mapa semântico é uma das configurações possíveis para a análise dos dados, como é apresentado na Figura 7. Idealizado por Smith & Humphreys (2006), o mapa semântico descreve as regras do cricket por meio da semântica, ou seja, as palavras-chave de cada momento do jogo estão agrupadas. Figura 30: Mapa semântico das regras do cricket. Fonte: Smith & Humphreys, 2006. Considerando outros tipos de análise, os softwares necessários podem alternar, ou seja, dependendo das necessidades do usuário existe um software diferente que atende aos requisitos e um determinado tipo de análise é traçado. 3.3.1.4 Interpretação dos dados (Interpretation) Por último, a interpretação dos dados é fundamental, já que cada banco de dados é subjetivo e possui diferentes limitações. Entretanto, os dados não são explicados por si e não podem se expressar sozinhos, já que é necessário um especialista que interpreta as informações que foram extraídas dele, são expertises que analisam os dados. Além disso, os resultados adquiridos devem ser colocados no contexto analisado. O text mining é visto como um processo de grande interação em que os resultados podem fazer crescer questões importantes para o futuro e, que por consequência, podem demandar novar pesquisas, dados adicionais e mais informações para validação de resultados. 3.3.2 Como o data mining funciona Data mining, segundo Chen et al., (1996) refere-se ao conhecimento que pode ser descoberto por meio do processo de extração de dados implícitos, previamente desconhecidos e que possuem grande potencial de dados a serem extraídos e transformados em informação. Dados podem ser retirados de inúmeros banco de dados e podem ser analisados e investigados a partir de diferentes ângulos. Normalmente, banco de dados mais amplos possuem informações mais valiosas e podem promover grande conhecimento. A mineração de informações e conhecimento a partir de volumosos bancos de dados podem ajudar pesquisadores no ponto chave de suas pesquisas, em diversos campos e áreas de estudo. O conhecimento adquirido pode ser aplicado para o gerenciamento de informações, processamento de dados e apoio à decisão, por exemplo (CHEN et al., 1996). O data mining pode ser visto como um processo de grande interatividade, assim como é observado no text mining e que pode ser construído, tanto por metodologias manuais, quanto por metodologias automatizadas. As técnicas de mineração são úteis para a construção de cenários, principalmente, quando não se sabe ao certo qual será o resultado do futuro analisado, sendo considerado um esforço mútuo entre máquinas e humanos (KANTARDZIC, 2011). Para entender qual a metodologia de mineração de dados será utilizada, deve-se compreender antes de tudo, o tipo de informação que se deseja extrair. Ocorreram recentes avanços no campo das técnicas e em novos sistemas de mineração de dados. Diferentes esquemas de classificação foram formulados e podem ser utilizados para categorizar osmétodos, técnicas e sistemas de mineração de dados podem ser aplicados dependendo do tipo de banco de dados e o tipo de conhecimento que se deseja obter (CHEN et al., 1996). O esquema de classificação presente na Figura 8 foi concebido por Kantardzic (2011) e nele estão claros os processos de análise e estruturação da mineração, em seguida a explicação generalizada dos principais aspectos que devem ser levados em consideração para a análise do processamento de mineração de dados Figura 31: Processo de construção do data mining (mineração de dados). Fonte: KANTARDZIC, 2011. 3.3.2.1 Qual tipo de banco de dados deve-se escolher Um sistema de mineração de dados pode ser classificado de acordo com o tipo de banco de dados em que a mineração será aplicada. Em geral o processo de mineração de dados pode ser classificado de acordo com os diferentes tipos de bancos de dados existentes, como é o caso do banco de dados de transações, geoposicionamento, multimídia e outras informações provenientes da internet (CHEN et al., 1996). 3.3.2.2 O tipo de conhecimento que pode ser minerado Inúmeros tipos de bancos de dados podem ser analisados por meio de softwares de mineração de dados, incluindo regras de classificação, regras de associação, formação de clusters são exemplos. Além disso, a mineração de texto pode ser caracterizada de acordo com o nível de abstração do conhecimento a ser descoberto e que pode ser padronizado como: conhecimento geral, específico, primitivo e de múltiplos níveis. Um sistema de mineração de dados considerado flexível pode ser capaz de analisar dados a partir de diversos níveis de abstração (CHEN et. Al., 1996). 3.3.2.3 Os tipos de técnicas que podem ser utilizadas A mineração de dados também pode ser caracterizada de acordo com o tipo de metodologia utilizada para a extração das informações dos bancos de dados. De acordo com o tipo de técnica utilizada a mineração pode ser integrada com outros bancos de dados e auxiliar na obtenção de conhecimento útil. 3.4 PROSPECÇÃO EM CIÊNCIA, TECNOLOGIA E INOVAÇÃO Nos últimos anos ocorreram os maiores avanços em Ciência, Tecnologia e Inovação (CTI). O novo contexto global sugere um aumento dos fluxos financeiros, comerciais e investimentos o que tornaria o mundo mais interconectado e independente, acelerado pelo crescente desenvolvimento tecnológico em áreas como biotecnologia, nanotecnologia e combustíveis. (ENA et al., 2016) Entretanto questões associadas a instabilidades sociais e econômicas acabaram levando o mundo para uma recessão econômica e agravada por outros problemas como o acesso à água potável, energia, comida, mudanças climáticas e conflitos regionais são exemplos causadores de grande instabilidade. Tendo em vista esta mudança no ambiente, em conjunto com ameaças e oportunidades, tornou-se crucial identificar tendências emergentes como sinais, ainda que fracos, sobre potenciais mudanças e indicadores de mudanças. Um grande número de estudos foi desenvolvido com o objetivo de monitorar e identificar as tendências de mudanças (ENA et al., 2016). Outros autores como De Miranda Santo et al., (2006) colocam que os estudos relacionados à Ciência, Tecnologia e a Inovação podem ser vistos como a estrada que pode fornecer respostas verdadeiras sobre o futuro. Além disso, ainda segundo os autores, as atividades relacionadas a Pesquisa e Desenvolvimento (P&D) devem ser dirigidas sob uma política bem estruturada com o objetivo de promover, efetivamente, um mundo melhor e mais seguro para todos. A utopia, está no fato de que as políticas bem estruturadas, pouco são utilizadas para promoção de políticas de bem-estar social, na realidade são incorporadas em grandes indústrias e empresas, com o objetivo de se obter vantagem competitiva, maiores parcelas de lucro e maior parcela de mercado. Os avanços na área de CTI tendem a moldar a sociedade e economia cada vez mais. De acordo com Sokolov & Chulok (2016) a Ciência e Tecnologia fornecem oportunidades para tanto o crescimento social quanto o desenvolvimento social. Os estudos prospectivos em CTI têm sido fundamentais para formular prioridades a longo prazo, políticas e estratégias com o objetivo de identificar áreas estratégicas de pesquisa e novas tecnologias que emergem no cenário atual, com capacidade de prover crescimento econômico e benefícios de ordem social (BAKHTIN et al., 2017; MARTIN, 1995). O Foresight tem sido utilizado amplamente por governos, organizações internacionais e empresas, combinando o conhecimento sobre o atual desenvolvimento da Ciência e Tecnologia, analisando possíveis cenários para o futuro, determinando prioridades, políticas e estratégias por meio do engajamento de tomadores de decisão durante o processo (MILES et al., 2016). Tendo em vista as atuais dificuldades relacionadas aos subsídios para o desenvolvimento de pesquisa, os recentes desenvolvimentos no domínio das atividades que utilizam análises relacionadas ao Big Data podem fornecer oportunidades para adquirir novas evidências dentro deste grande lado de dados que é gerado diariamente, proveniente de publicações científicas, patentes, mídia e outras fontes de informação lançadas em bases de dados em todo o mundo (DAIM et al., 2016. Informações úteis podem ser extraídas destes dados, por meio de análises bibliométrica e semânticas, com meios de análise e visualização de dados e que pode ser levada para o processo do Foresight na fase em que há aquisição de conhecimentos (SARITAS, 2013). Todo esse processo é tido como um impulso para a ciência e nesse a Ciência e Tecnologia pode fornecer as entradas para análises de política e estratégia (BAKHTIN et al., 2017). Para o monitoramento de tendências tecnológicas, Ena et al., (2016) propõe cinco fases que sistematizam o processo de análise de monitoramento de tendências, representado na Figura 9. Na primeira fase Inteligência (Intelligence) são desenvolvidas atividades de scanning e questionários. O escopo do estudo é definido e deve estar alinhado com os objetivos gerais de monitoramento de tendências tecnológicas. A área de investigação é descrita e palavras-chave são definidas com a ajuda de experts. As fontes são analisadas por meio de métodos quantitativos e qualitativos, como análises bibliométricas, patentes e revisão de literatura (ENA et al., 2016). Para a fase de Imersão (Immersion), o dado inserido na primeira fase é transformado em mapa de análise para posterior uso. O objetivo, nesta fase, é capturar os padrões de desenvolvimento de tecnologias, revelados nas análises, neste momento é feita uma espécie de cluster para visualização de dados com a intenção de observar tendências. Softwares como o Vantage Point e VOS-viewer podem ser utilizados (ENA et al., 2016). A fase de Integração (Integration) considera a conexão de palavras chave, autores, instituições, países e examina o relacionamento existente entre eles. Por meio de uma análise do tempo, esta fase tende a revelar o padrão de desenvolvimento das tecnologias e a natureza das tendências tecnológicas (ENA et al., 2016). Os dados e as tendências analisados e descritos estão presentes na fase de Interpretação (Interpretation). Nesta fase são utilizadas opiniões de experts no assunto, com o objetivo de capturar a diversidade e as múltiplas intepretações com diferentes pontos de vista. As narrativas de padrões emergentes, trajetórias alternativas para o futuro em cada um dos clusters formados na fase anterior e os impactos dos sinais de tendências tecnológicas emergentes podem ser explicados por meio de discussões com os experts (ENA et al., 2016). Por último, a fase de Intervenção (Intervention) é o momento de tradução das mensagens trazidas nas fases anteriores e o momento de transformar as tendências de monitoramento em políticas estratégicas e ações. Dessa forma, por meioda identificação de prioridades, ações e capacidade de organização das instituições ocorre a formulação e adequação de Políticas para CTI e estratégias aplicáveis em P&D (ENA et al., 2016). Figura 32: Metodologia de monitoramento de tendência tecnológicas. Fonte: ENA et al., 2016. 4 APLICAÇÕES DE DATA MINING E TEXT MINING EM CTI. O text mining e data mining são vistos como metodologias muito úteis para a extração de dados a partir de banco de dados volumosos. A extração de dados para análise em CTI foca principalmente, na revisão de literatura, especialmente em sua forma eletrônica (KOSTOFF, 2012). Para exemplificar os usos das metodologias de prospecção em CTI neste capítulo serão fornecidas análises feitas em publicações de artigos científicos no Web of Science (WoS) e suas relações com as metodologias explicitadas do decorrer desta tese. A busca inicial dentro do WoS focou em artigos e publicações que continham as seguintes palavras chave: “Foresight” OR “Forecasting” AND “Science, Technology and Innovation” AND “2005-2016”. Em seguida foram obtidos como resultado 4.121 artigos com essas especificações em um dos seus tópicos: título, palavras-chave ou resumo. As análises a seguir foram formuladas a partir de dois softwares que analisam as publicações e geram padrões de tendência entre elas, o The Vantage Point e o VOS-viewer. Foram utilizados dois softwares levando em consideração as capacidades de análise de cada um deles e os potências econômicos, já que nem todas as instituições possui subsídios financeiros par arcar com os gastos de um software de bibliometria. Com isso, foi utilizado um software com licença paga e outro disponível na internet, pelo mesmo site em que foi feita a pesquisa de publicações e artigos científicos. 4.1 CO-RELAÇÃO DE ARTIGOS PUBLICADOS POR PAÍS As análises de publicação de artigo por país foram construídas a partir das principais relações de publicações entre os países, ou seja, autores de um determinado país publicam mais com autores de um outro determinado país, por exemplo. As análises presentes na Figura 10 estão coloridas por período, de acordo com o que foi especificado na pesquisa. Dessa forma, países e linhas de correlação que estão na cor azul são correlações mais antigas do que as estão assinaladas com a coloração vermelha, por exemplo. A escala de coloração relacionada com o ano de publicação do artigo aparece no canto inferior direito da Figura 10. A partir da interpretação dos dados presente no mapa da Figura 10 nota-se a predominância de relações entre coautoria proveniente dos Estados Unidos, principalmente com Inglaterra, França, Japão, Alemanha, China e Austrália. 40 Figura 33: Mapa rede de coautoria entre países. Fonte: VOSviewer, elaboração própria, 2017. 41 Já o mapa de densidade, representado pela Figura 11, mostra as principais correlações dentre os países, ou seja, para cores consideradas “quentes” como é o caso do laranja e do vermelho, estão nela localizados os países com maiores coautorias de publicações. Tanto o mapa de correlações idealizado por meio de rede na Figura 10, quanto o mapa de densidade constituído pela Figura 11 foram construídos por meio do Software VOS-viewer. Figura 34: Mapa de densidade de publicações com coautoria entre países. Fonte: VOSviewer, elaboração própria, 2017. A análise do mapa de rede da Figura 10, transformado em mapa de densidade na Figura 11, apenas permite melhor visualização dos dados, já que as informações presentes em ambos os mapas é a mesma. A participação das publicações brasileiras também ganhou destaque nos últimos anos. O mapa da Figura 12, permitiu o destaque das publicações em que há coautoria do Brasil com outros países, principalmente, os Estados Unidos, Inglaterra e França (com publicações mais antigas) e para a Rússia, Austrália e Turquia (com publicações mais recentes, respectivamente). Indicando relações mais intensas com países emergentes, como é o caso da Rússia. 42 Figura 35: Mapa rede de coautoria de publicação entre os países: destaque para o Brasil. Fonte: VOSviewer, elaboração própria, 2017. 43 As análises realizadas com o software The Vantage Point são mais profundas e mais detalhadas do que os mapas de coautoria fornecidos pelo VOSviewer. A Figura 13 mostra uma dessas análises. Nela está representada um conjunto de palavras chave: “Big Data”, “Text Mining” e “Data Mining”; e o conjunto dos principais países produtores de artigos relacionados ao tema da pesquisa inicial feita no WoS: Estados Unidos, Reino Unido, Alemanha, Austrália, China e Coreia do Sul, por exemplo. Figura 36: Principais países produtores de artigos por palavra-chave. Fonte: The Vantage Point, elaboração própria, 2017. A lista de ordenação dos países foi feita de maneira crescente de acordo com a quantidade de publicações de cada um dos países entre 2005 e 2016. Na linha “#Records” estão identificados os números de publicações de cada um dos países. E em cada uma das colunas dos países existe uma correlação correspondente para as palavras-chave mencionadas anteriormente: “Big Data”, “Text Mining” e “Data Mining”. De acordo com esta análise, o país com maior referência a estas palavras-chave foi a Coréia do Sul e em seguida dos Estados Unidos e China, respectivamente. Isto mostra o pioneirismo sul coreano na produção de artigos associados a prospecção tecnológica para Ciência, Tecnologia e Inovação, levando em consideração o fato de que o filtro inicial extraiu publicações que estavam relacionadas com o “Foresight” e “Science, Technology and Innovation” 4.2 CO-RELAÇÃO DE PUBLICAÇÕES POR AUTOR As análises de publicação de artigo por autor foram construídas a partir das relações de publicações entre os autores, ou seja, autores de um determinado país ou instituição publicam mais com autores de um outro determinado país ou instituição, por exemplo. As análises presentes na Figura 14 estão coloridas por período, de acordo com o que foi especificado na pesquisa. Dessa forma, autores e suas respectivas linhas de correlação que estão na cor azul são correlações mais antigas do que as estão assinaladas com a coloração vermelha, por exemplo. A escala de coloração relacionada com o ano de publicação do artigo aparece no canto inferior direito da Figura 14. O mesmo banco de dados utilizado para a construção das análises de Figura 14 foram utilizados para construir o mapa de coautoria da Figura 15. Entretanto os Softwares de análise de dados foram diferentes, para a Figura 14 foi utilizado o VOSviewer e para a Figura 15 foi utilizado o The Vantage Point. Na Figura 15 nota-se que a distribuição da coautoria entre os autores é bem parecida com a da Figura 14. Contudo a rede de correlação entre os autores foi estruturada de forma diferente, de modo a deixar mais claro quais autores publicam mais com outros autores, sendo identificadas por linhas de preenchimento completo e linhas de preenchimento tracejado. Além disso, na Figura 15 estão presentes na análise apenas os 50 autores que mais publicaram, a lista foi reduzida por motivos técnicos associados à capacidade de análise de informações da licença do software The Vantage Point. 45 Figura 37: Mapa rede de coautoria entre autores. Fonte: VOSviewer, elaboração própria, 2017. 46 Figura 38: Mapa rede dos 50 autores com maior número de publicações em coautoria. Fonte: The Vantage Point, elaboração própria, 2017. O mapa de densidade, representado pela Figura 16, mostra as principais correlações dentre os autores, ou seja, para cores consideradas “quentes” ou com maior densidade, como é o caso do laranja e do vermelho, estão nela localizados os autores com maiores correlações de publicações. Figura 39: Mapa de densidade de coautoria entre autores. Fonte:VOSviewer, elaboração própria, 2017. Para o mapa de rede da Figura 17, uma outra perspectiva foi adotada. Nele estão presentes as co-ocorrências de citação entre os autores, ou seja, os autores que mais citam autores em suas publicações. A ideia era colocar como se dá a distribuição do conhecimento e as redes de conexão existentes entre os próprios autores. Normalmente autores que citam mais alguns autores, tendem a publicar, também, com coautoria artigos com os mesmos. Um exemplo seriam as conexões existentes entre Dirk Meissner e David Sarpong. Ambos autores aparecem conectados nos mapas de rede presentes nas Figuras 14 e 15. Além disso, aparecem como autores que se citam na Figura 17. Além de Meissner e Sarpong, podemos citar em destaque as relações de Ozcan Saritas com: Effie Amanatidou, Alexander Chulok e Per Dannemand Andersen. Todas elas aparecem na Figura 14 e na Figura 15, além de serem proeminentes na Figura 17. 48 Figura 40: Mapa rede de co-ocorrências de citações entre os autores. Fonte: VOSviewer, elaboração própria, 2017. 49 4.3 CO-RELAÇÃO DE PUBLICAÇÕES POR INSTITUIÇÃO As análises de publicação de artigo por instituição foram construídas a partir das principais relações de publicações entre as instituições, ou seja, autores de uma determinada instituição publicam mais com autores de uma outra determinada instituição, por exemplo. As análises presentes na Figura 18 estão coloridas por período, de acordo com o que foi especificado na pesquisa. Dessa forma, instituições e linhas de correlação que estão na cor azul são correlações mais antigas do que as estão assinaladas com a coloração vermelha, por exemplo. A escala de coloração relacionada com o ano de publicação do artigo aparece no canto inferior direito da Figura 18. A partir do mapa de co-ocorrência em rede das instituições, Figura 18, nota-se certa predominância no âmbito das publicações e associações entre universidades e instituições norte-americanas, como é o caso do MIT, Harvard e da Universidade de Indiana, com relação a instituições e universidades europeias, como é o caso de Cambridge, Oxford, Universidade de Viena e Universidade Tecnológica da Dinamarca. 50 Figura 41: Mapa de co-ocorrências de publicações entre instituições e organizações. Fonte: VOSviewer, elaboração própria, 2017. 51 O mapa de densidade, representado pela Figura 19, mostra as principais correlações dentre as instituições, ou seja, para cores consideradas “quentes” e mais densas como é o caso do laranja e do vermelho, estão nela localizadas as instituições com maiores relações de publicações. O mapa da Figura 19, apenas sintetiza e deixa claro quais as principais relações entre as instituições. Figura 42: Mapa de densidade e de co-ocorrência de publicação entre instituições e organizações. Fonte: VOSviewer, elaboração própria, 2017. 4.4 CO-RELAÇÃO DE PALAVRAS-CHAVE As análises de publicação de artigo por palavra-chave foram construídas a partir das principais relações de publicações entre as palavras-chave, ou seja, quais as palavras-chave que mais aparecem conectadas umas nas outras, por exemplo. As análises presentes na Figura 20 estão coloridas por período, de acordo com o que foi especificado na pesquisa. Dessa forma, palavras e linhas de correlação que estão na cor azul são correlações mais antigas do que as estão assinaladas com a coloração vermelha, por exemplo. A escala de coloração relacionada com o ano de publicação do artigo aparece no canto inferior direito da Figura 20. A Figura 21, assim como a Figura 20, mostra as conexões entre as palavras. Entretanto a Figura 21 fornece maior destaque para relações da palavra “Foresight” com outras palavras do entorno, como ciência, inovação, incerteza e políticas. 52 Figura 43: Mapa rede de co-ocorrência entre palavras-chave. Fonte: VOSviewer, elaboração própria, 2017. Figura 44: Mapa rede de co-ocorrência entre palavras-chave: destaque para as conexões da palavra "Foresight". Fonte: VOSviewer, elaboração própria, 2017. 54 O mapa de densidade, representado pela Figura 22, mostra as principais correlações dentre as palavras-chave, ou seja, para cores consideradas “quentes” e mais densas como é o caso do laranja e do vermelho, estão nela localizados as palavras-chave com maiores relações de publicações. O mapa de densidade da Figura 22 apenas deixa mais clara as relações presentes nas Figuras 21 e Figura 20. Figura 45: Mapa de densidade de co-ocorrência de palavras-chave. Fonte: VOSviewer, elaboração própria, 2017. 4.5 CO-RELAÇÕES DE METODOLOGIAS DE ANÁLISE As metodologias de análise para estudos prospectivos variam de acordo com os critérios utilizados para seguir a pesquisa e qual resultado espera-se obter no final da pesquisa. As metodologias de análise apresentaram-se valiosas para compreender como os estudos prospectivos podem atuar e variar de acordo com o caminho adotado. Todas as análises presentes neste tópico são provenientes do software The Vantage Point, já que são de maior complexidade e necessitam de uma limpeza prévia de dados antes de serem formuladas as análises. O Gráfico 1, mostra as principais metodologias utilizadas nas publicações, por país. Dessa forma, podemos compreender quais delas ganharam maior destaque e, ainda, comparar com as publicações científicas metodológicas de outros países. Para a análise, foram pesquisadas diversas metodologias, contudo para compor o gráfico, apenas as mais utilizadas foram colocadas por uma questão de grau de importância e melhor compreensão dos dados colocados para análise. Quadro 3: Principais metodologias utilizadas pelos países de acordo com o número de ocorrências de cada uma delas em publicações. Fonte: The Vantage Point, elaboração própria, 2017. Dessa forma nota-se os Estados Unidos em destaque, junto com o Reino Unido e Alemanha. Além disso, para todos os países analisados no gráfico, a metodologia que possui maior destaque é a que formula cenários e logo em seguida os surveys aparecem em segundo lugar. Possivelmente os cenários aparecem mais, se levarmos em consideração a atual conjuntura econômica e atual período de crise enfrentado pela maioria dos países. A metodologia de cenários, oferece alternativas para as diversas possibilidades de construção de futuro, tendo em vista o alto grau de incerteza apresentado atualmente. A palavra “incerteza” que, por sua vez, aparece como uma das palavra-chave de co-ocorrência junto com a palavra “Foresight”, nas Figuras 20 e 21. Para comparação com as metodologias, o Quadro 2 mostra os anos em que há maiores índices de ocorrência destas e como as evoluções de análises se desenvolveram. 0 50 100 150 200 250 N º d e P u b lic aõ es Países Scenario Survey Delphi Bibliometrics Simulation Workshop Roadmap Patent Quadro 4: Evolução das Principais metodologias utilizadas de acordo com o número de ocorrências de cada uma delas em publicações. Fonte: The Vantage Point, elaboração própria, 2017. No Quadro 2 nota-se o destaque da metodologia cenário desde 2006, assim como o crescimento do número de publicações que contemplam a forma de análise no seu escopo de busca. Para a figura 22, foram selecionadas as palavras-chave utilizadas no início das análises e a evolução de sua ocorrência em publicações de acordo com os anos. Além disso, nota-se um crescente número de publicações na área, o que demostra a evolução do valor dos estudos prospectivos dentro de CTI. Figura 46: Evolução da utilização das principais palavras-chave por ano de acordo com o número de publicações. Fonte: The Vantage Point, elaboração própria, 2017. 0 50 100 150 200 250 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 N º d e P u b lic aç õ es Anos Scenario Survey Delphi Bibliometrics SimulationWorkshop Roadmap Patent Apesar do ano de 2017 ainda não ter finalizado, é interessante notar o crescimento do número de palavras-chave em destaque nas pesquisas publicadas neste ano. A evolução deste contexto torna-se mais forte a partir de 2013, de acordo com o número de ocorrência das palavra-chave em destaque nas publicações. 5 MATERIAIS 5.1 WEB OF SCIENCE (WoS) Nos últimos tempos, com a evolução e disseminação dos meus eletrônicos houve um crescimento e ampliação do número de bancos de dados com artigos científicos (FALAGAS et al., 2008). O banco de dados utilizado como base de pesquisa neste projeto é o Web of Science (WoS), ajudando no agrupamento de artigos de pesquisa de diversas áreas de pesquisa. Para a pesquisa foi utilizado o banco completo de artigos científicos do Web of Science, a plataforma contempla mais de 18 mil revistas de cunho científico e mais de 250 áreas de pesquisa, distribuídas entre ciências, ciências sociais e humanidades6. O banco de dados do WoS foi utilizado na segunda parte da pesquisa e buscou informações a serem extraídas por meio de publicações relacionadas a estudos de Foresight aplicados para Ciência, Tecnologia e Inovação. O modelo de pesquisa utilizado para desenvolver o projeto será explicitado no Capítulo 6 – Metodologia, assim como as funcionalidades utilizadas nos softwares de bibliometria, como foi o caso do The Vantage Point e VOS-viewer. 5.2 THE VANTAGE POINT O software The Vantage Point funciona como uma espécie de “desktop” software de mineração de textos dentro de um banco de dados de texto estruturado. Foi desenvolvido nos Estados Unidos, por Allan Porter, sendo o resultado de uma parceria do Georgia Institute Of Technology, do Search Technologie e Technologie Policy and Assessment Center. O programa possui ferramentas de reformatação de dados e scripts para emissão de relatórios. Além disso, uma das suas principais funções é analisar as informações dos bancos 6 http://clarivate.libguides.com/woscc/basics Acesso em 18/12/2017. http://clarivate.libguides.com/woscc/basics de dados fornecendo mapeamentos de relacionamentos, identificação de tendências, desenvolvimento de indicadores e automatização das análises. De certa forma, o software ajuda a sintetizar o conhecimento que foi produzido em uma determinada área ao longo de certo período. Com esta ferramenta é possível descobrir o autor de um determinado artigo, o local em que este artigo foi produzido, do que se trata o artigo e o momento em que foi elaborado (SILVA, 2004). Com base em estudos similares recentes (SARITAS & BURMAOGLU, 2015) foi encontrado um volume de publicações de ForSTI da ordem de centenas, permitindo análises estatísticas além das descritivas executadas pelo próprio software. O software The Vantage Point apresenta múltiplas funções podendo formular listas de frequências (rankings); matrizes de co-ocorrência (relacionamento entre autores/pessoas); mapas de agrupamentos (agrupamento do tipo estatístico e representação visual de elementos); seleção de grupos manualmente (formulação de subconjuntos de dados); e comparação de grupos e listas e formulação de subconjuntos de dados (SILVA, 2004). O programa permitiu uma análise ampla dos dados, além de boa apresentação dos dados extraídos, otimizando o processo de análise bibliométrica. As análises textuais são retiradas dos bancos de dados, como foi utilizado o Web Of Science e, a a partir deste banco de dados é possível fazer o tratamento das informações e processos de text mining. 5.3 VOSviewer O VOSviewer é uma ferramenta de análise e construção de redes bibliométricas diversas. Assim como o The Vantage Point, o VOSviewer é capaz de produzir mapas de co- ocorrência entre periódicos, autores e países. O software também oferece funcionalidades de mineração de texto que podem ser usadas para construir e visualizar redes de co-ocorrência de termos importantes extraídos de um corpo de literatura científica. Entretanto, apesar das funcionalidades, a sua capacidade analítica dos dados é bem reduzida em relação ao The Vantage Point, principalmente com relação a limpeza dos dados e estabelecimento de listas de frequência. A partir do Vosviewer foram utilizados dois mapas principais: o primeiro mapa cria feições de co-ocorrência e de correlação entre os principais objetos de análise por meio de um mapa de rede e o segundo mapa permite a visualização de densidade de um determinado objeto de pesquisa, ou seja, per meio de coloração torna-se possível visualizar o grau de importância de um determinado autor ou país, por exemplo. As colorações variam de acordo com o grau de intensidade de aparecimento, sendo azul o nível mais fraco e a variação ocorre até o vermelho, variação mais intensa. 6 METODOLOGIA Como fora mencionado, o banco de dados utilizado para compor as análises deste projeto é proveniente do Web of Science. Para a pesquisa foram utilizadas algumas palavras chave: "Foresight" OR "Forecasting" AND "2005-2016" AND "Science, Tecnology and Innovation". Dessa forma, foram selecionadas publicações com as seguintes especificações no título, nas palavras-chave ou no resumo e foram gerados 4.121 arquivos. Os arquivos foram capturados em blocos de 500, número máximo de downloads permitido pelo WoS para compor as análises. Em seguida, o banco de dados extraído foi direcionado para o software do The Vantage Point e VOSviewer. As análises do VOSviewer foram compostas por meio da sistematização de dados e foram formulados de mapas de co-ocorrência e coautoria. As análises bibliométricas levam em consideração autores, países, instituições e a data em que as publicações foram divulgadas. Os dados extraídos da base de dados já estavam, de certa forma, estruturados e foram lançados no VOSviewer apenas para mapas iniciais. Já os para as análises no The Vantage Point, foi feito um tratamento bibliométrico para a limpeza dos dados, excluindo-se duplicidade de publicações e agrupando palavras chave com o mesmo significado. No Software são tratados, agrupados e interseccionados entre si. São resultados do processamento destes dados, a formação de listas de matrizes, tabelas de frequência de dados e mapas de ordem estatística (HAYASHI, 2004), para a melhor compreensão dos dados a Figura X, abaixo, compreende o resumo dos procedimentos metodológicos utilizados para compor a análise. Tabela 2: Síntese dos procedimentos metodológicos. Fonte: Adaptado de OLIVEIRA, 2017. 7 RESULTADOS Os resultados obtidos por meio da junção das análises bibliográficas e das análises bibliométricas, nota-se um crescimento dos estudos relativos à prospecção tecnológica. Principalmente, a partir do ano de 2013, levando em consideração os dados analisados na Figura 23. Em boa parte das bibliografias fica claro que existe um cuidado maior em realizar a prospecção em áreas em que já existe uma tendência em pesquisa, tendo em vista a atual escassez de recursos e subsídios financeiros para apoio em prospecção. Existe uma proeminência de países em destaque nos últimos anos, em termos de pesquisa em Ciência, Tecnologia e Inovação, como é o caso dos Estados Unidos, Alemanha, Reino Unido e China, assim como as suas respectivas universidades, como centros de excelência em pesquisa e desenvolvimento de novos estudos prospectivos. As análises construídas por meio do software VOSviewer são complementares às análises realizadas por meio do The Vantage Point, já que o primeiro software mostra os mapas de correlação e coautoria e o segundo mostra o resultado dessas atividades de interação, sendo caracterizado por meio do desenvolvimento de estudos em que são aplicadas metodologias de prospecção tecnológica. As palavras chave extraídas por meio da análise feito no software The Vantage Pointconstituí uma tendência no crescimento dos estudos da área, tendo em vista o crescimento notável da utilização das terminologias "Big Data" "Data Mining" e "Text Mining" em estudos relacionados a "Foresight", "Forecasting" e "Science, Tecnology and Innovation", como foi pesquisado no banco de dados da WoS. A partir das análises dos dados nota-se que existe uma concentração de países que produzem estudos prospectivos voltados para CTI (Estados Unidos, Reino Unido e Alemanha são exemplos), além de observar o eminente controle de um tipo específico de metodologia que evoluiu mais do que as outras ao longo do tempo, como é o caso dos cenários. 8 DISCUSSÃO A inserção e ampliação dos estudos prospectivos dentro da Ciência, Tecnologia e Inovação mostra que outros instrumentos científicos, como é o caso de análises bibliométricas são utilizados para "sondar" projetos e moldar novos desenvolvimentos tecnológicos para o futuro. Entretanto, novos estudos na área podem ser realizados para compreender com maior clareza quais são as reais influências dos estudos prospectivos para formular estratégias em processos de CTI, ou seja, entender como os estudos prospectivos podem, de fato, influenciar em estratégias de desenvolvimento de novas tecnologias. Dessa forma, atribuir mais possibilidades de crescimento de uma determinada tecnologia no lugar de outra. Espera-se que o crescimento das publicações relacionadas a CTI dentro dos estudos prospectivos, possa melhorar a acurácia da escolha de desenvolvimento de novas tecnologias, levando em consideração o fato de que, por meio das análises das publicações pode ser observada a evolução de algum produto ou serviço em maior destaque, com relação a outros. Nos últimos anos notou-se uma tendência de crescimento do uso de metodologias de prospecção, principalmente a partir de 2010, levando em consideração o alto número de publicações na área e a intensidade do uso de palavras-chave, aparentes em títulos, palavras- chave e resumos. 9 CONSIDERAÇÕES FINAIS Este projeto permitiu a ampliação dos conhecimentos da utilização do banco de dados do Web of Science e os softwares de bibliometria permitem a visualização de temas dentro da prospecção tecnológica que ganharam destaque nos últimos anos. Além do aprendizado amplo no manuseio de ferramentas de análise bibliométricas, como foi o caso do software The Vantage Point e VOSviewer. Por fim, esta pesquisa gerou resultados que, em mãos dos tomadores de decisão, se torna uma grande ferramenta no planejamento e gestão de CTI por meio do uso de ferramentas de análise bibliométrica para gerenciamento de projetos e pesquisas de tendências de novas tecnologias, mercados e serviços que podem tornar-se chave no desenvolvimento do futuro. Com o intuito de estabelecer novas conexões com países e autores que, ao longo do tempo e de suas publicações, as publicações de artigos científicos tornaram-se peças fundamentais para a continuidade e evolução dos estudos na área, além de ajudar a compreender quais as metodologias ganharam maior proeminência nos últimos anos. Com o viés de análise de possibilidades para o Brasil, torna-se claro que estabelecer coautoria de publicações com autores e instituições em destaque nesta pesquisa pode abrir novas portas sobre o futuro das dinâmicas de CTI no país, assim como a evolução dos estudos em áreas em novas áreas. 10 PUBLICAÇÕES Este Trabalho de Conclusão de Curso ainda não gerou nenhum artigo, entretanto espera-se que o resultado desta pesquisa seja publicado em um periódico de alta relevância. REFERÊNCIAS BIBLIOGRÁFICAS BAKHTIN, P., SARITAS, O., CHULOK, A., KUZMINOV, I., & TIMOFEEV, A. Trend monitoring for linking science and strategy. Scientometrics, v. 111, n. 3, p. 2059-2075, 2017. BARKER, D. & SMITH, D. J. H. Technology foresight using roadmaps. Long Range Planning, v. 28, n. 2, p. 21-28, 1995. BIESDORF, S. COURT D. & WILLMOTT, P. Big data: What’s your plan. McKinsey Quarterly, v. 2, p. 40-51, 2013. COATES, J. F. Foresight in federal government policymaking. Futures Research Quartely, 1985. CUHLS, K. From forecasting to foresight processes—new participative foresight activities in Germany. Journal of Forecasting, v. 22, n. 2‐3, p. 93-111, 2003. DA COSTA, O., WARNKE, P., CAGNIN, C., & SCAPOLO, F. The impact of foresight on policy-making: insights from the FORLEARN mutual learning process. Technology Analysis & Strategic Management, v. 20, n. 3, p. 369-387, 2008. DAIM, T. U., CHIAVETTA, D., PORTER, A. L., & SARITAS, O. (Eds.). Anticipating Future Innovation Pathways Through Large Data Analysis. Springer International Publishing, 2016. DE MIRANDA SANTO, M., COELHO, G. M., DOS SANTOS, D. M., & FELOWS, L. F. Text mining as a valuable tool in foresight exercises: A study on nanotechnology. Technological Forecasting and Social Change, v. 73, n. 8, p. 1013-1027, 2006. DE SMEDT, P. Interactions between foresight and decision-making. In: Participation and Interaction in Foresight: Dialogue, Dissemination and Visions. Edward Elgar Publishing, Incorporated, 2013. EEROLA, A.; MILES, I. Methods and tools contributing to FTA: a knowledge-based perspective. Futures, v. 43, n. 3, p. 265-278, 2011. FAHEY, S. The Democratization of Big Data. J. Nat'l Sec. L. & Pol'y, 7, 325, 2014. FALAGAS, M. E., PITSOUNI, E. I., MALIETZIS, G. A. & PAPPAS, G. Comparison of PubMed, Scopus, web of science, and Google scholar: strengths and weaknesses. The FASEB Journal, v. 22, n. 2, p. 338-342, 2008. FÖRSTER, B. Technology foresight for sustainable production in the German automotive supplier industry. Technological Forecasting and Social Change, v. 92, p. 237- 248, 2015. GANDOMI, A. & HAIDER, M. Beyond the hype: Big Data concepts, methods and analytics. International Journal of Information Management v. 35, p. 137 – 144, 2015. GEORGHIOU, L. The handbook of technology Foresight: concepts and practice. Edward Elgar Publishing, 2008. GHAZINOORY, S., AMERI, F. & FARNOODI, S. An application of the text mining approach to select technology centers of excellence. Technological Forecasting and Social Change, v. 80, n. 5, p. 918-931, 2013. GODET, M. Prospective et planification stratégique. Economica, Paris, 335 pp., 1985 HAEGEMAN, K., MARINELLI, E., SCAPOLO, F., RICCI, A., & SOKOLOV, A. Quantitative and qualitative approaches in Future-oriented Technology Analysis (FTA): From combination to integration? Technological Forecasting and Social Change, v. 80, n. 3, p. 386-397, 2013. HAGSTROM, M. High-performance analytics fuels innovation and inclusive growth: use big data, hyperconnectivity and speed to intelligence to get true value in the digital economy. Journal of Advanced Analytics, v. 2, p. 3-4, 2012. HAMMOUD, M. S. & NASH, D. P. What corporations do with Foresight. European Journal Of Futures Research, v. 2, n.1, p. 1- 20, 2014 HAVAS, A., SCHARTINGER, D. & WEBER, M. The impact of foresight on innovation policy‐making: recent experiences and future perspectives . Research Evaluation, June, pp. 91‐104, 2010 HAYASHI, C. R. M. Presença da educação brasileira na base de dados Francis®: uma abordagem bibliométrica. 2004. HEDGEBETH, D. Data-driven decision making for the enterprise: an overview of business intelligence applications. The Journal Of Information and Knowledge Management Systems, v. 37, n. 4, p. 414 – 420, 2007. HORTON, A. A simple guide to successful foresight. Foresight, v. 1, n. 1, p. 5-9, 1999. HSU, C. H.; SLAGTER, K. D. & CHUNG, Y. C. Locality and loading aware virtual machine mapping techniques for optimizing communications in map reduce applications. Future Generation Computer Systems, v. 53, p. 43-54, 2015. IRVINE, J., MILES, I. & EVANS, J. Demystifying social statistics. Pluto Press – UK, 1979. IRVINE, J. & MARTIN, B. Foresight in science: Picking the winners.No. 338.06/I72f. 1984. JANTSCH, E. Technological Forecasting in Perspective. OCDE, Paris, 1967. KAYSER, V. Comparing public and scientific discourse in the context of innovation systems. Technological Forecasting and Social Change, v. 115, p. 348-357, 2017. KAIVO-OJA, J. Towards integration of innovation systems and Foresight research in firms and corporations. FFRC publications, v. 2, 2006. KÖNNÖLÄ, T., SCAPOLO, F., DESRUELLE, P., & MU, R. Foresight tackling societal challenges: Impacts and implications on policy-making. Futures, v. 43, n. 3, p. 252-264, 2011. KOSTOFF, R. N. Text mining for science and technology–a review part I– characterization/scientometrics. Journal of Scientometric Research, v. 1, n. 1, p. 11-21, 2012. MANYIKA, J., CHUI, M., BROWN, B., BUGHIN, J., DOBBS, R., ROXBURGH, C., & BYERS, A. H. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. MARR, B. Big Data: Using SMART big data, analytics and metrics to make better decisions and improve performance. John Wiley & Sons, 2015. MARTIN, B. R. Foresight in science and technology. Technology analysis & strategic management, v. 7, n. 2, p. 139-168, 1995. MARTIN, B. R. The origins of the concept of ‘foresight’ in science and technology: An insider's perspective. Technological Forecasting and Social Change, v. 77, n. 9, p. 1438- 1447, 2010. MAYER-SCHÖNBERGER, V. & CUKIER, K. Big data: la revolución de los datos masivos. Turner, 2013. MCAFEE, A. & BRYNJOLFSSON, E. Big data: the management revolution. Harvard business review, v. 90, n. 10, p. 60-68, 2012. MILES, I, SARITAS, O & SOKOLOV, A. Foresight for Science, Technology and Innovation. Science, Technology and Innovation Studies, 2016. MILES, I. The development of technology foresight: A review. Technological Forecasting and Social Change, v. 77, n. 9, p. 1448-1456, 2010. MINER, G. Practical Text Mining and Statistical Analysis for Non-Structured Text data Applications. Science Direct, cap.1, 2012. MOEHRLE, M. G., ISENMANN, R. & PHAAL, R. Technology Roadmapping for Strategy and Innovation. Charting the Route to Success. Berlin et al.: Springer, 2013. OLIVEIRA, W. A. Colaboração científica nos programas de pós-graduação em educação: uma análise de redes de coautoria. Dissertação de Mestrado. Universidade Federal de São Carlos, 2017. POPPER, R. How are foresight methods selected? Foresight, v. 10, n. 6, p. 62-89, 2008. POPPER, R. Mapping Foresight: Revealing how Europe and other world regions navigate into the future. EFMN, Luxembourg: Publications Office of the European Union, European Commission, 126 pp., 2009. PROVOST, F. & FAWCETT, T. Data science and its relationship to big data and data- driven decision making. Big Data, v. 1, n. 1, p. 51-59, 2013. RADER, M. & PORTER, A. L. Fitting future-oriented technology analysis methods to study types. Future-Oriented Technology Analysis, p. 25-40, 2008. REIBNITZ, U. V. Szenario-Technik: Instrumente für die unternehmerische und persönliche Erfolgsplanung. Springer-Verlag, 2013. REZAEIAN, M., MONTAZERI, H. & LOONEN, R. C. G. M. Science foresight using life- cycle analysis, text mining and clustering: A case study on natural ventilation. Technological Forecasting and Social Change, v. 118, p. 270-280, 2017. SARITAS, O. Systemic foresight methodology. In Science, Technology and Innovation Policy for the Future. Springer Berlin Heidelberg, 2013. p. 83-117. SARITAS, O. & BURMAOGLU, S. The evolution of the use of Foresight methods: a scientometric analysis of global FTA research output. Scientometrics, v. 105, n.1, p. 497 – 508, 2015. SLAUGHTER, R. The foresight principle: Cultural recovery in the 21st century. Praeger Publishers, 1995. SILVA, M. R. D. Análise bibliométrica da produção científica docente do Programa de Pós-Graduação em Educação Especial da UFSCar: 1998-2003. 2004. SOKOLOV, A. & CHULOK, A. Priorities for future innovation: Russian S&T Foresight 2030. Futures, v. 80, p. 17-32, 2016. STRAWN, G. O. Scientific Research: How Many Paradigms? Educause Review, v. 47, n. 3, p. 26, 2012. SU, H. N. & LEE, P. C. Mapping knowledge structure by keyword co-occurrence: a first look at journal papers in Technology Foresight. Scientometrics, v. 85, n. 1, p. 65- 79, 2010 VAN DER HEIJDEN, Kees. Scenarios: the art of strategic conversation. John Wiley & Sons, 2011. VOROS, J. A generic foresight process framework. Foresight, v. 5, n. 3, p. 10-21, 2003. WAMBA, S. F., AKTER, S., EDWARDS, A., CHOPIN, G., & GNANZOU, D. How ‘big data’ can make big impact: Findings from a systematic review and a longitudinal case study. International Journal of Production Economics, 165, 234-246, 2015. WAMBA, S. F., GUNASEKARAN, A., AKTER, S., REN, S. J. F., DUBEY, R., & CHILDE, S. J. Big data analytics and firm performance: Effects of dynamic capabilities. Journal of Business Research, 70, 356-365, 2017. YANG, C., HUANG, Q., LI, Z., LIU, K., & HU, F. Big Data and cloud computing: innovation opportunities and challenges. International Journal of Digital Earth, v. 10, n. 1, p. 13-53, 2017. YOON, B. & PARK, Y. A systematic approach for identifying technology opportunities: Keyword-based morphology analysis. Technological Forecasting and Social Change, v. 72, n. 2, p. 145-160, 2005.