Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTUDANDO CULTURA E COMUNICAÇÃO COM MÍDIAS SOCIAIS Brasília, 2018 Organização: Tarcízio Silva Jaqueline Buckstegge Pedro Rogedo Estudando cultura e comunicação com mídias sociais. Todos os direitos reservados. ©Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD, 2018. Organização Tarcízio Silva Jaqueline Buckstegge Pedro Rogedo Preparação de texto e revisão Monomito Editorial Diagramação Project Nine Editorial Capa Yuri Amaral Revisão acadêmica Deborah Celentano Brasília, 2018. Todos os direitos desta edição reservados à Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD ibpad.com.br facebook.com/ibpad Sumário APRESENTAÇÃO ................................................................................. 9 ESTUDANDO DISCURSOS EM MÍDIA SOCIAL: UMA PROPOSTA METODOLÓGICA .................................................13 Raquel Recuero CONDUZINDO PESQUISAS COM QUESTIONÁRIOS ONLINE: UMA INTRODUÇÃO ÀS QUESTÕES METODOLÓGICAS ...............31 Márcio Cunha Carlomagno O DISCURSO NA WIKIPÉDIA: CARTOGRAFIA DAS CONTROVÉRSIAS E TEORIA ATOR-REDE COMO METODOLOGIAS COMPLEMENTARES DE ANÁLISE DE ARGUMENTOS .................. 56 Marcio Gonçalves A PESQUISA ETNOGRÁFICA E A GRAMÁTICA DOS SENTIMENTOS: INTRODUÇÃO À ANTROPOLOGIA DAS EMOÇÕES ATRAVÉS DAS MÍDIAS SOCIAIS ............................................................................... 67 João Vitor Rodrigues ANÁLISE DE DADOS VISUAIS NO INSTAGRAM: PERSPECTIVAS E APLICAÇÕES ..................................................... 80 Ana Claudia Zandavalle QUE VOZ É ESSA? IDENTIDADE E NARRATIVA DA MULHER NEGRA NO YOUTUBE ......................................................................97 Dayana Souza ILÊ ASÉ INTERNET – CANDOMBLECISTAS NO CIBERESPAÇO .......................................................................... 112 Kelvin Alves REDES SOCIAIS NA INTERNET, NARRATIVAS E A ECONOMIA ÉTNICA: BREVE ESTUDO SOBRE A FEIRA CULTURAL PRETA ..........................................................................142 Taís Oliveira VIZINHANÇA E INTERNET: NOTAS ETNOGRÁFICAS SOBRE A SOCIABILIDADE ENTRE VIZINHOS A PARTIR DE UMA ANÁLISE DA REDE SOCIAL ONLINE “TEM AÇÚCAR”. ................................159 Fabiana Botton E-CAMPANHAS EM TEMPOS DE REDES DIGITAIS: ESTUDO DE CASO DE UM PROGRAMA DE MONITORAMENTO ONLINE DAS ELEIÇÕES MUNICIPAIS BRASILEIRAS DE 2016 ...........................180 Sérgio Braga, Rafael Cardoso Sampaio, Márcio Cunha Carlomagno, Fabricia Vieira, Alzira Ester Angeli & Juan Francisco Arrom Suhurt MAPEAMENTO DAS FANPAGES POLÍTICAS NO FACEBOOK .... 204 Marcelo Alves NOVO ATIVISMO POLÍTICO: PARTICIPAÇÃO POLÍTICA NA QUESTÃO CONTEMPORÂNEA ..................................................... 225 Débora Zanini MÍDIAS SOCIAIS E A COMUNICAÇÃO DE CRISES URBANAS: ESTUDO DE CASO DO CENTRO DE OPERAÇÕES RIO .............. 237 Pedro Reis Martins, Alexandre Hojda e Ariana Apolinário MÉTODOS PARA IDENTIFICAÇÃO E CARACTERÍSTICAS DE INFLUENCIADORES EM MÍDIAS SOCIAIS ................................... 253 Gabriel Ishida MODELOS DE PERSONALIDADE EM MÍDIAS SOCIAIS: OPORTUNIDADES E DESAFIO PARA O MARKETING ................ 277 Pedro Barreto, Tarcízio Silva CIBERATIVISMO DE CONSUMO NO FACEBOOK E A INFLUÊNCIA NEGATIVA SOBRE AS MARCAS NO PROCESSO DE TOMADA DE DECISÃO DOS CONSUMIDORES ........................................... 294 Norberto Andrade MONITORANDO AUDIÊNCIAS TELEVISIVAS NAS MÍDIAS SOCIAIS .....................................................................315 Eloy Santos Vieira, Tarcízio Silva ON THURSDAYS WE WATCH GREY’S: O ENGAJAMENTO DOS FÃS DE GREY’S ANATOMY NO TWITTER ........................... 336 Talita Vital, Mirna Tonus DA FOFOCA À PÓS-VERDADE: ESTUDANDO BOATOS E COMPORTAMENTOS NEGACIONISTAS NAS MÍDIAS SOCIAIS. ................................................................... 359 Wesley Muniz MENSURAÇÃO DE AUDIÊNCIAS E ANÁLISE DE ENGAJAMENTO: UMA PROPOSTA METODOLÓGICA A PARTIR DAS MÍDIAS SOCIAIS ....................................................374 Wesley Moreira Pinheiro, Danilo Postinguel BIOGRAFIA DOS AUTORES .......................................................... 391 Nathalia Louro Andrade APRESENTAÇÃO Ao longo dos três anos de atuação do Instituto Brasileiro de Pesquisa e Análise de Dados (IBPAD) pudemos criar conexões muito relevantes com alunos, colaboradores, clientes, fornecedores, parceiros, grupos de pesquisa e afins: gente apaixonada por investigação, pesquisa e descoberta. A opção pelo gerúndio no título Estudando Cultura e Comunicação com Mídias Sociais busca enfatizar o esforço contínuo e coletivo para a compreensão das mídias sociais tanto enquanto objetos, nas suas materialidades em si, como, sobretudo, campos discursivos de construções e controvérsias sobre identidades, opinião pública, controvérsias e consumo simbólico. Nos vinte capítulos deste livro reunimos colaborações de pesquisado- res de diferentes disciplinas, campos, níveis de formação, idade, experiência e maturidade científica, sendo uma analogia espelho dos estudos de/sobre/ em/com mídias sociais como algo não-finito e em “modo gerúndio” próprio da investigação científica, acelerada cada vez mais pelas transformações da hipercontemporaneidade. Como resultado de uma chamada de trabalhos aberta a todos que já tiveram algum contato – estudantes, professores ou parceiros – com o IBPAD, os capítulos puderam ser agregados a posteriori em quatro focos não excludentes: Métodos, Identidades, Política e Mercado da Comunicação. Abrindo o livro, uma série de capítulos focados nos métodos apresenta trabalhos sobre como combinar análise de conteúdo e análise relacional nos estudos de mídia social (Recuero, capítulo 1), sobre questões metodológicas a respeito da condução de pesquisas com questionários online (Carlomagno, capí- tulo 2) e sobre cartografia de controvérsias como abordagens possíveis para os dados digitais (Gonçalves, capítulo 3). Enquanto materiais de estudo, as visuali- dades no Instagram como atalho para estudos de comportamento (Zandavalle, capítulo 5), a gramática de sentimentos e emoções (Rodrigues, capítulo 4) ou os traços de personalidade (Barreto & Silva, capítulo 15), disponíveis nos fluxos das publicações, são apresentados para os pesquisadores interessados em inter- rogar os dados com outros olhares. Debruçando-nos sobre identidades e audiências, estudos de caso que apli- cam análise de redes, etnografia e análise de conteúdo descrevem agrupamentos de resistência econômica (Oliveira, capítulo 9), comunidades religiosas (Alves, capítulo 7), audiências articuladas de fãs (Vieira & Silva, capítulo 17; Vital e Tonus, capítulo 18), marcação de lugar de fala de youtubers (Souza, capítulo 6) ou ainda o lugar enquanto rede articulada de vizinhos (Botton, capítulo 9). Abordando tanto youtubers quanto outros tipos de produtores de conteúdo, apresentamos de um lado método para identificação de influenciadores (Ishida, capítulo 14) e mensuração de engajamento de consumidores (Pinheiro & Postinguel, capítulo 20) e de outro os aspectos das articulações negativas como 12 gestão do ciberativismo contra marcas (Andrade, capítulo 16), propagação de boatos (Muniz, capítulo 19) ou gestão de crises urbanas (Hojda e colaboradores, capítulo 13). Entre os desafios da comunicação político-eleitoral e ativismo político, a publicação traz estudo de caso de monitoramento nas últimas eleições brasilei- ras (Braga e colaboradores, capítulo 10), um percurso metodológico sobre mape- amento de páginas políticas no Facebook (Alves, capítulo 11) e reflexões sobre a ação coletiva para a análise de movimentações online (Zanini, capítulo 12). Esperamos que a obra seja proveitosa para estudantes e cientistas em dife- rentes fases da trajetória de engajamento com pesquisa e análise de dados e que, com ela, surjam novos desafios e oportunidades de pesquisa e investigação. Boa leitura! 13 ESTUDANDO DISCURSOS EMMÍDIA SOCIAL: UMA PROPOSTA METODOLÓGICA Raquel Recuero Um dos grandes desafios no estudo da mídia social como esfera pública (BASTOS, 2011; SOARES; RECUERO, 2017) é compreender este espaço como disputa de sentidos. A mídia social1, enquanto conceito, compreende, jus- tamente, o uso dos sites de rede social2 para conversação e espalhamento de informações, onde a estrutura dos grupos e das conexões online é capaz de fil- trar e dar visibilidade para determinadas informações em detrimento de outras (RECUERO; BASTOS; ZAGO, 2015). Nesse contexto, podemos discutir a construção de opiniões públicas, que se tornam proeminentes nessas ferramentas e podem construir percepções sobre produtos, pessoas, serviços e marcas. Assim, este artigo busca propor a utilização de um método misto3, constituído de técnicas da abordagem de análise de redes em conjunto com técnicas da análise de conteúdo, para compreender o discurso em dados de mídia social. Para fazer tal proposição, discutiremos rapidamente as duas abordagens e passaremos a uma especificação de cada passo da proposta. 1. ANÁLISE DE CONTEÚDO E ANÁLISE RELACIONAL A análise de conteúdo (AC) é um dos métodos mais utilizados para ana- lisar-se conjuntos de dados textuais4. É um conjunto de técnicas destinadas a estudar textos, imagens ou outros “conteúdos”, de modo a extrair destes, siste- maticamente, algum tipo de sentido. Trata-se de uma abordagem constituída de várias técnicas diferentes, tanto qualitativas como quantitativas (BARDIN, 2004). A base que une essas várias técnicas está constituída de procedimentos de classificação e categorização, que são constituídos a partir de similaridades e 1 Essa ação orgânica das pessoas sobre a informação nas plataformas é que dá efeito à circulação de informações, que denominamos “mídia social”. 2 Conceito defendido por Boyd e Ellison (2007). 3 Métodos mistos são métodos que misturam diferentes abordagens, tanto qualitativas como quantitativas. Tendem a trazer contribuições relevantes, na medida em que permitem que um mesmo conjunto de dados seja percebido através de múltiplos olhares analíticos. 4 Apesar disso, não podemos esquecer da natureza dos dados da mídia social como dados “fala- dos”, ou seja, híbridos entre linguagem escrita e oral. 14 dissimilaridades nesses dados. Mais do que simplesmente descrever os dados, o objetivo é inferir elementos destes dados. A proposta de Bardin (2004) descreve o método a partir das seguintes etapas: 1) Pré-análise e Exploração – Etapa onde os dados são sistematizados e explorados, e os elementos observados são descritos a partir do pro- blema de pesquisa. 2) Codificação – Etapa inicial de classificação e agregação dos dados. 3) Categorização – Etapa sucessiva de criação de categorias mais amplas, que levará à criação dos conceitos, a partir dos critérios definidos pelo pesquisador. Cada um desses procedimentos é subsequente aos demais e vai constituir um aprofundamento da criação de categorias, que serão posteriormente discutidas. O objetivo, portanto, é chegar a um conjunto de categorias mais amplas (ou conceitos) que emergirão da análise sistemática dos dados, constituída de descrição, interpre- tação e inferência sobre os mesmos, durante estes procedimentos classificatórios. Por conta de suas características, a análise de conteúdo presta-se tanto a pro- cedimentos qualitativos quanto a procedimentos quantitativos. De modo espe- cífico, com o auxílio de ferramentas computacionais, tornou-se mais comum a utilização de softwares de classificação de dados para análises quantitativas. Nestes casos, as categorias criadas pelos codificadores (coders) são geralmente validadas por testes com codificadores independentes, para os quais aplicam-se testes específicos de confiabilidade (reliability)5. Há várias divisões para os tipos de análise de conteúdo. Aqui focaremos principalmente em dois grandes tipos, a “análise de conceitos” e a “análise de relações”. Estas duas grandes categorias são importantes para que possamos compreender elementos subsequentes de estudo. A análise de conceitos é a parte mais simples e tradicional da análise de conteúdo, e trabalha, principalmente, com a obtenção de conceitos através dos procedimentos de codificação e classi- ficação dos dados, de modo a observar a presença e a ausência de determinados elementos no conjunto. Já a análise de relações quer ir além da mera identifica- ção de conceitos e elementos presentes nos dados, focando-se, principalmente, no estudo das relações entre esses conceitos obtidos através dos procedimentos. Esta análise, assim, quer extrair sentido não da presença dos conceitos em si, 5 Para mais detalhes, sugiro a consulta à Kripperndorff (2004). 15 mas principalmente de suas relações com os demais. Os métodos tradicionais da Análise Relacional são: • Análise de sentimentos (ou emoções) – busca compreender a emoção dos conceitos presentes no texto, geralmente através de análises temá- ticas e de elementos relacionados a essas emoções. • Análise de proximidade – busca compreender a coocorrência de concei- tos. Esta abordagem, que é onde queremos basear esta proposta, busca a criação de “janelas” ou linhas de texto dentro do conjunto de dados, as quais serão objeto de análise para as coocorrências de conceitos. A partir destas coocorrências, há a criação de uma matriz conceitual de onde se pode extrair os sentidos. • Mapas cognitivos – são recursos onde as relações de proximidade são representadas em mapas gráficos para auxiliar a compreensão das rela- ções através da semântica de suas conexões. A questão chave aqui é analisar, do modo mais profundo o possível, a relação entre os conceitos. Carley (1990), inclusive, propõe que a representação dos dados relacio- nais da análise de conteúdo dê-se também através de redes. São justamente esses métodos e técnicas que são interessantes para esta discussão. Defendemos que a análise de dados de mídia social adquire muito mais sentido quando estudada em seu contexto e em suas relações entre os conceitos apresentados. Normalmente, formas de monitoramento, por exem- plo, costumam levar em conta, principalmente, palavras-chave e não con- ceitos em relação a outros, de modo a expandir a compreensão dos sentidos escondidos naqueles discursos. Com a análise relacional, vai-se além da mera classificação, busca-se obter dados sobre o uso dos conceitos nos movimentos da conversação. 2. ANÁLISE DE REDES A análise de redes sociais (ARS) é uma abordagem derivada da Teoria dos grafos e da Sociometria (RECUERO, 2009; RECUERO, 2017; RECUERO; BASTOS; ZAGO, 2015). Suas origens são amplas, com autores citando princi- palmente a Sociometria e a Teoria dos Grafos (WASSERMAN; FAUST, 1994; DEGENNE; FORSÉ, 1999). 16 O objetivo desta abordagem é analisar a estrutura da rede e compreender como a posição dos nós e a estrutura das conexões influencia os fenômenos. A abordagem tem um foco estrutural e suas métricas são utilizadas para com- preender-se a importância da posição dos nós na estrutura e a importância das conexões entre os vários nós. Este foco é bastante propício para o estudo das relações entre os conceitos em falas na internet, justamente porque permite, através de suas métricas e analogias, compreender-se conceitos mais centrais, mais relevantes para os atores, bem como grupos de conceitos que tendem a aparecer juntos e suas relações. A análise de redes baseia-se no estudo dos nós (que, em nosso caso, serão os conceitos) e suas conexões ou arestas (que aqui serão suas coocorrências). A partir da construção desta estrutura, utilizam-se métricas para entender-se a posição dos nós (métricas de nó) e a estrutura geral da rede (métricas de rede). As redes podem ser, geralmente, direcionadas (quando importa a direção da aresta e é possível medir esta direção, normalmente com valores diferentes para cada direção da mesma) e não direcionadas (quando a direçãonão importa, apenas a existência e a força da conexão). A análise também pode ser feita a partir de uma rede ego (ou seja, a partir de um sujeito central) ou de rede inteira (de um conjunto de dados dos quais se tem toda a rede). Uma rede de conceitos é, geralmente, uma rede inteira e não direcionada. A análise de redes também trabalha com métricas, geralmente desenvolvi- das a partir de algoritmos que focam: a) Métricas de nó – as métricas de nó são aquelas que visam compreen- der a posição de cada ator na estrutura da rede. Assim, buscam obser- var, por exemplo, atores que são mais centrais, por variáveis distintas. Um ator pode ser relevante para a rede quando está unindo vários grupos dentro desta (centralidade de intermediação – betweenness), quanto conecta ou está conectado a mais atores que os demais (grau de entrada – indegree –, saída – outdegree – ou grau geral), quando suas conexões são nós importantes que também o fazem mais importante na rede (centralidade – eigenvector) etc. b) Métricas de Rede – as métricas de rede são aquelas que buscam com- preender a estrutura da rede como um todo, como, por exemplo, sua densidade, os grupos que existem nela (métricas de grupabilidade, como modularidade) etc. Estas métricas, ao contrário das anteriores, 17 não trazem dados específicos sobre os nós, mas fazem sentido sobre a rede como um todo. Essas métricas seriam capazes, assim, se aplicadas a grupos de conceitos conectados, de oferecer dados sobre como estes estão articulados nas falas dos atores na mídia social. O objetivo, portanto, é analisarmos a estrutura de con- ceitos utilizados nas “falas” dos atores sociais, identificando conceitos mais centrais e associações mais fortes e frequentes, oferecendo, assim, pistas das construções discursivas associadas a determinados tópicos na mídia social. 3. PROPOSTA DE ANÁLISE Como dito inicialmente, nossa proposta é utilizar os passos da análise de conteúdo e combinar a análise relacional dos conceitos obtidos com a análise de redes. Portanto, trata-se de uma proposta de métodos mistos, baseada em elementos qualitativos e quantitativos, com tratamento informático e direcio- nada para conversações obtidas em mídia social. Este tipo de análise neces- sita de ferramentas computacionais, sendo difícil que possa ser constituída em uma observação apenas. No exemplo que trazemos, utilizamos scripts próprios. Porém, há ferramentas que auxiliam tanto na coleta de dados (como o yTK6, o NodeXL7 e o Netlytic8) como na análise desses dados (Textometrica9, Netlytic) e na visualização dos mesmos (Gephi10). Especificamente para a proposta que fazemos aqui, uma vez obtidos os dados, é bastante simples resolver cada uma das fases utilizando-se, primeiramente, o Textometrica para a análise desses dados e uma ferramenta de visualização posterior, como o Gephi. A proposta de análise inicia-se com a extração de dados de conversações de mídia social. Para demonstração, utilizaremos como exemplo dados reco- lhidos do Twitter pouco antes do julgamento do ex-presidente Luís Inácio Lula da Silva11 pelo Tribunal Regional Federal 4 (TRF4), em Porto Alegre, no dia 24 de janeiro de 2018. A escolha pelo fato deve-se à popularidade e presença do mesmo nas conversações durante o dia no Twitter. Esses dados 6 Disponível em https://github.com/540co/yourTwapperKeeper 7 Disponível em https://www.smrfoundation.org/nodexl/ 8 Disponível em https://netlytic.org/index.php 9 Disponível em http://textometrica.humlab.umu.se/ 10 Disponível em https://gephi.org/ 11 Detalhes disponíveis na cobertura do Estadão: http://politica.estadao.com.br/ao-vivo/ julgamento_lula 18 foram recolhidos a partir de crawler próprio12, que a cada uma hora reco- lheu tweets que continham a palavra “Lula”. Para este exemplo, entretanto, utilizaremos um subconjunto dos dados constituído por uma coleta reali- zada no dia anterior (23/01), às 12:56. O conjunto de dados aqui utilizado foi constituído de 52617 tweets e 22533 contas individuais13. Nossa questão central aqui será compreender quais foram os discursos prevalentes sobre o julgamento no Twitter. Após a coleta de dados, é sempre importante realizar uma “limpeza” dos dados, de modo a retirar aqueles que estiverem incompletos, erros ou mesmo dados não desejados. Por exemplo, nossa pesquisa sobre “Lula” retornou dados sobre moluscos marinhos, que não eram relevantes para esta análise. Para evitar ruídos, esses dados foram retirados do dataset. Se o conjunto de dados é pequeno, essa limpeza pode ser feita de modo manual. Porém, quando se está trabalhando com um grande conjunto de dados, é importante ter softwares ou scripts que auxiliem neste trabalho. Por vezes, um bom editor textual (como o Notepad++ ou o SublimeText) pode ser suficiente para identificar-se dados com problemas. 3.1 Análise de Conteúdo Esses dados serão então analisados em duas fases. A primeira destas fases é a análise de conteúdo (AC). A análise de conteúdo, como dissemos, envolve elementos de classificação para a criação das categorias de conceitos que se pre- tende analisar. Primeiramente, no entanto, é necessário separar-se as unidades de análise dentro dos dados recolhidos. A unidade é escolhida como a menor parte significante dos dados, a partir dos objetivos da pesquisa. Uma unidade de análise, assim, pode ser uma interação completa, como, por exemplo, uma postagem no Facebook ou um comentário, ou, dentro destes, uma sentença, ou ainda um tweet. Cabe ao pesquisador definir o que será cada unidade sig- nificativa. Para este trabalho, utilizaremos como unidade o tweet em si (e não as sentenças), pois queremos analisar como os conceitos foram utilizados em conjunto. Assim, por exemplo, interessa-nos ver se “Lula” aparece em iterações 12 Nosso crawler foi construído a partir de um sistema existente, o yTK (yourtwapperkeeper), e extrai os dados diretamente das duas APIs do Twitter. 13 Também é importante levar-se em conta que raramente se consegue, mesmo com acesso às duas APIs, certeza da completude dos dados coletados. A quantidade de dados coletados depende da API que se acessa, do crawler que se está utilizando, do número de requests (por exemplo, várias coletas a partir de uma mesma conta podem reduzir a quantidade de dados que se consegue cole- tar) etc. De modo geral, quanto maior o número de dados existentes, mais incompleto tende a ser o dataset coletado (mesmo dentro das limitações impostas pelo próprio Twitter). 19 onde conceitos como “democracia” ou “golpe” também apareceram, ainda que não necessariamente na mesma frase. 3.1.1 Análise de frequência Após a escolha das unidades, cada uma delas será analisada em busca de suas regularidades. Como regularidade principal, interessa-nos, nesta pro- posta, elementos (palavras ou categorias de palavras, por exemplo) que apare- cem com maior frequência nos dados coletados. Assim, o primeiro elemento que buscamos é a frequência de determinadas categorias de palavras nas uni- dades de análise. Esta frequência é delimitada pela repetição de palavras nos vários tweets. Essas palavras mais repetidas serão aquelas que entrarão para a próxima fase. Assim, o que queremos saber aqui é quais palavras foram mais utilizadas pelas pessoas. Para a análise de frequência é muito importante considerar-se apenas aque- las classes de palavras que constituem algum tipo de significado relevante para o estudo. Assim, muitas vezes, o pesquisador pode escolher trabalhar apenas com adjetivos, substantivos ou verbos, por exemplo, ou com um conjunto des- tes. De modo geral, outras classes são geralmente desprezadas (como artigos, preposições, advérbios etc.) por serem muito pouco relevantes à compreensão dos dados e por, geralmente, aparecerem em grande quantidade, obscurecendo outros termos que possam ser relevantes. Esses termos que foram considerados pouco úteis pelo pesquisador podem ser incluídos em uma lista de stopwords, ou seja, palavrasou caracteres que não entrarão na contagem de frequência. Caso não exista uma lista de stopwords, essas palavras poderão ser desprezadas posteriormente, na etapa de classificação. A análise de frequência apresentará como resultado as palavras que mais foram usadas nos dados coletados. Cabe ao pesquisador, então, delimitar a quantidade de dados que vai usar para as fases seguintes, se todas as palavras ou apenas um percentual. Geralmente é relevante levar em conta, para esta escolha, a quantidade total de dados (por exemplo, uma frequência de 10 pode ser rele- vante para um conjunto pequeno de dados, enquanto para um conjunto maior, talvez 100 seja um número mais importante). Também é importante esmiuçar a chamada “cauda longa” de palavras utilizadas com o mesmo sentido, mas de modo mais granular, possivelmente em pequenos bolsões linguísticos (formas de dizer que são características de determinadas regiões). Uma vez tendo-se coletado os dados do Twitter, utilizamos um software pró- prio para a contagem de frequência e posterior classificação. Entretanto, como dissemos, outros, como o Textometrica, podem ser utilizados para esta fase. É importante, neste momento, atenção para o tipo de codificação dos caracteres 20 textuais. Geralmente, os caracteres dos dados precisam ser convertidos para UTF-814 para a análise dos softwares, de modo que dados como acentuação e “emojis” não sejam perdidos. Na imagem a seguir (Figura 1), vemos um exemplo de resultado de uma primeira análise de frequência dos dados. No software utilizado, é possível sele- cionar quais dados se quer manter no conjunto e os conceitos que se deseja criar para agregar os dados. Além disso, podemos ver também exemplos de tweets que continham a palavra apresentada, de modo que o pesquisador possa com- preender como ela foi utilizada. Esses mesmos procedimentos (contagem e classificação) podem ser realiza- dos em ferramentas como o Textometrica, com uma estrutura bastante seme- lhante à da imagem apresentada a seguir. Uma vez de posse das palavras mais frequentes, entramos, então, no segundo momento da análise. 3.1.2 Classificação As palavras apontadas por frequência serão, a seguir, classificadas entre si por sentido e por elementos semânticos semelhantes (regularidades) observados em seu uso. Estes critérios de classificação deverão ser delimitados pelo pesqui- sador a partir de seu problema de pesquisa. Assim, por exemplo, “presidente” e “presidenta” podem ser incluídos em uma mesma categoria (ambos denotam o representante máximo da República), exceto se o uso do gênero fizer alguma diferença para o que se busca analisar. Do mesmo modo, “Temer”, “Dilma” ou “Lula” podem ser tomados como sinônimos de “presidente” caso o objetivo da análise seja compreender, por exemplo, o que se fala da categoria “presidente”, mas não de cada um individualmente. A classificação dessas palavras será, portanto, realizada em categorias que poderão ser semânticas, gramaticais, de gênero etc., a depender do problema de pesquisa levantado. Em nosso caso, por exemplo, “presidente” e “ex-presidente” são palavras que pertencem a categorias diferentes quando utilizadas com relação a “Lula”. Seu uso demarca diferentes posições e percepções a respeito do sujeito. Por isso, são consideradas categorias diferentes na análise. Esse processo de classificação deve ser criterioso, na medida em que a união de várias palavras em uma mesma categoria influenciará os resultados e a aná- lise. Por conta disso, é importante observar, de modo qualitativo, a presença de determinada palavra nos dados. Em alguns softwares (como o Textometrica, 14 Softwares gratuitos, como o Notepad ++ (https://notepad-plus-plus.org/) são bastante úteis para auxiliar a sanar problemas de codificação. Geralmente, basta abrir o TXT e modificar a codi- ficação nesse tipo de programa. 21 Fi gu ra 1 - Im ag em d e re sp os ta d e co nt ag em d e fr eq uê nc ia e m d ad os d o Tw itt er (n úm er o de v ez es q ue c ad a pa la vr a ap ar ec e no s da do s) . Fo nt e: a a ut or a. S of tw ar e pr óp rio . 22 ou no exemplo da Figura 1), é possível observar alguns tweets mais frequentes que contêm os dados. Com isso, é possível analisar o uso das palavras de modo semântico. Também é relevante que o pesquisador faça a conferência no banco de dados, observando de modo qualitativo como determinada palavra foi utili- zada, para classificá-la de modo adequado. Outro ponto importante é não cate- gorizar palavras compostas (por exemplo, unir “Porto” e “Alegre” como “Porto Alegre”), isso porque o resultado duplicará a frequência dos dados (uma vez que todos os “Portos” e “Alegres” serão somados). Se o que se quer é utilizar o nome composto nos dados, basta classificar “Porto” como “Porto Alegre” e ignorar o “Alegre” (evidentemente, é preciso tomar cuidado, pois há alguns “porto” que podem não significar a cidade e que podem ser relevantes para a análise). Por fim, em algumas análises, o gênero das palavras utilizadas também pode ser importante e, por isso, deve ser levado em conta. A partir da classificação dos dados em categorias mais amplas (que também podemos denominar conceitos), passamos então a uma análise de coocorrên- cia, ou seja, de criação da estrutura da rede de conceitos em torno do tópico ou evento em cima do qual os dados foram coletados. 3.1.3 Análise de Coocorrência Na análise de coocorrência temos os dados brutos (número de coocorrência entre os conceitos selecionados) e esses dados podem ser estudados a partir da análise de redes, pois cada coocorrência representa uma aresta entre os concei- tos (Figura 2). Assim, quando se analisam os dados sob a forma de grafos, pode- mos usar métricas de posição da análise de redes para compreender a estrutura da mesma. A análise de coocorrência classifica os dados que ocorrem juntos (ou seja, na mesma unidade de análise). Assim, se “Lula”, “corrupção” e “jul- gamento” coocorrem em uma mesma unidade (tweet), teremos cada um desses conceitos como um nó e arestas que conectam os três entre si. Na Figura 2 podemos ver os dados analisados e construídos como conceito 1 e conceito 2, com a frequência e a coocorrência de cada dado. Esses dados são brutos, mas importantes, porque mostram o que o grafo fará. Uma vez que tenhamos esses dados, podemos então montar a rede. Essa será a estrutura que analisaremos. Geralmente, os programas mostram a totalidade de coocorrên- cias (até zero coocorrências, por exemplo). Cabe ao pesquisador, novamente, de acordo com a sua experiência, selecionar a quantidade de coocorrências que deseja analisar na próxima etapa, observando quais são relevantes e quais não o são. Ferramentas como o Textometrica também oferecem dados das coocorrên- cias gerais e normalizadas. A normalização pode oferecer insights diferentes, conforme veremos a seguir. 23 Fi gu ra 2 - Ex em pl o de ta be la c om c on ce ito s, o co rr ên ci as e c oo co rr ên ci as . Fo nt e: a a ut or a. 24 Na rede que obtivemos, portanto, os nós são os conceitos analisados e as arestas seu uso conjunto. Utilizando, assim, métricas de análise de redes, pode- mos compreender essa estrutura e a importância de cada nó na constituição do discurso da rede. Para fazer a análise de redes, há várias possibilidades. Algumas ferramentas, como o Textometrica e o Netlytic, já fazem a análise a partir dos elementos selecionados pelo pesquisador e, ao final, mostram a rede e algumas das métricas possíveis que podem ser selecionadas ou não. Outra opção é exportar o arquivo de análise textual como um arquivo de rede (formato gra- phml, net etc.) e abri-lo em um programa mais específico, como o Gephi. Uma vez no Gephi, é possível calcular as métricas de rede e inseri-las no grafo. 3.1.4 Interpretação das MétricasMas como podemos compreender as métricas de rede e estudar esses con- juntos de modo a entender seus sentidos? Aqui, em nosso estudo de caso, fare- mos algumas sugestões de interpretação e compreensão de algumas métricas, de modo a exemplificar como poderiam ser levadas em conta pelo pesquisador. a) Métricas de Nó Neste caso específico (rede de conceitos), temos uma rede não direcionada, pois o que é relevante é o fato do conceito aparecer com outro ou não. Não há, assim, direcionamento nessas relações, e métricas como indegree (grau de entrada) e outdegree (grau de saída) são substituídas apenas por degree (grau). O grau de um conceito na rede indica duas coisas. Primeiramente, sua frequência, uma vez que o número de vezes em que o conceito aparece é determinante para o número de relações que ele possui. Além disso, o grau também indica o número de relações que esse conceito apresenta com outros conceitos da rede. Conceitos com maior grau são aqueles que mais apareceram e estiveram relacionados a outros conceitos na rede analisada. Logo, foram conceitos centrais na discussão. Outras métricas, como betweenness (o grau de intermediação), também podem ser utilizadas, dependendo da proposta de análise. O grau de intermediação, uma métrica de “ponte”, pode indicar quais conceitos foram mais utilizados em diferen- tes grupos de conceitos (por exemplo, conceitos que foram mais usados por gru- pos pró-prisão ou contra a prisão do ex-presidente Lula). Geralmente, esta métrica auxilia na percepção de conceitos que perpassam várias discussões (ou vários gru- pos de conceitos, utilizados por diferentes grupos em diferentes conversações). As métricas de nó apontam para a análise da posição dos nós na análise de rede (percebendo, portanto, sua centralidade). Assim, podem ser utilizadas para compreender-se conceitos centrais na conversação, bem como conceitos centrais para diferentes grupos de atores. 25 b) Conexões A força das conexões nas redes de conceito aponta para aqueles conceitos que estão mais fortemente ocorrendo juntos. Quanto maior a coocorrência, mais forte o laço (maior o grau). Isto também significa que as conexões ten- dem a “puxar” aquele conjunto de nós que mais coocorre em conjunto para um determinado grupo no grafo. A força das conexões é visualmente apontada pela espessura da conexão no grafo. Aqui, o que percebemos é como um deter- minado conceito foi associado a outros na rede. Por exemplo, se “Lula” aparece muito fortemente associado a “golpe” e não a “corrupção”, isso pode indicar determinadas percepções presentes na conversação. c) Métricas de Rede Também podemos analisar métricas que dão dimensão à rede de conceitos como um todo. Métricas de rede nos auxiliam a compreender o grande qua- dro, a estrutura da rede de conceitos associados. Dentre essas métricas, as mais importantes são, geralmente, aquelas de grupabilidade (modularidade, clusters etc.), pois permitem que vejamos os vários grupos de conceitos que podem estar associados a diferentes conversações ou a diferentes grupos. Através de métri- cas de grupabilidade é possível observar quais conjuntos de conceitos tendem a coocorrer com maior frequência juntos nos dados, o que nos dá uma dimensão dos discursos mais frequentes. Assim, por exemplo, na Figura 3, vemos um grafo construído em cima dos dados das falas, no Twitter, sobre o julgamento do ex-presidente Lula. Os dados foram classificados conforme as etapas anteriores. Vemos os conjuntos de conceitos que mais tendem a aparecer juntos determinados por modula- ridade (cores), a importância desses conceitos determinada pelo tamanho da palavra no grafo e a força da conexão pelas arestas mais grossas. Vemos ali, no grupo laranja, que o conceito “Lula” tendeu a aparecer mais em conjunto com “Bolsonaro”, “Brasil”, “Moro”, “preso” e “fraude”. Isso significa que o nome do ex-presidente foi mais associado aos contextos onde esses outros conceitos foram relevantes: discussões sobre fraudes na documentação do processo, sobre o juiz e sua possível suspeição, sobre a possibilidade de sua prisão e, o que nos parece bastante importante, em relação ao deputado Jair Bolsonaro, que não tem uma relação direta com o julgamento, exceto o fato de que é um pré-candi- dato à Presidência da República, como o ex-presidente. Essa relação indica que Lula e Bolsonaro foram, assim, no contexto dos dados, constantemente associa- dos, provavelmente dado o contexto em termos de oposição. Isso significa que o julgamento de “Lula” foi bastante discutido em contextos onde o deputado “Bolsonaro” também esteve presente. 26 Já no grupo rosa, vemos outro conjunto de relações. Ali temos os conceitos “presidente”, “Dilma”, “democracia”, “golpe” etc. É interessante observar que “golpe” aparece associado a “Dilma”, mas não a “Lula”, bem como “democra- cia”, “justiça” e “julgamento”. Essas associações implicam que esses conceitos apareceram mais quando a ex-presidenta Dilma foi citada e menos quando o ex-presidente Lula foi citado. Isso mostra um discurso mais positivo relacio- nado a Dilma do que a Lula. “Dilma” sofreu o “golpe”, e sua presidência, neste contexto, foi mais associada à “democracia”. Apesar disso, neste conjunto, tam- bém temos associações que indicam um sentimento de injustiça com relação aos dois ex-presidentes. Temos ainda o grupo verde, que traz outros conceitos associados ao suposto crime em si: “triplex”, “provas”, “prescrição”, “cadeia” etc. Neste grupo, parece que há um maior conjunto de referências ao fato em julgamento e menos dis- cussões mais amplas (como “democracia” ou “golpe”). Este grupo compreendeu mais tweets provenientes de veículos noticiosos e a reprodução desses tweets. Representa um grupo mais factual e menos opinativo a respeito da discussão. Assim, cabe ao pesquisador analisar as coocorrências no grafo e o sentido constituído pelos conceitos para o discurso que mais aparece nos dados cole- tados. Essa análise pode particularizar os vários grupos, analisá-los de modo geral, focar hashtags, partidos etc. (SOARES; RECUERO, 2017; RECUERO, 2016 e RECUERO, 2014). As possibilidades são muitas. O mais importante, entretanto, é desenvolver a sensibilidade teórica do pesquisador para as esco- lhas do que analisar e como desenhar sua pesquisa. Para a visualização dos dados, pode utilizar-se dos vários algoritmos15 que existem no Gephi, por exemplo, tornando o grafo visualmente relevante para a análise. É importante que se entenda o que cada algoritmo faz, de modo a poder compreender como a rede que resulta dele é influenciada pelas “forças” que ele utiliza. Os algoritmos mais comuns são “ForceAtlas” (nós com maior peso são atraídos para o centro, independentemente de grupos) ou algoritmos que são mais eficientes em sepa- rar os vários clusters (o NodeXL utiliza vários deles). Esse tipo de análise pode ser fortemente impactada por discursos que foram muito “retuitados” (e que, portanto, mantiveram a mesma forma, as mesmas palavras), por exemplo, reduzindo o impacto de palavras menos usadas em conversações paralelas (que podem ser mais variadas, porém representar um conjunto semântico único). Uma estratégia interessante para analisar-se os diferentes contextos é normalizar os dados, de modo a apresentar conjunto mais amplo. Ao normalizar a base de coocorrências, temos uma melhora na 15 Para mais informações sobre visualização e análise de redes, ver Recuero (2017). 27 distribuição dos demais dados em relação àqueles de maior valor, reduzindo o impacto das mensagens muito “retuitadas”, por exemplo. Figura 3 - Grafo de coocorrências. Fonte: a autora. Imagem gerada no Gephi. Visualização: Force Atlas. Na figura a seguir (Figura 4), temos a imagem do mesmo grafo apresen- tado na Figura 3, porém com dados normalizados. Aqui vemos um conjunto de módulos, onde as coocorrências aparecem um pouco diferentes do grafo total. Vemos, por exemplo, que o grupo rosa apresenta uma série de concei-tos relacionados à defesa do ex-presidente (como provas, prescrição, inocente etc.). Já o nome do ex-presidente no grupo azul aparece diretamente conec- tado à condenação (condenado) e a “Brasil” e “Bolsonaro”, indicando que este é apresentado juntamente com o nome de Lula, provavelmente como candidato de oposição possível. Do mesmo modo, outros módulos também apresentam outras conexões relevantes para o estudo, como “petista” e “política”, ou o bloco verde, que relaciona “democracia” com a candidatura do ex-presidente e com a defesa do mesmo. Os dados normalizados apresentam melhor tópicos pre- sentes e conjuntos de conceitos associados mais frequentemente em diferentes grupos. Por isso, ajudam a compreender melhor os tópicos discutidos do que os dados totais. 28 Figura 4 - Grafo de coocorrências normalizado. Fonte: a autora. Imagem gerada no Gephi. Visualização: Fruchterman-Reingold Podemos ver, assim, que o discurso prevalente sobre o julgamento está focado na defesa do ex-presidente, tanto exposto na análise dos dados gerais quanto no normalizado. Os conceitos mais associados e mais frequentes dizem respeito a elementos apontados pela defesa, como “democracia”, “golpe”, “defesa”, “prescrição” e “provas” (a falta de provas para a condenação foi um dos argumentos mais frequentes entre aqueles que defendiam o ex-presidente). Há também um discurso de comparação entre Lula e Bolsonaro e de condena- ção de Lula (“preso” e “condenado”). A prevalência de um discurso que defende o ex-presidente e associa a sua possível nova candidatura à “democracia” evi- dencia a articulação de grupos pró-Lula de maneira bastante forte, seja através de retweets, seja através da propagação de discursos positivos sobre o ex-presi- dente. Há o contraponto negativo, entretanto, que aparece de modo bem menos articulado e coeso, como vimos nesta breve análise. A análise dos dados aqui não deve ser feita unicamente baseada na estrutura do grafo. Ela pode e deve ser realizada desde o início, com uma análise quali- tativa dos tweets mais “retuitados” e ações contextuais, como a percepção dos vários grupos envolvidos na discussão, das possíveis ações ativistas dos vários 29 nós (por exemplo, em contextos políticos, é muito comum que vários atores estejam agrupados de modo a funcionar como um coletivo, dando visibilidade para determinadas pautas e silenciando outras) etc. A análise não pode ser des- conectada do contexto dos dados. Também por conta disso, é difícil analisar-se conjuntos de dados com os quais não se esteve envolvido com a coleta ou com o contexto de produção dos tweets. 4. CONCLUSÃO Neste texto, discutimos uma proposta de práticas de pesquisa em dados textuais de mídia social focada nos discursos ali presentes. A proposta, anco- rada em métodos mistos, busca misturar técnicas de análise de conteúdo a partir de um foco relacional, utilizando várias técnicas de visualização, cate- gorização e análise de redes, com métricas para o estudo da estrutura da rede dos conceitos produzidos pela AC. O objetivo é constituir uma proposição específica de análise qualitativa e quantitativa que possa ser aplicada para grandes quantidades de dados de falas dos atores em canais de mídia social. A partir desta discussão, elencamos um referencial teórico de base e o passo a passo da proposta, trazendo ferramentas que possam ser utilizadas e resul- tados possíveis. Nosso objetivo foi apresentar um método que consiga capturar de modo mais amplo os diferentes discursos presentes na mídia social. Não se pretende, aqui, resumir-se esta análise simplesmente a “sentimento”, porém a algo mais amplo, constituído de uma análise mais completa de diferentes classes grama- ticais, que vá além de adjetivação (embora esta também possa ser um elemento de análise). Por isso, apresentamos esta proposta como captura de discursos, ou seja, de reflexos das ideologias presentes nas conversações. Esta proposta é, geralmente, mais eficiente em compreender diferentes tópicos e contextos de conversações do que uma análise de sentimento em sentido estrito, embora também possa ser utilizada para a compreensão de sentimentos relacionados a um determinado evento, produto ou ator. Embora nosso exemplo aqui tenha sido relacionado a um contexto político, esses passos metodológicos poderiam ser utilizados em diferentes contextos, como o lançamento de produtos, a percepção geral de marcas (em uma análise mais longitudinal) etc. É importante, para essas outras análises, que recortes temporais sejam levados em conta, uma vez que o discurso pode alterar-se com o tempo e com diferentes contextos construídos pelos atores. 30 REFERÊNCIAS BARDIN, L. Análise de Conteúdo. Lisboa: Edições 70, 2004. BASTOS, M. Public Opinion Revisited: The propagation of opinions in digital networks. Journal of Arab & Muslim Media Research, v.4, n.2-3, 2011. BOYD, D. M.; ELLISON, N. B. Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, v. 13(1), art. 11, 2007. Disponível em: <https://onlinelibrary.wiley.com/journal/10836101>. CARLEY, K. Content analysis. In: ASHER, R.E. (Ed.). The Encyclopedia of Language and Linguistics. Edinburgo: Pergamon Press, 1990. DEGENNE, A.; FORSE M. Introducing Social Networks. Londres: SAGE Publications, 1999. KRIPPENDORFF, K. Content Analysis: an introduction to its methodology. Thousand Oaks, Califórnia: SAGE Publications, 2004. RECUERO, R. O twitter como esfera pública: como foram descritos os candida- tos durante os debates presidenciais do 2º turno de 2014? Revista Brasileira de Linguistica Aplicada, v. 16, p. 157-180, 2016. . Contribuições da Análise de Redes Sociais para o estudo das redes sociais na Internet: o caso da hashtag #Tamojuntodilma e #CalaabocaDilma. Revista Fronteiras (Online), v. 16, p. 60-77, 2014. . Redes Sociais na Internet. Porto Alegre: Sulina, 2009. . Introdução à análise de redes sociais online. Salvador: Edufba, 2017. Disponível em: <https://repositorio.ufba.br/ri/handle/ri/24759>. RECUERO, R.; BASTOS, M.; ZAGO, G. Análise de Redes para Mídia Social. Porto Alegre: Sulina, 2015. SOARES, F. B.; RECUERO, R. Opinião pública no Twitter: análise da indicação de Alexandre de Moraes ao STF. Logeion, v. 3, p. 18-34, 2017. WASSERMAN, S.; FAUST, K. Social Network Analysis. Cambridge: Cambridge University Press, 1994. 31 CONDUZINDO PESQUISAS COM QUESTIONÁRIOS ONLINE: UMA INTRODUÇÃO ÀS QUESTÕES METODOLÓGICAS Márcio Cunha Carlomagno 1. INTRODUÇÃO É crescente o número de pesquisas utilizando a aplicação de questionários online, especialmente – mas não exclusivamente – entre jovens investigadores, como mestrandos e doutorandos. A facilidade tecnológica, tanto para a cria- ção destes questionários (ofertada gratuitamente por ferramentas como Google Forms), quanto para sua difusão, traz um potencial problema: pesquisas pro- blemáticas, seja por questionários mal formulados ou por desenhos de pesquisa que não contemplam questões metodológicas desta ferramenta de pesquisa. Este é um capítulo metodológico e didático, não de cunho empírico. Nosso objetivo é apresentar uma introdução aos principais tópicos sobre surveys online, suas limitações e técnicas de como proceder corretamente com sua apli- cação. Desejamos ofertar à leitora e ao leitor um conjunto direto e sucinto dos principais aspectos a serem considerados ao optar-se por esta ferramenta, reu- nindo uma bibliografia diversa. Não é propósito do capítulo apresentar novas proposições ou aplicações, mas servir como entrada na área para jovens pesqui- sadores – público-alvo ao qual se destina. O termo em inglês survey, apesar de sem equivalente preciso no português, usualmente é traduzido como “levantamento de dados” (GÜNTHER, 2003). Embora survey possa significar qualquer tipo de coleta ou levantamento de dados, com o passar dos anos seu sentido estrito passou a ser usado somente para um tipo de pesquisa: aquela com utilizaçãode questionários. Neste sentido, survey é um instrumento de pesquisa de opinião. Embora seja possível realizar surveys com perguntas abertas, sua forma predominante caracteriza-se pelo uso de perguntas fechadas, o que permite a comparabilidade das respostas. Outra característica em surveys é que, usualmente, são amostrais. Mick Couper (2000) propôs uma categorização dos tipos de survey online a partir da distinção entre métodos de amostragem probabilística e não-probabilística. Este é um elemento central para as pesquisas científicas. Em amostras probabilísticas, cada membro 32 de uma população possui uma chance de seleção, que é: (i) conhecida e (ii) dife- rente de zero. Em amostras não-probabilísticas, as chances de seleção são des- conhecidas (COUPER; BOSNJAK, 2010). Nas palavras do autor, em amostras não-probabilísticas, “inferências ou generalizações para a população são basea- das em saltos de fé ao invés de estabelecidos princípios estatísticos” (COUPER, 2000, p. 477). Ao contrário, em amostras probabilísticas, os resultados podem ser extrapolados, com uma margem de erro que pode ser calculada para o uni- verso que a amostra representa. Isso torna possível a realização de inferências sobre o conjunto maior da população. O tipo de survey que podemos, cotidiana- mente, observar ser compartilhado em mídias sociais, como o Facebook, é o que Couper (2000) chamou de “surveys com autosseleção irrestrita”. As principais implicações amostrais deste tipo de survey, como veremos adiante, são a ausên- cia de controle sobre os respondentes e o viés de autosseleção. Podemos dividir os problemas metodológicos encontrados em surveys em duas ordens principais: problemas de construção do questionário e problemas de amostragem estatística (ALMEIDA, 2009). Este capítulo pretende apresentar um resumo dos mais importantes tópicos nestes dois âmbitos. Não é nossa pretensão esgotar o tema. Existem questões fundamentais relacionadas com as surveys que não são nosso foco, tais como o potencial viés gerado pelas respostas socialmente aceitáveis (ALMEIDA, 2009)1 ou de que maneira abordar temas polêmicos, como preconceito ou corrupção (TURGEON; CHAVES; WIVES, 2014). O capítulo se organiza da seguinte maneira: a primeira seção é dedicada ao que chamamos “preliminares” – os elementos fundamentais na construção de um bom questionário. A qualidade dos resultados de um survey depende daquilo que antecede sua aplicação, que é a existência de um bom questionário. Questionários online possuem suas idiossincrasias, que precisam ser levadas em conta. Apenas transferir a mesma técnica dos questionários tradicionais para os online é um equívoco. Por isso, tratar deste aspecto é fundamental. Reunimos nove tópicos importantes aos quais o/a pesquisador(a) deve se atentar ao formu- lar seu instrumento de pesquisa. A seção seguinte é dedicada aos “desafios”, ou limites, enfrentados por questionários online, sobretudo em relação às questões amostrais. Resumimos cinco tópicos, com especial destaque a três problemas: o viés de autosseleção, a ausência de controle sobre os respondentes e a homifilia 1 Um dos exemplos mais célebres neste tópico é o chamado tory shy vote (voto conservador envergonhado), termo consagrado na eleição de 1992 no Reino Unido. Muitas vezes, candidatos conservadores vão sistematicamente pior nas pesquisas do que no desempenho nas urnas, pois há uma pressão social que compele as pessoas a não se manifestarem favoráveis a candidatos deste campo ideológico. Já há um debate recente se isso teria ocorrido na eleição de Donald Trump, nos Estados Unidos, em que as pesquisas falharam em prever o resultado eleitoral (COPPOCK, 2017). 33 (a homogeneidade criada dentro de grupos sociais, que tendem a serem seme- lhantes e compartilharem os mesmos valores). Por fim, a seção seguinte sugere três possibilidades em que surveys online podem ser aplicados com sucesso, embora cada uma tenha suas limitações. Uma vez que a ascensão do uso dos surveys online é saliente em uma série de disciplinas, o potencial deste capítulo é multidisciplinar. Dada sua natu- reza metodológica, as considerações que apresentaremos servem não apenas às investigações específicas de opinião pública, mas se aplicam também à rea- lização de outras pesquisas que se valham do instrumento de questionários online, em uma multiplicidade de áreas, tais como Sociologia, Administração, Marketing, Comunicação Social, Publicidade e Propaganda etc. A relevância deste capítulo, portanto, reside na sistematização, de forma didática, de uma longa discussão metodológica nas Ciências Sociais. 2. PRELIMINARES Muitos erros com pesquisas utilizando surveys podem ocorrer – e ocorrem – por problemas na formulação de um questionário adequado (ALMEIDA, 2009). Como ponto de partida, uma boa pesquisa depende de um bom questionário – e os questionários online possuem suas particularidades. Embora este aspecto já tenha sido tratado em clássicos como Almeida (2009), Günther (2003) e Fowler Jr. e Cosenza (2008), jogaremos o foco nas particularidades do meio que esta- mos abordando, a aplicação online. Lee (2006) sugeriu um check-list com três perguntas, para verificar se um questionário está adequado: 1) Os entrevistados conseguem entender a per- gunta? 2) Os entrevistados conseguem responder à pergunta? 3) Os entrevis- tados irão responder à pergunta? Para um questionário estar adequado, a res- posta deve ser “sim” as três indagações. A seguir, abordaremos alguns tópicos essenciais para obter-se as respostas positivas a estas perguntas. I) Perguntas específicas Perguntas devem buscar respostas para questões concretas e, acima de tudo, serem claras e específicas (LAZARSFELD, 1954). O exemplo de uma pergunta incorreta, ofertado por Lazarsfeld, é “por que você comprou este livro?”. Neste caso, o respondente pode ter três âmbitos de resposta diferentes: “compra” (em oposição a emprestar na biblioteca), “este” (em oposição a outros livros) e “livro” (em oposição a outros produtos, como o ingresso para um show). Neste caso, falta especificidade na pergunta. Perguntas que misturem diferentes âmbitos de resposta possíveis levam a erros de análise. 34 A pergunta deve ser clara e objetiva, de modo que não reste margem para compreensões distintas de dois respondentes diferentes. Por exemplo, na per- gunta “você saiu para jantar fora recentemente?”, o termo “recentemente”2 pode ser interpretado de formas profundamente diferentes a depender do respon- dente. É preciso que a pergunta seja direta e clara sobre o período que o/a pes- quisador(a) deseja saber. Podemos pensar em como ajustar essas perguntas, como exercício. Para o primeiro caso, supondo que a questão era sobre o âmbito “este”, na compra do livro, a pergunta poderia ser algo como “por que você escolheu [título do livro]?”, eliminando, assim, os âmbitos que poderiam causar embaraço. No segundo caso, “você saiu para jantar fora nos últimos 30 dias?” apresenta um intervalo de tempo claro, sem margem para interpretações diversas. Esse tópico também vale sobre tentar questionar a respeito de conceitos, que são construções intelectuais humanas e, portanto, podem implicar interpretações variadas. O conceito teórico que se queira medir precisa ser traduzido em perguntas específicas – e são estas questões específicas que devem ser emitidas ao entrevistado. Imagine a clássica pergunta: “em uma escala de ideologia política, como você se considera?”, apresentando uma escala entre esquerda e direita. Mas, ora, o que é esquerda e direita? É razoável supor que alguns respondentes pode- rão atribuir significados muito distintos a uma mesma posição. “Direita”, a depender do entrevistado, pode significar tanto liberalismo econômico (livre mercado) quanto conservadorismo moral. Pode significar ambos ao mesmo tempo, mas também apenas um deles e não outro. Talvez existam pessoas que sejam liberais econômicos sem ser conservadores morais – e vice-versa.Neste exemplo, o ideal seria fazer, ao menos, duas perguntas: uma sobre liberalismo econômico e outra sobre conservadorismo moral3, para que, depois, o/a pesqui- sador(a) construa, a partir dos dados, seu conceito de “ideologia política”. II) Fluidez O propósito de um questionário é duplo: seu primeiro objetivo é traduzir os conceitos e hipóteses de pesquisa em perguntas e respostas específicas, a fim de mensurar aquilo que se propõe e o segundo é motivar o entrevistado a 2 O mesmo se aplica a termos como “frequentemente”, “raramente” etc., por vezes encontrados em opções de respostas. Estes termos não devem ser usados, substituindo-se pelo número exato que se quer mensurar. 3 Perceba que, ainda assim, os conceitos continuam abstratos. Perguntar “o quão conversador moral você é?” também não é uma boa solução, pois comporta diferentes interpretações do con- ceito. Devem ser feitas perguntas específicas sobre situações específicas. Como, por exemplo, no caso do conservadorismo, “você é contra ou a favor do casamento homoafetivo?”, “você é a favor ou contra o direito da mulher ao aborto?” e assim por diante. 35 continuar respondendo e concluir o questionário (CANNELL; KAHN, 1954). O segundo ponto se torna ainda mais fundamental no caso dos questionários online, que são autoadministrados, sem a presença de um entrevistador. Quando falamos em fluidez, não significa que se deve apelar a recursos heterodoxos, mas, pelo menos, não se deve atrapalhar o respondente. Deve-se reduzir ao mínimo o esforço de leitura desnecessária. Evite redundâncias, evite demandar do respondente um esforço que não é necessário para que ele res- ponda à pergunta. Se alguma informação é desnecessária para a resposta, não precisa ser incluída. Lembre-se que, enquanto nos questionários tradicionais o entrevistador pode adequar tons de voz, nos questionários autoadministrados o próprio respondente lerá as perguntas. Como veremos adiante, o tamanho das perguntas também tem impacto direto nisto. Podemos ressaltar algumas questões importantes para que o respondente possa chegar ao fim do questionário, embora tal lista não seja exaustiva (outros aspectos também podem ser pertinentes). Primeiro, o bloco de perguntas sobre “perfil” do respondente deve vir ao final do questionário, não no seu começo. Colocar perguntas sobre o perfil do indivíduo no começo pode ser duplamente prejudicial: pode tanto cansar o respondente (com perguntas que, por serem automáticas, não farão mal estarem ao final), como também enviesar as res- postas, especialmente – mas não unicamente – se a pesquisa for sobre temas sensíveis ou o respondente tiver respostas que não sejam esperadas para alguém de sua posição social. Segundo, é necessário coerência e coesão interna na ordem das perguntas. Perguntas fora de contexto podem causar estranheza, além do potencial viés provocado. Terceiro, como veremos adiante, a forma visual (layout) tem impactos diretos em surveys online. É necessária a adequa- ção para os diversos dispositivos que podem ser utilizados pelo entrevistado (mobile, tablet, desktop etc.). Por vezes nos deparamos com questionários em que a página fica desconfigurada, a depender do dispositivo em uso. Isto é um fator que cria dificuldades para que os respondentes completem o questionário. III) As palavras A forma – palavras e termos utilizados – com a qual a pergunta é apre- sentada pode influenciar as respostas. Este é um dos mais antigos tópicos rela- cionados com o estudo metodológico do efeito de surveys (RASINSKI, 1989; SCHRIESHEIM; EISENBACH, 1995; SCHUMAN; PRESSER, 1977). Embora continuem sendo debatidas suas diferentes intensidades, um ponto pacífico é o fato de que a escolha de palavras importa. Os termos utilizados podem influenciar as respostas a partir de diferentes mecanismos. Esta influência pode ocorrer pela pressão psicológica em prol de 36 respostas socialmente aceitáveis ou pela simples falta de clareza, como em per- guntas negativas – ou pior, de dupla negativa. Por exemplo, “você é contra o fim do estatuto do desarmamento?” é uma pergunta confusa. A pessoa que é a favor do estatuto do desarmamento tem que responder “Sim” (é contra o fim) e vice-versa. Clareza é necessário, acima de tudo. Bethlehem (2009) também alerta para o possível viés gerado pelo desequi- líbrio nas respostas ofertadas. Por exemplo, a pergunta “você é a favor da pena de morte?”, que tenha como possíveis respostas “(1) Sim, sem ressalvas; (2) Sim, mas apenas em crimes hediondos; (3) Sim, mas apenas para criminosos irre- cuperáveis e (4) Não.” é tendenciosa pois oferta três possibilidades de uma das alternativas. Neste caso, deveria dividir-se em duas perguntas. Uma sobre apoio ou não, outra sobre em que circunstâncias. Além disso, no caso dos surveys online, os termos utilizados também podem influenciar no autorrecrutamento, pois podem relevar os posicionamentos dos pesquisadores (LEE, 2006). Um exemplo contemporâneo disto é o uso do termo “presidenta” para referir-se à ex-presidente brasileira Dilma Rousseff. A des- peito de estar gramaticalmente correto (e ter sido utilizado pelos órgãos ofi- ciais durante seu mandato), socialmente o termo ficou marcado como um dos identificadores dos apoiadores da ex-presidente, não tendo sido adotado pela parte majoritária das grandes empresas jornalísticas. O uso deste termo, por- tanto, poderia indicar um olhar positivo sobre esta personagem. A assunção, por parte do respondente, sobre qual o posicionamento do/da pesquisador(a) tende a enviesar os indivíduos propensos a responder à pesquisa – e a compar- tilhá-la em seu meio. Note que a influência pela escolha das palavras pode ocorrer não apenas nas perguntas, mas também nas opções de respostas ofertadas, e na “apresen- tação inicial do questionário”. O respondente não precisa saber as intenções dos pesquisadores, pois isso também pode interferir em suas respostas – só é necessário que lhe sejam passadas as informações básicas necessárias para que responda ao questionário.4 IV) A ordem das perguntas (e das respostas) A ordem das perguntas pode influenciar nas respostas. Almeida (2009) mos- trou que, mesmo com perguntas idênticas, duas pesquisas podiam produzir resul- tados consideravelmente diferentes apenas alterando a ordem das perguntas. 4 Em algumas áreas, os conselhos de ética exigem que informações completas e detalhadas sobre os usos da pesquisa sejam fornecidas aos respondentes. Do ponto de vista meramente metodoló- gico, isto é inapropriado. 37 O exemplo mais clássico talvez seja o da pesquisa de intenção de voto (ou de avaliação de governo), onde, antes da pergunta com essa finalidade, ques- tiona-se a satisfação do respondente com vários assuntos (como saúde pública, educação, economia, segurança etc.). Nesta circunstância, tende-se a diminuir a aprovação do mandatário (ou seu candidato). Ser “lembrado”, pelo próprio questionário, de questões que podem interferir na resposta posterior, induz esta resposta. Isto ocorre, sobretudo, pelo chamado learning effect – um assunto tratado anteriormente conduz o pensamento do respondente em uma direção específica (BETHLEHEM, 2009). A ordem das perguntas é uma questão delicada em questionários online, pois, hipoteticamente, o respondente pode, diante de informações apresentadas posteriormente, retornar à pergunta anterior e alterar sua resposta. Uma solu- ção para evitar isso pode ser a adoção de survey com multipáginas, separando as perguntas em blocos diferentes, como abordado na seção (viii). Ainda relacionado à questão da ordem de apresentação, a “ordem que as respostas são apresentadas” também afeta as respostas (MALHOTRA, 2008; MCFARLAND, 1981). Opções mais próximas das pontas (a primeira e a última) tendem a ser mais escolhidas, em detrimento das opções que são apresentadas no meio. Na aplicação presencial, a solução para isso – adotada, por exemplo, em pesquisas de intenção de voto – é oferecer ao respondenteum disco circu- lar que contenha todas as alternativas. Na aplicação online, deve-se utilizar o recurso “embaralhar a ordem das respostas”, ofertado por praticamente todas as ferramentas online. Neste caso, a cada vez que o questionário for aberto, as opções de resposta aparecerão em uma ordem diferente, de forma aleatória. V) Respostas exaustivas e mutuamente exclusivas Em perguntas nas quais apenas uma resposta pode ser dada (como é a parte majoritária das perguntas utilizadas nestes questionários), as respostas devem ser exaustivas e mutuamente exclusivas (FOWLER JR; COSENZA, 2008). Estes são dois conceitos fundamentais e recorrentes na organização lógica de classificação, como, por exemplo, nas categorias para análise de conteúdo (CARLOMAGNO; ROCHA, 2016; KRIPPENDORFF, 2004). Ser exaustivo significa que deve-se esgotar as possibilidades de resposta, isto é, todas as respostas possíveis devem estar previstas como alternativas. Ser mutuamente exclusivo significa que não pode existir a possibilidade lógica de duas alternativas serem verdadeiras ao mesmo tempo. Elas devem se excluir mutuamente. Um exemplo que podemos ofertar de respostas não exaustivas é o de um questionário que, ao perguntar a raça do respondente, ofereça as alternativas: 38 branco, negro, pardo, amarelo. Podemos notar que, além do “prefiro não res- ponder”, falta a opção “indígena”. Embora talvez naquela pesquisa não fosse esperado que nenhum indígena respondesse ao questionário, se esta é uma res- posta possível, logo, deve estar prevista.5 O fato de que todas as respostas pos- síveis devem estar previstas implica que, por padrão, todas as perguntas devem conter a opção: “Não sei/Prefiro não responder”, pois esta é uma possibilidade de resposta dos entrevistados. Apesar dessa regra padrão, este tópico é um pouco mais complexo, conforme trataremos no tópico seguinte. A questão de respostas não mutuamente excludentes é mais grave, pois não pode ser resolvida posteriormente, podendo vir a invalidar a pergunta e todas as respostas obtidas. Um exemplo que pode ser ofertado, retomando a pergunta “por que você comprou este livro?”, utilizada como exemplo anterior, seriam as alternativas de resposta, em uma pergunta de resposta única: a) preço acessí- vel, b) interesse pelo assunto ou autor, c) recomendação de amigos, familiar ou conhecido, d) capa bonita e e) outros. Perceba que, neste exemplo, a exaustivi- dade foi, ainda que mal, atendida com o uso da opção “outros”, mas as respostas não se excluem mutuamente, pois mais de uma (ou mesmo todas) podem ser verdadeiras ao mesmo tempo. No caso deste exemplo, haveria diversas saídas possíveis. A mais rápida poderia ser qualificar melhor a pergunta, como “qual o principal motivo por que você comprou...”. Neste caso, assume-se que outras respostas também podem ser verdadeiras, mas se quer saber o principal motivo. Uma segunda abordagem seria transformar a pergunta em resposta múltipla. Este tipo de pergunta, contudo, tende a não fornecer respostas muito robustas, pois não se sabe qual a ordem de importância dos fatores marcados. Uma ter- ceira saída para o exemplo ofertado seria listar os fatores e pedir para elencar-se a ordem de importância. Esta é a abordagem que fornece mais informações aos pesquisadores, mas deve ser usada com parcimônia, pois, se utilizada de forma excessiva, pode-se correr o risco de cansar o respondente. VI) “Não sei” O uso de uma opção “não sei” enseja uma longa discussão, quando em pesquisas mais sofisticadas. Por padrão, precisa ser ofertado ao respondente a possibilidade de dizer que não sabe alguma resposta. Contudo, alguns estudos testaram cenários em que esta opção está ausente, apresentando resultados que não são unânimes. Há argumentos que apontam indiferença (POE et al., 1988) e que discutem quando utilizar ou não esta opção (MCCLENDON; ALWIN, 5 É preciso, contudo, ter cuidado para não criar alternativas demais de respostas. Muitas opções geram perda considerável na qualidade da análise. 39 1993). O problema essencial é que a possibilidade de responder “não sei” pode levar a “falsos negativos”, isto é, pessoas que tenham uma opinião – ainda que fraca – mas estejam receosos de as expressar (GILLJAM; GRANBERG, 1993). Quando o assunto da pergunta é fundamental para a pesquisa sendo con- duzida – como mensurar o conhecimento político em pesquisas sobre partici- pação e cidadania (MONDAK; DAVIS, 2001) –, não permitir estas respostas pode ser útil. No entanto, vale ressaltar que esta é uma abordagem alternativa, possível em algumas circunstâncias. Estas devem ser analisadas caso a caso, em cada pesquisa. Por padrão, o recomendado é oferecer o “não sei”. Especialmente em se tratando de questionários online, precisamos ponderar que, se a pergunta for de resposta obrigatória (ou seja, aquele tipo que o respondente não a possa “pular”), isto pode gerar um beco sem saída ao respondente, de forma que ele simplesmente não consiga continuar a responder e abandone o questionário. Além disso, a ausência de “não sei” (e, a depender da pergunta, “não se aplica”) pode potencialmente aumentar também as respostas dos pontos médios. VII) As escalas Que tipos de escalas utilizar é uma questão delicada. O aumento do número de pontos na escala até sete melhora a qualidade da medida, mas além disto não há efeitos (FOWLER JR; COSENZA, 2008; LEE, 2006). As respostas são mais consistentes (e com maior confiabilidade) quando todas as categorias estão rotuladas com palavras, ao invés de apenas rotular os extremos ou usar unica- mente números6 (FOWLER JR; COSENZA, 2008; LEE, 2006). Também é pre- ciso que o conjunto de perguntas apresente coerência na direção e no tipo das escalas. Se em uma pergunta você pede a concordância, na pergunta seguinte a discordância e na próxima a concordância novamente, isto pode confundir o respondente, ocasionando erros – o mesmo se aplica se você alternar os tipos de escala (cinco pontos, sete pontos, cinco pontos) ao longo do questionário. Lee (2006) argumenta que uma das importantes decisões que o/a pesqui- sador(a) deve tomar ao elaborar um questionário é oferecer ou não um ponto médio na escala de respostas. Embora seja recomendável ofertar a alternativa mediana, pois ela pode realmente melhor representar o posicionamento dos respondentes, as pesquisas têm confirmado que a presença de um ponto médio aumenta a proporção de respondentes adotando a resposta neutra (KALTON; ROBERTS; HOLT 1980; PRESSER; SCHUMAN 1980). 6 Por outro lado, a vantagem do contínuo numérico é que mais do que cinco adjetivos podem ser indistintos aos respondentes. Uma das mais utilizadas nestas pesquisas é a escala Likert. 40 A título ilustrativo, a figura a seguir apresenta a mesma questão em três tipos de escalas diferentes: apenas os extremos rotulados; todas as categorias rotuladas e ponto médio e todas as categorias rotuladas e sem ponto médio. Figura 1 - Exemplo de escalas Fonte: elaboração própria Não há maneira correta ou errada, mas a que melhor se encaixa aos objetivos da pesquisa. Em alguns casos, em que a nuance é clara, o ponto intermediário pode ser pertinente. Em outros casos, pode ser uma estratégia mais vantajosa não oferecer um ponto intermediário, para evitar o risco de uma parcela grande escolher ficar “em cima do muro”. Em qualquer caso, o/a pesquisador(a) deve escolher de forma consciente sua escala e saber justificar esta escolha à luz de seus objetivos de pesquisa. Vale lembrar que as escalas que você usará dependem, também, de como você pretende tratar estes dados e da conversação com a literatura da área. Outro elemento a se considerar é a adequação ao público-alvo. XIII) A forma visual (layout) Em questionários autoadministrados, em que não há um entrevistador para auxiliar nas perguntas, questões que usualmente não se aplicam a questionários tradicionais surgem. Uma destas questões salientes é a forma visual (layout) 41com que o questionário se apresenta. Destacam-se dois aspectos: (a) design de página única (estática) ou múltiplas páginas e (b) plano de fundo e cores. A forma da página se refere a dois tipos visuais que o questionário pode apresentar: uma página única, estática, com todas as perguntas de uma vez, que demande a rolagem com o mouse, ou múltiplas páginas, que apresente somente algumas perguntas de cada vez e que demande ao respondente clicar em “pró- xima” para acessar a página seguinte. Embora os resultados sobre estas questões não sejam conclusivos – nem a pesquisa conduzida até aqui esteja perto de seu fim, existindo muito caminho ainda a ser explorado –, experimentos conduzidos por Manfreda, Batagelj e Vehovar (2002) apontam que: • O design de uma página (estática): a) aumenta o número de não-res- posta ao item, b) aumenta a correlação entre os itens (gera um viés de associação nos respondentes) e c) diminui o número de desistências (questionários abandonados antes de serem completados). • O design de múltiplas páginas: a) diminui a não-resposta ao item e b) aumenta o abandono do questionário, sem finalização, sobretudo na forma extrema deste design, em que cada questão ocupa uma página (esta forma deve ser fortemente evitada). Como se percebe, há pontos negativos e positivos nas duas formas. Os auto- res também testaram dois modelos visuais, um simples e outro com ilustrações visuais. Os resultados da pesquisa indicam que o uso de logotipos aumenta o número de respondentes abandonando o survey sem completá-los – embora este aspecto esteja estatisticamente correlacionado ao equipamento usado e ao tipo de conexão com a internet7. Pelo lado positivo, este design tende a diminuir as não-respostas ao item. A comparação dos dois tipos, contudo, parece não exercer influência sobre o conteúdo do que é respondido. Em suma, o uso de recursos visuais pode tanto aumentar a atratividade perante os respondentes quanto, eventualmente, torná-lo mais difícil de ser acessado e completado, o que pode reduzir a taxa de respostas. Ganassali (2008) sugeriu que a questão visual depende do tipo de incentivo visual, aumentando a taxa de respostas quando o incentivo visual era relevante para a pesquisa. Ou 7 Aqui, precisamos ponderar o contexto em que foi produzida a pesquisa destes autores, que talvez não se aplique mais atualmente. 42 seja, a recomendação de seu uso depende do contexto de cada pesquisa, não havendo uma regra única para todas. É uma boa ideia, contudo, especialmente no caso dos questionários multipá- ginas, o uso de um indicador de progresso. Permitir que respondentes saibam o quanto estão próximos do fim previne que desistam na metade e diminui aban- donos ao questionário (MANFREDA; VEHOVAR, 2008). Também é importante certificar-se de que o questionário se adapte e responda corretamente aos diversos dispositivos a partir dos quais pode ser acessado (tablet, desktop, smartphone etc.). IX) O tamanho O que, sistematicamente, as pesquisas têm concluído é que tamanho importa. Tanto o tamanho do questionário quanto o tamanho de cada pergunta está relacionado ao esforço requerido dos respondentes. Ganassali (2008) aponta que o tamanho ótimo recomendado para questionários autoadministrados é entre 15 e 30 questões e que o tamanho de cada questão não deve ultrapassar 20 palavras. Perguntas mais curtas diminuem a probabilidade de mal-entendidos por parte dos respondentes. Além disso, questionários mais curtos têm taxa de respostas mais alta (DEUTSKENS et al., 2004). Em questionários longos, questões posicionadas próximas ao fim apresentam respostas mais curtas, mais rápidas e mais uniformes do que as respostas de questões no começo (Galesic; Bosnjak, 2009), sendo, portanto, enviesadas devido à questionnaire fatigue, o cansaço do respondente (BETHLEHEM, 2009). 3. DESAFIOS Nesta seção, resumiremos os principais problemas enfrentados na aplicação online de questionários, sobretudo em termos de sua representação amostral. I) Cobertura e erro amostral O principal problema em surveys online – e motivo, até a presente data, por que eles não podem substituir os surveys tradicionais – é a cobertura. Uma vez que o acesso à internet não é distribuído igualmente na sociedade – mesmo em países com alto acesso à internet, como os escandinavos, o uso efetivo pode variar substancialmente (por exemplo, entre os mais idosos) – não é possível construir amostras representativas da população somente a partir de aplica- ções online. A solução para isso é compreender – e claramente reconhecer – que surveys aplicados online não representam a população. O recorte destes estudos deve ser definido de maneira estrita. No melhor dos casos, à população com acesso à internet; na maioria dos casos, aos usuários do site X ou Y. 43 Relacionado a isso, o erro amostral ocorre quando mesmo membros da população recortada não são selecionados de forma adequada. Neste caso, a replicabilidade da pesquisa é prejudicada, pois se outros pesquisadores refize- rem a pesquisa, com outra amostra, poderão chegar a resultados diferentes. A diferença dos dois aspectos, segundo Couper (2000), é que: Enquanto o erro de cobertura se refere a pessoas ausentes do recorte (neste caso, aqueles sem acesso à internet), o erro amostral surge durante o processo de seleção de uma amostra da população estudada (COUPER, 2000, p. 467). O processo de seleção exerce um papel fundamental para o erro amostral, como veremos adiante, no tópico (iii). II) Não-respostas A não-resposta ocorre quando uma parcela dos convidados a responder ao questionário não o fazem – ou respondem apenas parcialmente. A não-resposta pode ocorrer: (a) ao questionário e (b) ao item (pergunta). A não-resposta só pode ser calculada em amostras probabilísticas – e nesta probabilidade, como argumenta Groves (2006), reside a capacidade inferencial dos surveys de representar a população total sem viés. Se a taxa de não-res- postas é alta, não é possível garantir que os resultados não contenham viés de alguma natureza8. Em surveys não-probabilísticos, não é possível calcular a taxa de não-resposta, logo, não é possível saber o nível de incerteza da pesquisa e se ela contém ou não algum viés. Em questionários online, aspectos distintos daqueles presentes em aplica- ções presenciais podem levar a não-respostas. Por exemplo, enquanto em apli- cações presenciais os atributos físicos dos aplicadores afetam a taxa de não- -resposta (GROVES, 2006), em questionários online este fator é residual. Os mais célebres aspectos relacionados à não-resposta ao questionário online são o tamanho (questionários menores aumentam as taxas de resposta) e a presença de elementos visuais (DEUTSKENS et al., 2004), embora, em termos mais bási- cos, também seja preciso considerar questões como o equipamento técnico para acesso à web e a familiaridade do respondente em lidar com estas ferramentas, para o correto preenchimento. Já a não-resposta ao item, contudo, pode estar 8 Vale notar que as taxas de não-resposta não obrigatoriamente indicam a presença de um viés, mas a possibilidade do mesmo. 44 relacionada a vários aspectos, entre os quais perguntas formuladas inadequada- mente (por isso a importância de um bom questionário). III) Viés de autosseleção Este provavelmente seja o mais grave problema envolvendo surveys online – e diretamente se aplica ao tipo mais popular atualmente, aquele de autosseleção irrestrita. O problema da autosseleção reside no fato de que, nestas pesquisas, o ques- tionário é distribuído em sites e redes onde pessoas possuem algum interesse no assunto relacionado à pesquisa. Sua participação, portanto, está diretamente relacionada às variáveis do estudo (COUPER; BOSNJAK, 2010) e o/a pesquisa- dor(a) não controla quem decide participar ou, principalmente, seus motivos (BETHLEHEM, 2009). É provável que os indivíduos engajados em participar da pesquisa sejam mais
Compartilhar