Estudando-cultura-e-comunicacao-com-midias-sociais

•

UVV

Nathalia L.A

06/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Comunicação e Expressão

34.274 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTUDANDO CULTURA E
COMUNICAÇÃO COM
MÍDIAS SOCIAIS
Brasília, 2018
Organização:
Tarcízio Silva
Jaqueline Buckstegge
Pedro Rogedo
Estudando cultura e comunicação com mídias sociais.
Todos os direitos reservados.
©Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD, 2018.
Organização
Tarcízio Silva
Jaqueline Buckstegge
Pedro Rogedo
Preparação de texto e revisão
Monomito Editorial
Diagramação
Project Nine Editorial
Capa
Yuri Amaral
Revisão acadêmica
Deborah Celentano
Brasília, 2018.
Todos os direitos desta edição reservados à
Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD
ibpad.com.br
facebook.com/ibpad
Sumário
APRESENTAÇÃO ................................................................................. 9
ESTUDANDO DISCURSOS EM MÍDIA SOCIAL:
UMA PROPOSTA METODOLÓGICA .................................................13
Raquel Recuero
CONDUZINDO PESQUISAS COM QUESTIONÁRIOS ONLINE:
UMA INTRODUÇÃO ÀS QUESTÕES METODOLÓGICAS ...............31
Márcio Cunha Carlomagno
O DISCURSO NA WIKIPÉDIA: CARTOGRAFIA DAS
CONTROVÉRSIAS E TEORIA ATOR-REDE COMO METODOLOGIAS
COMPLEMENTARES DE ANÁLISE DE ARGUMENTOS .................. 56
Marcio Gonçalves
A PESQUISA ETNOGRÁFICA E A GRAMÁTICA DOS SENTIMENTOS:
INTRODUÇÃO À ANTROPOLOGIA DAS EMOÇÕES ATRAVÉS DAS
MÍDIAS SOCIAIS ............................................................................... 67
João Vitor Rodrigues
ANÁLISE DE DADOS VISUAIS NO INSTAGRAM:
PERSPECTIVAS E APLICAÇÕES ..................................................... 80
Ana Claudia Zandavalle
QUE VOZ É ESSA? IDENTIDADE E NARRATIVA DA MULHER
NEGRA NO YOUTUBE ......................................................................97
Dayana Souza
ILÊ ASÉ INTERNET – CANDOMBLECISTAS
NO CIBERESPAÇO .......................................................................... 112
Kelvin Alves
REDES SOCIAIS NA INTERNET, NARRATIVAS E A ECONOMIA
ÉTNICA: BREVE ESTUDO SOBRE A FEIRA
CULTURAL PRETA ..........................................................................142
Taís Oliveira
VIZINHANÇA E INTERNET: NOTAS ETNOGRÁFICAS SOBRE A
SOCIABILIDADE ENTRE VIZINHOS A PARTIR DE UMA ANÁLISE
DA REDE SOCIAL ONLINE “TEM AÇÚCAR”. ................................159
Fabiana Botton
E-CAMPANHAS EM TEMPOS DE REDES DIGITAIS: ESTUDO DE
CASO DE UM PROGRAMA DE MONITORAMENTO ONLINE DAS
ELEIÇÕES MUNICIPAIS BRASILEIRAS DE 2016 ...........................180
Sérgio Braga, Rafael Cardoso Sampaio, Márcio Cunha
Carlomagno, Fabricia Vieira, Alzira Ester Angeli & Juan
Francisco Arrom Suhurt
MAPEAMENTO DAS FANPAGES POLÍTICAS NO FACEBOOK .... 204
Marcelo Alves
NOVO ATIVISMO POLÍTICO: PARTICIPAÇÃO POLÍTICA NA
QUESTÃO CONTEMPORÂNEA ..................................................... 225
Débora Zanini
MÍDIAS SOCIAIS E A COMUNICAÇÃO DE CRISES URBANAS:
ESTUDO DE CASO DO CENTRO DE OPERAÇÕES RIO .............. 237
Pedro Reis Martins, Alexandre Hojda e Ariana Apolinário
MÉTODOS PARA IDENTIFICAÇÃO E CARACTERÍSTICAS DE
INFLUENCIADORES EM MÍDIAS SOCIAIS ................................... 253
Gabriel Ishida
MODELOS DE PERSONALIDADE EM MÍDIAS SOCIAIS:
OPORTUNIDADES E DESAFIO PARA O MARKETING ................ 277
Pedro Barreto, Tarcízio Silva
CIBERATIVISMO DE CONSUMO NO FACEBOOK E A INFLUÊNCIA
NEGATIVA SOBRE AS MARCAS NO PROCESSO DE TOMADA
DE DECISÃO DOS CONSUMIDORES ........................................... 294
Norberto Andrade
MONITORANDO AUDIÊNCIAS TELEVISIVAS
NAS MÍDIAS SOCIAIS .....................................................................315
Eloy Santos Vieira, Tarcízio Silva
ON THURSDAYS WE WATCH GREY’S: O ENGAJAMENTO
DOS FÃS DE GREY’S ANATOMY NO TWITTER ........................... 336
Talita Vital, Mirna Tonus
DA FOFOCA À PÓS-VERDADE: ESTUDANDO
BOATOS E COMPORTAMENTOS NEGACIONISTAS
NAS MÍDIAS SOCIAIS. ................................................................... 359
Wesley Muniz
MENSURAÇÃO DE AUDIÊNCIAS E ANÁLISE DE
ENGAJAMENTO: UMA PROPOSTA METODOLÓGICA
A PARTIR DAS MÍDIAS SOCIAIS ....................................................374
Wesley Moreira Pinheiro, Danilo Postinguel
BIOGRAFIA DOS AUTORES .......................................................... 391
Nathalia Louro Andrade
APRESENTAÇÃO
Ao longo dos três anos de atuação do Instituto Brasileiro de Pesquisa e
Análise de Dados (IBPAD) pudemos criar conexões muito relevantes com
alunos, colaboradores, clientes, fornecedores, parceiros, grupos de pesquisa
e afins: gente apaixonada por investigação, pesquisa e descoberta. A opção
pelo gerúndio no título Estudando Cultura e Comunicação com Mídias Sociais
busca enfatizar o esforço contínuo e coletivo para a compreensão das mídias
sociais tanto enquanto objetos, nas suas materialidades em si, como, sobretudo,
campos discursivos de construções e controvérsias sobre identidades, opinião
pública, controvérsias e consumo simbólico.
Nos vinte capítulos deste livro reunimos colaborações de pesquisado-
res de diferentes disciplinas, campos, níveis de formação, idade, experiência
e maturidade científica, sendo uma analogia espelho dos estudos de/sobre/
em/com mídias sociais como algo não-finito e em “modo gerúndio” próprio
da investigação científica, acelerada cada vez mais pelas transformações da
hipercontemporaneidade. Como resultado de uma chamada de trabalhos aberta
a todos que já tiveram algum contato – estudantes, professores ou parceiros –
com o IBPAD, os capítulos puderam ser agregados a posteriori em quatro focos
não excludentes: Métodos, Identidades, Política e Mercado da Comunicação.
Abrindo o livro, uma série de capítulos focados nos métodos apresenta
trabalhos sobre como combinar análise de conteúdo e análise relacional nos
estudos de mídia social (Recuero, capítulo 1), sobre questões metodológicas a
respeito da condução de pesquisas com questionários online (Carlomagno, capí-
tulo 2) e sobre cartografia de controvérsias como abordagens possíveis para os
dados digitais (Gonçalves, capítulo 3). Enquanto materiais de estudo, as visuali-
dades no Instagram como atalho para estudos de comportamento (Zandavalle,
capítulo 5), a gramática de sentimentos e emoções (Rodrigues, capítulo 4) ou os
traços de personalidade (Barreto & Silva, capítulo 15), disponíveis nos fluxos
das publicações, são apresentados para os pesquisadores interessados em inter-
rogar os dados com outros olhares.
Debruçando-nos sobre identidades e audiências, estudos de caso que apli-
cam análise de redes, etnografia e análise de conteúdo descrevem agrupamentos
de resistência econômica (Oliveira, capítulo 9), comunidades religiosas (Alves,
capítulo 7), audiências articuladas de fãs (Vieira & Silva, capítulo 17; Vital e
Tonus, capítulo 18), marcação de lugar de fala de youtubers (Souza, capítulo
6) ou ainda o lugar enquanto rede articulada de vizinhos (Botton, capítulo 9).
Abordando tanto youtubers quanto outros tipos de produtores de conteúdo,
apresentamos de um lado método para identificação de influenciadores (Ishida,
capítulo 14) e mensuração de engajamento de consumidores (Pinheiro &
Postinguel, capítulo 20) e de outro os aspectos das articulações negativas como
12
gestão do ciberativismo contra marcas (Andrade, capítulo 16), propagação de
boatos (Muniz, capítulo 19) ou gestão de crises urbanas (Hojda e colaboradores,
capítulo 13).
Entre os desafios da comunicação político-eleitoral e ativismo político, a
publicação traz estudo de caso de monitoramento nas últimas eleições brasilei-
ras (Braga e colaboradores, capítulo 10), um percurso metodológico sobre mape-
amento de páginas políticas no Facebook (Alves, capítulo 11) e reflexões sobre a
ação coletiva para a análise de movimentações online (Zanini, capítulo 12).
Esperamos que a obra seja proveitosa para estudantes e cientistas em dife-
rentes fases da trajetória de engajamento com pesquisa e análise de dados e que,
com ela, surjam novos desafios e oportunidades de pesquisa e investigação.
Boa leitura!
13
ESTUDANDO DISCURSOS EMMÍDIA SOCIAL:
UMA PROPOSTA METODOLÓGICA
Raquel Recuero
Um dos grandes desafios no estudo da mídia social como esfera pública
(BASTOS, 2011; SOARES; RECUERO, 2017) é compreender este espaço como
disputa de sentidos. A mídia social1, enquanto conceito, compreende, jus-
tamente, o uso dos sites de rede social2 para conversação e espalhamento de
informações, onde a estrutura dos grupos e das conexões online é capaz de fil-
trar e dar visibilidade para determinadas informações em detrimento de outras
(RECUERO; BASTOS; ZAGO, 2015).
Nesse contexto, podemos discutir a construção de opiniões públicas, que se
tornam proeminentes nessas ferramentas e podem construir percepções sobre
produtos, pessoas, serviços e marcas. Assim, este artigo busca propor a utilização
de um método misto3, constituído de técnicas da abordagem de análise de redes
em conjunto com técnicas da análise de conteúdo, para compreender o discurso
em dados de mídia social. Para fazer tal proposição, discutiremos rapidamente
as duas abordagens e passaremos a uma especificação de cada passo da proposta.
1. ANÁLISE DE CONTEÚDO E ANÁLISE RELACIONAL
A análise de conteúdo (AC) é um dos métodos mais utilizados para ana-
lisar-se conjuntos de dados textuais4. É um conjunto de técnicas destinadas a
estudar textos, imagens ou outros “conteúdos”, de modo a extrair destes, siste-
maticamente, algum tipo de sentido. Trata-se de uma abordagem constituída
de várias técnicas diferentes, tanto qualitativas como quantitativas (BARDIN,
2004). A base que une essas várias técnicas está constituída de procedimentos
de classificação e categorização, que são constituídos a partir de similaridades e
1 Essa ação orgânica das pessoas sobre a informação nas plataformas é que dá efeito à circulação
de informações, que denominamos “mídia social”.
2 Conceito defendido por Boyd e Ellison (2007).
3 Métodos mistos são métodos que misturam diferentes abordagens, tanto qualitativas como
quantitativas. Tendem a trazer contribuições relevantes, na medida em que permitem que um
mesmo conjunto de dados seja percebido através de múltiplos olhares analíticos.
4 Apesar disso, não podemos esquecer da natureza dos dados da mídia social como dados “fala-
dos”, ou seja, híbridos entre linguagem escrita e oral.
14
dissimilaridades nesses dados. Mais do que simplesmente descrever os dados, o
objetivo é inferir elementos destes dados. A proposta de Bardin (2004) descreve
o método a partir das seguintes etapas:
1) Pré-análise e Exploração – Etapa onde os dados são sistematizados e
explorados, e os elementos observados são descritos a partir do pro-
blema de pesquisa.
2) Codificação – Etapa inicial de classificação e agregação dos dados.
3) Categorização – Etapa sucessiva de criação de categorias mais amplas,
que levará à criação dos conceitos, a partir dos critérios definidos pelo
pesquisador.
Cada um desses procedimentos é subsequente aos demais e vai constituir um
aprofundamento da criação de categorias, que serão posteriormente discutidas. O
objetivo, portanto, é chegar a um conjunto de categorias mais amplas (ou conceitos)
que emergirão da análise sistemática dos dados, constituída de descrição, interpre-
tação e inferência sobre os mesmos, durante estes procedimentos classificatórios.
Por conta de suas características, a análise de conteúdo presta-se tanto a pro-
cedimentos qualitativos quanto a procedimentos quantitativos. De modo espe-
cífico, com o auxílio de ferramentas computacionais, tornou-se mais comum
a utilização de softwares de classificação de dados para análises quantitativas.
Nestes casos, as categorias criadas pelos codificadores (coders) são geralmente
validadas por testes com codificadores independentes, para os quais aplicam-se
testes específicos de confiabilidade (reliability)5.
Há várias divisões para os tipos de análise de conteúdo. Aqui focaremos
principalmente em dois grandes tipos, a “análise de conceitos” e a “análise de
relações”. Estas duas grandes categorias são importantes para que possamos
compreender elementos subsequentes de estudo. A análise de conceitos é a parte
mais simples e tradicional da análise de conteúdo, e trabalha, principalmente,
com a obtenção de conceitos através dos procedimentos de codificação e classi-
ficação dos dados, de modo a observar a presença e a ausência de determinados
elementos no conjunto. Já a análise de relações quer ir além da mera identifica-
ção de conceitos e elementos presentes nos dados, focando-se, principalmente,
no estudo das relações entre esses conceitos obtidos através dos procedimentos.
Esta análise, assim, quer extrair sentido não da presença dos conceitos em si,
5 Para mais detalhes, sugiro a consulta à Kripperndorff (2004).
15
mas principalmente de suas relações com os demais. Os métodos tradicionais
da Análise Relacional são:
• Análise de sentimentos (ou emoções) – busca compreender a emoção
dos conceitos presentes no texto, geralmente através de análises temá-
ticas e de elementos relacionados a essas emoções.
• Análise de proximidade – busca compreender a coocorrência de concei-
tos. Esta abordagem, que é onde queremos basear esta proposta, busca
a criação de “janelas” ou linhas de texto dentro do conjunto de dados,
as quais serão objeto de análise para as coocorrências de conceitos. A
partir destas coocorrências, há a criação de uma matriz conceitual de
onde se pode extrair os sentidos.
• Mapas cognitivos – são recursos onde as relações de proximidade são
representadas em mapas gráficos para auxiliar a compreensão das rela-
ções através da semântica de suas conexões. A questão chave aqui é
analisar, do modo mais profundo o possível, a relação entre os conceitos.
Carley (1990), inclusive, propõe que a representação dos dados relacio-
nais da análise de conteúdo dê-se também através de redes.
São justamente esses métodos e técnicas que são interessantes para esta
discussão. Defendemos que a análise de dados de mídia social adquire muito
mais sentido quando estudada em seu contexto e em suas relações entre os
conceitos apresentados. Normalmente, formas de monitoramento, por exem-
plo, costumam levar em conta, principalmente, palavras-chave e não con-
ceitos em relação a outros, de modo a expandir a compreensão dos sentidos
escondidos naqueles discursos. Com a análise relacional, vai-se além da mera
classificação, busca-se obter dados sobre o uso dos conceitos nos movimentos
da conversação.
2. ANÁLISE DE REDES
A análise de redes sociais (ARS) é uma abordagem derivada da Teoria dos
grafos e da Sociometria (RECUERO, 2009; RECUERO, 2017; RECUERO;
BASTOS; ZAGO, 2015). Suas origens são amplas, com autores citando princi-
palmente a Sociometria e a Teoria dos Grafos (WASSERMAN; FAUST, 1994;
DEGENNE; FORSÉ, 1999).
16
O objetivo desta abordagem é analisar a estrutura da rede e compreender
como a posição dos nós e a estrutura das conexões influencia os fenômenos.
A abordagem tem um foco estrutural e suas métricas são utilizadas para com-
preender-se a importância da posição dos nós na estrutura e a importância das
conexões entre os vários nós. Este foco é bastante propício para o estudo das
relações entre os conceitos em falas na internet, justamente porque permite,
através de suas métricas e analogias, compreender-se conceitos mais centrais,
mais relevantes para os atores, bem como grupos de conceitos que tendem a
aparecer juntos e suas relações.
A análise de redes baseia-se no estudo dos nós (que, em nosso caso, serão
os conceitos) e suas conexões ou arestas (que aqui serão suas coocorrências). A
partir da construção desta estrutura, utilizam-se métricas para entender-se a
posição dos nós (métricas de nó) e a estrutura geral da rede (métricas de rede).
As redes podem ser, geralmente, direcionadas (quando importa a direção da
aresta e é possível medir esta direção, normalmente com valores diferentes para
cada direção da mesma) e não direcionadas (quando a direçãonão importa,
apenas a existência e a força da conexão). A análise também pode ser feita a
partir de uma rede ego (ou seja, a partir de um sujeito central) ou de rede inteira
(de um conjunto de dados dos quais se tem toda a rede). Uma rede de conceitos
é, geralmente, uma rede inteira e não direcionada.
A análise de redes também trabalha com métricas, geralmente desenvolvi-
das a partir de algoritmos que focam:
a) Métricas de nó – as métricas de nó são aquelas que visam compreen-
der a posição de cada ator na estrutura da rede. Assim, buscam obser-
var, por exemplo, atores que são mais centrais, por variáveis distintas.
Um ator pode ser relevante para a rede quando está unindo vários
grupos dentro desta (centralidade de intermediação – betweenness),
quanto conecta ou está conectado a mais atores que os demais (grau
de entrada – indegree –, saída – outdegree – ou grau geral), quando suas
conexões são nós importantes que também o fazem mais importante
na rede (centralidade – eigenvector) etc.
b) Métricas de Rede – as métricas de rede são aquelas que buscam com-
preender a estrutura da rede como um todo, como, por exemplo, sua
densidade, os grupos que existem nela (métricas de grupabilidade,
como modularidade) etc. Estas métricas, ao contrário das anteriores,
17
não trazem dados específicos sobre os nós, mas fazem sentido sobre a
rede como um todo.
Essas métricas seriam capazes, assim, se aplicadas a grupos de conceitos
conectados, de oferecer dados sobre como estes estão articulados nas falas dos
atores na mídia social. O objetivo, portanto, é analisarmos a estrutura de con-
ceitos utilizados nas “falas” dos atores sociais, identificando conceitos mais
centrais e associações mais fortes e frequentes, oferecendo, assim, pistas das
construções discursivas associadas a determinados tópicos na mídia social.
3. PROPOSTA DE ANÁLISE
Como dito inicialmente, nossa proposta é utilizar os passos da análise de
conteúdo e combinar a análise relacional dos conceitos obtidos com a análise
de redes. Portanto, trata-se de uma proposta de métodos mistos, baseada em
elementos qualitativos e quantitativos, com tratamento informático e direcio-
nada para conversações obtidas em mídia social. Este tipo de análise neces-
sita de ferramentas computacionais, sendo difícil que possa ser constituída em
uma observação apenas. No exemplo que trazemos, utilizamos scripts próprios.
Porém, há ferramentas que auxiliam tanto na coleta de dados (como o yTK6, o
NodeXL7 e o Netlytic8) como na análise desses dados (Textometrica9, Netlytic)
e na visualização dos mesmos (Gephi10). Especificamente para a proposta que
fazemos aqui, uma vez obtidos os dados, é bastante simples resolver cada uma
das fases utilizando-se, primeiramente, o Textometrica para a análise desses
dados e uma ferramenta de visualização posterior, como o Gephi.
A proposta de análise inicia-se com a extração de dados de conversações
de mídia social. Para demonstração, utilizaremos como exemplo dados reco-
lhidos do Twitter pouco antes do julgamento do ex-presidente Luís Inácio
Lula da Silva11 pelo Tribunal Regional Federal 4 (TRF4), em Porto Alegre,
no dia 24 de janeiro de 2018. A escolha pelo fato deve-se à popularidade e
presença do mesmo nas conversações durante o dia no Twitter. Esses dados
6 Disponível em https://github.com/540co/yourTwapperKeeper
7 Disponível em https://www.smrfoundation.org/nodexl/
8 Disponível em https://netlytic.org/index.php
9 Disponível em http://textometrica.humlab.umu.se/
10 Disponível em https://gephi.org/
11 Detalhes disponíveis na cobertura do Estadão: http://politica.estadao.com.br/ao-vivo/
julgamento_lula
18
foram recolhidos a partir de crawler próprio12, que a cada uma hora reco-
lheu tweets que continham a palavra “Lula”. Para este exemplo, entretanto,
utilizaremos um subconjunto dos dados constituído por uma coleta reali-
zada no dia anterior (23/01), às 12:56. O conjunto de dados aqui utilizado
foi constituído de 52617 tweets e 22533 contas individuais13. Nossa questão
central aqui será compreender quais foram os discursos prevalentes sobre o
julgamento no Twitter.
Após a coleta de dados, é sempre importante realizar uma “limpeza” dos
dados, de modo a retirar aqueles que estiverem incompletos, erros ou mesmo
dados não desejados. Por exemplo, nossa pesquisa sobre “Lula” retornou dados
sobre moluscos marinhos, que não eram relevantes para esta análise. Para evitar
ruídos, esses dados foram retirados do dataset. Se o conjunto de dados é pequeno,
essa limpeza pode ser feita de modo manual. Porém, quando se está trabalhando
com um grande conjunto de dados, é importante ter softwares ou scripts que
auxiliem neste trabalho. Por vezes, um bom editor textual (como o Notepad++
ou o SublimeText) pode ser suficiente para identificar-se dados com problemas.
3.1 Análise de Conteúdo
Esses dados serão então analisados em duas fases. A primeira destas fases
é a análise de conteúdo (AC). A análise de conteúdo, como dissemos, envolve
elementos de classificação para a criação das categorias de conceitos que se pre-
tende analisar. Primeiramente, no entanto, é necessário separar-se as unidades
de análise dentro dos dados recolhidos. A unidade é escolhida como a menor
parte significante dos dados, a partir dos objetivos da pesquisa. Uma unidade
de análise, assim, pode ser uma interação completa, como, por exemplo, uma
postagem no Facebook ou um comentário, ou, dentro destes, uma sentença,
ou ainda um tweet. Cabe ao pesquisador definir o que será cada unidade sig-
nificativa. Para este trabalho, utilizaremos como unidade o tweet em si (e não
as sentenças), pois queremos analisar como os conceitos foram utilizados em
conjunto. Assim, por exemplo, interessa-nos ver se “Lula” aparece em iterações
12 Nosso crawler foi construído a partir de um sistema existente, o yTK (yourtwapperkeeper), e
extrai os dados diretamente das duas APIs do Twitter.
13 Também é importante levar-se em conta que raramente se consegue, mesmo com acesso às
duas APIs, certeza da completude dos dados coletados. A quantidade de dados coletados depende
da API que se acessa, do crawler que se está utilizando, do número de requests (por exemplo, várias
coletas a partir de uma mesma conta podem reduzir a quantidade de dados que se consegue cole-
tar) etc. De modo geral, quanto maior o número de dados existentes, mais incompleto tende a ser
o dataset coletado (mesmo dentro das limitações impostas pelo próprio Twitter).
19
onde conceitos como “democracia” ou “golpe” também apareceram, ainda que
não necessariamente na mesma frase.
3.1.1 Análise de frequência
Após a escolha das unidades, cada uma delas será analisada em busca de
suas regularidades. Como regularidade principal, interessa-nos, nesta pro-
posta, elementos (palavras ou categorias de palavras, por exemplo) que apare-
cem com maior frequência nos dados coletados. Assim, o primeiro elemento
que buscamos é a frequência de determinadas categorias de palavras nas uni-
dades de análise. Esta frequência é delimitada pela repetição de palavras nos
vários tweets. Essas palavras mais repetidas serão aquelas que entrarão para a
próxima fase. Assim, o que queremos saber aqui é quais palavras foram mais
utilizadas pelas pessoas.
Para a análise de frequência é muito importante considerar-se apenas aque-
las classes de palavras que constituem algum tipo de significado relevante para
o estudo. Assim, muitas vezes, o pesquisador pode escolher trabalhar apenas
com adjetivos, substantivos ou verbos, por exemplo, ou com um conjunto des-
tes. De modo geral, outras classes são geralmente desprezadas (como artigos,
preposições, advérbios etc.) por serem muito pouco relevantes à compreensão
dos dados e por, geralmente, aparecerem em grande quantidade, obscurecendo
outros termos que possam ser relevantes. Esses termos que foram considerados
pouco úteis pelo pesquisador podem ser incluídos em uma lista de stopwords,
ou seja, palavrasou caracteres que não entrarão na contagem de frequência.
Caso não exista uma lista de stopwords, essas palavras poderão ser desprezadas
posteriormente, na etapa de classificação.
A análise de frequência apresentará como resultado as palavras que mais
foram usadas nos dados coletados. Cabe ao pesquisador, então, delimitar a
quantidade de dados que vai usar para as fases seguintes, se todas as palavras ou
apenas um percentual. Geralmente é relevante levar em conta, para esta escolha,
a quantidade total de dados (por exemplo, uma frequência de 10 pode ser rele-
vante para um conjunto pequeno de dados, enquanto para um conjunto maior,
talvez 100 seja um número mais importante). Também é importante esmiuçar
a chamada “cauda longa” de palavras utilizadas com o mesmo sentido, mas de
modo mais granular, possivelmente em pequenos bolsões linguísticos (formas
de dizer que são características de determinadas regiões).
Uma vez tendo-se coletado os dados do Twitter, utilizamos um software pró-
prio para a contagem de frequência e posterior classificação. Entretanto, como
dissemos, outros, como o Textometrica, podem ser utilizados para esta fase. É
importante, neste momento, atenção para o tipo de codificação dos caracteres
20
textuais. Geralmente, os caracteres dos dados precisam ser convertidos para
UTF-814 para a análise dos softwares, de modo que dados como acentuação e
“emojis” não sejam perdidos.
Na imagem a seguir (Figura 1), vemos um exemplo de resultado de uma
primeira análise de frequência dos dados. No software utilizado, é possível sele-
cionar quais dados se quer manter no conjunto e os conceitos que se deseja criar
para agregar os dados. Além disso, podemos ver também exemplos de tweets
que continham a palavra apresentada, de modo que o pesquisador possa com-
preender como ela foi utilizada.
Esses mesmos procedimentos (contagem e classificação) podem ser realiza-
dos em ferramentas como o Textometrica, com uma estrutura bastante seme-
lhante à da imagem apresentada a seguir. Uma vez de posse das palavras mais
frequentes, entramos, então, no segundo momento da análise.
3.1.2 Classificação
As palavras apontadas por frequência serão, a seguir, classificadas entre si
por sentido e por elementos semânticos semelhantes (regularidades) observados
em seu uso. Estes critérios de classificação deverão ser delimitados pelo pesqui-
sador a partir de seu problema de pesquisa. Assim, por exemplo, “presidente”
e “presidenta” podem ser incluídos em uma mesma categoria (ambos denotam
o representante máximo da República), exceto se o uso do gênero fizer alguma
diferença para o que se busca analisar. Do mesmo modo, “Temer”, “Dilma” ou
“Lula” podem ser tomados como sinônimos de “presidente” caso o objetivo da
análise seja compreender, por exemplo, o que se fala da categoria “presidente”,
mas não de cada um individualmente. A classificação dessas palavras será,
portanto, realizada em categorias que poderão ser semânticas, gramaticais, de
gênero etc., a depender do problema de pesquisa levantado. Em nosso caso, por
exemplo, “presidente” e “ex-presidente” são palavras que pertencem a categorias
diferentes quando utilizadas com relação a “Lula”. Seu uso demarca diferentes
posições e percepções a respeito do sujeito. Por isso, são consideradas categorias
diferentes na análise.
Esse processo de classificação deve ser criterioso, na medida em que a união
de várias palavras em uma mesma categoria influenciará os resultados e a aná-
lise. Por conta disso, é importante observar, de modo qualitativo, a presença de
determinada palavra nos dados. Em alguns softwares (como o Textometrica,
14 Softwares gratuitos, como o Notepad ++ (https://notepad-plus-plus.org/) são bastante úteis
para auxiliar a sanar problemas de codificação. Geralmente, basta abrir o TXT e modificar a codi-
ficação nesse tipo de programa.
21
Fi
gu
ra
1
-
Im
ag
em
d
e
re
sp
os
ta
d
e
co
nt
ag
em
d
e
fr
eq
uê
nc
ia
e
m
d
ad
os
d
o
Tw
itt
er

(n
úm
er
o
de
v
ez
es
q
ue
c
ad
a
pa
la
vr
a
ap
ar
ec
e
no
s
da
do
s)
.
Fo
nt
e:
a
a
ut
or
a.
S
of
tw
ar
e
pr
óp
rio
.
22
ou no exemplo da Figura 1), é possível observar alguns tweets mais frequentes
que contêm os dados. Com isso, é possível analisar o uso das palavras de modo
semântico. Também é relevante que o pesquisador faça a conferência no banco
de dados, observando de modo qualitativo como determinada palavra foi utili-
zada, para classificá-la de modo adequado. Outro ponto importante é não cate-
gorizar palavras compostas (por exemplo, unir “Porto” e “Alegre” como “Porto
Alegre”), isso porque o resultado duplicará a frequência dos dados (uma vez que
todos os “Portos” e “Alegres” serão somados). Se o que se quer é utilizar o nome
composto nos dados, basta classificar “Porto” como “Porto Alegre” e ignorar o
“Alegre” (evidentemente, é preciso tomar cuidado, pois há alguns “porto” que
podem não significar a cidade e que podem ser relevantes para a análise). Por
fim, em algumas análises, o gênero das palavras utilizadas também pode ser
importante e, por isso, deve ser levado em conta.
A partir da classificação dos dados em categorias mais amplas (que também
podemos denominar conceitos), passamos então a uma análise de coocorrên-
cia, ou seja, de criação da estrutura da rede de conceitos em torno do tópico ou
evento em cima do qual os dados foram coletados.
3.1.3 Análise de Coocorrência
Na análise de coocorrência temos os dados brutos (número de coocorrência
entre os conceitos selecionados) e esses dados podem ser estudados a partir da
análise de redes, pois cada coocorrência representa uma aresta entre os concei-
tos (Figura 2). Assim, quando se analisam os dados sob a forma de grafos, pode-
mos usar métricas de posição da análise de redes para compreender a estrutura
da mesma. A análise de coocorrência classifica os dados que ocorrem juntos
(ou seja, na mesma unidade de análise). Assim, se “Lula”, “corrupção” e “jul-
gamento” coocorrem em uma mesma unidade (tweet), teremos cada um desses
conceitos como um nó e arestas que conectam os três entre si.
Na Figura 2 podemos ver os dados analisados e construídos como conceito
1 e conceito 2, com a frequência e a coocorrência de cada dado. Esses dados
são brutos, mas importantes, porque mostram o que o grafo fará. Uma vez que
tenhamos esses dados, podemos então montar a rede. Essa será a estrutura que
analisaremos. Geralmente, os programas mostram a totalidade de coocorrên-
cias (até zero coocorrências, por exemplo). Cabe ao pesquisador, novamente,
de acordo com a sua experiência, selecionar a quantidade de coocorrências que
deseja analisar na próxima etapa, observando quais são relevantes e quais não o
são. Ferramentas como o Textometrica também oferecem dados das coocorrên-
cias gerais e normalizadas. A normalização pode oferecer insights diferentes,
conforme veremos a seguir.
23
Fi
gu
ra
2
-
Ex
em
pl
o
de
ta
be
la
c
om
c
on
ce
ito
s,
o
co
rr
ên
ci
as
e
c
oo
co
rr
ên
ci
as
.
Fo
nt
e:
a
a
ut
or
a.
24
Na rede que obtivemos, portanto, os nós são os conceitos analisados e as
arestas seu uso conjunto. Utilizando, assim, métricas de análise de redes, pode-
mos compreender essa estrutura e a importância de cada nó na constituição
do discurso da rede. Para fazer a análise de redes, há várias possibilidades.
Algumas ferramentas, como o Textometrica e o Netlytic, já fazem a análise a
partir dos elementos selecionados pelo pesquisador e, ao final, mostram a rede e
algumas das métricas possíveis que podem ser selecionadas ou não. Outra opção
é exportar o arquivo de análise textual como um arquivo de rede (formato gra-
phml, net etc.) e abri-lo em um programa mais específico, como o Gephi. Uma
vez no Gephi, é possível calcular as métricas de rede e inseri-las no grafo.
3.1.4 Interpretação das MétricasMas como podemos compreender as métricas de rede e estudar esses con-
juntos de modo a entender seus sentidos? Aqui, em nosso estudo de caso, fare-
mos algumas sugestões de interpretação e compreensão de algumas métricas,
de modo a exemplificar como poderiam ser levadas em conta pelo pesquisador.
a) Métricas de Nó
Neste caso específico (rede de conceitos), temos uma rede não direcionada,
pois o que é relevante é o fato do conceito aparecer com outro ou não. Não há,
assim, direcionamento nessas relações, e métricas como indegree (grau de
entrada) e outdegree (grau de saída) são substituídas apenas por degree (grau). O
grau de um conceito na rede indica duas coisas. Primeiramente, sua frequência,
uma vez que o número de vezes em que o conceito aparece é determinante para o
número de relações que ele possui. Além disso, o grau também indica o número
de relações que esse conceito apresenta com outros conceitos da rede. Conceitos
com maior grau são aqueles que mais apareceram e estiveram relacionados a
outros conceitos na rede analisada. Logo, foram conceitos centrais na discussão.
Outras métricas, como betweenness (o grau de intermediação), também podem
ser utilizadas, dependendo da proposta de análise. O grau de intermediação, uma
métrica de “ponte”, pode indicar quais conceitos foram mais utilizados em diferen-
tes grupos de conceitos (por exemplo, conceitos que foram mais usados por gru-
pos pró-prisão ou contra a prisão do ex-presidente Lula). Geralmente, esta métrica
auxilia na percepção de conceitos que perpassam várias discussões (ou vários gru-
pos de conceitos, utilizados por diferentes grupos em diferentes conversações).
As métricas de nó apontam para a análise da posição dos nós na análise
de rede (percebendo, portanto, sua centralidade). Assim, podem ser utilizadas
para compreender-se conceitos centrais na conversação, bem como conceitos
centrais para diferentes grupos de atores.
25
b) Conexões
A força das conexões nas redes de conceito aponta para aqueles conceitos
que estão mais fortemente ocorrendo juntos. Quanto maior a coocorrência,
mais forte o laço (maior o grau). Isto também significa que as conexões ten-
dem a “puxar” aquele conjunto de nós que mais coocorre em conjunto para
um determinado grupo no grafo. A força das conexões é visualmente apontada
pela espessura da conexão no grafo. Aqui, o que percebemos é como um deter-
minado conceito foi associado a outros na rede. Por exemplo, se “Lula” aparece
muito fortemente associado a “golpe” e não a “corrupção”, isso pode indicar
determinadas percepções presentes na conversação.
c) Métricas de Rede
Também podemos analisar métricas que dão dimensão à rede de conceitos
como um todo. Métricas de rede nos auxiliam a compreender o grande qua-
dro, a estrutura da rede de conceitos associados. Dentre essas métricas, as mais
importantes são, geralmente, aquelas de grupabilidade (modularidade, clusters
etc.), pois permitem que vejamos os vários grupos de conceitos que podem estar
associados a diferentes conversações ou a diferentes grupos. Através de métri-
cas de grupabilidade é possível observar quais conjuntos de conceitos tendem a
coocorrer com maior frequência juntos nos dados, o que nos dá uma dimensão
dos discursos mais frequentes.
Assim, por exemplo, na Figura 3, vemos um grafo construído em cima
dos dados das falas, no Twitter, sobre o julgamento do ex-presidente Lula. Os
dados foram classificados conforme as etapas anteriores. Vemos os conjuntos
de conceitos que mais tendem a aparecer juntos determinados por modula-
ridade (cores), a importância desses conceitos determinada pelo tamanho da
palavra no grafo e a força da conexão pelas arestas mais grossas. Vemos ali,
no grupo laranja, que o conceito “Lula” tendeu a aparecer mais em conjunto
com “Bolsonaro”, “Brasil”, “Moro”, “preso” e “fraude”. Isso significa que o nome
do ex-presidente foi mais associado aos contextos onde esses outros conceitos
foram relevantes: discussões sobre fraudes na documentação do processo, sobre
o juiz e sua possível suspeição, sobre a possibilidade de sua prisão e, o que nos
parece bastante importante, em relação ao deputado Jair Bolsonaro, que não
tem uma relação direta com o julgamento, exceto o fato de que é um pré-candi-
dato à Presidência da República, como o ex-presidente. Essa relação indica que
Lula e Bolsonaro foram, assim, no contexto dos dados, constantemente associa-
dos, provavelmente dado o contexto em termos de oposição. Isso significa que
o julgamento de “Lula” foi bastante discutido em contextos onde o deputado
“Bolsonaro” também esteve presente.
26
Já no grupo rosa, vemos outro conjunto de relações. Ali temos os conceitos
“presidente”, “Dilma”, “democracia”, “golpe” etc. É interessante observar que
“golpe” aparece associado a “Dilma”, mas não a “Lula”, bem como “democra-
cia”, “justiça” e “julgamento”. Essas associações implicam que esses conceitos
apareceram mais quando a ex-presidenta Dilma foi citada e menos quando o
ex-presidente Lula foi citado. Isso mostra um discurso mais positivo relacio-
nado a Dilma do que a Lula. “Dilma” sofreu o “golpe”, e sua presidência, neste
contexto, foi mais associada à “democracia”. Apesar disso, neste conjunto, tam-
bém temos associações que indicam um sentimento de injustiça com relação
aos dois ex-presidentes.
Temos ainda o grupo verde, que traz outros conceitos associados ao suposto
crime em si: “triplex”, “provas”, “prescrição”, “cadeia” etc. Neste grupo, parece
que há um maior conjunto de referências ao fato em julgamento e menos dis-
cussões mais amplas (como “democracia” ou “golpe”). Este grupo compreendeu
mais tweets provenientes de veículos noticiosos e a reprodução desses tweets.
Representa um grupo mais factual e menos opinativo a respeito da discussão.
Assim, cabe ao pesquisador analisar as coocorrências no grafo e o sentido
constituído pelos conceitos para o discurso que mais aparece nos dados cole-
tados. Essa análise pode particularizar os vários grupos, analisá-los de modo
geral, focar hashtags, partidos etc. (SOARES; RECUERO, 2017; RECUERO,
2016 e RECUERO, 2014). As possibilidades são muitas. O mais importante,
entretanto, é desenvolver a sensibilidade teórica do pesquisador para as esco-
lhas do que analisar e como desenhar sua pesquisa. Para a visualização dos
dados, pode utilizar-se dos vários algoritmos15 que existem no Gephi, por
exemplo, tornando o grafo visualmente relevante para a análise. É importante
que se entenda o que cada algoritmo faz, de modo a poder compreender como a
rede que resulta dele é influenciada pelas “forças” que ele utiliza. Os algoritmos
mais comuns são “ForceAtlas” (nós com maior peso são atraídos para o centro,
independentemente de grupos) ou algoritmos que são mais eficientes em sepa-
rar os vários clusters (o NodeXL utiliza vários deles).
Esse tipo de análise pode ser fortemente impactada por discursos que foram
muito “retuitados” (e que, portanto, mantiveram a mesma forma, as mesmas
palavras), por exemplo, reduzindo o impacto de palavras menos usadas em
conversações paralelas (que podem ser mais variadas, porém representar um
conjunto semântico único). Uma estratégia interessante para analisar-se os
diferentes contextos é normalizar os dados, de modo a apresentar conjunto
mais amplo. Ao normalizar a base de coocorrências, temos uma melhora na
15 Para mais informações sobre visualização e análise de redes, ver Recuero (2017).
27
distribuição dos demais dados em relação àqueles de maior valor, reduzindo o
impacto das mensagens muito “retuitadas”, por exemplo.
Figura 3 - Grafo de coocorrências.
Fonte: a autora. Imagem gerada no Gephi. Visualização: Force Atlas.
Na figura a seguir (Figura 4), temos a imagem do mesmo grafo apresen-
tado na Figura 3, porém com dados normalizados. Aqui vemos um conjunto
de módulos, onde as coocorrências aparecem um pouco diferentes do grafo
total. Vemos, por exemplo, que o grupo rosa apresenta uma série de concei-tos relacionados à defesa do ex-presidente (como provas, prescrição, inocente
etc.). Já o nome do ex-presidente no grupo azul aparece diretamente conec-
tado à condenação (condenado) e a “Brasil” e “Bolsonaro”, indicando que este
é apresentado juntamente com o nome de Lula, provavelmente como candidato
de oposição possível. Do mesmo modo, outros módulos também apresentam
outras conexões relevantes para o estudo, como “petista” e “política”, ou o bloco
verde, que relaciona “democracia” com a candidatura do ex-presidente e com
a defesa do mesmo. Os dados normalizados apresentam melhor tópicos pre-
sentes e conjuntos de conceitos associados mais frequentemente em diferentes
grupos. Por isso, ajudam a compreender melhor os tópicos discutidos do que os
dados totais.
28
Figura 4 - Grafo de coocorrências normalizado.
Fonte: a autora. Imagem gerada no Gephi. Visualização: Fruchterman-Reingold
Podemos ver, assim, que o discurso prevalente sobre o julgamento está
focado na defesa do ex-presidente, tanto exposto na análise dos dados gerais
quanto no normalizado. Os conceitos mais associados e mais frequentes dizem
respeito a elementos apontados pela defesa, como “democracia”, “golpe”,
“defesa”, “prescrição” e “provas” (a falta de provas para a condenação foi um
dos argumentos mais frequentes entre aqueles que defendiam o ex-presidente).
Há também um discurso de comparação entre Lula e Bolsonaro e de condena-
ção de Lula (“preso” e “condenado”). A prevalência de um discurso que defende
o ex-presidente e associa a sua possível nova candidatura à “democracia” evi-
dencia a articulação de grupos pró-Lula de maneira bastante forte, seja através
de retweets, seja através da propagação de discursos positivos sobre o ex-presi-
dente. Há o contraponto negativo, entretanto, que aparece de modo bem menos
articulado e coeso, como vimos nesta breve análise.
A análise dos dados aqui não deve ser feita unicamente baseada na estrutura
do grafo. Ela pode e deve ser realizada desde o início, com uma análise quali-
tativa dos tweets mais “retuitados” e ações contextuais, como a percepção dos
vários grupos envolvidos na discussão, das possíveis ações ativistas dos vários
29
nós (por exemplo, em contextos políticos, é muito comum que vários atores
estejam agrupados de modo a funcionar como um coletivo, dando visibilidade
para determinadas pautas e silenciando outras) etc. A análise não pode ser des-
conectada do contexto dos dados. Também por conta disso, é difícil analisar-se
conjuntos de dados com os quais não se esteve envolvido com a coleta ou com o
contexto de produção dos tweets.
4. CONCLUSÃO
Neste texto, discutimos uma proposta de práticas de pesquisa em dados
textuais de mídia social focada nos discursos ali presentes. A proposta, anco-
rada em métodos mistos, busca misturar técnicas de análise de conteúdo a
partir de um foco relacional, utilizando várias técnicas de visualização, cate-
gorização e análise de redes, com métricas para o estudo da estrutura da rede
dos conceitos produzidos pela AC. O objetivo é constituir uma proposição
específica de análise qualitativa e quantitativa que possa ser aplicada para
grandes quantidades de dados de falas dos atores em canais de mídia social.
A partir desta discussão, elencamos um referencial teórico de base e o passo
a passo da proposta, trazendo ferramentas que possam ser utilizadas e resul-
tados possíveis.
Nosso objetivo foi apresentar um método que consiga capturar de modo
mais amplo os diferentes discursos presentes na mídia social. Não se pretende,
aqui, resumir-se esta análise simplesmente a “sentimento”, porém a algo mais
amplo, constituído de uma análise mais completa de diferentes classes grama-
ticais, que vá além de adjetivação (embora esta também possa ser um elemento
de análise). Por isso, apresentamos esta proposta como captura de discursos,
ou seja, de reflexos das ideologias presentes nas conversações. Esta proposta
é, geralmente, mais eficiente em compreender diferentes tópicos e contextos
de conversações do que uma análise de sentimento em sentido estrito, embora
também possa ser utilizada para a compreensão de sentimentos relacionados a
um determinado evento, produto ou ator.
Embora nosso exemplo aqui tenha sido relacionado a um contexto político,
esses passos metodológicos poderiam ser utilizados em diferentes contextos,
como o lançamento de produtos, a percepção geral de marcas (em uma análise
mais longitudinal) etc. É importante, para essas outras análises, que recortes
temporais sejam levados em conta, uma vez que o discurso pode alterar-se com
o tempo e com diferentes contextos construídos pelos atores.
30
REFERÊNCIAS
BARDIN, L. Análise de Conteúdo. Lisboa: Edições 70, 2004.
BASTOS, M. Public Opinion Revisited: The propagation of opinions in digital
networks. Journal of Arab & Muslim Media Research, v.4, n.2-3, 2011.
BOYD, D. M.; ELLISON, N. B. Social network sites: Definition, history, and
scholarship. Journal of Computer-Mediated Communication, v. 13(1), art. 11,
2007. Disponível em: <https://onlinelibrary.wiley.com/journal/10836101>.
CARLEY, K. Content analysis. In: ASHER, R.E. (Ed.). The Encyclopedia of
Language and Linguistics. Edinburgo: Pergamon Press, 1990.
DEGENNE, A.; FORSE M. Introducing Social Networks. Londres: SAGE
Publications, 1999.
KRIPPENDORFF, K. Content Analysis: an introduction to its methodology.
Thousand Oaks, Califórnia: SAGE Publications, 2004.
RECUERO, R. O twitter como esfera pública: como foram descritos os candida-
tos durante os debates presidenciais do 2º turno de 2014? Revista Brasileira de
Linguistica Aplicada, v. 16, p. 157-180, 2016.
. Contribuições da Análise de Redes Sociais para o estudo
das redes sociais na Internet: o caso da hashtag #Tamojuntodilma e
#CalaabocaDilma. Revista Fronteiras (Online), v. 16, p. 60-77, 2014.
. Redes Sociais na Internet. Porto Alegre: Sulina, 2009.
. Introdução à análise de redes sociais online. Salvador:
Edufba, 2017. Disponível em: <https://repositorio.ufba.br/ri/handle/ri/24759>.
RECUERO, R.; BASTOS, M.; ZAGO, G. Análise de Redes para Mídia Social.
Porto Alegre: Sulina, 2015.
SOARES, F. B.; RECUERO, R. Opinião pública no Twitter: análise da indicação
de Alexandre de Moraes ao STF. Logeion, v. 3, p. 18-34, 2017.
WASSERMAN, S.; FAUST, K. Social Network Analysis. Cambridge: Cambridge
University Press, 1994.
31
CONDUZINDO PESQUISAS COM QUESTIONÁRIOS
ONLINE: UMA INTRODUÇÃO ÀS QUESTÕES
METODOLÓGICAS
Márcio Cunha Carlomagno
1. INTRODUÇÃO
É crescente o número de pesquisas utilizando a aplicação de questionários
online, especialmente – mas não exclusivamente – entre jovens investigadores,
como mestrandos e doutorandos. A facilidade tecnológica, tanto para a cria-
ção destes questionários (ofertada gratuitamente por ferramentas como Google
Forms), quanto para sua difusão, traz um potencial problema: pesquisas pro-
blemáticas, seja por questionários mal formulados ou por desenhos de pesquisa
que não contemplam questões metodológicas desta ferramenta de pesquisa.
Este é um capítulo metodológico e didático, não de cunho empírico. Nosso
objetivo é apresentar uma introdução aos principais tópicos sobre surveys
online, suas limitações e técnicas de como proceder corretamente com sua apli-
cação. Desejamos ofertar à leitora e ao leitor um conjunto direto e sucinto dos
principais aspectos a serem considerados ao optar-se por esta ferramenta, reu-
nindo uma bibliografia diversa. Não é propósito do capítulo apresentar novas
proposições ou aplicações, mas servir como entrada na área para jovens pesqui-
sadores – público-alvo ao qual se destina.
O termo em inglês survey, apesar de sem equivalente preciso no português,
usualmente é traduzido como “levantamento de dados” (GÜNTHER, 2003).
Embora survey possa significar qualquer tipo de coleta ou levantamento de
dados, com o passar dos anos seu sentido estrito passou a ser usado somente
para um tipo de pesquisa: aquela com utilizaçãode questionários. Neste sentido,
survey é um instrumento de pesquisa de opinião. Embora seja possível realizar
surveys com perguntas abertas, sua forma predominante caracteriza-se pelo uso
de perguntas fechadas, o que permite a comparabilidade das respostas. Outra
característica em surveys é que, usualmente, são amostrais. Mick Couper (2000)
propôs uma categorização dos tipos de survey online a partir da distinção entre
métodos de amostragem probabilística e não-probabilística. Este é um elemento
central para as pesquisas científicas. Em amostras probabilísticas, cada membro
32
de uma população possui uma chance de seleção, que é: (i) conhecida e (ii) dife-
rente de zero. Em amostras não-probabilísticas, as chances de seleção são des-
conhecidas (COUPER; BOSNJAK, 2010). Nas palavras do autor, em amostras
não-probabilísticas, “inferências ou generalizações para a população são basea-
das em saltos de fé ao invés de estabelecidos princípios estatísticos” (COUPER,
2000, p. 477). Ao contrário, em amostras probabilísticas, os resultados podem
ser extrapolados, com uma margem de erro que pode ser calculada para o uni-
verso que a amostra representa. Isso torna possível a realização de inferências
sobre o conjunto maior da população. O tipo de survey que podemos, cotidiana-
mente, observar ser compartilhado em mídias sociais, como o Facebook, é o que
Couper (2000) chamou de “surveys com autosseleção irrestrita”. As principais
implicações amostrais deste tipo de survey, como veremos adiante, são a ausên-
cia de controle sobre os respondentes e o viés de autosseleção.
Podemos dividir os problemas metodológicos encontrados em surveys em
duas ordens principais: problemas de construção do questionário e problemas de
amostragem estatística (ALMEIDA, 2009). Este capítulo pretende apresentar um
resumo dos mais importantes tópicos nestes dois âmbitos. Não é nossa pretensão
esgotar o tema. Existem questões fundamentais relacionadas com as surveys que
não são nosso foco, tais como o potencial viés gerado pelas respostas socialmente
aceitáveis (ALMEIDA, 2009)1 ou de que maneira abordar temas polêmicos, como
preconceito ou corrupção (TURGEON; CHAVES; WIVES, 2014).
O capítulo se organiza da seguinte maneira: a primeira seção é dedicada
ao que chamamos “preliminares” – os elementos fundamentais na construção
de um bom questionário. A qualidade dos resultados de um survey depende
daquilo que antecede sua aplicação, que é a existência de um bom questionário.
Questionários online possuem suas idiossincrasias, que precisam ser levadas em
conta. Apenas transferir a mesma técnica dos questionários tradicionais para os
online é um equívoco. Por isso, tratar deste aspecto é fundamental. Reunimos
nove tópicos importantes aos quais o/a pesquisador(a) deve se atentar ao formu-
lar seu instrumento de pesquisa. A seção seguinte é dedicada aos “desafios”, ou
limites, enfrentados por questionários online, sobretudo em relação às questões
amostrais. Resumimos cinco tópicos, com especial destaque a três problemas: o
viés de autosseleção, a ausência de controle sobre os respondentes e a homifilia
1 Um dos exemplos mais célebres neste tópico é o chamado tory shy vote (voto conservador
envergonhado), termo consagrado na eleição de 1992 no Reino Unido. Muitas vezes, candidatos
conservadores vão sistematicamente pior nas pesquisas do que no desempenho nas urnas, pois há
uma pressão social que compele as pessoas a não se manifestarem favoráveis a candidatos deste
campo ideológico. Já há um debate recente se isso teria ocorrido na eleição de Donald Trump, nos
Estados Unidos, em que as pesquisas falharam em prever o resultado eleitoral (COPPOCK, 2017).
33
(a homogeneidade criada dentro de grupos sociais, que tendem a serem seme-
lhantes e compartilharem os mesmos valores). Por fim, a seção seguinte sugere
três possibilidades em que surveys online podem ser aplicados com sucesso,
embora cada uma tenha suas limitações.
Uma vez que a ascensão do uso dos surveys online é saliente em uma série
de disciplinas, o potencial deste capítulo é multidisciplinar. Dada sua natu-
reza metodológica, as considerações que apresentaremos servem não apenas
às investigações específicas de opinião pública, mas se aplicam também à rea-
lização de outras pesquisas que se valham do instrumento de questionários
online, em uma multiplicidade de áreas, tais como Sociologia, Administração,
Marketing, Comunicação Social, Publicidade e Propaganda etc. A relevância
deste capítulo, portanto, reside na sistematização, de forma didática, de uma
longa discussão metodológica nas Ciências Sociais.
2. PRELIMINARES
Muitos erros com pesquisas utilizando surveys podem ocorrer – e ocorrem –
por problemas na formulação de um questionário adequado (ALMEIDA, 2009).
Como ponto de partida, uma boa pesquisa depende de um bom questionário –
e os questionários online possuem suas particularidades. Embora este aspecto já
tenha sido tratado em clássicos como Almeida (2009), Günther (2003) e Fowler
Jr. e Cosenza (2008), jogaremos o foco nas particularidades do meio que esta-
mos abordando, a aplicação online.
Lee (2006) sugeriu um check-list com três perguntas, para verificar se um
questionário está adequado: 1) Os entrevistados conseguem entender a per-
gunta? 2) Os entrevistados conseguem responder à pergunta? 3) Os entrevis-
tados irão responder à pergunta? Para um questionário estar adequado, a res-
posta deve ser “sim” as três indagações. A seguir, abordaremos alguns tópicos
essenciais para obter-se as respostas positivas a estas perguntas.
I) Perguntas específicas
Perguntas devem buscar respostas para questões concretas e, acima de tudo,
serem claras e específicas (LAZARSFELD, 1954). O exemplo de uma pergunta
incorreta, ofertado por Lazarsfeld, é “por que você comprou este livro?”. Neste
caso, o respondente pode ter três âmbitos de resposta diferentes: “compra” (em
oposição a emprestar na biblioteca), “este” (em oposição a outros livros) e “livro”
(em oposição a outros produtos, como o ingresso para um show). Neste caso,
falta especificidade na pergunta. Perguntas que misturem diferentes âmbitos de
resposta possíveis levam a erros de análise.
34
A pergunta deve ser clara e objetiva, de modo que não reste margem para
compreensões distintas de dois respondentes diferentes. Por exemplo, na per-
gunta “você saiu para jantar fora recentemente?”, o termo “recentemente”2 pode
ser interpretado de formas profundamente diferentes a depender do respon-
dente. É preciso que a pergunta seja direta e clara sobre o período que o/a pes-
quisador(a) deseja saber.
Podemos pensar em como ajustar essas perguntas, como exercício. Para
o primeiro caso, supondo que a questão era sobre o âmbito “este”, na compra
do livro, a pergunta poderia ser algo como “por que você escolheu [título do
livro]?”, eliminando, assim, os âmbitos que poderiam causar embaraço. No
segundo caso, “você saiu para jantar fora nos últimos 30 dias?” apresenta um
intervalo de tempo claro, sem margem para interpretações diversas.
Esse tópico também vale sobre tentar questionar a respeito de conceitos, que
são construções intelectuais humanas e, portanto, podem implicar interpretações
variadas. O conceito teórico que se queira medir precisa ser traduzido em perguntas
específicas – e são estas questões específicas que devem ser emitidas ao entrevistado.
Imagine a clássica pergunta: “em uma escala de ideologia política, como
você se considera?”, apresentando uma escala entre esquerda e direita. Mas, ora,
o que é esquerda e direita? É razoável supor que alguns respondentes pode-
rão atribuir significados muito distintos a uma mesma posição. “Direita”, a
depender do entrevistado, pode significar tanto liberalismo econômico (livre
mercado) quanto conservadorismo moral. Pode significar ambos ao mesmo
tempo, mas também apenas um deles e não outro. Talvez existam pessoas que
sejam liberais econômicos sem ser conservadores morais – e vice-versa.Neste
exemplo, o ideal seria fazer, ao menos, duas perguntas: uma sobre liberalismo
econômico e outra sobre conservadorismo moral3, para que, depois, o/a pesqui-
sador(a) construa, a partir dos dados, seu conceito de “ideologia política”.
II) Fluidez
O propósito de um questionário é duplo: seu primeiro objetivo é traduzir
os conceitos e hipóteses de pesquisa em perguntas e respostas específicas, a
fim de mensurar aquilo que se propõe e o segundo é motivar o entrevistado a
2 O mesmo se aplica a termos como “frequentemente”, “raramente” etc., por vezes encontrados
em opções de respostas. Estes termos não devem ser usados, substituindo-se pelo número exato
que se quer mensurar.
3 Perceba que, ainda assim, os conceitos continuam abstratos. Perguntar “o quão conversador
moral você é?” também não é uma boa solução, pois comporta diferentes interpretações do con-
ceito. Devem ser feitas perguntas específicas sobre situações específicas. Como, por exemplo, no
caso do conservadorismo, “você é contra ou a favor do casamento homoafetivo?”, “você é a favor
ou contra o direito da mulher ao aborto?” e assim por diante.
35
continuar respondendo e concluir o questionário (CANNELL; KAHN, 1954).
O segundo ponto se torna ainda mais fundamental no caso dos questionários
online, que são autoadministrados, sem a presença de um entrevistador.
Quando falamos em fluidez, não significa que se deve apelar a recursos
heterodoxos, mas, pelo menos, não se deve atrapalhar o respondente. Deve-se
reduzir ao mínimo o esforço de leitura desnecessária. Evite redundâncias, evite
demandar do respondente um esforço que não é necessário para que ele res-
ponda à pergunta. Se alguma informação é desnecessária para a resposta, não
precisa ser incluída. Lembre-se que, enquanto nos questionários tradicionais o
entrevistador pode adequar tons de voz, nos questionários autoadministrados o
próprio respondente lerá as perguntas. Como veremos adiante, o tamanho das
perguntas também tem impacto direto nisto.
Podemos ressaltar algumas questões importantes para que o respondente
possa chegar ao fim do questionário, embora tal lista não seja exaustiva (outros
aspectos também podem ser pertinentes). Primeiro, o bloco de perguntas sobre
“perfil” do respondente deve vir ao final do questionário, não no seu começo.
Colocar perguntas sobre o perfil do indivíduo no começo pode ser duplamente
prejudicial: pode tanto cansar o respondente (com perguntas que, por serem
automáticas, não farão mal estarem ao final), como também enviesar as res-
postas, especialmente – mas não unicamente – se a pesquisa for sobre temas
sensíveis ou o respondente tiver respostas que não sejam esperadas para alguém
de sua posição social. Segundo, é necessário coerência e coesão interna na
ordem das perguntas. Perguntas fora de contexto podem causar estranheza,
além do potencial viés provocado. Terceiro, como veremos adiante, a forma
visual (layout) tem impactos diretos em surveys online. É necessária a adequa-
ção para os diversos dispositivos que podem ser utilizados pelo entrevistado
(mobile, tablet, desktop etc.). Por vezes nos deparamos com questionários em
que a página fica desconfigurada, a depender do dispositivo em uso. Isto é um
fator que cria dificuldades para que os respondentes completem o questionário.
III) As palavras
A forma – palavras e termos utilizados – com a qual a pergunta é apre-
sentada pode influenciar as respostas. Este é um dos mais antigos tópicos rela-
cionados com o estudo metodológico do efeito de surveys (RASINSKI, 1989;
SCHRIESHEIM; EISENBACH, 1995; SCHUMAN; PRESSER, 1977). Embora
continuem sendo debatidas suas diferentes intensidades, um ponto pacífico é o
fato de que a escolha de palavras importa.
Os termos utilizados podem influenciar as respostas a partir de diferentes
mecanismos. Esta influência pode ocorrer pela pressão psicológica em prol de
36
respostas socialmente aceitáveis ou pela simples falta de clareza, como em per-
guntas negativas – ou pior, de dupla negativa. Por exemplo, “você é contra o
fim do estatuto do desarmamento?” é uma pergunta confusa. A pessoa que é a
favor do estatuto do desarmamento tem que responder “Sim” (é contra o fim) e
vice-versa. Clareza é necessário, acima de tudo.
Bethlehem (2009) também alerta para o possível viés gerado pelo desequi-
líbrio nas respostas ofertadas. Por exemplo, a pergunta “você é a favor da pena
de morte?”, que tenha como possíveis respostas “(1) Sim, sem ressalvas; (2) Sim,
mas apenas em crimes hediondos; (3) Sim, mas apenas para criminosos irre-
cuperáveis e (4) Não.” é tendenciosa pois oferta três possibilidades de uma das
alternativas. Neste caso, deveria dividir-se em duas perguntas. Uma sobre apoio
ou não, outra sobre em que circunstâncias.
Além disso, no caso dos surveys online, os termos utilizados também podem
influenciar no autorrecrutamento, pois podem relevar os posicionamentos dos
pesquisadores (LEE, 2006). Um exemplo contemporâneo disto é o uso do termo
“presidenta” para referir-se à ex-presidente brasileira Dilma Rousseff. A des-
peito de estar gramaticalmente correto (e ter sido utilizado pelos órgãos ofi-
ciais durante seu mandato), socialmente o termo ficou marcado como um dos
identificadores dos apoiadores da ex-presidente, não tendo sido adotado pela
parte majoritária das grandes empresas jornalísticas. O uso deste termo, por-
tanto, poderia indicar um olhar positivo sobre esta personagem. A assunção,
por parte do respondente, sobre qual o posicionamento do/da pesquisador(a)
tende a enviesar os indivíduos propensos a responder à pesquisa – e a compar-
tilhá-la em seu meio.
Note que a influência pela escolha das palavras pode ocorrer não apenas
nas perguntas, mas também nas opções de respostas ofertadas, e na “apresen-
tação inicial do questionário”. O respondente não precisa saber as intenções
dos pesquisadores, pois isso também pode interferir em suas respostas – só é
necessário que lhe sejam passadas as informações básicas necessárias para que
responda ao questionário.4
IV) A ordem das perguntas (e das respostas)
A ordem das perguntas pode influenciar nas respostas. Almeida (2009) mos-
trou que, mesmo com perguntas idênticas, duas pesquisas podiam produzir resul-
tados consideravelmente diferentes apenas alterando a ordem das perguntas.
4 Em algumas áreas, os conselhos de ética exigem que informações completas e detalhadas sobre
os usos da pesquisa sejam fornecidas aos respondentes. Do ponto de vista meramente metodoló-
gico, isto é inapropriado.
37
O exemplo mais clássico talvez seja o da pesquisa de intenção de voto (ou
de avaliação de governo), onde, antes da pergunta com essa finalidade, ques-
tiona-se a satisfação do respondente com vários assuntos (como saúde pública,
educação, economia, segurança etc.). Nesta circunstância, tende-se a diminuir
a aprovação do mandatário (ou seu candidato). Ser “lembrado”, pelo próprio
questionário, de questões que podem interferir na resposta posterior, induz esta
resposta. Isto ocorre, sobretudo, pelo chamado learning effect – um assunto
tratado anteriormente conduz o pensamento do respondente em uma direção
específica (BETHLEHEM, 2009).
A ordem das perguntas é uma questão delicada em questionários online,
pois, hipoteticamente, o respondente pode, diante de informações apresentadas
posteriormente, retornar à pergunta anterior e alterar sua resposta. Uma solu-
ção para evitar isso pode ser a adoção de survey com multipáginas, separando
as perguntas em blocos diferentes, como abordado na seção (viii).
Ainda relacionado à questão da ordem de apresentação, a “ordem que as
respostas são apresentadas” também afeta as respostas (MALHOTRA, 2008;
MCFARLAND, 1981). Opções mais próximas das pontas (a primeira e a última)
tendem a ser mais escolhidas, em detrimento das opções que são apresentadas
no meio. Na aplicação presencial, a solução para isso – adotada, por exemplo,
em pesquisas de intenção de voto – é oferecer ao respondenteum disco circu-
lar que contenha todas as alternativas. Na aplicação online, deve-se utilizar o
recurso “embaralhar a ordem das respostas”, ofertado por praticamente todas
as ferramentas online. Neste caso, a cada vez que o questionário for aberto, as
opções de resposta aparecerão em uma ordem diferente, de forma aleatória.
V) Respostas exaustivas e mutuamente exclusivas
Em perguntas nas quais apenas uma resposta pode ser dada (como é a parte
majoritária das perguntas utilizadas nestes questionários), as respostas devem ser
exaustivas e mutuamente exclusivas (FOWLER JR; COSENZA, 2008). Estes são
dois conceitos fundamentais e recorrentes na organização lógica de classificação,
como, por exemplo, nas categorias para análise de conteúdo (CARLOMAGNO;
ROCHA, 2016; KRIPPENDORFF, 2004).
Ser exaustivo significa que deve-se esgotar as possibilidades de resposta,
isto é, todas as respostas possíveis devem estar previstas como alternativas. Ser
mutuamente exclusivo significa que não pode existir a possibilidade lógica de
duas alternativas serem verdadeiras ao mesmo tempo. Elas devem se excluir
mutuamente.
Um exemplo que podemos ofertar de respostas não exaustivas é o de um
questionário que, ao perguntar a raça do respondente, ofereça as alternativas:
38
branco, negro, pardo, amarelo. Podemos notar que, além do “prefiro não res-
ponder”, falta a opção “indígena”. Embora talvez naquela pesquisa não fosse
esperado que nenhum indígena respondesse ao questionário, se esta é uma res-
posta possível, logo, deve estar prevista.5 O fato de que todas as respostas pos-
síveis devem estar previstas implica que, por padrão, todas as perguntas devem
conter a opção: “Não sei/Prefiro não responder”, pois esta é uma possibilidade
de resposta dos entrevistados. Apesar dessa regra padrão, este tópico é um
pouco mais complexo, conforme trataremos no tópico seguinte.
A questão de respostas não mutuamente excludentes é mais grave, pois não
pode ser resolvida posteriormente, podendo vir a invalidar a pergunta e todas
as respostas obtidas. Um exemplo que pode ser ofertado, retomando a pergunta
“por que você comprou este livro?”, utilizada como exemplo anterior, seriam as
alternativas de resposta, em uma pergunta de resposta única: a) preço acessí-
vel, b) interesse pelo assunto ou autor, c) recomendação de amigos, familiar ou
conhecido, d) capa bonita e e) outros. Perceba que, neste exemplo, a exaustivi-
dade foi, ainda que mal, atendida com o uso da opção “outros”, mas as respostas
não se excluem mutuamente, pois mais de uma (ou mesmo todas) podem ser
verdadeiras ao mesmo tempo. No caso deste exemplo, haveria diversas saídas
possíveis. A mais rápida poderia ser qualificar melhor a pergunta, como “qual
o principal motivo por que você comprou...”. Neste caso, assume-se que outras
respostas também podem ser verdadeiras, mas se quer saber o principal motivo.
Uma segunda abordagem seria transformar a pergunta em resposta múltipla.
Este tipo de pergunta, contudo, tende a não fornecer respostas muito robustas,
pois não se sabe qual a ordem de importância dos fatores marcados. Uma ter-
ceira saída para o exemplo ofertado seria listar os fatores e pedir para elencar-se
a ordem de importância. Esta é a abordagem que fornece mais informações aos
pesquisadores, mas deve ser usada com parcimônia, pois, se utilizada de forma
excessiva, pode-se correr o risco de cansar o respondente.
VI) “Não sei”
O uso de uma opção “não sei” enseja uma longa discussão, quando em
pesquisas mais sofisticadas. Por padrão, precisa ser ofertado ao respondente a
possibilidade de dizer que não sabe alguma resposta. Contudo, alguns estudos
testaram cenários em que esta opção está ausente, apresentando resultados que
não são unânimes. Há argumentos que apontam indiferença (POE et al., 1988)
e que discutem quando utilizar ou não esta opção (MCCLENDON; ALWIN,
5 É preciso, contudo, ter cuidado para não criar alternativas demais de respostas. Muitas opções
geram perda considerável na qualidade da análise.
39
1993). O problema essencial é que a possibilidade de responder “não sei” pode
levar a “falsos negativos”, isto é, pessoas que tenham uma opinião – ainda que
fraca – mas estejam receosos de as expressar (GILLJAM; GRANBERG, 1993).
Quando o assunto da pergunta é fundamental para a pesquisa sendo con-
duzida – como mensurar o conhecimento político em pesquisas sobre partici-
pação e cidadania (MONDAK; DAVIS, 2001) –, não permitir estas respostas
pode ser útil. No entanto, vale ressaltar que esta é uma abordagem alternativa,
possível em algumas circunstâncias. Estas devem ser analisadas caso a caso, em
cada pesquisa. Por padrão, o recomendado é oferecer o “não sei”. Especialmente
em se tratando de questionários online, precisamos ponderar que, se a pergunta
for de resposta obrigatória (ou seja, aquele tipo que o respondente não a possa
“pular”), isto pode gerar um beco sem saída ao respondente, de forma que ele
simplesmente não consiga continuar a responder e abandone o questionário.
Além disso, a ausência de “não sei” (e, a depender da pergunta, “não se aplica”)
pode potencialmente aumentar também as respostas dos pontos médios.
VII) As escalas
Que tipos de escalas utilizar é uma questão delicada. O aumento do número
de pontos na escala até sete melhora a qualidade da medida, mas além disto não
há efeitos (FOWLER JR; COSENZA, 2008; LEE, 2006). As respostas são mais
consistentes (e com maior confiabilidade) quando todas as categorias estão
rotuladas com palavras, ao invés de apenas rotular os extremos ou usar unica-
mente números6 (FOWLER JR; COSENZA, 2008; LEE, 2006). Também é pre-
ciso que o conjunto de perguntas apresente coerência na direção e no tipo das
escalas. Se em uma pergunta você pede a concordância, na pergunta seguinte
a discordância e na próxima a concordância novamente, isto pode confundir o
respondente, ocasionando erros – o mesmo se aplica se você alternar os tipos de
escala (cinco pontos, sete pontos, cinco pontos) ao longo do questionário.
Lee (2006) argumenta que uma das importantes decisões que o/a pesqui-
sador(a) deve tomar ao elaborar um questionário é oferecer ou não um ponto
médio na escala de respostas. Embora seja recomendável ofertar a alternativa
mediana, pois ela pode realmente melhor representar o posicionamento dos
respondentes, as pesquisas têm confirmado que a presença de um ponto médio
aumenta a proporção de respondentes adotando a resposta neutra (KALTON;
ROBERTS; HOLT 1980; PRESSER; SCHUMAN 1980).
6 Por outro lado, a vantagem do contínuo numérico é que mais do que cinco adjetivos podem ser
indistintos aos respondentes. Uma das mais utilizadas nestas pesquisas é a escala Likert.
40
A título ilustrativo, a figura a seguir apresenta a mesma questão em três
tipos de escalas diferentes: apenas os extremos rotulados; todas as categorias
rotuladas e ponto médio e todas as categorias rotuladas e sem ponto médio.
Figura 1 - Exemplo de escalas
Fonte: elaboração própria
Não há maneira correta ou errada, mas a que melhor se encaixa aos objetivos
da pesquisa. Em alguns casos, em que a nuance é clara, o ponto intermediário
pode ser pertinente. Em outros casos, pode ser uma estratégia mais vantajosa
não oferecer um ponto intermediário, para evitar o risco de uma parcela grande
escolher ficar “em cima do muro”.
Em qualquer caso, o/a pesquisador(a) deve escolher de forma consciente
sua escala e saber justificar esta escolha à luz de seus objetivos de pesquisa.
Vale lembrar que as escalas que você usará dependem, também, de como você
pretende tratar estes dados e da conversação com a literatura da área. Outro
elemento a se considerar é a adequação ao público-alvo.
XIII) A forma visual (layout)
Em questionários autoadministrados, em que não há um entrevistador para
auxiliar nas perguntas, questões que usualmente não se aplicam a questionários
tradicionais surgem. Uma destas questões salientes é a forma visual (layout)
41com que o questionário se apresenta. Destacam-se dois aspectos: (a) design de
página única (estática) ou múltiplas páginas e (b) plano de fundo e cores.
A forma da página se refere a dois tipos visuais que o questionário pode
apresentar: uma página única, estática, com todas as perguntas de uma vez, que
demande a rolagem com o mouse, ou múltiplas páginas, que apresente somente
algumas perguntas de cada vez e que demande ao respondente clicar em “pró-
xima” para acessar a página seguinte.
Embora os resultados sobre estas questões não sejam conclusivos – nem a
pesquisa conduzida até aqui esteja perto de seu fim, existindo muito caminho
ainda a ser explorado –, experimentos conduzidos por Manfreda, Batagelj e
Vehovar (2002) apontam que:
• O design de uma página (estática): a) aumenta o número de não-res-
posta ao item, b) aumenta a correlação entre os itens (gera um viés de
associação nos respondentes) e c) diminui o número de desistências
(questionários abandonados antes de serem completados).
• O design de múltiplas páginas: a) diminui a não-resposta ao item e b)
aumenta o abandono do questionário, sem finalização, sobretudo na
forma extrema deste design, em que cada questão ocupa uma página
(esta forma deve ser fortemente evitada).
Como se percebe, há pontos negativos e positivos nas duas formas. Os auto-
res também testaram dois modelos visuais, um simples e outro com ilustrações
visuais. Os resultados da pesquisa indicam que o uso de logotipos aumenta o
número de respondentes abandonando o survey sem completá-los – embora
este aspecto esteja estatisticamente correlacionado ao equipamento usado e ao
tipo de conexão com a internet7. Pelo lado positivo, este design tende a diminuir
as não-respostas ao item. A comparação dos dois tipos, contudo, parece não
exercer influência sobre o conteúdo do que é respondido.
Em suma, o uso de recursos visuais pode tanto aumentar a atratividade
perante os respondentes quanto, eventualmente, torná-lo mais difícil de ser
acessado e completado, o que pode reduzir a taxa de respostas. Ganassali (2008)
sugeriu que a questão visual depende do tipo de incentivo visual, aumentando
a taxa de respostas quando o incentivo visual era relevante para a pesquisa. Ou
7 Aqui, precisamos ponderar o contexto em que foi produzida a pesquisa destes autores, que
talvez não se aplique mais atualmente.
42
seja, a recomendação de seu uso depende do contexto de cada pesquisa, não
havendo uma regra única para todas.
É uma boa ideia, contudo, especialmente no caso dos questionários multipá-
ginas, o uso de um indicador de progresso. Permitir que respondentes saibam o
quanto estão próximos do fim previne que desistam na metade e diminui aban-
donos ao questionário (MANFREDA; VEHOVAR, 2008). Também é importante
certificar-se de que o questionário se adapte e responda corretamente aos diversos
dispositivos a partir dos quais pode ser acessado (tablet, desktop, smartphone etc.).
IX) O tamanho
O que, sistematicamente, as pesquisas têm concluído é que tamanho importa.
Tanto o tamanho do questionário quanto o tamanho de cada pergunta está
relacionado ao esforço requerido dos respondentes. Ganassali (2008) aponta
que o tamanho ótimo recomendado para questionários autoadministrados é
entre 15 e 30 questões e que o tamanho de cada questão não deve ultrapassar 20
palavras. Perguntas mais curtas diminuem a probabilidade de mal-entendidos
por parte dos respondentes. Além disso, questionários mais curtos têm taxa
de respostas mais alta (DEUTSKENS et al., 2004). Em questionários longos,
questões posicionadas próximas ao fim apresentam respostas mais curtas, mais
rápidas e mais uniformes do que as respostas de questões no começo (Galesic;
Bosnjak, 2009), sendo, portanto, enviesadas devido à questionnaire fatigue, o
cansaço do respondente (BETHLEHEM, 2009).
3. DESAFIOS
Nesta seção, resumiremos os principais problemas enfrentados na aplicação
online de questionários, sobretudo em termos de sua representação amostral.
I) Cobertura e erro amostral
O principal problema em surveys online – e motivo, até a presente data, por
que eles não podem substituir os surveys tradicionais – é a cobertura. Uma vez
que o acesso à internet não é distribuído igualmente na sociedade – mesmo em
países com alto acesso à internet, como os escandinavos, o uso efetivo pode
variar substancialmente (por exemplo, entre os mais idosos) – não é possível
construir amostras representativas da população somente a partir de aplica-
ções online. A solução para isso é compreender – e claramente reconhecer – que
surveys aplicados online não representam a população. O recorte destes estudos
deve ser definido de maneira estrita. No melhor dos casos, à população com
acesso à internet; na maioria dos casos, aos usuários do site X ou Y.
43
Relacionado a isso, o erro amostral ocorre quando mesmo membros da
população recortada não são selecionados de forma adequada. Neste caso, a
replicabilidade da pesquisa é prejudicada, pois se outros pesquisadores refize-
rem a pesquisa, com outra amostra, poderão chegar a resultados diferentes. A
diferença dos dois aspectos, segundo Couper (2000), é que:
Enquanto o erro de cobertura se refere a pessoas ausentes
do recorte (neste caso, aqueles sem acesso à internet), o erro
amostral surge durante o processo de seleção de uma amostra
da população estudada (COUPER, 2000, p. 467).
O processo de seleção exerce um papel fundamental para o erro amostral,
como veremos adiante, no tópico (iii).
II) Não-respostas
A não-resposta ocorre quando uma parcela dos convidados a responder ao
questionário não o fazem – ou respondem apenas parcialmente. A não-resposta
pode ocorrer: (a) ao questionário e (b) ao item (pergunta).
A não-resposta só pode ser calculada em amostras probabilísticas – e nesta
probabilidade, como argumenta Groves (2006), reside a capacidade inferencial
dos surveys de representar a população total sem viés. Se a taxa de não-res-
postas é alta, não é possível garantir que os resultados não contenham viés de
alguma natureza8. Em surveys não-probabilísticos, não é possível calcular a taxa
de não-resposta, logo, não é possível saber o nível de incerteza da pesquisa e se
ela contém ou não algum viés.
Em questionários online, aspectos distintos daqueles presentes em aplica-
ções presenciais podem levar a não-respostas. Por exemplo, enquanto em apli-
cações presenciais os atributos físicos dos aplicadores afetam a taxa de não-
-resposta (GROVES, 2006), em questionários online este fator é residual. Os
mais célebres aspectos relacionados à não-resposta ao questionário online são o
tamanho (questionários menores aumentam as taxas de resposta) e a presença
de elementos visuais (DEUTSKENS et al., 2004), embora, em termos mais bási-
cos, também seja preciso considerar questões como o equipamento técnico para
acesso à web e a familiaridade do respondente em lidar com estas ferramentas,
para o correto preenchimento. Já a não-resposta ao item, contudo, pode estar
8 Vale notar que as taxas de não-resposta não obrigatoriamente indicam a presença de um viés,
mas a possibilidade do mesmo.
44
relacionada a vários aspectos, entre os quais perguntas formuladas inadequada-
mente (por isso a importância de um bom questionário).
III) Viés de autosseleção
Este provavelmente seja o mais grave problema envolvendo surveys online –
e diretamente se aplica ao tipo mais popular atualmente, aquele de autosseleção
irrestrita.
O problema da autosseleção reside no fato de que, nestas pesquisas, o ques-
tionário é distribuído em sites e redes onde pessoas possuem algum interesse
no assunto relacionado à pesquisa. Sua participação, portanto, está diretamente
relacionada às variáveis do estudo (COUPER; BOSNJAK, 2010) e o/a pesquisa-
dor(a) não controla quem decide participar ou, principalmente, seus motivos
(BETHLEHEM, 2009). É provável que os indivíduos engajados em participar
da pesquisa sejam mais