Baixe o app para aproveitar ainda mais
Prévia do material em texto
Enzo Del Carratore Jayme Laperuta Filho CULTURA ACADÊMICA E d i t o r a LÉXICO DE FREQUÊNCIA DO PORTUGUÊS FALADO NA CIDADE DE SÃO PAULO (PROJETO NURC) LÉXICO DE FREQUÊNCIA DO PORTUGUÊS FALADO NA CIDADE DE SÃO PAULO (PROJETO NURC) LÉXICO DE FREQUÊNCIA DO PORTUGUÊS FALADO NA CIDADE DE SÃO PAULO (PROJETO NURC) LÉXICO DE FREQUÊNCIA DO PORTUGUÊS FALADO NA CIDADE DE SÃO PAULO (PROJETO NURC) E N Z O D E L C A R R A T O R E J A Y M E L A P E R U T A F I L H O Léxico de frequência do português falado na cidade de São Paulo (Projeto NURC) MARÍLIA 2011 UNIVERSIDADE ESTADUAL PAULISTA FACULDADE DE FILOSOFIA E CIÊNCIAS Diretora: Profa. Dra. Mariângela Spotti Lopes Fujita Vice-Diretor: Dr. Heraldo Lorena Guida Copyright© 2011 Conselho Editorial Conselho Editorial Mariângela Spotti Lopes Fujita (Presidente) Adrián Oscar Dongo Montoya Célia Maria Giacheti Cláudia Regina Mosca Giroto José Blanes Sala Marcelo Fernandes de Oliveira Maria Rosângela de Oliveira Mariângela Braga Norte Neusa Maria Dal Ri Rosane Michelli de Castro Ubirajara Rancan de Azevedo Marques Ficha catalográfi ca Serviço de Biblioteca e Documentação – Unesp - campus de Marília Del Carratore, Enzo. D344l Léxico de freqüência do português fala na cidade de São Paulo : projeto NURC / Enzo Del Carratore, Jayme Laperuta Filho. – Marília : Oficina Universitária ; [São Paulo] : Cultura Acadêmica, 2011 25 p. + anexos ; 23 cm. ISBN 978-85-7983-155-3 1. Linguística. 2. Língua portuguesa – Português falado - São Paulo (SP). 3. Lexicologia. 4. Léxico de freqüência. I. Laperuta Filho, Jayme. II. Título. CDD 413 L É X I C O D E F R E Q U Ê N C I A 3 SUMÁRIO Introdução ................................................................................................................................1 1 Antecedentes ........................................................................................................................2 2 Escolha do CORPUS ..........................................................................................................4 3 Critérios e problemas de amostragem ..............................................................................10 4 Metodologia ..........................................................................................................................13 5 A lematização e seus problemas ........................................................................................15 6 A norma lexicologica ...........................................................................................................19 7 Processamento eletrônico ................................................................................................... ANEXO 1 - Léxico de freqüências ......................................................................................26 ANEXO 2: Relatório comparativo dos valores de FT, KF e C em ordem decrescente ........................................................................................................256 1 Introdução 1 Antecedentes Este Léxico de Frequência deseja ser mais uma contribuição ao já elevado contingente de trabalhos desenvolvidos no país sobre o Projeto NURC, cujo acervo hoje representa uma fonte inesgotável de material para os pesquisadores das diversas áreas da ciência linguística1. A intenção inicial era a de elaborar um Léxico da língua portuguesa contemporânea falada no Brasil, utilizando o acervo lexical coletado nas cinco cidades onde o Projeto NURC se desenvolve, ou seja, São Paulo, Rio de Janeiro, Recife, Salvador e Porto Alegre, o que sem dúvida traria, com a maior abrangência, um maior interesse aos resultados da pesquisa. No entanto, a fixação de outras prioridades por parte da Coordenação do Projeto acabou por inviabilizar a intenção original, levando-me a reformular o plano previsto, restringindo seu alcance e limitando-o aos dados recolhidos na cidade de São Paulo, onde os coordenadores locais, Ataliba T. de Castilho e Dino Preti (USP), manifestaram seu apoio e asseguraram sua cooperação. Portanto, este Léxico, longe de definitivo, deve ser considerado um trabalho exploratório, visto que foi concebido e elaborado tendo como uma de suas finalidades a de adquirir o domínio das técnicas de quantificação e de processamento eletrônico capazes de produzir, num futuro que espero próximo, um léxico de frequência do Português culto do Brasil, que poderá incluir as modalidades oral e escrita. Este trabalho foi executado em duas etapas: a primeira, desenvolvida ao longo do primeiro semestre de 1982, em que realizei, sob o patrocínio da Fundação de Amparo à Pesquisa do Estado de São Paulo � FAPESP, estágios em diversos centros especializados em linguística computacional, principalmente o Istituto di Linguística Computazionale de Pisa (Itália), e o Centro de Computação de El Colegio de México. Nesses núcleos, aprendi as técnicas básicas de elaboração eletrônica que me permitiram efetuar um teste a partir de um corpus de pouco mais de 30.000 ocorrências, e assim compilar um miniléxico de frequência constituído por 2.883 lemas; seria este o primeiro passo em direção ao Léxico que ora se apresenta2. A segunda etapa, fragmentada por numerosas interrupções devidas a problemas estritamente pessoais, desenvolveu-se junto ao então Centro de Computação da UNESP, campus de Botucatu, onde o pesquisador Jayme Laperuta Filho, co-autor deste Léxico, analisou os resultados obtidos e as técnicas utilizadas, elaborando novas técnicas de trabalho que conduziram ao aperfeiçoamento de todo o procedimento eletrônico, e que resultaram num produto final de qualidade certamente não inferior à dos léxicos de frequência que conhecemos. A despeito disso, dúvidas quanto à qualidade e à oportunidade deste trabalho levaram-me a desistir do empreendimento e a engavetar os resultados de maneira que julgava definitiva. E assim ficaram, abandonados, durante cerca de 14 anos; a ponderação de que não seria justo desperdiçar um material potencialmente rico e eventualmente útil a algum pesquisador e ao próprio Projeto NURC levou-me a retomar a tarefa inicial, reduzir ao mínimo a fundamentação teórica, e oferecer à comunidade acadêmica o mais que modesto e tardio fruto de um trabalho ingente e merecedor de melhor êxito, pelo que desde já me penitencio e peço escusas à inevitável e justa crítica. É meu dever apresentar os meus agradecimentos, em primeiro lugar, à Fundação de Amparo à Pesquisa do Estado de São Paulo � FAPESP, que me proporcionou os meios de estagiar nos centros já identificados, aos quais acrescento o Departamento de Letras da Universidade de Lisboa, na pessoa do Dr. João Malaca Casteleiro e seus 1 Sobre a história do Projeto NURC e suas realizações, remeto o leitor à obra de CASTILHO, A. T.; PRETI, D. (Org.). A linguagem falada culta na cidade de São Paulo, v. I; além das informações necessárias, este volume traz uma completa bibliografia sobre o Projeto. 2 Todos os dados referentes a esta etapa foram publicados pela atual Faculdade de Filosofia e Ciências de Marília, 1983, sob o título Nota prévia ao léxico de frequência do Português contemporâneo de São Paulo (Projeto NURC) e, republicados em CASTILHO, A. T. (Org.). Português culto falado no Brasil, p.169-198. 2 colaboradores; no ILC de Pisa, além do seu diretor, Dr. Antonio Zampolli, falecido em trágico acidente doméstico e a quem rendo minha homenagem póstuma, recebi a inestimável ajuda do pesquisador Remo Bindi, além de muitos outros, de quem omito os nomes para nãocometer a injustiça de esquecer algum; no Centro de Cómputo de El Colégio de México, a atenção especial do Dr. Luís Fernando Lara e da pesquisadora María Isabel García Hidalgo merecem destacado registro; e por fim, mas não em ordem de importância, em São Paulo, além dos colegas e amigos Ataliba T. de Castilho e Dino Preti, que sempre e pacientemente confiaram no meu trabalho, minha gratidão se dirige aos anônimos transcritores das gravações e, na última fase de coleta dos dados, à Profª Áurea Santos Preti, que transcreveu o número de gravações necessário ao completamento do corpus. E ao Jayme, co-autor deste trabalho, a cuja dedicação, competência e paciência ímpares devo este resultado, qualquer agradecimento parecerá pobre e mofino � mas sua generosidade o aceitará mesmo assim. A todos e a cada um, meu muito obrigado. 2 Escolha do CORPUS As gravações efetuadas na cidade de São Paulo abrangiam três tipos de entrevistas: diálogo entre dois informantes, diálogo entre o informante e o documentador, e elocução em atitude formal. A primeira experiência - a de 1982 - e posteriores leituras de alguns inquéritos dos três tipos levaram-me à decisão de eliminar os do tipo "diálogo entre dois informantes", pela impossibilidade de levar em conta as variáveis "sexo" e "faixa etária" em virtude dos numerosos cruzamentos e dos depoimentos extremamente entrecortados dos informantes, e os do tipo "elocução formal", que, além de pouco representativos do total (cerca de 7,6% das gravações em São Paulo), trariam inevitáveis distorções aos resultados pelo acúmulo de termos especializados numa determinada área semântica. Detive-me, pois, nos inquéritos do tipo DID (diálogo entre um informante e o documentador), de que havia já gravados, na ocasião do levantamento, 373, assim divididos: número de inquéritos Área I M I F II M II F III M III F 1 1 6 2 2 1 - 2 2 4 5 7 2 2 3 5 10 4 4 3 3 4 3 4 6 7 2 3 5 - 6 5 2 2 7 6 11 1 5 7 2 2 7 2 1 10 12 4 6 8 1 5 11 3 2 1 9 2 2 3 1 4 2 10 8 1 6 4 3 5 11 - - 3 1 2 - 12 1 2 3 1 3 - 13 3 3 5 5 4 1 14 6 2 5 1 6 1 15 2 2 8 2 3 4 16 4 4 2 2 1 - 17 1 4 1 - 1 - 18 5 - 6 2 - - 19 5 1 2 1 1 - 20 6 1 3 2 1 1 68 59 95 66 47 38 = 373 Quadro 1 Fonte: Elaboração própria. Por faixa etária, os inquéritos eram assim distribuídos: I - 127 (34,05%) II - 161 (43,16%) III - 85 (22,79%) 3 Por sexo dos informantes, a divisão era esta: Masc. - 210 (56,30%) Fem. - 163 (43,70%) Os questionários versavam sobre 20 áreas temáticas, que, na intenção dos autores do Projeto, cobririam todo o universo sensível dos falantes entrevistados; essas 20 áreas, por sua vez, foram agrupadas em cinco conjuntos por um critério de afinidade conceitual, conforme quadro abaixo: Conjunto Área semântica A 1 - Corpo humano 2 - Alimentação 3 – Vestuário B 4 – Casa 5 - Família, saúde, ciclo da vida 6 - Vida social, diversões C 7 - Cidade, comércio 8 - Transporte, viagens 9 - Meios de comunicação e difusão 10 - Cinema, televisão, rádio, teatro D 11 - Comércio exterior, política nacional 12 - Sindicatos e cooperativas 13 - Profissões e ofícios 14 - Dinheiro, bancos, finanças, bolsa 15 – Instituições, ensino, igreja E 16 – Meteorologia 17 - Tempo cronológico 18 - Terreno 19 - Vegetais, agricultura 20 - Animais, rebanho Quadro 2 Fonte: Elaboração própria. Mantive essa estrutura e dela fiz a base da estratificação utilizada. Longe de ser a ideal, essa estratificação me parece a mais conveniente em face dos dados disponíveis tais como eles foram coletados: se de um lado se observará certa tendência a uma dispersão irregular entre os conjuntos e certa especialização lexical, esperadas em decorrência de razões de ordem temática, por outro lado também se observará a presença de um léxico comum às várias áreas semânticas, e que constitui a base lexical do idioma na sua modalidade falada3. Quanto à extensão do corpus, que constituiria meu "universo" lexical, optei por limitar-me ao mínimo recomendado pela Subcomissão Executiva do Projeto NURC para análises parciais dos dados levantados, fixado em 25 horas de gravação. Para simplificar, e baseado em cálculos e testes preliminares, tal volume de registros fonográficos forneceria aproximadamente 250.000 formas lexicais, que me pareceram amplamente suficientes para elaborar um 3 A. Juilland, nos seus Frequency Dictionaries – do Espanhol (FDSW, 1964), do Romeno (FDRW, 1965), do Francês (FDFW, 1970) e do Italiano (FDIW, 1973), dividiu seu “universo” lexical em cinco “mundos”, constituídos de 100.000 palavras cada, de acordo com a natureza dos textos escolhidos: teatro; ficção; ensaios; jornais e periódicos; literatura técnica e científica. Os autores do Lessico di Frequenza della Lingua Italiana Contemporanea (LIF) substituíram a categoria “ensaios” pela de “cinema” (textos dialogados de filmes), e a de “literatura técnico-científica” pela de “livros-texto” (manuais para uso dos alunos das escolas de primeiro grau). Por sua vez, a equipe do Diccionario del Espanõl de México (DEM), chefiada por Luís Fernando Lara, estratificou seu corpus em nada menos que 14 categorias de textos, ou “gêneros”, atendendo à recomendação de R. Moreau – stratifiez à outrance... -; consultem-se a respeito, de Luís F. Lara e Roberto Ham Chande “Base estadística del DEM”, e de Roberto Ham Chande “Del 1 al 100 em Lexicografia”, em Investigaciones Linguísticas en Lexicografia. De minha parte, já que o material colhido não comportava distinções de gênero, optei pela divisão nada ideal em cinco conjuntos, baseados em afinidades de ordem temática. 4 léxico de frequência constituído de pelo menos 2.000 lemas diferentes, selecionados de acordo com parâmetros estatísticos descritos adiante. Após a execução de todo o processo, verificou-se que haviam sido computadas 242.619 formas, portanto um total pouco menos de 3% inferior ao limte proposto, o que seria perfeitamente aceitável num empreendimento desta natureza. No entanto, ocorreu um lamentável incidente em algum momento da longa interrupção do projeto: alguns arquivos foram irremediavelmente danificados e não puderam ser recuperados; deste modo, o total de formas registrado foi reduzido para 224.944, que é o que será considerado para todos os efeitos de cálculo; o total de lemas manteve-se inalterado em 2.207, número compatível com as expectativas iniciais. 3 Critérios e problemas de amostragem Para a composição da amostra que viria a constituir o corpus da pesquisa, selecionei, mais ou menos aleatoriamente4, 189 trechos de extensão variável, extraídos de 138 inquéritos – o que significa que foram utilizados pouco mais de um terço (exatamente 37%) dos 373 inquéritos disponíveis. Os inquéritos, parcial ou totalmente transcritos, e de que foram selecionados os trechos que compuseram a amostra, são os seguintes: Fx.et. sexo conj.e área no. Inquér. DID Fx.et. sexo conj.e área no. Inquér. DID I M A-01 92 III M B-05 188 I F A-01 9,73 III F B-05 201 II M A-01 218 II F A-01 232 I M B-06 28,32 III M A-01 264 I F B-06 299 II M B-06 44,102,158 I M A-02 2 II F B-06 278,300 I F A-02 247 III M B-06 20,262 II M A-02 6,40,215 III F B-06 223 II F A-02 11,121,235 III M A-02 20,261 I M C-07 7 III F A-02 200 II M C-07 14,56,120,137,163 II F C-07 11,59,286,289,300 I M A-03 36,92 III M C-07 45,133 I F A-03 9,73 III F C-07 288,303 II M A-03 6,179,191,204 II F A-03 165,209,244 I M C-08 2,4 III M A-03 188 I F C-08 31 III F A-03 202 II M C-08 56,63,110,224 II F C-08 121,190 I M B-04 5,64 III M C-08 71 I F B-04 27,37,54 III F C-08 200 II M B-04 24,178 II F B-04 90 I M C-09 25 III M B-04 221 I F C-09 31 III F B-04 260 II M C-09 123 II F C-09 313 I F B-05 27,42,118 III M C-09 20,239 II M B-05 208 III F C-09 273A tentativa de seleção totalmente aleatória dos textos malogrou: a péssima qualidade da gravação em alguns casos, a entrevista extremamente recortada, com respostas quase monossilábicas às numerosas intervenções do documentador em muitos outros casos, recomendaram que se fizesse uma escolha prévia de trechos que apresentassem um mínimo de fluência e de adequação ao assunto da entrevista. Não tenho dúvidas de que foi o procedimento mais correto e apropriado. 5 II F B-05 39 I M C-10 29,36 I M E-16 29,46,82 I F C-10 135 I F E-16 1,34,37 II M C-10 179,240 II M E-16 166,191 II F C-10 107,234 II F E-16 233 III M C-10 132,213 III M E-16 128 III F C-10 279,328 I M E-17 46 II M D-11 35 I F E-17 34,37,52 II F D-11 284 II M E-17 67 III M D-11 71 III M E-17 128 I M D-12 43 I M E-18 30,70,82,85 II M D-12 40,229 II M E-18 38,100,123 II F D-12 231 II F E-18 160 III M D-12 258,272 I M E-19 18,30,91 I M D-13 29,43 II M E-19 38 I F D-13 41,251 II F E-19 93 II M D-13 40,172,181 III M E-19 88 II F D-13 162,165 III M D-13 210,214 I M E-20 18,19,85,91 III F D-13 206 I F E-20 219 II M E-20 166,186 I M D-14 25,46,69 II F E-20 93,238 I F D-14 236,248 III M E-20 265 II M D-14 60,83,158 III F E-20 237 II F D-14 268 III M D-14 243,250,263 III F D-14 269 I M D-15 5,46 I F D-15 13 II M D-15 56,163,181 II F D-15 108,114 III M D-15 134,188 III F D-15 201,242 Quadro 3 Fonte: Elaboração própria. A amostragem, estratificada proporcional, combinará o número de inquéritos de cada área com as seguintes variáveis: 1. Faixa Etária: I (entre 25 e 35 anos); II (entre 36 e 55 anos); III (acima de 56 anos); em São Paulo, os 373 inquéritos do tipo DID, repartidos pelas três faixas etárias com 127, 161 e 85 inquéritos respectivamente, obedecem, como vimos, à proporções 34%, 43% e 23% do total, o que representa bem os valores teóricos previstos pelos organizadores do Projeto, respectivamente 30%, 45% e 25%. De minha parte, também procurei manter inalteradas as mesmas proporções, o que resultou na seguinte distribuição pelas faixas etárias: I - 64 textos, ou 33,86% do total; 6 II - 80 ,, , ou 42,33% do total; III - 45 ,, , ou 23,81% do total. 2. Sexo: em São Paulo, os 373 inquéritos se repartem em 210 (56,30% do total) com informantes do sexo masculino, e 163 (43,70% do total) com informantes do sexo feminino. Após a seleção dos textos, 117 resultaram pertencerem a informantes do sexo masculino (59,79% do total), e 76 a informantes do sexo feminino (40,21% do total). A partir dessas variáveis, e após as devidas operações para o cálculo dos tempos de gravação e posterior transformação desses tempos em número de ocorrências (�palavras�), ter-se-á o seguinte quadro de valores teóricos: CONJ. ÁREA I II III Palavras por área M F M F M F A 1 2500 (1) 2000 (2) 1400 (1) 1140 (1) 660 (1) ---- 7700 2 2140 (2) 1660 (1) 4200 (4) 3420 (3) 1400 (1) 1120 (1) 13940 3 2500 (2) 2000 (2) 4600 (4) 3600 (3) 1780 (1) 1380 (1) 15850 (10) 12800 (16) 18360 (5) 6340 37500 = 15% B 4 3960 (3) 3150 (3) 2140 (2) 1660 (1) 1600 (1) 1250 (1) 13760 5 ---- 2850 (2) 1860 (1) 1450 (1) 2420 (2) 1880 (1) 10460 6 3180 (2) 2500 (1) 3180 (3) 2500 (2) 1090 (1) 830 (1) 13280 (11) 15640 (10) 12790 (7) 9070 37500 = 15% C 7 830 (1) 660 (1) 6250 (5) 4760 (4) 2800 (2) 2220 (2) 17520 8 1660 (1) 1320 (1) 4000 (4) 3060 (3) 830 (1) 660 (1) 11530 9 1120 (1) 870 (1) 1120 (1) 860 (1) 1660 (1) 1320 (1) 6950 10 2800 (2) 2220 (2) 2800 (2) 2220 (2) 2240 (2) 1720 (2) 14000 (10) 11480 (22) 25070 (12) 13450 50000 = 20% D 11 ---- ---- 1760 (1) 1380 (1) 1600 (1) ---- 4740 12 1320 (1) 1050 (1) 1760 (1) 1380 (1) 2370 (2) ---- 7880 13 2640 (2) 2080 (2) 4500 (3) 3480 (2) 2220 (2) 1730 (1) 16650 14 3570 (3) 2760 (2) 3690 (3) 1050 (1) 4310 (3) 1210 (1) 16590 15 1760 (1) 1380 (1) 4500 (3) 3480 (2) 3100 (2) 2420 (2) 16640 (13) 16560 (18) 26980 (14) 18960 62500 = 25% E 16 4980 (3) 3800 (2) 2500 (2) 1910 (1) 1100 (1) ---- 14290 17 1530 (1) 3930 (3) 1100 (1) ---- 1100 (1) ---- 7660 18 5640 (4) ---- 4980 (3) 3800 (2) ---- ---- 14240 19 5120 (3) 1420 (1) 1850 (1) 1420 (1) 1100 (1) ---- 10910 20 5960 (4) 1700 (1) 3060 (2) 2420 (2) 1260 (1) 1000 (1) 15400 (22) 33900 (15) 23040 (5) 5560 62500 = 25% (66) 90380 (36,15%) (81) 106240 (42,50%) (43) 53380 (21,35%) 25000 = 100% Quadro 4 Fonte: Elaboração própria. 1. Entre parênteses, número de inquéritos a ser utilizados. 2. Um erro de inversão dos valores da terceira coluna entre as linhas 3 e 4, não corrigido a tempo, ocasionou uma diferença de valores nas colunas seguintes dos conjuntos A e B; as diferenças, entretanto, não são significativas, e em nada alterariam os resultados finais. 3. Todos os valores foram arredondados para maior simplificação. 4. Os percentuais da última linha do Quadro 4 representam bem os dos inquéritos disponíveis (34%, 43% e 23% para as faixas etárias I, II e III respectivamente). 7 Para a fixação dos valores mostrados no Quadro 4, um problema teórico precisou ser solucionado; com efeito, uma alternativa se punha, sob a forma de dois caminhos possíveis: a) considerar todas as n áreas iguais em extensão (ni = 12.500); b) calcular os valores teóricos de cada área proporcionalmente ao número de inquéritos existentes por área. Como o levantamento dos documentadores do Projeto em São Paulo privilegiou nitidamente a primeira metade das áreas (237) em prejuízo da segunda metade (136), se o caminho escolhido fosse o segundo, a somatória dos conjuntos D e E, com 10 áreas, teria uma extensão bem inferior à dos conjuntos A, B e C, também abrangendo 10 áreas (os valores seriam os seguintes: A = 42.225; = 50.269; C = 66.355; D = 52.948; E = 38.203 ocorrências). Para evitar previsíveis distorções, resolvi considerar todas as áreas semânticas equivalentes até a formação dos conjuntos (A = 37.500; B = 37.500; C = 50.000; D = 62.500; E = 62.500); a partir daí, a amostragem se fez em função das variáveis (faixa etária e sexo) e proporcionalmente ao número de inquéritos existentes em cada área. Ajustando-se os valores teóricos do Quadro 4, válidos para um corpus de 250.000 ocorrências, ao corpus realmente utilizado, constituído por 224.944 ocorrências, os novos valores teóricos passam a ser os seguintes: CONJ. ÁREA I II III Palavras por área M F M F M F A 1 2250 (1) 1799 (2) 1260 (1) 1026 (1) 593 (1) ---- 6928 2 1926 (1) 1493 (1) 3779 (4) 3078 (3) 1260 (1) 1008 (1) 12544 3 2249 (2) 1800 (2) 4138 (4) 3239 (3) 1602 (1) 1242 (1) 14270 (10) 11517 (16) 16520 (5) 5705 33742 = 15% B 4 3564 (3) 2835 (3) 1928 (2) 1493 (1) 1439 (1) 1124 (1) 12382 5 ---- 2564 (2) 1673 (1) 1305 (1) 2177 (2) 1692 (1) 9410 6 2861 (2) 2249 (1) 2860 (3) 2249 (2) 982 (1) 747 (1) 11947 (11) 14073 (10) 11518 (7) 8161 33742 = 15% C 7 747 (1) 593 (1) 5623 (5) 4283 (4) 2519 (2) 1998 (2) 15763 8 1493 (1) 1188 (1) 3599 (4) 2573 (3) 746 (1) 595 (1) 10374 9 1008 (1) 783 (1) 1008 (1) 774 (1) 1493 (1) 1188 (1) 6254 10 2519 (2) 1998 (2) 2519 (2) 1998 (2) 2016 (2) 1547 (2) 12597 (10) 10329 (22) 22557 (12) 12102 44988 = 20% D 11 ---- ---- 1583 (1) 1242 (1) 1439 (1) ---- 4263 12 1188 (1) 945 (1) 1583 (1) 1241 (1) 2132 (2) ---- 7089 13 2375 (2) 1873 (2) 4049 (3) 3132 (2) 1998 (2) 1557 (1) 14983 14 3211 (3) 2484 (2) 3320 (3) 9451 (1) 3878 (3) 1088 (1) 14926 15 1583 (1) 1241 (1) 4048 (3) 3132 (2) 2790 (2) 2179 (2) 14972 (13) 14900 (18) 24275 (14) 17061 56236 = 25% E 16 4481 (3) 3419 (2) 2242 (2) 1719 (1) 991 (1) ---- 12850 17 1377 (1) 3536 (3) 991 (1) ---- 991 (1) ---- 6893 18 4913 (4) ---- 4481 (3) 3419 (2) ---- ---- 12813 19 4607 (3) 1279 (1) 1664 (1) 1279 (1) 991 (1) ---- 9817 20 5362 (4) 1530 (1) 2754 (2) 2177 (2) 1134 (1) 899 (1) 13854 (22) 30504 (15) 20726 (5) 500656236 = 25% (66) 81323 (81) 95586 (43) 48035 224944 (190) (36,15%) (42,49%) (21,35%) (99,99%) Quadro 5 Fonte: Elaboração própria. 8 Observadas essas premissas e após a execução do trabalho, esse quadro teórico sofreu algumas alterações, inevitáveis, aliás, como mostra o Quadro seguinte, que traz os valores reais encontrados, e que constituirão o objeto do nosso estudo. CONJ. ÁREA I II III Palavras por área M F M F M F A 1 579 2107 1421 1285 779 ---- 6171 2 1616 1580 3945 3403 1616 1236 13396 3 1985 1986 4103 3282 1338 1624 14318 4180 5673 9469 7970 3733 2860 33885 B 4 2283 2935 2153 1771 1678 1352 12172 5 ---- 2870 1723 1343 1295 2223 9454 6 3076 2368 2990 2364 1372 785 12955 5359 8173 6866 5478 4345 4360 34581 C 7 879 ---- 5594 3944 2395 3870 16682 8 1037 1592 4163 2080 266 644 9782 9 863 1124 1048 936 1732 1404 7107 10 3145 1165 3146 2326 2663 2055 14500 5924 3881 13951 9286 7056 7973 48071 D 11 ---- ---- 1612 1374 1464 ---- 4450 12 420 ---- 2012 1769 2793 ---- 6994 13 2449 1920 4388 3215 2090 1598 15660 14 3334 2658 3678 972 4344 1158 16144 15 1335 1475 3778 3410 2534 2442 14974 7538 6053 15468 10740 13225 5198 58222 E 16 2460 3450 2405 1997 498 ---- 10810 17 1363 2030 1315 ---- 564 ---- 5272 18 5108 ---- 4637 1385 ---- ---- 11130 19 4886 ---- 1952 1319 1302 ---- 9459 20 4565 1645 2283 2547 1151 1323 13514 18382 7125 12592 7248 3515 1323 50185 41383 30905 58346 40722 31874 21714 224944 Quadro 6 Fonte: Elaboração própria. Da comparação entre os Quadros 5 (valores teóricos ajustados) e 6 (valores reais) ressaltam as seguintes diferenças: Valores teóricos Valores reais Diferença (%) Fx. et. I 81323 (36,15%) 72288 (32,14%) (-) 4,01% Fx. et. II 95586 (42.49%) 99068 (44,04%) 1,55% Fx. et. III 48035 (21.35%) 53588 (23,82%) 2,47% 224944 224944 Sexo masc. 133987 (59,56%) 131603 (58,50%) (-) 1,06% Sexo fem. 90957 (40,44%) 93341 (41,50%) 1,06% 9 (Os inquéritos DID realizados contemplam a participação de 56,30% de indivíduos do sexo masculino, ou seja, 210, e de 43,70% de indivíduos do sexo feminino, ou seja, 163. Diante da impossibilidade de calcular o número total de ocorrências, optei por assumir valores percentuais aproximados como um índice confiável para a amostra utilizada; ou seja, o corpus será considerado representativo do universo. Inquéritos utilizados, por faixa etária: Fx. et. I 66 (34,74%) 64 (33,86%) (-) 0,88 Fx. et. II 81 (42,63%) 80 (42,33%) (-) 0,30% Fx. et. III 43 (22,63%) 45 (23,81%) 1,18% (Considerando-se que a distribuição percentual dos inquéritos DID pelas três faixas etárias corresponde a 34,05%, 43,16% e 22,79%, verifica-se aqui também que o corpus utilizado é uma amostra bastante fiel do universo). Confrontando-se mais uma vez os valores teóricos e os valores reais, pode-se verificar que a variação, para a maioria das áreas consideradas, encontra-se dentro de limites aceitáveis: CONJ. ÁREA VAL. TEÓR. VAL. REAL VAR. ABSOL. (%) VAR. RELAT. (%)* A 1 6928 6171 (-) 10,93 (-) 2,24 2 12544 13396 6,79 2,52 3 14270 33742 14318 33885 0,34 0,42 0,14 B 4 12382 12175 (-) 1,70 (-) 0,62 5 9410 9454 0,47 0,13 6 11947 33742 12955 34581 8,43 2,49 2,98 C 7 15763 16682 5,83 2,04 8 10374 9782 (-) 5,71 (-) 1,32 9 6254 7107 13,64 1,90 10 12597 14500 15,11 4,23 44988 48071 6,85 D 11 4263 4450 4,39 0,33 12 7089 6994 (-) 1,34 (-) 0,17 13 14983 15660 4,52 1,20 14 14926 16144 8,16 2,17 15 14972 14974 0,01 0,02 56236 58222 3,53 E 16 12850 10810 (-) 15,88 (-) 3,63 17 6893 5272 (-) 23,52 (-) 2,88 18 12813 11130 (-) 13,13 (-) 3,00 19 9817 9459 (-) 3,65 (-) 0,64 20 13854 13514 (-) 2,45 (-) 0,60 56236 224944 50185 224944 (-) 10,76 Quadro 7 Fonte: Elaboração própria. (*) Leva em conta o peso relativo de cada área dentro do respectivo conjunto; os cálculos efetuados foram os seguintes: para a área 1, por ex.: (6928 : 100 = 6171 : x) x (33742 : 100 = 6928 : x), ou seja: -10,93 x 20,53 = -224, isto é, -2,24%, e assim sucessivamente. 10 4 Metodologia Não se pretende expor detalhadamente os fundamentos teóricos que inspiraram os autores dos vários dicionários de frequência existentes; para um histórico exaustivo e fiel recomendo a leitura das páginas introdutórias dos dicionários citados na nota 3. Por outro lado, a metodologia empregada é bastante conhecida e, portanto, familiar a quem quer que possua alguma prática lexicográfica; conceitos como os de frequência, distribuição, dispersão, disponibilidade e outros que tais dispensam comentários. Apenas o que for necessário para a fixação dos critérios aqui utilizados será apresentado a seguir. Ao término do processo de elaboração eletrônica do corpus escolhido, obteve-se de cada palavra não somente a sua frequência total, mas também as cinco frequências parciais, correspondentes a cada um dos cinco conjuntos em que o corpus foi dividido. Isto nos permite verificar que, na quase totalidade, as palavras não se repartem de maneira uniforme pelos conjuntos; um simples exemplo com palavras de freqüência 10 (F=10), ou seja, que apareceram 10 vezes no corpus, mostra a repartição extremamente desigual pelos conjuntos que constituem a nossa amostra: F A x1 B x2 C x3 D x4 E x5 Adotar 10 1 1 3 3 2 alcançar 10 0 0 4 2 4 Alma 10 5 1 1 1 2 apanhar 10 0 3 2 3 2 assistente 10 0 1 2 7 0 Data 10 1 0 0 8 1 definido 10 1 2 2 2 3 Mistura 10 4 0 1 2 3 Reto 10 3 1 1 0 5 Os casos limites ocorrem quando uma repartição é extremamente homogênea (x1=x2=x3=x4=x5) ou, no exemplo dado, 2, 2, 2, 2, 2), o que não ocorreu neste Léxico; ou quando uma das freqüências parciais é igual à frequência total (por ex.: 10, 0, 0, 0, 0), hipótese em que os casos que tenham porventura ocorridos foram eliminados do Léxico pelas razões que veremos adiante. Parece evidente que, quando a frequência de uma palavra se acumula num único conjunto, isso ocorre por razões de ordem temática; portanto, é lícito supor que, variando a amostra, tal palavra poderia aparecer com frequência diversa ou, no limite, nem mesmo aparecer. A título de ilustração, no teste realizado no ILC de Pisa, a que aludi, o lema �moeda� apareceu com a frequência 50, surpreendentemente alta se considerarmos o tamanho da amostra, mas com todas as ocorrências acumuladas num único conjunto; a explicação do fato é que havia sido incluído na amostra um inquérito do tipo EF constituído por uma aula sobre economia; variando a amostra (no caso, neste Léxico), tal palavra não foi sequer registrada, ao menos com frequência ≥4. Ao contrário, quando as frequências de um lema se repartem de maneira mais ou menos uniforme entre os conjuntos, é lícito supor que tal lema tem alta probabilidade de aparecer numa listagem oriunda de uma amostragem diversa qualquer. Estas palavras, com maior estabilidade dentro do sistema, são obviamente mais importantes na elaboração de qualquer léxico frequencial. Por isso, vários autores preferiram adotar simplesmente o índice R � repartição -, ou seja, o número de conjuntos em que um lema ocorre, para suas listas de freqüência5. Entretanto, podem existir lemas com o mesmo índice R mas cuja freqüência se reparte de maneira diferente; confrontem-se, no nosso exemplo, �alma� (5, 1, 1, 1, 2) e �definido� (1, 2, 2, 2, 3), ambos com R = 5, mas com distribuição mais uniforme no segundo do que no primeiro. Para obviar a esta dificuldade e tornar o índice R significativo, esses autores tiveram que levar em conta um número de conjuntos muito 4 Por exemplo, Vander Beke, French Words Book, e os autores do Français Fondamental . 11 elevado � o que teria sido impossível no meu caso. Outros autores6 adotaram o índice D � dispersão -, baseado num �coeficiente de variação�, que é a relação entre o desvio-padrão e a freqüência média: xV /σ= V,independente da frequência, é nulo quando x1=x2=x3=x4=x5= x (distribuição uniforme), e tem o valor máximo quando todas as ocorrências se acumulam num único conjunto. O índice de dispersão D = 1 - σ/2 x ou, segundo a fórmula de Muller, 1-n V-1D = Sendo n o número de conjuntos da amostra, varia entre 0 e 1 ou, em termos percentuais, entre 0% (dispersão péssima, caso em que todas as ocorrências se acumulam num único conjunto) e 100% (dispersão ideal, isto é, repartição uniforme entre os conjuntos)7. A combinação entre os dois indicadores, a frequência total F de um lema e sua dispersão D mais ou menos uniforme pelos conjuntos da amostra, a partir das observações de Muller8 passou a ser adotada por Juilland como critério prioritário de seleção das palavras nos dicionários do Francês e do Italiano, e pelos autores do LIF, com o nome �coeficiente de uso�. U = F x D cujo efeito é o de corrigir a frequência por meio da dispersão. Neste caso, U estará tanto mais próximo de F quanto maior for o valor de D. A metodologia de Juilland poderia ser aperfeiçoada caso houvesse possibilidade de utilização de um número maior de conjuntos: uma maior estratificação daria relevo à distribuição mais ou menos regular das palavras, conferindo valores mais precisos aos parâmetros D e U. Ainda assim, não se evitariam críticas como as que foram formuladas por Muller9, mas que os próprios autores dos Frequency Dictionaries já haviam previsto: com efeito, inferir fatos de língua a partir de fatos de discurso, mesmo em termos estritamente probabilísticos, é tarefa praticamente impossível, e os resultados de uma quantificação dessa natureza são no mínimo duvidosos. É evidente que, se repetíssemos o experimento, conservando as mesmas técnicas mas mudando as amostras, jamais encontraríamos, com exceção talvez dos vocábulos da mais alta frequência, as mesmas palavras, nos mesmos lugares, com a mesma distribuição; a não ser que se utilizassem, em lugar das 500.000 unidades lexicais pesquisadas pela equipe de Juilland em cada dicionário, um número muitíssimo superior, digamos 20 vezes maior � o que daria sem dúvida uma confiabilidade maior aos dados, mas traria a incômoda contrapartida de gastos astronômicos, em tempo e em dinheiro. Contra essa séria objeção a equipe de Stanford se 5 A. Juilland e colaboradores, e os autores do LIF, nos dicionários de frequência citados (v. nota 3). 6 Na notação de Juilland, )1( Txn -1D T2 22 i − −∑ = n sendo: n o número de conjuntos, e T = ∑xi (soma das ocorrências de um lema no corpus, isto é, a sua frequência total. 7 “Fréquence, dispersion et usage”, Cahiers de Lexicologie, VII, 1965; e também “Un dictionnaire de fréquence de l“Espagnol moderne”, ZRPh, 81, 1965, republicado em Langue française et linguistique quantitative, p. 207-14. 8 “Un dictionnaire de fréquence de l’espagnol moderne”. 12 preveniu, apontando o objetivo primordialmente estrutural dos seus dicionários de frequência (p. XXIII-XXIV do FDSW): isso significa que a cada experimento repetido espera-se encontrar, não um léxico estável, e sim um léxico estruturalmente igual, cujas palavras terão as mesmas propriedades, sem ser exata e necessariamente as mesmas: mesma proporção de classes de palavras, entre sua estrutura prosódica, fonológica, etimológica, etc. Neste caso, dicionário de frequência equivale a uma lista de classes lexicais, em termos de propriedades estruturais. Resta examinar agora um outro par de medidas estatísticas, destinadas, a primeira, a medir conjuntamente frequência e distribuição, podendo substituir o coeficiente de uso de Juilland com a vantagem, entre outras, de poder aplicar-se a conjuntos de extensão desigual entre si10; a segunda, a medir a dispersão dos vocábulos entre os conjuntos do corpus. Trata-se dos parâmetros utilizados pelos lexicógrafos da equipe do Diccionario del Español de México � DEM: �frequência corrigida� KF (korrigierte Frequenz, construída por J. Lanke, da Universidade de Lund), e �índice normalizado de dispersão� C, este, ligeira variante do índice S descrito por Rosengren. Sobre a importância do índice KF, considere-se o seguinte: um vocábulo cuja distribuição entre os conjuntos seja irregular é um vocábulo ligado a circunstâncias temáticas ou de estilo; ao contrário, um vocábulo que apresente uma distribuição regular independe de circunstâncias do discurso, e terá maior utilidade no plano da língua. Além disso, entre dois vocábulos que apresentem as mesmas condições de distribuição, aquele que tiver maior frequência absoluta terá maior índice KF; em contrapartida, entre dois vocábulos de igual frequência absoluta, terá índice KF maior aquele que apresentar uma distribuição mais homogênea. Quanto maior, pois, o índice KF, tanto maior a importância do vocábulo na língua. A frequência corrigida será para o lexicógrafo o índice mais importante, assim como era para Juilland o índice de uso, que KF substitui com nítida vantagem, razão por que será o índice adotado neste Léxico de Frequência. A fórmula que utilizei é uma adaptação da encontrada em Muller11, e adequada à notação que venho empregando: 2 xp KF = ∑ ii sendo pi a extensão relativa da i-ésima parte do corpus onde se verificam as ocorrências xi. Quanto ao índice normalizado de dispersão, tal como o índice D de Juilland, independe da frequência absoluta do vocábulo; indica apenas a distribuição mais ou menos homogênea entre os conjuntos, e, por assim dizer, completa e facilita a interpretação dos valores obtidos por KF. Também varia de 0 (distribuição totalmente irregular) a 1 (ou 100%: distribuição absolutamente homogênea): i ii p min100 pmin 100S C − − = sendo Si = Kfi /F No caso do Projeto NURC, em que os conjuntos de áreas semânticas, aqui assimilados aos �mundos� na terminologia de Juilland, apresentam extensões diferentes, parece-me não apenas justificável mas até mesmo forçosa a utilização dos parâmetros KF e C; as diferenças entre os resultados obtidos através desses e os obtidos através dos índices U e D respectivamente seriam sem dúvida muito sensíveis, e suscetíveis de alterar muitas das posições dentro de uma lista de frequência. Confrontem-se, a esse respeito, alguns exemplos extraídos deste Léxico: 9 ROSENGREN, Inger. The quantitative concept of language and its relation to the estructure of frequency dictionaries. Etudes de Linguistique Appliquée, 1971. 10 Principes et méthodes de statistique lexicale. 13 F x1 x2 X3 x4 x5 KF U C D Terra Fora 129 129 1 20 5 28 1 27 2 35 120 19 58,08 127,27 11,19 141,22 0,3527 0,9842 0,0868 0,8854 Calça acontecer 95 95 84 6 1 14 4 21 6 25 0 29 37,45 92,61 16,39 74,57 0,2868 0,9704 0,1725 0,7849 Camisa momento 63 63 57 7 2 18 3 10 0 15 1 13 22,63 61,24 7,44 53,43 0,2457 0,9672 0,1182 0,8482 Chuva menor 53 53 0 7 3 8 1 11 0 16 49 11 19,78 52,86 4,92 45,16 0,2622 0,9969 0,0929 0,8520 Quanto aos critérios para a seleção dos lemas que iriam constituir o Léxico, adotei procedimentos comuns e semelhantes aos adotados pelos autores dos Frequency Dictionaries e do LIF; os limites de corte foram: a) F > 4: foram eliminados todos os lemas cuja frequência total fosse inferior a 4; b) R > 3: foram listadas apenas as palavras que apresentassem ocorrências em, no mínimo três conjuntos. Desse modo, o Léxico é constituído de 2207 lemas, listados em ordem alfalbética, e complementado por um Anexo em que os mesmos lemas são arrolados em ordem decrescente de frequência corrigida (KF) confrontada com sua frequência total (F) e com seu índice normalizado de dispersão (C). Espera-se, com isso, ter obtido um léxico suficientemente representativo da língua culta falada na cidade de São Paulo naépoca da coleta de dados, (em sua maioria, ao longo da década de 1970), porquanto foram retidos para constituí- lo apenas vocábulos que apresentassem uma frequência mínima significativa e uma distribuição tanto quanto possível regular, na tentativa de eliminar possíveis influências temáticas da lista final. Eventuais omissões devem-se à natureza do corpus, não ao método empregado; por exemplo: são relacionados os numerais �duzentos�, �trezentos�, �quatrocentos� e �quinhentos�, mas não �seiscentos�, �setecentos� etc.; entre os dias da semana, só não aparecem �terça-feira� e �sexta-feira�, sem qualquer razão especial a não ser os próprios textos selecionados: se outra fosse a amostragem, poderiam ser diferentes os resultados, mas não seria significativamente diferente a estrutura do léxico, que, na nossa amostra, se compõe das seguintes classes: Substantivos 1181 ou 48,96% Verbos 478 ou 19,86% Adjetivos 473 ou 19,61% Advérbios 145 ou 6,01% Numerais 38 ou 1,57% Pronomes 38 ou 1,57% Preposições 20 ou 0,83% Conjunções 19 ou 0,79% Fáticos 12 ou 0,50% Expletivos 3 ou 0,12% Artigos 2 ou 0,08% Locuções prepos. 2 ou 0,08% Interjeição 1 ou 0,04% Obs.- O total, 2412, não coincide com o número de lemas do Léxico (2207) porque alguns pertencem a classes diversas (ex.: �olhar�: substantivo e verbo; �português�: substantivo e adjetivo, etc.). 5 A lematização e seus problemas É conveniente definir e fixar alguns termos empregados neste levantamento. Nem sempre se observou a precisão científica na terminologia utilizada � nem sempre pacífica, aliás: minha intenção é de se simplificar a descrição das 14 diversas etapas da elaboração automática do corpus, buscando facilitar o seu entendimento12. Chamou-se �palavra� ou �ocorrência� a cada unidade gráfica de que se constitui um texto: para o computador, essa unidade corresponde a um ou mais caracteres delimitados por espaços ou sinais de pontuação. Chamou-se �formas gráficas�, ou simplesmente �formas�, a todas as palavras �diferentes� num texto. Tome-se um texto qualquer, suficientemente extenso: nem todas as palavras são diferentes; algumas se repetem, uma ou mais vezes; a listagem de todas as formas presentes num texto, portanto, é a que nos dará o total de formas diferentes desse texto. Por exemplo, no conhecido ditado �quem diz o que quer ouve o que não quer� existem dez palavras, ou ocorrências, mas apenas sete formas: as palavras �o�, �que� e �quer� aparecem duas vezes cada, isto é, têm �frequência 2�, enquanto as formas �quem�, �diz�, �ouve�, �não� têm �frequência 1�: o número de vezes em que cada forma aparece no texto é a sua �frequência absoluta�. Nem sempre a cada forma gráfica corresponde apenas uma unidade linguística: por exemplo, a forma �são� pode corresponder: a) à 3ª pessoa do plural, presente do indicativo, do verbo �ser�; b) ao adjetivo, masculino singular, são � �sadio, saudável�; c) à forma apocopada são � �santo�. A forma gráfica �canto� pode ser: a) a 1ª pessoa do singular, presente do indicativo, do verbo �cantar�; b) ao substantivo, masculino singular, canto � �ação de cantar�; c) ao substantivo, masculino singular canto � �ângulo, esquina�; e inúmeros outros exemplos do gênero. As formas são e canto são �homógrafas�, e cada uma delas corresponde a três formas lexicais distintas, ou lemas. Dá-se o nome de �lema� a uma variante de um lexema escolhido convencionalmente (por exemplo, o infinitivo para os verbos, o singular para os substantivos, etc.). A relação ordenada dos lemas de uma língua constitui normalmente um dicionário. Lema corresponde, portanto, à forma canônica encontrada nos dicionários, ao �verbete� ou �entrada�: é a forma invariante que representa todas as suas formas flexionadas; assim, às formas �faremos� e �faziam� corresponde o lema �fazer�; às formas �fácil�, �fáceis�, �facílimo�, o lema �fácil�. Lematização de um texto é, portanto, o levantamento dos lemas desse texto; é a operação que consiste em agrupar sob um único lema todas as suas formas variantes e as respectivas ocorrências, existentes nesse texto. Em outras palavras, lematizar um texto significa proceder à contagem das palavras e dos vocábulos que o compõem. É prática corrente em outros países efetuar a lematização automática de um texto, a partir de um �dicionário de máquina� armazenado na memória do computador, que contenha o maior número possível de vocábulos de uma língua acompanhado dos morfemas possíveis para sua atualização no discurso (morfemas de gênero, número, pessoa, tempo, modo, derivativos, etc.). Outras vezes, recorre-se a um �analisador gramatical� que �reconhece� as ocorrências de um texto sem ambiguidades em pelo menos 55% dos casos13. É óbvio que a utilização de qualquer desses instrumentos facilita imensamente o trabalho do lexicógrafo. Ocorre que não dispunha de nenhum desses recursos na ocasião, nem creio que existissem então no Brasil; razão por que a lematização do corpus foi feita manualmente, a partir de uma listagem 11 Lembro, a título de ilustração, a terminologia proposta por MULLER, C. Principes et méthodes de statistique lexicale, cap. I: palavra = unidade gráfica; seu conjunto N constitui um texto; vocábulo = unidade do conjunto sintagmático denominado “discurso”; o conjunto V dos vocábulos de um texto constitui seu vocabulário; lexema = unidade do conjunto paradigmático denominado “língua”; o conjunto L de lexemas constitui o léxico de um idioma. Essas definições levam Muller ao estabelecimento do seguinte sistema terminológico: Nível Conjunto Elemento Definição Língua Léxico Lexema Vocábulo Lema + classe de palavras (+ flexão) + conteúdo semântico Discurso Vocabulário Texto Palavra Forma gráfica + posição 12 Cf. HIDALGO, María Isabel García. La formalización del Analisador Gramatical del DEM. In: LARA, L. F.; CHANDE, R. H.; HIDALGO, M. I. G. Investigaciones linguísticas en lexicografia, p. 85-155. 15 das concordâncias por forma, isto é, de um contexto em que as formas são precedidas e seguidas de tantas palavras quantas suficientes para preencher uma linha de texto, geralmente apto a garantir a compreensão e a identificação da forma considerada. Nem é preciso salientar que essa foi a etapa mais difícil e demorada de todo o trabalho, pois que, além da necessidade de manusear um grande volume de dados que exigiu meses de dedicação, esse foi o momento da tomada de decisões, em que se impunha o estabelecimento de um conjunto de regras que limitassem ao máximo a interpretação subjetiva do lexicógrafo em casos duvidosos, garantindo a constância do tratamento dos dados: tal conjunto de regras constitui a norma lexicológica, que procurei seguir com constância e coerência ao longo dessa etapa. 6 A norma lexicologica A escolha de uma norma lexicológica é o ponto chave de qualquer tentativa de estatística lexical, que é elaborada a partir de entidades conhecidas por �palavras�. Em português, verifica-se facilmente através dos testes de substituição, distribuição, permutação, transformação e inserção, que os problemas de segmentação não representam uma barreira difícil de transpor, uma vez que a autonomia das palavras é normalmente bem marcada. No entanto, alguns problemas se põem e devem ser solucionados de antemão: a) segmento gráfico e unidade lexical não coincidem; por exemplo, as formas contratas (ao, à, disso, nesse, etc.) e as formas homógrafas (manga 1 �variedade de fruta� e manga 2 �parte de uma peça do vestuário�). b) mais de uma unidade gráfica podem ser consideradas uma palavra só; por exemplo, os tempos compostos dos verbos (tinha feito, estou dizendo, etc.) as lexias complexas (bom-dia, a fim de, contanto que, guarda-roupa, fim de semana, etc.) expressões idiomáticas (certo como dois e dois são quatro, dar murro em ponta de faca, etc.), que poderiam pré-existirno nível da �língua� e não tem sido formadas pelo falante no nível do �discurso�. Tais dúvidas, e outras tão ou mais inquietantes, somente poderiam ser resolvidas através de uma completa teoria da palavra, que não é minha intenção esboçar. Desejando apenas tornar menos arbitrárias as minhas decisões, e seguindo as sugestões e a prática usual entre os autores de dicionários de frequência, resolvi seguir a norma lexicográfica tradicional, ou pelo menos afastar-me dela no menor número possível de casos, adotando as soluções dos lexicógrafos: embora suscetíveis de críticas e objeções, eles se fundamentaram numa sólida tradição e num conhecimento incomum dos fatos da língua que os tornam respeitáveis. Entre os dicionários, a escolha óbvia recaiu sobre o Novo Aurélio14, que, pela sua autoridade, atualidade e abrangência, pareceu reunir todas as condições de confiabilidade que se esperam desse indispensável instrumento de consulta15. Daí, entre outras, a prática corrente neste Léxico de reunir sob o mesmo lema funções diversas ou diferentes classes de palavras, indicando-as e colocando-as em destaque através da utilização de sublemas que, embora não alterando a numeração, facilitam a visualização do fenômeno; alguns exemplos: certo Estar certo (adj.) estar (vb. aux.) certo (fát.) estar (vb. int.) certo (pron.) estar (vb. lig.) muito Português muito (adv.) português (adj.) muito (pron.) português (subst.) Ainda seguindo essa norma, no tocante aos problemas apontados no início desta secção, preferi a solução analítica: tanto as formas contratas quanto as lexias complexas, os tempos compostos e as locuções, lexicalizadas ou não, 13 FERREIRA, Aurélio B. de Holanda. Novo dicionário da língua portuguesa, 2ª edição. 14 Por ocasião da elaboração deste texto (década de 80), ainda não havia sido editado o dicionário de A. Houaiss. 16 foram usualmente analisadas, isto é, seus componentes foram desmembrados e reagrupados sob lemas distintos (ex.: do = de �prep.� + o �art./pron.�; nesse = em �prep.� + esse �pron.�; está havendo = estar �vb. aux.� + �vb. imp.�; fim de semana = fim �susbst.� + de �prep.� + semana �subst.�, etc.). As únicas exceções, que mantêm o composto como unidade, foram os casos em que o resultado final é semanticamente diverso da somatória dos componentes, constituindo unidade fortemente lexicalizada (ex.: pôr-do-sol); neste trabalho, isso ocorreu um duas oportunidades: meio-dia e meia- noite. A seguir, os critérios utilizados para a lematização neste Léxico: 6.1 Em princípio, foram anotados ortograficamente todos os fenômenos de alteração fonológica, tais como: redução de ditongo, ditongação de vogal tônica, omissão de segmento fônico, etc. (ex.: manteiga, faz, dizer, não � e não: mantega, faiz, dizê, num). Excepcionalmente, e dada a altíssima incidência da forma pra, sozinha ou em contrações (pr’o, pr’um), ela foi registrada como variante do lema para. Igualmente, a forma né?, de emprego muito frequente na modalidade oral, foi lematizada como variante da expressão não é?, considerada fática. 6.2 Foram eliminados sistematicamente todos os nomes próprios (antropônimos, topônimos, nomes de instituições, etc.), que constituem a parte contingente do discurso, à margem deste. 6.3 Repetições, aliás muito frequentes num corpus de língua falada: há dois casos que me pareceram distintos: repetições por hesitação e repetições por ênfase. As primeiras, totalmente involuntárias e do tipo fático (�a escolha do... do... do terreno�) foram eliminadas da contagem. As outras, seguramente intencionais, foram mantidas (�sempre... sempre fui favorável...) 6.4 Truncamento de vocábulo: eliminei sistematicamente as formas truncadas, mesmo que a forma plena fosse facilmente identificável. A decisão me parece correta, visto que na grande maioria dos casos os truncamentos representam ou repetições incompletas, e portanto elimináveis (�prefi... prefiro, então, muito mais um jardim�), ou vocábulos que seriam abandonados em favor de outra formulação verbal julgada pelo falante como mais pertinente (�não, lógi... ele me daria...�) 6.5 Dentro da orientação geral de analisar ao máximo, foram desmembrados os elementos das locuções prepositivas, conjuntivas e adverbiais. Mantive a locução como unidade, e assim a lematizei, nos únicos dois casos em que o elemento significativo não tem existência autônoma no idioma (apesar de) ou se apresenta descaracterizado (devido a). Nos demais casos, locuções como em vez de, de forma que etc., foram consideradas como três unidades, ao passo que, à medida que etc., foram registradas como quatro unidades lexicais. 6.6 Substantivo: o expoente é o singular; a lematização foi feita, para as formas flexionadas, com distinção de gênero; assim, por exemplo, amiga e amigo, professor e professora constituem lemas distintos. Nem poderia ser de outra forma, já que o gênero dos substantivos, mais do que uma verdadeira flexão, é uma correspondência semântica (ex.: homem e mulher), e na maioria das vezes também morfológica (ex.: irmã e irmão), entre dois substantivos que designam seres de sexo diferente. Somente foram reunidos sob o mesmo lema os pares de substantivos que a gramática chama �comum de dois gêneros�: o (a) artista, o (a) colega, onde a correspondência formal é completa. As formas correspondentes aos graus aumentativo e diminutivo foram registradas como flexões do grau normal, à exceção daquelas formas que, tendo adquirido alta especialização de sentido, não mais mantêm vínculo semântico claro com os vocábulos dos quais derivam; assim, cursinho, calção, cartão foram lematizados separadamente. Formas variantes foram lematizadas sob a forma mais frequente: lista / listra, televisão / TV. Foram contados separadamente os casos de homonímia: canto �ângulo� e canto �som musical�, risco �perigo� e risco �traço�, pena �pluma� e pena �sofrimento�, etc. 17 6.7 Artigo: as formas variantes foram reunidas sob o lema do masculino singular: o e um, inclusive as contrações (do, pelo, etc.). 6.8 Adjetivo: as flexões de gênero, número e grau foram reunidas sob o lema do masculino singular. Apenas os chamados comparativos e superlativos anômalos (melhor, pior, menor, ótimo, mínimo, etc.) foram lematizados separadamente. Para os adjetivos substantivados (ex.: ideal, português, velho, etc.) foi aberto um sublema, recurso que caracteriza os homógrafos pertencentes a diferentes classes de palavras; procurou-se com isso distingui-los dos correspondentes usados em função atributiva ou predicativa. 6.9 Pronome: todas as variantes flexionais foram lematizadas sob a forma do masculino singular (ex.: esta, isto, sob este). As formas oblíquas dos pronomes pessoais foram reunidas sob o lema da função sujeito (ex.: me, - me, mim, comigo sob eu; o, -la, lhe, se sob ele). Nenhuma distinção foi feita entre os diversos tipos (interrogativos, indefinidos, relativos, etc.) de pronome, bem como entre os empregos adjetivo e pronominal; em expressões como esta é a minha casa e esta casa é minha, a distinção entre a função atributiva e a predicativa, portanto exclusivamente sintática, não parece justificar uma diferenciação que não existe nem no nível morfológico nem no semântico. As locuções pronominais, tais como cada qual, qualquer um etc., foram analisadas, e cada elemento do composto foi lematizado separadamente. 6.10 Verbo: terá entrada pela forma do infinitivo, listando-se sob este lema todas as formas flexionadas e as formas nominais. Os verbos pronominais e reflexivos foram lematizados desacompanhados de pronome, com exceção dos essencialmente pronominais, como é o caso de queixar-se, o único desses verbos que aparece na listagem. As locuções verbais (tempos compostos, voz passiva, auxiliares modais seguidos de infinitivo) foram sistematicamente analisadas, indexando-se seus componentes sob as respectivas formas canônicas � os infinitivos.Foram abertos sublemas para os verbos que apresentaram, no corpus considerado, predicações ou empregos diversos (transitivo, intransitivo, auxiliar, impessoal, de ligação). Os particípios constituem um caso bastante complexo, porquanto podem compartilhar várias classes de palavras; a solução adotada foi: a) são classificados como verbos quando constituem o núcleo da locução verbal (ex.: o material que foi empregado na obra...); b) são classificados como adjetivos quando suscetíveis de flexão de gênero e número (ex.: o material empregado na obra...); c) são classificados como substantivos quando constituem o núcleo de um sintagma nominal (ex.: havia vários empregados na casa). Os infinitivos substantivados foram indexados como sublemas da forma canônica. 6.11 Fáticos: foram reunidos sob essa designação os termos destinados a enfatizar a mensagem em si, com o fim de retomar, interromper, prolongar a conversa, chamar ou testar a atenção do ouvinte (ex.: bem, entende?), bem como certas idiossincrasias, típicas da modalidade oral, presentes na fala de muitos entrevistados (ex.: né?, certo?, etc.). 18 6.12 Advérbio: todos os advérbios de modo formados pelo sufixo -mente foram lematizados separadamente dos adjetivos dos quais derivam. Esses foram os principais critérios, que procurei seguir fielmente, na tentativa de classificar os lemas deste Léxico; é claro que algumas soluções podem ser contestadas, como, aliás, qualquer decisão que envolva critérios pessoais de interpretação e escolha, que podem resultar certas ou erradas. Dar-me-ei por satisfeito se tiver acertado a maioria delas. Enzo Del Carratore Professor titular, inativo, da UNESP, Fac. de Filosofia e Ciências, Campus de Marília. enzodel@life.com.br 19 7 Processamento eletrônico O processamento eletrônico foi desenvolvido em dois períodos de tempo distintos: o primeiro, em 1991, utilizando um Minicomputador ABC 2000 pertencente ao Centro de Informática na Agricultura (Cinag), hoje Serviço Técnico de Informática (STI) da Faculdade de Ciências Agronômicas, UNESP, campus de Botucatu; o segundo, em 2008 utilizando um microcomputador Pentium 4. Os equipamentos utilizados tinham as seguintes configurações: a) Minicomputador ABC2000: 2 unidades de fita carretel de 9600 bpi, 2 unidades de disco removível de 300 Mb cada, 32 Mb de memória RAM, impressora de linha (300 lpm) e 5 terminais escravos utilizando FORTRAN IV como linguagem de programação; b) Microcomputador Pentium 4: 1 unidade de disco de 200 Gb, 1 Gb de memória RAM, 1 gravador de CD/DVD e impressora laser Lexmark Optra T612 utilizando Delphi 6 como linguagem de programação. O processamento eletrônico foi divido em fases que são descritas abaixo. Fase 1 Inicialmente os texto selecionados foram digitados, corrigidos e armazenados em meio magnético (texto corrigido � TC). Textos Editor de texto Arquivos de Textos (TC) 20 Fase 2 Obtenção do relatório de concordâncias por formas, onde todos as ocorrências do TC foram colocadas em ordem alfabética e impressas em contextos � as �concordâncias� � de uma linha, extensão suficiente para dirimir dúvidas sobre o estatuto morfo-sintático e semântico de cada forma. As informações para a composição do referido relatório também foram armazenadas de meio magnético (arquivo). Fase 3 Após lematização, digitação das fichas-lema. Fichas-lema Editor de texto Arquivos de Fichas-lema Arquivos de Textos (TC) Programa gerador (FORTRAN IV) Arquivo de concordâncias por forma Relatório de concordâncias por forma 21 Fase 4 Geração do arquivo magnético em que todos os lemas do TC foram colocados em ordem alfabética, acompanhados das formas sob as quais se apresentam no TC e também das freqüências em cada área semântica. Fase 5 Transferência do arquivo de concordância por lema do minicomputador ABC2000 para disquete de microcomputador. Arquivos de Fichas-lema Programa gerador (FORTRAN IV) Arquivo de concordâncias por lema Arquivo de concordâncias por forma Arquivo de concordâncias por lema Programa de Comunicação ABC2000 Programa de Comunicação microcomputador Arq. concorc. por lema 22 Fase 6 Transferência do arquivo concordâncias por lema do disquete para o hd do microcomputador. Fase 7 Produção do relatório Léxico de freqüência (anexo 1), a partir do arquivo de concordâncias por lema. Arquivo de concordâncias por lema Programa gerador (DELPHI 6) Relatório de concordâncias por forma Arquivo de concordâncias por lema Programa microcomputador Arq. concorc. por lema 23 Fase 8 Calculo dos índices KF, C e produção de relatório (anexo 2). As fases de 1 a 5 foram desenvolvidas no minicomputador ABC2000 em 1991, e as de 6 a 8 em microcomputador Pentium 4 em 2008. Jayme Laperuta Filho Dr. em Agronomia, Analista de Informática do Serviço Técnico de Informática da Faculdade de Ciências Agronômicas da UNESP, Campus de Botucatu. jayme@fca.unesp.br Arquivo de concordâncias por lema Programa gerador (DELPHI 6) Relatório dos Índices KF e C 24 Bibliografia básica BORTOLINI, U. et al. Lessico di frequenza della lingua italiana contemporanea. Milano: Garzanti, 1972. CASTILHO, A. T. (Org.). Português culto falado no Brasil. Campinas: Ed. UNICAMP, 1989. p. 169-198. CASTILHO, A. T.; PRETI, D. (Org.). A linguagem falada culta na cidade de São Paulo. São Paulo: T.A. Queiroz, 1986. v. 1. CHANDE, R. H. Del 1 al 100 en lexicografia. In: LARA, L. F.; CHANDE, R. H.; HIDALGO, M. I. G. Investigaciones lingüísticas en lexicografia. México: El Colegio de México, 1979. p. 43-83. DEL CARRATORE, E. Nota prévia ao léxico de freqüência do Português contemporâneo de São Paulo (Projeto NURC). Marília: FEFCSD (UNESP), 1983. Republicado em CASTILHO, A. T. (ver acima). DOLPHIN, B. Vocabulaire et lexique. Genève: Slatkine, 1979. DUGAST, D. L statistique lexicale. Genève: Slatkine, 1980. DUNCAN JUNIOR, J. C. Frequency dictionary of portuguese words. Stanford, 1970. Mimeografado. FERREIRA, A. B. H. Novo dicionário da língua portuguesa. 2. ed. Rio de Janeiro: Nova Fronteira, 1986. GOUGENHEIM, G. et al. L’élaboration du français fondamental. Paris: Didier, 1964. GUIRAUD, P. Les caractères statistiques du vocabulaire. Paris: Presses Universitaires de France, 1954. GUIRAUD, P. Problèmes et méthodes de la statistique linguistique. Paris: Presses Universitaires de France, 1960. HIDALGO, M. I. G. La formalización del analizador gramatical del DEM. In: LARA, L. F.; CHANDE, R. H.; HIDALGO, M. I. G. Investigaciones lingüísticas en lexicografia. México: El Colegio de México, 1979. p. 87-156. JUILLAND, A. et al. Frequency dictionary of rumanian words. The Hague-Paris: Mouton, 1965. JUILLAND, A. et al. Frequency dictionary of french words. The Hague-Paris: Mouton, 1970. JUILLAND, A.; CHANG-RODRIGUEZ, E. Frequency dictionary of spanish words. The Hague-Paris: Mouton, 1964. JUILLAND, A.; TRAVERSA, V. Frequency dictionary of italian words. The Hague-Paris: Mouton, 1973. LARA, L. F.; CHANDE, R. H. Base estadística del diccionario del español de México. In: LARA, L. F.; CHANDE, R. H.; HIDALGO, M. I. G. Investigaciones língüísticas en lexicografia. México: El Colegio de México, 1979. p. 7-39. MOREAU, R. Au sujet de l�utilisation de la notion de fréquence em linguistique. Cahiers de Lexicologie, Paris, v. 3, p. 140-159, 1962. MULLER, C. Le mot, unité de texte et unité de lexique en statistique lexicologique. Travaux de Linguistique et Littérature, Paris, v. 1, p. 155-173, 1963. MULLER, C. Fréquence, dispersion et usage. Cahiers de Lexicologie, Paris, v. 7, p. 33-42, 1965. MULLER, C. Initiation à la statistique linguistique. Paris: Larousse, 1968. MULLER,C. Initiation aux méthodes de la statistique linguistique. Paris: Hachette, 1973. MULLER, C. Principes et méthodes de statistique lexicale. Paris: Hachette, 1977. MULLER, C. Un dicionnnaire de fréquence de l�espagnol moderne. Zeitschrift für Romanische Philologie, v. 81, 1965. Republicado em Langue française et linguistique quantitative. Genève: Slatkine, 1979. p. 207-214. 25 ROSENGREN, I. The quantitative concept of language and its relation to the structure of frequency dictionaries. Etudes de Linguistique Appliqué, Paris, v. 1, p. 103-127, 1971. 26 ANEXO A - Léxico de frequências 27 A B C D E TOT KF C 1 - A 319 323 617 674 496 2429 2.419,53 0,9954 PREP. a 101 176 253 298 192 1020 à 89 51 102 123 104 469 à gente 0 0 0 0 1 1 à senhora 0 0 1 2 0 3 ao 55 52 132 152 75 466 aos 18 11 32 32 19 112 àquela 2 0 2 2 1 7 àquele 0 0 1 0 3 4 àqueles 0 1 1 1 0 3 àquilo 0 0 1 1 0 2 às 54 32 92 63 101 342 2 - A GENTE 87 143 279 162 310 981 950,01 0,9628 PRON. à gente 0 0 0 0 1 1 a gente 82 141 266 151 292 932 apesar da gente 0 0 0 1 0 1 da gente 5 1 12 10 13 41 devido à gente 0 0 0 0 1 1 na gente 0 1 1 0 0 2 pr'a gente 0 0 0 0 3 3 3 - ABAIXO 3 0 3 2 6 14 11,22 0,7660 ADV. abaixo 3 0 3 2 6 14 4 - ABANDONADO 1 3 2 0 0 6 2,96 0,4039 ADJ. abandonada 0 3 0 0 0 3 abandonado 1 0 2 0 0 3 5 - ABERTO 2 6 3 10 1 22 19,28 0,8546 ADJ. aberta 1 1 2 2 0 6 abertas 0 3 0 1 0 4 aberto 0 2 1 7 1 11 abertos 1 0 0 0 0 1 6 - ABERTURA 0 1 2 3 0 6 3,71 0,5514 SUBS. abertura 0 0 2 3 0 5 aberturas 0 1 0 0 0 1 7 - ABRANGER 0 1 1 1 1 4 3,37 0,8143 VERB. abrange 0 0 0 1 0 1 abrangem 0 0 1 0 0 1 abrangendo 0 1 0 0 0 1 abranger 0 0 0 0 1 1 8 - ABRIR 6 6 5 39 4 60 49,94 0,8025 VERB. aberta 0 1 1 0 0 2 A B C D E TOT KF C aberto 0 0 0 2 0 2 abram 0 0 1 0 0 1 abre 1 1 1 10 1 14 abrem 0 0 0 2 0 2 abri 0 0 0 3 0 3 abria 2 1 0 0 0 3 abriam 0 0 1 0 0 1 28 abria-se 0 1 0 0 0 1 abrimos 0 0 0 1 0 1 abrindo 1 0 0 0 1 2 abrir 2 2 1 18 2 25 abriu 0 0 0 2 0 2 abro 0 0 0 1 0 1 9 - ABSOLUTAMENTE 4 5 9 8 6 32 31,76 0,9912 ADV. absolutamente 4 5 9 8 6 32 10 - ABSOLUTO 0 1 3 1 1 6 4,73 0,7500 ADJ. absoluta 0 0 2 1 0 3 absolutas 0 0 1 0 0 1 absoluto 0 1 0 0 1 2 11 - ABSORVER 0 0 2 2 2 6 4,17 0,6402 VERB. absorve 0 0 0 2 1 3 absorver 0 0 2 0 0 2 absorvida 0 0 0 0 1 1 12 - ABSURDO 0 2 2 3 1 8 6,56 0,7885 ADJ. absurda 0 0 0 1 0 1 absurdo 0 1 0 0 0 1 SUBS. absurdo 0 1 1 2 1 5 absurdos 0 0 1 0 0 1 13 - ABUNDANTE 0 0 2 1 1 4 2,67 0,6093 ADJ. abundante 0 0 1 1 0 2 abundantes 0 0 1 0 1 2 14 - ACABAR 12 16 16 26 19 89 88,64 0,9953 VERB. acaba 2 2 6 8 9 27 acabado 1 0 0 0 0 1 acabam 0 1 0 1 1 3 acabamos 0 0 0 1 2 3 acabando 0 0 0 0 1 1 acabar 0 5 2 1 2 10 acabaram 0 0 0 1 0 1 acabaram-se 1 0 0 0 0 1 acabava 0 2 1 0 0 3 acabe 0 0 1 0 0 1 A B C D E TOT KF C acabei 3 1 0 3 1 8 acabo 3 0 1 1 0 5 acabou 2 5 5 9 3 24 acabou-se 0 0 0 1 0 1 15 - AÇÃO 1 0 1 68 1 71 30,45 0,3275 SUBS. ação 1 0 0 13 1 15 ações 0 0 1 55 0 56 16 - ACEITAÇÃO 1 0 1 3 1 6 4,86 0,7757 SUBS. aceitação 1 0 1 3 1 6 17 - ACEITAR 10 2 16 14 3 45 40,35 0,8785 VERB. aceita 2 0 2 1 0 5 29 aceitado 0 0 1 0 0 1 aceitados 0 0 1 0 0 1 aceitam 0 0 0 5 1 6 aceitamos 1 1 0 0 0 2 aceitando 0 0 2 0 0 2 aceitar 3 0 5 2 2 12 aceitaram 0 0 0 2 0 2 aceitas 0 0 1 0 0 1 aceitava 0 0 1 0 0 1 aceitavam 0 0 2 3 0 5 aceitei 0 0 0 1 0 1 aceitem 1 0 0 0 0 1 aceito 3 1 0 0 0 4 aceitou 0 0 1 0 0 1 18 - ACEITO 1 0 2 1 0 4 2,40 0,5303 ADJ. aceito 1 0 2 1 0 4 19 - ACENTUAR 1 2 0 2 1 6 4,56 0,7167 VERB. acentua 0 2 0 1 1 4 acentuar 1 0 0 0 0 1 acentuo 0 0 0 1 0 1 20 - ACERTAR 3 3 0 2 1 9 6,47 0,6688 VERB. acerta 0 2 0 0 0 2 acertando 1 0 0 0 0 1 acertar 0 1 0 1 1 3 acertarem 0 0 0 1 0 1 acerto 2 0 0 0 0 2 21 - ACESSÍVEL 0 1 2 3 0 6 3,71 0,5514 ADJ. acessíveis 0 0 0 1 0 1 acessível 0 1 2 2 0 5 A B C D E TOT KF C 22 - ACESSO 0 7 6 7 1 21 15,91 0,7144 SUBS. acesso 0 7 6 7 1 21 23 - ACHAR 221 173 258 209 160 1021 1.003,73 0,9801 VERB. acha 4 8 5 7 4 28 achado 0 0 0 2 0 2 acham 4 1 4 4 7 20 achamos 1 0 2 0 0 3 achando 0 3 1 1 1 6 achar 6 4 3 2 0 15 acharam 0 1 1 0 2 4 acharem 0 0 0 1 0 1 acharia 0 0 0 0 1 1 achava 4 5 10 3 2 24 achavam 1 0 0 1 1 3 achava-me 0 1 0 0 0 1 ache 0 0 2 0 0 2 achei 7 8 16 6 8 45 acho 193 138 214 179 133 857 achou 1 4 0 3 1 9 24 - ACIDENTE 1 2 2 7 3 15 14,14 0,9326 30 SUBS. acidente 1 1 1 3 1 7 acidentes 0 1 1 4 2 8 25 - ACIMA 2 1 4 6 0 13 9,68 0,6996 ADV. acima 2 1 4 6 0 13 26 - ACOLHEDOR 0 3 1 0 2 6 3,27 0,4652 ADJ. acolhedor 0 3 1 0 1 5 acolhedora 0 0 0 0 1 1 27 - ACOMODAÇÃO 0 1 3 1 0 5 2,90 0,5044 SUBS. acomodação 0 0 2 1 0 3 acomodações 0 1 1 0 0 2 28 - ACOMPANHADO 1 0 3 0 1 5 2,76 0,4724 ADJ. acompanhada 0 0 2 0 1 3 acompanhado 1 0 1 0 0 2 29 - ACOMPANHAR 8 9 17 8 5 47 44,56 0,9388 VERB. acompanha 2 1 1 0 0 4 acompanhado 0 0 1 1 1 3 acompanhá-los 0 0 1 0 0 1 acompanham 1 0 1 1 0 3 acompanhamos 0 2 0 0 0 2 A B C D E TOT KF C acompanhando 0 3 4 1 1 9 acompanhar 2 2 3 3 0 10 acompanharam 0 0 1 0 0 1 acompanhava 1 1 0 0 1 3 acompanhavam 0 0 0 1 0 1 acompanhei 0 0 1 0 2 3 acompanho 2 0 0 1 0 3 acompanhou 0 0 4 0 0 4 30 - ACONSELHAR 0 1 2 2 0 5 3,12 0,5565 VERB. aconselhar 0 0 0 2 0 2 aconselho 0 1 2 0 0 3 31 - ACONTECER 6 14 21 25 29 95 92,61 0,9704 VERB. aconteça 0 0 1 0 0 1 acontece 5 3 7 11 16 42 acontecem 0 1 0 0 2 3 acontecendo 0 1 2 3 4 10 acontecer 0 2 4 5 2 13 aconteceria 0 0 1 0 0 1 acontecesse 0 1 1 0 0 2 aconteceu 1 5 4 4 4 18 acontecia 0 0 1 0 0 1 acontecido 0 1 0 2 1 4 32 - ACORDAR 1 6 1 0 8 16 9,90 0,5514 VERB. acordado 0 1 0 0 0 1 acordar 0 2 1 0 0 3 acordei 0 2 0 0 0 2 acordo 1 0 0 0 8 9 acordou 0 1 0 0 0 1 31 33 - ACORDO 21 7 2 18 7 55 47,30 0,8352 SUBS. acordo 21 7 2 18 7 55 34 - ACOSTUMADO 1 2 9 2 4 18 15,95 0,8659 ADJ. acostumada 0 2 5 1 0 8 acostumadas 1 0 0 0 0 1 acostumado 0 0 3 1 3 7 acostumados 0 0 1 0 1 2 35 - ACOSTUMAR 10 0 3 0 1 14 6,25 0,3484 VERB. acostuma 0 0 1 0 0 1 acostumado 1 0 0 0 0 1 acostumam 0 0 0 0 1 1 acostumar 1 0 1 0 0 2 acostumei 7 0 0 0 0 7 acostumo 0 0 1 0 0 1 acostumou 1 0 0 0 0 1 A B C D E TOT KF C 36 - ACREDITAR 9 5 25 28 11 78 74,15 0,9419 VERB. acredita 0 0 0 2 0 2 acreditamos 0 0 1 1 0 2 acreditar 1 0 1 1 1 4 acredita-se 0 0 0 0 1 1 acreditava 0 0 1 0 0 1 acreditem 0 0 0 1 0 1 acredito 8 5 22 23 9 67 37 - AÇÚCAR 4 0 2 5 7 18 14,57 0,7757 SUBS. açúcar 4 0 2 5 7 18 38 - ADAPTAÇÃO 1 2 1 1 3 8 7,46 0,9209 SUBS. adaptação 1 2 1 1 3 8 39 - ADAPTADO 2 0 0 1 3 6 3,52 0,5130 ADJ. adaptada 1 0 0 0 2 3 adaptado 1 0 0 1 1 3 40 - ADAPTAR 5 2 4 4 4 19 18,57 0,9732 VERB. adapta 3 0 1 0 3 7 adaptado 0 0 2 0 0 2 adaptam 0 0 0 1 0 1 adaptando 0 0 1 0 0 1 adaptar 1 2 0 2 0 5 adaptei 1 0 0 0 0 1 adaptou 0 0 0 1 1 2 41 - ADEQUADO 9 2 2 2 4 19 16,29 0,8324 ADJ. adequada 4 1 2 0 3 10 adequado 5 1 0 1 0 7 adequados 0 0 0 1 1 2 42 - ADIANTADO 0 0 2 4 1 7 4,59 0,5955 ADJ. adiantada 0 0 2 1 1 4 adiantadas 0 0 0 1 0 1 adiantado 0 0 0 1 0 1 32 adiantados 0 0 0 1 0 1 43 - ADIANTAR 2 0 2 8 3 15 11,97 0,7621 VERB. adianta 2 0 2 8 0 12 adiantar 0 0 0 0 1 1 adiantava 0 0 0 0 1 1 adiantou 0 0 0 0 1 1 A B C D E TOT KF C 44 - ADIANTE 0 2 3 1 1 7 5,46 0,7408 ADV. adiante 0 2 3 1 1 7 45 - ADIÇÃO 1 0 0 1 2 4 2,45 0,5434 SUBS. adição 1 0 0 1 2 4 46 - ADMINISTRADOR 0 0 1 6 4 11 7,04 0,5760 SUBS. administrador0 0 1 6 2 9 administradores 0 0 0 0 2 2 47 - ADMIRAR 1 0 1 2 0 4 2,46 0,5480 VERB. admiradas 0 0 1 0 0 1 admirei 1 0 0 0 0 1 admiro 0 0 0 2 0 2 48 - ADMITIR 0 0 4 4 1 9 5,83 0,5852 VERB. admite 0 0 0 0 1 1 admitida 0 0 1 0 0 1 admitindo 0 0 2 0 0 2 admitir 0 0 1 4 0 5 49 - ADORAR 15 7 4 7 8 41 37,79 0,9077 VERB. adora 0 1 0 0 2 3 adoram 0 1 0 0 0 1 adorar 1 0 0 0 0 1 adoraria 0 0 0 1 0 1 adorava 1 1 1 5 0 8 adoravam 1 0 0 0 0 1 adoro 12 4 3 1 6 26 50 - ADORNO 3 1 0 0 1 5 2,36 0,3787 SUBS. adorno 2 1 0 0 1 4 adornos 1 0 0 0 0 1 51 - ADOTAR 1 1 3 3 2 10 9,80 0,9761 VERB. adota 0 0 1 1 0 2 adotam 0 0 0 1 0 1 adotando 0 0 0 1 0 1 adotar 1 1 2 0 1 5 adotou 0 0 0 0 1 1 52 - ADQUIRIR 3 6 14 14 11 48 46,68 0,9677 VERB. adquira 0 0 0 1 2 3 adquire 0 0 3 2 4 9 adquirem 1 0 0 1 2 4 adquiri 0 0 0 2 0 2 A B C D E TOT KF C adquiria 0 0 2 0 0 2 33 adquiridas 0 0 1 0 0 1 adquirido 0 0 1 0 1 2 adquiridos 0 0 1 0 0 1 adquirimos 1 0 2 0 0 3 adquirindo 0 2 1 2 0 5 adquirir 1 0 3 4 1 9 adquiriram 0 1 0 0 0 1 adquirirem 0 0 0 0 1 1 adquirissem 0 2 0 0 0 2 adquiriu 0 1 0 2 0 3 53 - ADULTO 3 5 1 1 4 14 12,00 0,8322 ADJ. adulta 0 2 0 1 2 5 adulto 0 2 0 0 1 3 SUBS. adulto 1 0 1 0 1 3 adultos 2 1 0 0 0 3 54 - AFASTADO 0 1 2 2 2 7 5,92 0,8186 ADJ. afastada 0 1 0 1 0 2 afastadas 0 0 1 0 0 1 afastado 0 0 1 1 1 3 afastados 0 0 0 0 1 1 55 - AFASTAR 0 1 2 3 0 6 3,71 0,5514 VERB. afasta 0 0 1 1 0 2 afastados 0 0 0 1 0 1 afastam 0 1 0 0 0 1 afasto 0 0 1 1 0 2 56 - AFINAL 1 5 1 4 1 12 10,35 0,8381 ADV. afinal 1 5 1 4 1 12 57 - AFIRMAR 1 0 2 0 1 4 2,29 0,4975 VERB. afirmam 1 0 0 0 0 1 afirmar 0 0 2 0 0 2 afirmo 0 0 0 0 1 1 58 - AGARRAR 0 3 1 1 0 5 2,72 0,4639 VERB. agarra 0 1 0 1 0 2 agarrando 0 0 1 0 0 1 agarrar 0 1 0 0 0 1 agarraram 0 1 0 0 0 1 59 - AGASALHADO 1 0 1 0 2 4 2,31 0,5012 ADJ. agasalhada 1 0 0 0 0 1 agasalhado 0 0 1 0 0 1 A B C D E TOT KF C agasalhados 0 0 0 0 2 2 60 - AGIR 1 3 1 1 0 6 4,15 0,6379 VERB. age 0 1 0 1 0 2 agiam 0 0 1 0 0 1 agindo 0 1 0 0 0 1 agirem 0 1 0 0 0 1 ajo 1 0 0 0 0 1 61 - AGORA 118 136 136 148 174 712 707,53 0,9926 34 ADV. agora 39 80 54 56 61 290 FÁT. agora 79 56 82 92 113 422 62 - AGOSTO 0 0 1 1 4 6 3,67 0,5428 SUBS. agosto 0 0 1 1 4 6 63 - AGRADAR 5 6 9 4 7 31 30,06 0,9642 VERB. agrada 3 1 5 0 3 12 agradam 1 0 1 0 2 4 agradar 0 1 0 1 0 2 agradar-se 0 0 0 1 0 1 agrade 0 1 2 0 0 3 agradei 0 1 0 0 0 1 agrado 0 0 0 2 0 2 agradou 1 2 1 0 2 6 64 - AGRADÁVEL 4 8 7 2 31 52 41,70 0,7669 ADJ. agradáveis 0 2 3 0 3 8 agradável 4 6 4 2 28 44 65 - AGRÍCOLA 1 0 1 3 6 11 8,34 0,7157 ADJ. agrícola 1 0 0 2 6 9 agrícolas 0 0 1 1 0 2 66 - AGRICULTURA 0 0 3 2 10 15 9,08 0,5356 SUBS. agricultura 0 0 3 2 10 15 67 - AGRÔNOMO 0 2 0 1 2 5 3,00 0,5285 SUBS. agrônomo 0 1 0 1 1 3 agrônomos 0 1 0 0 1 2 68 - ÁGUA 11 25 13 4 98 151 112,53 0,7001 SUBS. água 11 25 10 1 76 123 águas 0 0 3 3 20 26 aguinha 0 0 0 0 2 2 A B C D E TOT KF C 69 - AGUENTAR 1 4 4 4 6 19 18,24 0,9532 VERB. aguenta 0 2 1 0 2 5 aguentar 1 0 3 2 3 9 aguentei 0 1 0 1 0 2 aguento 0 1 0 1 1 3 70 - AÍ 65 104 95 132 132 528 524,66 0,9925 ADV. aí 58 68 87 114 115 442 daí 7 36 8 18 17 86 71 - AINDA 27 40 64 70 67 268 266,26 0,9924 ADV. ainda 27 40 64 70 67 268 72 - AJUDA 2 2 1 2 0 7 5,22 0,7010 SUBS. ajuda 1 2 1 2 0 6 ajudinha 1 0 0 0 0 1 73 - AJUDAR 1 2 5 10 2 20 18,09 0,8875 VERB. ajuda 1 0 2 1 0 4 35 ajudado 0 0 0 1 0 1 ajudá-los 0 0 0 1 0 1 ajudar 0 0 1 6 2 9 ajudarem 0 0 1 0 0 1 ajudasse 0 1 0 0 0 1 ajudava 0 0 1 1 0 2 ajudei 0 1 0 0 0 1 74 - ALCANÇAR 0 0 4 2 4 10 6,70 0,6116 VERB. alcança 0 0 0 0 1 1 alcançando 0 0 1 0 0 1 alcançar 0 0 2 0 3 5 alcançarão 0 0 0 1 0 1 alcançaria 0 0 1 0 0 1 alcance 0 0 0 1 0 1 75 - ALCANCE 0 3 2 2 0 7 4,21 0,5312 SUBS. alcance 0 3 2 2 0 7 76 - ALEGRE 1 5 0 2 4 12 8,58 0,6644 ADJ. alegre 0 4 0 1 3 8 alegres 1 1 0 1 1 4 77 - ALEGRIA 1 1 2 2 6 12 10,96 0,8979 SUBS. alegria 1 1 2 2 5 11 A B C D E TOT KF C alegrias 0 0 0 0 1 1 78 - ALÉM 15 12 14 26 17 84 83,41 0,9917 ADV. além 15 12 14 26 17 84 79 - ALEMÃO 1 5 5 2 7 20 18,21 0,8949 ADJ. alemã 0 1 2 0 4 7 alemão 1 3 0 0 0 4 SUBS. alemães 0 0 2 2 1 5 alemão 0 1 1 0 2 4 80 - ALGO 2 1 9 5 7 24 22,23 0,9133 PRON. algo 2 1 9 5 7 24 81 - ALGODÃO 12 2 3 1 10 28 22,11 0,7523 SUBS. algodão 11 2 3 1 10 27 algodãozinho 1 0 0 0 0 1 82 - ALGUÉM 3 11 9 17 5 45 42,42 0,9326 PRON. alguém 3 11 9 17 5 45 83 - ALGUM 43 62 117 113 91 426 422,16 0,9894 PRON. algum 8 7 14 34 18 81 alguma 12 20 51 42 32 157 Algumas 0 0 0 1 0 1 algumas 13 15 27 16 15 86 alguns 10 19 25 20 26 100 nalguns 0 1 0 0 0 1 84 - ALI 8 29 45 17 42 141 131,54 0,9210 ADV. 36 ali 8 27 41 17 39 132 dali 0 2 4 0 3 9 85 - ALIÁS 15 13 15 29 21 93 92,38 0,9922 ADV. aliás 15 13 15 29 21 93 86 - ALIMENTAÇÃO 9 5 2 3 17 36 30,51 0,8204 SUBS. alimentação 9 5 2 3 17 36 87 - ALIMENTAR 3 2 0 2 6 13 9,63 0,6948 ADJ. alimentar 1 0 0 0 1 2 VERB. alimenta 1 1 0 0 1 3 alimentado 0 0 0 1 0 1 A B C D E TOT KF C alimentam 0 0 0 0 2 2 alimentar 1 1 0 1 1 4 alimenta-se 0 0 0 0 1 1 88 - ALIMENTO 2 0 0 1 9 12 6,12 0,4235 SUBS. alimento 2 0 0 1 7 10 alimentos 0 0 0 0 2 2 89 - ALMA 5 1 1 1 2 10 8,40 0,8121 SUBS. alma 5 1 1 1 2 10 90 - ALMOÇAR 7 3 12 1 11 34 28,97 0,8259 VERB. almoça 0 0 1 0 0 1 almoçamos 1 0 2 1 1 5 almoçando 0 0 1 0 0 1 almoçar 3 2 3 0 3 11 almoçarmos 1 0 0 0 0 1 almoçava 0 0 0 0 2 2 almocei 0 0 3 0 0 3 almoço 2 1 2 0 5 10 91 - ALMOÇO 13 3 4 0 23 43 27,75 0,5826 SUBS. almoço 13 3 4 0 23 43 92 - ALTERNATIVA 0 0 2 2 1 5 3,41 0,6247 SUBS. alternativa 0 0 1 1 0 2 alternativas 0 0 1 1 1 3 93 - ALTO 13 14 18 5 17 67 62,61 0,9229 ADJ. alta 5 2 8 4 7 26 altas 1 4 0 0 0 5 altíssimas 0 2 0 0 0 2 alto 7 5 9 1 9 31 altos 0 1 1 0 1 3 94 - ALTURA 7 3 6 2 14 32 28,36 0,8660 SUBS. altura 7 3 6 2 14 32 95 - ALUGAR 1 0 4 2 1 8 6,27 0,7457 VERB. aluga 0 0 1 1 0 2 alugam 0 0 1 0 1 2 alugando 0 0 0 1 0 1 37 alugar 1 0 0 0 0 1 alugou 0 0 2 0 0 2 96 - ALUNA 1 0 3 6 0 10 5,93 0,5207 A B C D E TOT KF C SUBS. aluna 1 0 1 3 0 5 alunas 0 0 2 3 0 5 97 - ALUNO 0 4 3 65 0 72 32,34 0,3514 SUBS. aluno 0 3 1 29 0 33 alunos 0 1 2 36 0 39 98 - ALVENARIA 0 3 1 0 1 5 2,60 0,4360 SUBS. alvenaria 0 3 1 0 1 5 99 - AMADOR 0 4 1 2 0 7 3,87 0,4728 ADJ. amador 0 3 1 2 0 6 SUBS. amadores 0 1 0 0 0 1 100 - AMANHà 1 1 3 2 1 8 7,69 0,9541 ADV. amanhã 1 1 3 2 1 8 101 - AMANHECER 0 1 0 1 4 6 3,41 0,4910 SUBS. amanhecer 0 0 0 0 4 4 VERB. amanhece 0 0 0 1 0 1 amanheceu 0 1 0 0 0 1 102 - AMARELO 6 2 2 0 11 21 13,88 0,6008 ADJ. amarela 1 0 0 0 5 6 amarelas 0 0 1 0 1 2 amarelo 1 1 1 0 4 7 SUBS. amarelo 4 1 0 0 1 6 103 - AMARRAR 1 1 3 0 2 7 5,06 0,6733 VERB. amarrado 0 0 2 0 0 2 amarrar 1 1 1 0 1 4 amarra-se 0 0 0 0 1 1 104 - AMBIENTE 10 14 8 5 8 45 41,93 0,9198 SUBS. ambiente 10 10 8 4 7 39 ambientes 0 3 0 1 1 5 ambientinho 0 1 0 0 0 1 105 - AMENDOIM 2 0 1 0 2 5 2,82 0,4865 SUBS. amendoim 2 0 1 0 2 5 106 - AMERICANO 4 10 6 14 6 40 38,55 0,9574 A B C D E TOT KF C ADJ. americana 1 3 2 2 2 10 americanas 0 2 1 0 0 3 americano 2 3 1 6 1 13 americanos 0 0 1 2 1 4 latino-americano 0 0 0 0 1 1 latino-americanos 0 0 0 0 1 1 SUBS. 38 americano 1 2 0 2 0 5 americanos 0 0 1 2 0 3 107 - AMIGA 4 18 5 5 0 32 21,26 0,6050 SUBS. amiga 1 14 1 4 0 20 amigas 3 4 4 0 0 11 amiguinhas
Compartilhar