lexico-da-frequencia-indd

Administração

•
Humanas / Sociais

Revise conteúdos
24/02/2023
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Administração

613.884 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Enzo Del Carratore
Jayme Laperuta Filho
CULTURA
ACADÊMICA
E d i t o r a
LÉXICO DE FREQUÊNCIA DO PORTUGUÊS
FALADO NA CIDADE DE SÃO PAULO
(PROJETO NURC)
LÉXICO DE FREQUÊNCIA DO PORTUGUÊS
FALADO NA CIDADE DE SÃO PAULO
(PROJETO NURC)
LÉXICO DE FREQUÊNCIA DO PORTUGUÊS
FALADO NA CIDADE DE SÃO PAULO
(PROJETO NURC)
LÉXICO DE FREQUÊNCIA DO PORTUGUÊS
FALADO NA CIDADE DE SÃO PAULO
(PROJETO NURC)
E N Z O D E L C A R R A T O R E
J A Y M E L A P E R U T A F I L H O
Léxico de frequência do português
falado na cidade de São Paulo
(Projeto NURC)
MARÍLIA
2011
UNIVERSIDADE ESTADUAL PAULISTA
FACULDADE DE FILOSOFIA E CIÊNCIAS
Diretora: 
Profa. Dra. Mariângela Spotti Lopes Fujita
Vice-Diretor:
Dr. Heraldo Lorena Guida
Copyright© 2011 Conselho Editorial
Conselho Editorial
Mariângela Spotti Lopes Fujita (Presidente)
Adrián Oscar Dongo Montoya
Célia Maria Giacheti
Cláudia Regina Mosca Giroto
José Blanes Sala
Marcelo Fernandes de Oliveira
Maria Rosângela de Oliveira
Mariângela Braga Norte
Neusa Maria Dal Ri
Rosane Michelli de Castro
Ubirajara Rancan de Azevedo Marques
 Ficha catalográfi ca
Serviço de Biblioteca e Documentação – Unesp - campus de Marília
 
 Del Carratore, Enzo. 
 D344l Léxico de freqüência do português fala na cidade de 
 São Paulo : projeto NURC / Enzo Del Carratore, Jayme 
 Laperuta Filho. – Marília : Oficina Universitária ; 
 [São Paulo] : Cultura Acadêmica, 2011 
 25 p. + anexos ; 23 cm. 
 
 ISBN 978-85-7983-155-3 
 
 1. Linguística. 2. Língua portuguesa – Português falado - 
 São Paulo (SP). 3. Lexicologia. 4. Léxico de freqüência. 
 I. Laperuta Filho, Jayme. II. Título. 
 
 
 CDD 413 
 
L É X I C O D E F R E Q U Ê N C I A
3
SUMÁRIO
Introdução ................................................................................................................................1
1 Antecedentes ........................................................................................................................2
2 Escolha do CORPUS ..........................................................................................................4
3 Critérios e problemas de amostragem ..............................................................................10
4 Metodologia ..........................................................................................................................13
5 A lematização e seus problemas ........................................................................................15
6 A norma lexicologica ...........................................................................................................19
7 Processamento eletrônico ...................................................................................................
ANEXO 1 - Léxico de freqüências ......................................................................................26
ANEXO 2: Relatório comparativo dos valores de FT, KF e 
C em ordem decrescente ........................................................................................................256
 1
Introdução 
 
1 Antecedentes 
Este Léxico de Frequência deseja ser mais uma contribuição ao já elevado contingente de trabalhos 
desenvolvidos no país sobre o Projeto NURC, cujo acervo hoje representa uma fonte inesgotável de material para os 
pesquisadores das diversas áreas da ciência linguística1. 
A intenção inicial era a de elaborar um Léxico da língua portuguesa contemporânea falada no Brasil, utilizando o 
acervo lexical coletado nas cinco cidades onde o Projeto NURC se desenvolve, ou seja, São Paulo, Rio de Janeiro, Recife, 
Salvador e Porto Alegre, o que sem dúvida traria, com a maior abrangência, um maior interesse aos resultados da pesquisa. 
No entanto, a fixação de outras prioridades por parte da Coordenação do Projeto acabou por inviabilizar a intenção 
original, levando-me a reformular o plano previsto, restringindo seu alcance e limitando-o aos dados recolhidos na cidade 
de São Paulo, onde os coordenadores locais, Ataliba T. de Castilho e Dino Preti (USP), manifestaram seu apoio e 
asseguraram sua cooperação. Portanto, este Léxico, longe de definitivo, deve ser considerado um trabalho exploratório, 
visto que foi concebido e elaborado tendo como uma de suas finalidades a de adquirir o domínio das técnicas de 
quantificação e de processamento eletrônico capazes de produzir, num futuro que espero próximo, um léxico de 
frequência do Português culto do Brasil, que poderá incluir as modalidades oral e escrita. 
Este trabalho foi executado em duas etapas: a primeira, desenvolvida ao longo do primeiro semestre de 1982, em 
que realizei, sob o patrocínio da Fundação de Amparo à Pesquisa do Estado de São Paulo � FAPESP, estágios em 
diversos centros especializados em linguística computacional, principalmente o Istituto di Linguística Computazionale de 
Pisa (Itália), e o Centro de Computação de El Colegio de México. Nesses núcleos, aprendi as técnicas básicas de 
elaboração eletrônica que me permitiram efetuar um teste a partir de um corpus de pouco mais de 30.000 ocorrências, e 
assim compilar um miniléxico de frequência constituído por 2.883 lemas; seria este o primeiro passo em direção ao Léxico 
que ora se apresenta2. 
A segunda etapa, fragmentada por numerosas interrupções devidas a problemas estritamente pessoais, 
desenvolveu-se junto ao então Centro de Computação da UNESP, campus de Botucatu, onde o pesquisador Jayme 
Laperuta Filho, co-autor deste Léxico, analisou os resultados obtidos e as técnicas utilizadas, elaborando novas técnicas de 
trabalho que conduziram ao aperfeiçoamento de todo o procedimento eletrônico, e que resultaram num produto final de 
qualidade certamente não inferior à dos léxicos de frequência que conhecemos. 
A despeito disso, dúvidas quanto à qualidade e à oportunidade deste trabalho levaram-me a desistir do 
empreendimento e a engavetar os resultados de maneira que julgava definitiva. E assim ficaram, abandonados, durante 
cerca de 14 anos; a ponderação de que não seria justo desperdiçar um material potencialmente rico e eventualmente útil a 
algum pesquisador e ao próprio Projeto NURC levou-me a retomar a tarefa inicial, reduzir ao mínimo a fundamentação 
teórica, e oferecer à comunidade acadêmica o mais que modesto e tardio fruto de um trabalho ingente e merecedor de 
melhor êxito, pelo que desde já me penitencio e peço escusas à inevitável e justa crítica. 
É meu dever apresentar os meus agradecimentos, em primeiro lugar, à Fundação de Amparo à Pesquisa do 
Estado de São Paulo � FAPESP, que me proporcionou os meios de estagiar nos centros já identificados, aos quais 
acrescento o Departamento de Letras da Universidade de Lisboa, na pessoa do Dr. João Malaca Casteleiro e seus 
 
1 Sobre a história do Projeto NURC e suas realizações, remeto o leitor à obra de CASTILHO, A. T.; PRETI, D. (Org.). A 
linguagem falada culta na cidade de São Paulo, v. I; além das informações necessárias, este volume traz uma completa 
bibliografia sobre o Projeto. 
2 Todos os dados referentes a esta etapa foram publicados pela atual Faculdade de Filosofia e Ciências de Marília, 1983, sob o 
título Nota prévia ao léxico de frequência do Português contemporâneo de São Paulo (Projeto NURC) e, republicados em 
CASTILHO, A. T. (Org.). Português culto falado no Brasil, p.169-198. 
 
 
 2
colaboradores; no ILC de Pisa, além do seu diretor, Dr. Antonio Zampolli, falecido em trágico acidente doméstico e a 
quem rendo minha homenagem póstuma, recebi a inestimável ajuda do pesquisador Remo Bindi, além de muitos outros, 
de quem omito os nomes para nãocometer a injustiça de esquecer algum; no Centro de Cómputo de El Colégio de 
México, a atenção especial do Dr. Luís Fernando Lara e da pesquisadora María Isabel García Hidalgo merecem destacado 
registro; e por fim, mas não em ordem de importância, em São Paulo, além dos colegas e amigos Ataliba T. de Castilho e 
Dino Preti, que sempre e pacientemente confiaram no meu trabalho, minha gratidão se dirige aos anônimos transcritores 
das gravações e, na última fase de coleta dos dados, à Profª Áurea Santos Preti, que transcreveu o número de gravações 
necessário ao completamento do corpus. E ao Jayme, co-autor deste trabalho, a cuja dedicação, competência e paciência 
ímpares devo este resultado, qualquer agradecimento parecerá pobre e mofino � mas sua generosidade o aceitará mesmo 
assim. A todos e a cada um, meu muito obrigado. 
 
2 Escolha do CORPUS 
As gravações efetuadas na cidade de São Paulo abrangiam três tipos de entrevistas: diálogo entre dois 
informantes, diálogo entre o informante e o documentador, e elocução em atitude formal. A primeira experiência - a de 
1982 - e posteriores leituras de alguns inquéritos dos três tipos levaram-me à decisão de eliminar os do tipo "diálogo entre 
dois informantes", pela impossibilidade de levar em conta as variáveis "sexo" e "faixa etária" em virtude dos numerosos 
cruzamentos e dos depoimentos extremamente entrecortados dos informantes, e os do tipo "elocução formal", que, além 
de pouco representativos do total (cerca de 7,6% das gravações em São Paulo), trariam inevitáveis distorções aos 
resultados pelo acúmulo de termos especializados numa determinada área semântica. Detive-me, pois, nos inquéritos do 
tipo DID (diálogo entre um informante e o documentador), de que havia já gravados, na ocasião do levantamento, 373, 
assim divididos: 
 número de inquéritos 
 Área I M I F II M II F III M III F 
1 1 6 2 2 1 - 
2 2 4 5 7 2 2 
3 5 10 4 4 3 3 
4 3 4 6 7 2 3 
5 - 6 5 2 2 7 
6 11 1 5 7 2 2 
7 2 1 10 12 4 6 
8 1 5 11 3 2 1 
9 2 2 3 1 4 2 
10 8 1 6 4 3 5 
11 - - 3 1 2 - 
12 1 2 3 1 3 - 
13 3 3 5 5 4 1 
14 6 2 5 1 6 1 
15 2 2 8 2 3 4 
16 4 4 2 2 1 - 
17 1 4 1 - 1 - 
18 5 - 6 2 - - 
19 5 1 2 1 1 - 
20 6 1 3 2 1 1 
 68 59 95 66 47 38 = 373 
Quadro 1 
Fonte: Elaboração própria. 
 
Por faixa etária, os inquéritos eram assim distribuídos: 
I - 127 (34,05%) 
II - 161 (43,16%) 
III - 85 (22,79%) 
 3
 
Por sexo dos informantes, a divisão era esta: 
Masc. - 210 (56,30%) 
Fem. - 163 (43,70%) 
 
Os questionários versavam sobre 20 áreas temáticas, que, na intenção dos autores do Projeto, cobririam todo o 
universo sensível dos falantes entrevistados; essas 20 áreas, por sua vez, foram agrupadas em cinco conjuntos por um 
critério de afinidade conceitual, conforme quadro abaixo: 
 
Conjunto 
 
Área semântica 
 
A 
 1 - Corpo humano 
 2 - Alimentação 
 3 – Vestuário 
B 
 4 – Casa 
 5 - Família, saúde, ciclo da vida 
 6 - Vida social, diversões 
C 
 7 - Cidade, comércio 
 8 - Transporte, viagens 
 9 - Meios de comunicação e difusão 
10 - Cinema, televisão, rádio, teatro 
D 
11 - Comércio exterior, política nacional 
12 - Sindicatos e cooperativas 
13 - Profissões e ofícios 
14 - Dinheiro, bancos, finanças, bolsa 
15 – Instituições, ensino, igreja 
E 
16 – Meteorologia 
17 - Tempo cronológico 
18 - Terreno 
19 - Vegetais, agricultura 
20 - Animais, rebanho 
Quadro 2 
Fonte: Elaboração própria. 
 
Mantive essa estrutura e dela fiz a base da estratificação utilizada. Longe de ser a ideal, essa estratificação me 
parece a mais conveniente em face dos dados disponíveis tais como eles foram coletados: se de um lado se observará certa 
tendência a uma dispersão irregular entre os conjuntos e certa especialização lexical, esperadas em decorrência de razões de 
ordem temática, por outro lado também se observará a presença de um léxico comum às várias áreas semânticas, e que 
constitui a base lexical do idioma na sua modalidade falada3. 
Quanto à extensão do corpus, que constituiria meu "universo" lexical, optei por limitar-me ao mínimo 
recomendado pela Subcomissão Executiva do Projeto NURC para análises parciais dos dados levantados, fixado em 25 
horas de gravação. Para simplificar, e baseado em cálculos e testes preliminares, tal volume de registros fonográficos 
forneceria aproximadamente 250.000 formas lexicais, que me pareceram amplamente suficientes para elaborar um 
 
3 A. Juilland, nos seus Frequency Dictionaries – do Espanhol (FDSW, 1964), do Romeno (FDRW, 1965), do Francês (FDFW, 
1970) e do Italiano (FDIW, 1973), dividiu seu “universo” lexical em cinco “mundos”, constituídos de 100.000 palavras cada, de 
acordo com a natureza dos textos escolhidos: teatro; ficção; ensaios; jornais e periódicos; literatura técnica e científica. Os 
autores do Lessico di Frequenza della Lingua Italiana Contemporanea (LIF) substituíram a categoria “ensaios” pela de 
“cinema” (textos dialogados de filmes), e a de “literatura técnico-científica” pela de “livros-texto” (manuais para uso dos alunos 
das escolas de primeiro grau). Por sua vez, a equipe do Diccionario del Espanõl de México (DEM), chefiada por Luís Fernando 
Lara, estratificou seu corpus em nada menos que 14 categorias de textos, ou “gêneros”, atendendo à recomendação de R. 
Moreau – stratifiez à outrance... -; consultem-se a respeito, de Luís F. Lara e Roberto Ham Chande “Base estadística del DEM”, 
e de Roberto Ham Chande “Del 1 al 100 em Lexicografia”, em Investigaciones Linguísticas en Lexicografia. De minha parte, já 
que o material colhido não comportava distinções de gênero, optei pela divisão nada ideal em cinco conjuntos, baseados em 
afinidades de ordem temática. 
 
 4
léxico de frequência constituído de pelo menos 2.000 lemas diferentes, selecionados de acordo com parâmetros estatísticos 
descritos adiante. 
Após a execução de todo o processo, verificou-se que haviam sido computadas 242.619 formas, portanto um 
total pouco menos de 3% inferior ao limte proposto, o que seria perfeitamente aceitável num empreendimento desta 
natureza. No entanto, ocorreu um lamentável incidente em algum momento da longa interrupção do projeto: alguns 
arquivos foram irremediavelmente danificados e não puderam ser recuperados; deste modo, o total de formas registrado 
foi reduzido para 224.944, que é o que será considerado para todos os efeitos de cálculo; o total de lemas manteve-se 
inalterado em 2.207, número compatível com as expectativas iniciais. 
 
3 Critérios e problemas de amostragem 
Para a composição da amostra que viria a constituir o corpus da pesquisa, selecionei, mais ou menos 
aleatoriamente4, 189 trechos de extensão variável, extraídos de 138 inquéritos – o que significa que foram utilizados pouco 
mais de um terço (exatamente 37%) dos 373 inquéritos disponíveis. Os inquéritos, parcial ou totalmente transcritos, e de 
que foram selecionados os trechos que compuseram a amostra, são os seguintes: 
 
Fx.et. sexo conj.e área no. Inquér. DID Fx.et. sexo conj.e área no. Inquér. DID 
I M A-01 92 III M B-05 188 
I F A-01 9,73 III F B-05 201 
II M A-01 218 
II F A-01 232 I M B-06 28,32 
III M A-01 264 I F B-06 299 
 II M B-06 44,102,158 
I M A-02 2 II F B-06 278,300 
I F A-02 247 III M B-06 20,262 
II M A-02 6,40,215 III F B-06 223 
II F A-02 11,121,235 
III M A-02 20,261 I M C-07 7 
III F A-02 200 II M C-07 14,56,120,137,163 
 II F C-07 11,59,286,289,300 
I M A-03 36,92 III M C-07 45,133 
I F A-03 9,73 III F C-07 288,303 
II M A-03 6,179,191,204 
II F A-03 165,209,244 I M C-08 2,4 
III M A-03 188 I F C-08 31 
III F A-03 202 II M C-08 56,63,110,224 
 II F C-08 121,190 
I M B-04 5,64 III M C-08 71 
I F B-04 27,37,54 III F C-08 200 
II M B-04 24,178 
II F B-04 90 I M C-09 25 
III M B-04 221 I F C-09 31 
III F B-04 260 II M C-09 123 
 II F C-09 313 
I F B-05 27,42,118 III M C-09 20,239 
II M B-05 208 III F C-09 273A tentativa de seleção totalmente aleatória dos textos malogrou: a péssima qualidade da gravação em alguns 
casos, a entrevista extremamente recortada, com respostas quase monossilábicas às numerosas intervenções do 
documentador em muitos outros casos, recomendaram que se fizesse uma escolha prévia de trechos que apresentassem 
um mínimo de fluência e de adequação ao assunto da entrevista. Não tenho dúvidas de que foi o procedimento mais 
correto e apropriado. 
 5
II F B-05 39 
I M C-10 29,36 I M E-16 29,46,82 
I F C-10 135 I F E-16 1,34,37 
II M C-10 179,240 II M E-16 166,191 
II F C-10 107,234 II F E-16 233 
III M C-10 132,213 III M E-16 128 
III F C-10 279,328 
 I M E-17 46 
II M D-11 35 I F E-17 34,37,52 
II F D-11 284 II M E-17 67 
III M D-11 71 III M E-17 128 
 
I M D-12 43 I M E-18 30,70,82,85 
II M D-12 40,229 II M E-18 38,100,123 
II F D-12 231 II F E-18 160 
III M D-12 258,272 
 I M E-19 18,30,91 
I M D-13 29,43 II M E-19 38 
I F D-13 41,251 II F E-19 93 
II M D-13 40,172,181 III M E-19 88 
II F D-13 162,165 
III M D-13 210,214 I M E-20 18,19,85,91 
III F D-13 206 I F E-20 219 
 II M E-20 166,186 
I M D-14 25,46,69 II F E-20 93,238 
I F D-14 236,248 III M E-20 265 
II M D-14 60,83,158 III F E-20 237 
II F D-14 268 
III M D-14 243,250,263 
III F D-14 269 
I M D-15 5,46 
I F D-15 13 
II M D-15 56,163,181 
II F D-15 108,114 
III M D-15 134,188 
III F D-15 201,242 
Quadro 3 
Fonte: Elaboração própria. 
 
 
 A amostragem, estratificada proporcional, combinará o número de inquéritos de cada área com as seguintes variáveis: 
 
 1. Faixa Etária: I (entre 25 e 35 anos); 
 II (entre 36 e 55 anos); 
 III (acima de 56 anos); 
 
em São Paulo, os 373 inquéritos do tipo DID, repartidos pelas três faixas etárias com 127, 161 e 85 inquéritos 
respectivamente, obedecem, como vimos, à proporções 34%, 43% e 23% do total, o que representa bem os valores 
teóricos previstos pelos organizadores do Projeto, respectivamente 30%, 45% e 25%. 
De minha parte, também procurei manter inalteradas as mesmas proporções, o que resultou na seguinte 
distribuição pelas faixas etárias: 
 
 I - 64 textos, ou 33,86% do total; 
 6
 II - 80 ,, , ou 42,33% do total; 
 III - 45 ,, , ou 23,81% do total. 
 
 2. Sexo: em São Paulo, os 373 inquéritos se repartem em 210 (56,30% do total) com informantes do sexo masculino, e 
163 (43,70% do total) com informantes do sexo feminino. Após a seleção dos textos, 117 resultaram pertencerem a 
informantes do sexo masculino (59,79% do total), e 76 a informantes do sexo feminino (40,21% do total). 
 A partir dessas variáveis, e após as devidas operações para o cálculo dos tempos de gravação e posterior 
transformação desses tempos em número de ocorrências (�palavras�), ter-se-á o seguinte quadro de valores teóricos: 
 
CONJ. ÁREA 
I II III 
Palavras 
por área M F M F M F 
A 
1 2500 (1) 2000 (2) 1400 (1) 1140 (1) 660 (1) ---- 7700 
2 2140 (2) 1660 (1) 4200 (4) 3420 (3) 1400 (1) 1120 (1) 13940 
3 2500 (2) 2000 (2) 4600 (4) 3600 (3) 1780 (1) 1380 (1) 15850 
 (10) 
 
12800 (16) 18360 (5) 6340 37500 = 15% 
B 
4 3960 (3) 3150 (3) 2140 (2) 1660 (1) 1600 (1) 1250 (1) 13760 
5 ---- 2850 (2) 1860 (1) 1450 (1) 2420 (2) 1880 (1) 10460 
6 3180 (2) 2500 (1) 3180 (3) 2500 (2) 1090 (1) 830 (1) 13280 
 (11) 
 
15640 (10) 12790 (7) 9070 37500 = 15% 
C 
7 830 (1) 660 (1) 6250 (5) 4760 (4) 2800 (2) 2220 (2) 17520 
8 1660 (1) 1320 (1) 4000 (4) 3060 (3) 830 (1) 660 (1) 11530 
9 1120 (1) 870 (1) 1120 (1) 860 (1) 1660 (1) 1320 (1) 6950 
10 2800 (2) 2220 (2) 2800 (2) 2220 (2) 2240 (2) 1720 (2) 14000 
 (10) 11480 (22) 
 
25070 (12) 13450 50000 = 20% 
D 
11 ---- ---- 1760 (1) 1380 (1) 1600 (1) ---- 4740 
12 1320 (1) 1050 (1) 1760 (1) 1380 (1) 2370 (2) ---- 7880 
13 2640 (2) 2080 (2) 4500 (3) 3480 (2) 2220 (2) 1730 (1) 16650 
14 3570 (3) 2760 (2) 3690 (3) 1050 (1) 4310 (3) 1210 (1) 16590 
15 1760 (1) 1380 (1) 4500 (3) 3480 (2) 3100 (2) 2420 (2) 16640 
 (13) 16560 (18) 
 
26980 (14) 18960 62500 = 25% 
E 
16 4980 (3) 3800 (2) 2500 (2) 1910 (1) 1100 (1) ---- 14290 
17 1530 (1) 3930 (3) 1100 (1) ---- 1100 (1) ---- 7660 
18 5640 (4) ---- 4980 (3) 3800 (2) ---- ---- 14240 
19 5120 (3) 1420 (1) 1850 (1) 1420 (1) 1100 (1) ---- 10910 
20 5960 (4) 1700 (1) 3060 (2) 2420 (2) 1260 (1) 1000 (1) 15400 
 (22) 33900 (15) 23040 (5) 5560 62500 = 25% 
 (66) 90380 
(36,15%) 
(81) 106240 
(42,50%) 
(43) 53380 
(21,35%) 
25000 = 100% 
Quadro 4 
Fonte: Elaboração própria. 
 
1. Entre parênteses, número de inquéritos a ser utilizados. 
2. Um erro de inversão dos valores da terceira coluna entre as linhas 3 e 4, não corrigido a tempo, ocasionou uma 
diferença de valores nas colunas seguintes dos conjuntos A e B; as diferenças, entretanto, não são significativas, e 
em nada alterariam os resultados finais. 
3. Todos os valores foram arredondados para maior simplificação. 
4. Os percentuais da última linha do Quadro 4 representam bem os dos inquéritos disponíveis (34%, 43% e 23% 
para as faixas etárias I, II e III respectivamente). 
 7
 
 Para a fixação dos valores mostrados no Quadro 4, um problema teórico precisou ser solucionado; com efeito, 
uma alternativa se punha, sob a forma de dois caminhos possíveis: 
a) considerar todas as n áreas iguais em extensão (ni = 12.500); 
b) calcular os valores teóricos de cada área proporcionalmente ao número de inquéritos existentes por área. 
Como o levantamento dos documentadores do Projeto em São Paulo privilegiou nitidamente a primeira metade 
das áreas (237) em prejuízo da segunda metade (136), se o caminho escolhido fosse o segundo, a somatória dos conjuntos 
D e E, com 10 áreas, teria uma extensão bem inferior à dos conjuntos A, B e C, também abrangendo 10 áreas (os valores 
seriam os seguintes: A = 42.225; = 50.269; C = 66.355; D = 52.948; E = 38.203 ocorrências). 
Para evitar previsíveis distorções, resolvi considerar todas as áreas semânticas equivalentes até a formação dos 
conjuntos (A = 37.500; B = 37.500; C = 50.000; D = 62.500; E = 62.500); a partir daí, a amostragem se fez em função das 
variáveis (faixa etária e sexo) e proporcionalmente ao número de inquéritos existentes em cada área. 
Ajustando-se os valores teóricos do Quadro 4, válidos para um corpus de 250.000 ocorrências, ao corpus 
realmente utilizado, constituído por 224.944 ocorrências, os novos valores teóricos passam a ser os seguintes: 
CONJ. ÁREA 
I II III Palavras 
por área M F M F M F 
A 
1 2250 (1) 1799 (2) 1260 (1) 1026 (1) 593 (1) ---- 6928 
2 1926 (1) 1493 (1) 3779 (4) 3078 (3) 1260 (1) 1008 (1) 12544 
3 2249 (2) 1800 (2) 4138 (4) 3239 (3) 1602 (1) 1242 (1) 14270 
 (10) 
 
11517 (16) 16520 (5) 5705 33742 = 15% 
B 
4 3564 (3) 2835 (3) 1928 (2) 1493 (1) 1439 (1) 1124 (1) 12382 
5 ---- 2564 (2) 1673 (1) 1305 (1) 2177 (2) 1692 (1) 9410 
6 2861 (2) 2249 (1) 2860 (3) 2249 (2) 982 (1) 747 (1) 11947 
 (11) 
 
14073 (10) 11518 (7) 8161 33742 = 15% 
C 
7 747 (1) 593 (1) 5623 (5) 4283 (4) 2519 (2) 1998 (2) 15763 
8 1493 (1) 1188 (1) 3599 (4) 2573 (3) 746 (1) 595 (1) 10374 
9 1008 (1) 783 (1) 1008 (1) 774 (1) 1493 (1) 1188 (1) 6254 
10 2519 (2) 1998 (2) 2519 (2) 1998 (2) 2016 (2) 1547 (2) 12597 
 (10) 
 
10329 (22) 22557 (12) 12102 44988 = 20% 
D 
11 ---- ---- 1583 (1) 1242 (1) 1439 (1) ---- 4263 
12 1188 (1) 945 (1) 1583 (1) 1241 (1) 2132 (2) ---- 7089 
13 2375 (2) 1873 (2) 4049 (3) 3132 (2) 1998 (2) 1557 (1) 14983 
14 3211 (3) 2484 (2) 3320 (3) 9451 (1) 3878 (3) 1088 (1) 14926 
15 1583 (1) 1241 (1) 4048 (3) 3132 (2) 2790 (2) 2179 (2) 14972 
 (13) 
 
14900 (18) 24275 (14) 17061 56236 = 25% 
E 
16 4481 (3) 3419 (2) 2242 (2) 1719 (1) 991 (1) ---- 12850 
17 1377 (1) 3536 (3) 991 (1) ---- 991 (1) ---- 6893 
18 4913 (4) ---- 4481 (3) 3419 (2) ---- ---- 12813 
19 4607 (3) 1279 (1) 1664 (1) 1279 (1) 991 (1) ---- 9817 
20 5362 (4) 1530 (1) 2754 (2) 2177 (2) 1134 (1) 899 (1) 13854 
 (22) 30504 (15) 20726 (5) 500656236 = 25% 
 (66) 81323 (81) 95586 (43) 48035 224944 (190) 
 (36,15%) (42,49%) (21,35%) (99,99%) 
Quadro 5 
Fonte: Elaboração própria. 
 8
 
 
Observadas essas premissas e após a execução do trabalho, esse quadro teórico sofreu algumas alterações, 
inevitáveis, aliás, como mostra o Quadro seguinte, que traz os valores reais encontrados, e que constituirão o objeto do 
nosso estudo. 
CONJ. ÁREA 
I II III 
Palavras por 
área M F M F M F 
A 
1 579 2107 1421 1285 779 ---- 6171 
2 1616 1580 3945 3403 1616 1236 13396 
3 1985 1986 4103 3282 1338 1624 14318 
 4180 5673 9469 7970 
 
3733 2860 33885 
B 
4 2283 2935 2153 1771 1678 1352 12172 
5 ---- 2870 1723 1343 1295 2223 9454 
6 3076 2368 2990 2364 1372 785 12955 
 5359 8173 
 
6866 5478 4345 4360 34581 
C 
7 879 ---- 5594 3944 2395 3870 16682 
8 1037 1592 4163 2080 266 644 9782 
9 863 1124 1048 936 1732 1404 7107 
10 3145 1165 3146 2326 2663 2055 14500 
 5924 3881 
 
13951 9286 7056 7973 48071 
D 
11 ---- ---- 1612 1374 1464 ---- 4450 
12 420 ---- 2012 1769 2793 ---- 6994 
13 2449 1920 4388 3215 2090 1598 15660 
14 3334 2658 3678 972 4344 1158 16144 
15 1335 1475 3778 3410 2534 2442 14974 
 7538 6053 15468 
 
10740 13225 5198 58222 
E 
16 2460 3450 2405 1997 498 ---- 10810 
17 1363 2030 1315 ---- 564 ---- 5272 
18 5108 ---- 4637 1385 ---- ---- 11130 
19 4886 ---- 1952 1319 1302 ---- 9459 
20 4565 1645 2283 2547 1151 1323 13514 
 18382 7125 12592 7248 3515 1323 50185 
 
 41383 30905 58346 40722 31874 21714 224944 
Quadro 6 
Fonte: Elaboração própria. 
 
Da comparação entre os Quadros 5 (valores teóricos ajustados) e 6 (valores reais) ressaltam as seguintes diferenças: 
 Valores teóricos Valores reais Diferença (%) 
Fx. et. I 81323 (36,15%) 72288 (32,14%) (-) 4,01%
Fx. et. II 95586 (42.49%) 99068 (44,04%) 1,55%
Fx. et. III 48035 (21.35%) 53588 (23,82%) 2,47%
 224944 224944
 
Sexo masc. 133987 (59,56%) 131603 (58,50%) (-) 1,06%
Sexo fem. 90957 (40,44%) 93341 (41,50%) 1,06%
 9
 
(Os inquéritos DID realizados contemplam a participação de 56,30% de indivíduos do sexo masculino, ou seja, 210, e de 
43,70% de indivíduos do sexo feminino, ou seja, 163. Diante da impossibilidade de calcular o número total de 
ocorrências, optei por assumir valores percentuais aproximados como um índice confiável para a amostra utilizada; ou 
seja, o corpus será considerado representativo do universo. 
 
Inquéritos utilizados, por faixa etária: 
 
Fx. et. I 66 (34,74%) 64 (33,86%) (-) 0,88
Fx. et. II 81 (42,63%) 80 (42,33%) (-) 0,30%
Fx. et. III 43 (22,63%) 45 (23,81%) 1,18%
 
(Considerando-se que a distribuição percentual dos inquéritos DID pelas três faixas etárias corresponde a 34,05%, 
43,16% e 22,79%, verifica-se aqui também que o corpus utilizado é uma amostra bastante fiel do universo). 
 
Confrontando-se mais uma vez os valores teóricos e os valores reais, pode-se verificar que a variação, para a 
maioria das áreas consideradas, encontra-se dentro de limites aceitáveis: 
 
CONJ. ÁREA VAL. TEÓR. VAL. REAL VAR. ABSOL. (%) VAR. RELAT. (%)* 
A 
1 6928 6171 (-) 10,93 (-) 2,24 
2 12544 13396 6,79 2,52 
3 14270 
33742 
14318 
33885 
0,34 
0,42 
0,14 
B 
4 12382 12175 (-) 1,70 (-) 0,62 
5 9410 9454 0,47 0,13 
6 11947 
33742 
12955 
34581 
8,43 
2,49 
2,98 
C 
7 15763 16682 5,83 2,04 
8 10374 9782 (-) 5,71 (-) 1,32 
9 6254 7107 13,64 1,90 
10 12597 14500 15,11 4,23 
 44988 48071 6,85 
D 
11 4263 4450 4,39 0,33 
12 7089 6994 (-) 1,34 (-) 0,17 
13 14983 15660 4,52 1,20 
14 14926 16144 8,16 2,17 
15 14972 14974 0,01 0,02 
 56236 58222 3,53 
E 
16 12850 10810 (-) 15,88 (-) 3,63 
17 6893 5272 (-) 23,52 (-) 2,88 
18 12813 11130 (-) 13,13 (-) 3,00 
19 9817 9459 (-) 3,65 (-) 0,64 
20 13854 13514 (-) 2,45 (-) 0,60 
 56236 
224944 
50185 
224944 
(-) 10,76 
Quadro 7 
Fonte: Elaboração própria. 
 
(*) Leva em conta o peso relativo de cada área dentro do respectivo conjunto; os cálculos efetuados foram os seguintes: para a 
área 1, por ex.: (6928 : 100 = 6171 : x) x (33742 : 100 = 6928 : x), ou seja: -10,93 x 20,53 = -224, isto é, -2,24%, e assim 
sucessivamente. 
 10
4 Metodologia 
Não se pretende expor detalhadamente os fundamentos teóricos que inspiraram os autores dos vários 
dicionários de frequência existentes; para um histórico exaustivo e fiel recomendo a leitura das páginas introdutórias dos 
dicionários citados na nota 3. Por outro lado, a metodologia empregada é bastante conhecida e, portanto, familiar a quem 
quer que possua alguma prática lexicográfica; conceitos como os de frequência, distribuição, dispersão, disponibilidade e 
outros que tais dispensam comentários. Apenas o que for necessário para a fixação dos critérios aqui utilizados será 
apresentado a seguir. 
Ao término do processo de elaboração eletrônica do corpus escolhido, obteve-se de cada palavra não somente a 
sua frequência total, mas também as cinco frequências parciais, correspondentes a cada um dos cinco conjuntos em que o 
corpus foi dividido. Isto nos permite verificar que, na quase totalidade, as palavras não se repartem de maneira uniforme 
pelos conjuntos; um simples exemplo com palavras de freqüência 10 (F=10), ou seja, que apareceram 10 vezes no corpus, 
mostra a repartição extremamente desigual pelos conjuntos que constituem a nossa amostra: 
 
 F A 
x1 
B 
x2 
C 
x3 
D 
x4 
E 
x5 
 
Adotar 10 1 1 3 3 2 
alcançar 10 0 0 4 2 4 
Alma 10 5 1 1 1 2 
apanhar 10 0 3 2 3 2 
assistente 10 0 1 2 7 0 
Data 10 1 0 0 8 1 
definido 10 1 2 2 2 3 
Mistura 10 4 0 1 2 3 
Reto 10 3 1 1 0 5 
 
Os casos limites ocorrem quando uma repartição é extremamente homogênea (x1=x2=x3=x4=x5) ou, no 
exemplo dado, 2, 2, 2, 2, 2), o que não ocorreu neste Léxico; ou quando uma das freqüências parciais é igual à frequência 
total (por ex.: 10, 0, 0, 0, 0), hipótese em que os casos que tenham porventura ocorridos foram eliminados do Léxico pelas 
razões que veremos adiante. 
Parece evidente que, quando a frequência de uma palavra se acumula num único conjunto, isso ocorre por 
razões de ordem temática; portanto, é lícito supor que, variando a amostra, tal palavra poderia aparecer com frequência 
diversa ou, no limite, nem mesmo aparecer. A título de ilustração, no teste realizado no ILC de Pisa, a que aludi, o lema 
�moeda� apareceu com a frequência 50, surpreendentemente alta se considerarmos o tamanho da amostra, mas com todas 
as ocorrências acumuladas num único conjunto; a explicação do fato é que havia sido incluído na amostra um inquérito do 
tipo EF constituído por uma aula sobre economia; variando a amostra (no caso, neste Léxico), tal palavra não foi sequer 
registrada, ao menos com frequência ≥4. 
Ao contrário, quando as frequências de um lema se repartem de maneira mais ou menos uniforme entre os 
conjuntos, é lícito supor que tal lema tem alta probabilidade de aparecer numa listagem oriunda de uma amostragem 
diversa qualquer. Estas palavras, com maior estabilidade dentro do sistema, são obviamente mais importantes na 
elaboração de qualquer léxico frequencial. 
Por isso, vários autores preferiram adotar simplesmente o índice R � repartição -, ou seja, o número de 
conjuntos em que um lema ocorre, para suas listas de freqüência5. Entretanto, podem existir lemas com o mesmo índice R 
mas cuja freqüência se reparte de maneira diferente; confrontem-se, no nosso exemplo, �alma� (5, 1, 1, 1, 2) e �definido� 
(1, 2, 2, 2, 3), ambos com R = 5, mas com distribuição mais uniforme no segundo do que no primeiro. Para obviar a esta 
dificuldade e tornar o índice R significativo, esses autores tiveram que levar em conta um número de conjuntos muito 
 
4 Por exemplo, Vander Beke, French Words Book, e os autores do Français Fondamental . 
 11
elevado � o que teria sido impossível no meu caso. 
Outros autores6 adotaram o índice D � dispersão -, baseado num �coeficiente de variação�, que é a relação entre 
o desvio-padrão e a freqüência média: 
 
xV /σ= 
 
V,independente da frequência, é nulo quando x1=x2=x3=x4=x5= x (distribuição uniforme), e tem o valor 
máximo quando todas as ocorrências se acumulam num único conjunto. 
O índice de dispersão D = 1 - σ/2 x ou, segundo a fórmula de Muller, 
 
1-n
V-1D = 
 
Sendo n o número de conjuntos da amostra, varia entre 0 e 1 ou, em termos percentuais, entre 0% (dispersão 
péssima, caso em que todas as ocorrências se acumulam num único conjunto) e 100% (dispersão ideal, isto é, repartição 
uniforme entre os conjuntos)7. 
A combinação entre os dois indicadores, a frequência total F de um lema e sua dispersão D mais ou menos 
uniforme pelos conjuntos da amostra, a partir das observações de Muller8 passou a ser adotada por Juilland como critério 
prioritário de seleção das palavras nos dicionários do Francês e do Italiano, e pelos autores do LIF, com o nome 
�coeficiente de uso�. 
U = F x D 
 
cujo efeito é o de corrigir a frequência por meio da dispersão. Neste caso, U estará tanto mais próximo de F quanto maior 
for o valor de D. 
 
A metodologia de Juilland poderia ser aperfeiçoada caso houvesse possibilidade de utilização de um número 
maior de conjuntos: uma maior estratificação daria relevo à distribuição mais ou menos regular das palavras, conferindo 
valores mais precisos aos parâmetros D e U. Ainda assim, não se evitariam críticas como as que foram formuladas por 
Muller9, mas que os próprios autores dos Frequency Dictionaries já haviam previsto: com efeito, inferir fatos de língua a 
partir de fatos de discurso, mesmo em termos estritamente probabilísticos, é tarefa praticamente impossível, e os 
resultados de uma quantificação dessa natureza são no mínimo duvidosos. É evidente que, se repetíssemos o experimento, 
conservando as mesmas técnicas mas mudando as amostras, jamais encontraríamos, com exceção talvez dos vocábulos da 
mais alta frequência, as mesmas palavras, nos mesmos lugares, com a mesma distribuição; a não ser que se utilizassem, em 
lugar das 500.000 unidades lexicais pesquisadas pela equipe de Juilland em cada dicionário, um número muitíssimo 
superior, digamos 20 vezes maior � o que daria sem dúvida uma confiabilidade maior aos dados, mas traria a incômoda 
contrapartida de gastos astronômicos, em tempo e em dinheiro. Contra essa séria objeção a equipe de Stanford se 
 
5 A. Juilland e colaboradores, e os autores do LIF, nos dicionários de frequência citados (v. nota 3). 
6 Na notação de Juilland, 
)1(
Txn
-1D
T2
22
i
−
−∑
=
n
sendo: n o número de conjuntos, e T = ∑xi (soma das ocorrências de um lema 
no corpus, isto é, a sua frequência total. 
7 “Fréquence, dispersion et usage”, Cahiers de Lexicologie, VII, 1965; e também “Un dictionnaire de fréquence de l“Espagnol 
moderne”, ZRPh, 81, 1965, republicado em Langue française et linguistique quantitative, p. 207-14. 
 
8 “Un dictionnaire de fréquence de l’espagnol moderne”. 
 12
preveniu, apontando o objetivo primordialmente estrutural dos seus dicionários de frequência (p. XXIII-XXIV do 
FDSW): isso significa que a cada experimento repetido espera-se encontrar, não um léxico estável, e sim um léxico 
estruturalmente igual, cujas palavras terão as mesmas propriedades, sem ser exata e necessariamente as mesmas: mesma 
proporção de classes de palavras, entre sua estrutura prosódica, fonológica, etimológica, etc. Neste caso, dicionário de 
frequência equivale a uma lista de classes lexicais, em termos de propriedades estruturais. 
Resta examinar agora um outro par de medidas estatísticas, destinadas, a primeira, a medir conjuntamente 
frequência e distribuição, podendo substituir o coeficiente de uso de Juilland com a vantagem, entre outras, de poder 
aplicar-se a conjuntos de extensão desigual entre si10; a segunda, a medir a dispersão dos vocábulos entre os conjuntos do 
corpus. Trata-se dos parâmetros utilizados pelos lexicógrafos da equipe do Diccionario del Español de México � DEM: 
�frequência corrigida� KF (korrigierte Frequenz, construída por J. Lanke, da Universidade de Lund), e �índice 
normalizado de dispersão� C, este, ligeira variante do índice S descrito por Rosengren. 
Sobre a importância do índice KF, considere-se o seguinte: um vocábulo cuja distribuição entre os conjuntos 
seja irregular é um vocábulo ligado a circunstâncias temáticas ou de estilo; ao contrário, um vocábulo que apresente uma 
distribuição regular independe de circunstâncias do discurso, e terá maior utilidade no plano da língua. Além disso, entre 
dois vocábulos que apresentem as mesmas condições de distribuição, aquele que tiver maior frequência absoluta terá maior 
índice KF; em contrapartida, entre dois vocábulos de igual frequência absoluta, terá índice KF maior aquele que apresentar 
uma distribuição mais homogênea. Quanto maior, pois, o índice KF, tanto maior a importância do vocábulo na língua. A 
frequência corrigida será para o lexicógrafo o índice mais importante, assim como era para Juilland o índice de uso, que KF 
substitui com nítida vantagem, razão por que será o índice adotado neste Léxico de Frequência. 
A fórmula que utilizei é uma adaptação da encontrada em Muller11, e adequada à notação que venho 
empregando: 
 
2
xp KF 


= ∑ ii 
 
sendo pi a extensão relativa da i-ésima parte do corpus onde se verificam as ocorrências xi. 
 
Quanto ao índice normalizado de dispersão, tal como o índice D de Juilland, independe da frequência absoluta 
do vocábulo; indica apenas a distribuição mais ou menos homogênea entre os conjuntos, e, por assim dizer, completa e 
facilita a interpretação dos valores obtidos por KF. Também varia de 0 (distribuição totalmente irregular) a 1 (ou 100%: 
distribuição absolutamente homogênea): 
 
i
ii
p min100
pmin 100S
C
−
−
= 
sendo Si = Kfi /F 
 
No caso do Projeto NURC, em que os conjuntos de áreas semânticas, aqui assimilados aos �mundos� na 
terminologia de Juilland, apresentam extensões diferentes, parece-me não apenas justificável mas até mesmo forçosa a 
utilização dos parâmetros KF e C; as diferenças entre os resultados obtidos através desses e os obtidos através dos índices 
U e D respectivamente seriam sem dúvida muito sensíveis, e suscetíveis de alterar muitas das posições dentro de uma lista 
de frequência. Confrontem-se, a esse respeito, alguns exemplos extraídos deste Léxico: 
 
 
9 ROSENGREN, Inger. The quantitative concept of language and its relation to the estructure of frequency dictionaries. Etudes 
de Linguistique Appliquée, 1971. 
10 Principes et méthodes de statistique lexicale. 
 
 13
 
F x1 x2 X3 x4 x5 KF U C D 
Terra 
Fora 
129 
129 
1 
20 
5 
28 
1 
27 
2 
35 
120 
19 
58,08 
127,27 
11,19 
141,22 
0,3527 
0,9842 
0,0868 
0,8854 
 
Calça 
acontecer 
95 
95 
84 
6 
1 
14 
4 
21 
6 
25 
0 
29 
37,45 
92,61 
16,39 
74,57 
0,2868 
0,9704 
0,1725 
0,7849 
 
Camisa 
momento 
 
63 
63 
57 
7 
2 
18 
3 
10 
 
0 
15 
1 
13 
22,63 
61,24 
7,44 
53,43 
0,2457 
0,9672 
0,1182 
0,8482 
Chuva 
menor 
 
53 
53 
0 
7 
3 
8 
1 
11 
0 
16 
49 
11 
19,78 
52,86 
4,92 
45,16 
0,2622 
0,9969 
0,0929 
0,8520 
 
Quanto aos critérios para a seleção dos lemas que iriam constituir o Léxico, adotei procedimentos comuns e 
semelhantes aos adotados pelos autores dos Frequency Dictionaries e do LIF; os limites de corte foram: 
a) F > 4: foram eliminados todos os lemas cuja frequência total fosse inferior a 4; 
b) R > 3: foram listadas apenas as palavras que apresentassem ocorrências em, no mínimo três conjuntos. 
 
Desse modo, o Léxico é constituído de 2207 lemas, listados em ordem alfalbética, e complementado por um 
Anexo em que os mesmos lemas são arrolados em ordem decrescente de frequência corrigida (KF) confrontada com sua 
frequência total (F) e com seu índice normalizado de dispersão (C). 
Espera-se, com isso, ter obtido um léxico suficientemente representativo da língua culta falada na cidade de São 
Paulo naépoca da coleta de dados, (em sua maioria, ao longo da década de 1970), porquanto foram retidos para constituí-
lo apenas vocábulos que apresentassem uma frequência mínima significativa e uma distribuição tanto quanto possível 
regular, na tentativa de eliminar possíveis influências temáticas da lista final. 
Eventuais omissões devem-se à natureza do corpus, não ao método empregado; por exemplo: são relacionados 
os numerais �duzentos�, �trezentos�, �quatrocentos� e �quinhentos�, mas não �seiscentos�, �setecentos� etc.; entre os 
dias da semana, só não aparecem �terça-feira� e �sexta-feira�, sem qualquer razão especial a não ser os próprios textos 
selecionados: se outra fosse a amostragem, poderiam ser diferentes os resultados, mas não seria significativamente 
diferente a estrutura do léxico, que, na nossa amostra, se compõe das seguintes classes: 
 
Substantivos 1181 ou 48,96% 
Verbos 478 ou 19,86% 
Adjetivos 473 ou 19,61% 
Advérbios 145 ou 6,01% 
Numerais 38 ou 1,57% 
Pronomes 38 ou 1,57% 
Preposições 20 ou 0,83% 
Conjunções 19 ou 0,79% 
Fáticos 12 ou 0,50% 
Expletivos 3 ou 0,12% 
Artigos 2 ou 0,08% 
Locuções prepos. 2 ou 0,08% 
Interjeição 1 ou 0,04% 
 
Obs.- O total, 2412, não coincide com o número de lemas do Léxico (2207) porque alguns pertencem a classes diversas 
(ex.: �olhar�: substantivo e verbo; �português�: substantivo e adjetivo, etc.). 
 
5 A lematização e seus problemas 
É conveniente definir e fixar alguns termos empregados neste levantamento. Nem sempre se observou a 
precisão científica na terminologia utilizada � nem sempre pacífica, aliás: minha intenção é de se simplificar a descrição das 
 14
diversas etapas da elaboração automática do corpus, buscando facilitar o seu entendimento12. 
Chamou-se �palavra� ou �ocorrência� a cada unidade gráfica de que se constitui um texto: para o computador, 
essa unidade corresponde a um ou mais caracteres delimitados por espaços ou sinais de pontuação. 
Chamou-se �formas gráficas�, ou simplesmente �formas�, a todas as palavras �diferentes� num texto. Tome-se 
um texto qualquer, suficientemente extenso: nem todas as palavras são diferentes; algumas se repetem, uma ou mais vezes; 
a listagem de todas as formas presentes num texto, portanto, é a que nos dará o total de formas diferentes desse texto. Por 
exemplo, no conhecido ditado �quem diz o que quer ouve o que não quer� existem dez palavras, ou ocorrências, mas 
apenas sete formas: as palavras �o�, �que� e �quer� aparecem duas vezes cada, isto é, têm �frequência 2�, enquanto as 
formas �quem�, �diz�, �ouve�, �não� têm �frequência 1�: o número de vezes em que cada forma aparece no texto é a sua 
�frequência absoluta�. 
Nem sempre a cada forma gráfica corresponde apenas uma unidade linguística: por exemplo, a forma �são� 
pode corresponder: a) à 3ª pessoa do plural, presente do indicativo, do verbo �ser�; b) ao adjetivo, masculino singular, são 
� �sadio, saudável�; c) à forma apocopada são � �santo�. A forma gráfica �canto� pode ser: a) a 1ª pessoa do singular, 
presente do indicativo, do verbo �cantar�; b) ao substantivo, masculino singular, canto � �ação de cantar�; c) ao 
substantivo, masculino singular canto � �ângulo, esquina�; e inúmeros outros exemplos do gênero. As formas são e canto 
são �homógrafas�, e cada uma delas corresponde a três formas lexicais distintas, ou lemas. 
Dá-se o nome de �lema� a uma variante de um lexema escolhido convencionalmente (por exemplo, o infinitivo 
para os verbos, o singular para os substantivos, etc.). A relação ordenada dos lemas de uma língua constitui normalmente 
um dicionário. Lema corresponde, portanto, à forma canônica encontrada nos dicionários, ao �verbete� ou �entrada�: é a 
forma invariante que representa todas as suas formas flexionadas; assim, às formas �faremos� e �faziam� corresponde o 
lema �fazer�; às formas �fácil�, �fáceis�, �facílimo�, o lema �fácil�. Lematização de um texto é, portanto, o levantamento 
dos lemas desse texto; é a operação que consiste em agrupar sob um único lema todas as suas formas variantes e as 
respectivas ocorrências, existentes nesse texto. Em outras palavras, lematizar um texto significa proceder à contagem das 
palavras e dos vocábulos que o compõem. 
É prática corrente em outros países efetuar a lematização automática de um texto, a partir de um �dicionário de 
máquina� armazenado na memória do computador, que contenha o maior número possível de vocábulos de uma língua 
acompanhado dos morfemas possíveis para sua atualização no discurso (morfemas de gênero, número, pessoa, tempo, 
modo, derivativos, etc.). Outras vezes, recorre-se a um �analisador gramatical� que �reconhece� as ocorrências de um 
texto sem ambiguidades em pelo menos 55% dos casos13. É óbvio que a utilização de qualquer desses instrumentos 
facilita imensamente o trabalho do lexicógrafo. Ocorre que não dispunha de nenhum desses recursos na ocasião, nem 
creio que existissem então no Brasil; razão por que a lematização do corpus foi feita manualmente, a partir de uma listagem 
 
11 Lembro, a título de ilustração, a terminologia proposta por MULLER, C. Principes et méthodes de statistique lexicale, cap. I: 
palavra = unidade gráfica; seu conjunto N constitui um texto; vocábulo = unidade do conjunto sintagmático denominado 
“discurso”; o conjunto V dos vocábulos de um texto constitui seu vocabulário; lexema = unidade do conjunto paradigmático 
denominado “língua”; o conjunto L de lexemas constitui o léxico de um idioma. Essas definições levam Muller ao 
estabelecimento do seguinte sistema terminológico: 
 
Nível Conjunto Elemento Definição 
Língua Léxico Lexema 
Vocábulo 
 
Lema + classe de palavras (+ flexão) + conteúdo 
semântico 
 
Discurso 
Vocabulário 
 
Texto 
 
 
Palavra 
 
 
Forma gráfica + posição 
 
 
12 Cf. HIDALGO, María Isabel García. La formalización del Analisador Gramatical del DEM. In: LARA, L. F.; CHANDE, R. H.; 
HIDALGO, M. I. G. Investigaciones linguísticas en lexicografia, p. 85-155. 
 15
das concordâncias por forma, isto é, de um contexto em que as formas são precedidas e seguidas de tantas palavras 
quantas suficientes para preencher uma linha de texto, geralmente apto a garantir a compreensão e a identificação da forma 
considerada. 
Nem é preciso salientar que essa foi a etapa mais difícil e demorada de todo o trabalho, pois que, além da 
necessidade de manusear um grande volume de dados que exigiu meses de dedicação, esse foi o momento da tomada de 
decisões, em que se impunha o estabelecimento de um conjunto de regras que limitassem ao máximo a interpretação 
subjetiva do lexicógrafo em casos duvidosos, garantindo a constância do tratamento dos dados: tal conjunto de regras 
constitui a norma lexicológica, que procurei seguir com constância e coerência ao longo dessa etapa. 
 
6 A norma lexicologica 
A escolha de uma norma lexicológica é o ponto chave de qualquer tentativa de estatística lexical, que é elaborada 
a partir de entidades conhecidas por �palavras�. Em português, verifica-se facilmente através dos testes de substituição, 
distribuição, permutação, transformação e inserção, que os problemas de segmentação não representam uma barreira 
difícil de transpor, uma vez que a autonomia das palavras é normalmente bem marcada. No entanto, alguns problemas se 
põem e devem ser solucionados de antemão: 
a) segmento gráfico e unidade lexical não coincidem; por exemplo, as formas contratas (ao, à, disso, nesse, etc.) e as 
formas homógrafas (manga 1 �variedade de fruta� e manga 2 �parte de uma peça do vestuário�). 
b) mais de uma unidade gráfica podem ser consideradas uma palavra só; por exemplo, os tempos compostos dos 
verbos (tinha feito, estou dizendo, etc.) as lexias complexas (bom-dia, a fim de, contanto que, guarda-roupa, fim de 
semana, etc.) expressões idiomáticas (certo como dois e dois são quatro, dar murro em ponta de faca, etc.), que 
poderiam pré-existirno nível da �língua� e não tem sido formadas pelo falante no nível do �discurso�. 
Tais dúvidas, e outras tão ou mais inquietantes, somente poderiam ser resolvidas através de uma completa teoria 
da palavra, que não é minha intenção esboçar. Desejando apenas tornar menos arbitrárias as minhas decisões, e seguindo 
as sugestões e a prática usual entre os autores de dicionários de frequência, resolvi seguir a norma lexicográfica tradicional, 
ou pelo menos afastar-me dela no menor número possível de casos, adotando as soluções dos lexicógrafos: embora 
suscetíveis de críticas e objeções, eles se fundamentaram numa sólida tradição e num conhecimento incomum dos fatos da 
língua que os tornam respeitáveis. Entre os dicionários, a escolha óbvia recaiu sobre o Novo Aurélio14, que, pela sua 
autoridade, atualidade e abrangência, pareceu reunir todas as condições de confiabilidade que se esperam desse 
indispensável instrumento de consulta15. 
Daí, entre outras, a prática corrente neste Léxico de reunir sob o mesmo lema funções diversas ou diferentes 
classes de palavras, indicando-as e colocando-as em destaque através da utilização de sublemas que, embora não alterando 
a numeração, facilitam a visualização do fenômeno; alguns exemplos: 
 
certo Estar
certo (adj.) estar (vb. aux.)
certo (fát.) estar (vb. int.)
certo (pron.) 
 
estar (vb. lig.)
muito Português
muito (adv.) português (adj.)
muito (pron.) português (subst.)
 
Ainda seguindo essa norma, no tocante aos problemas apontados no início desta secção, preferi a solução 
analítica: tanto as formas contratas quanto as lexias complexas, os tempos compostos e as locuções, lexicalizadas ou não, 
 
13 FERREIRA, Aurélio B. de Holanda. Novo dicionário da língua portuguesa, 2ª edição. 
14 Por ocasião da elaboração deste texto (década de 80), ainda não havia sido editado o dicionário de A. Houaiss. 
 
 16
foram usualmente analisadas, isto é, seus componentes foram desmembrados e reagrupados sob lemas distintos (ex.: do = 
de �prep.� + o �art./pron.�; nesse = em �prep.� + esse �pron.�; está havendo = estar �vb. aux.� + �vb. imp.�; fim de 
semana = fim �susbst.� + de �prep.� + semana �subst.�, etc.). As únicas exceções, que mantêm o composto como 
unidade, foram os casos em que o resultado final é semanticamente diverso da somatória dos componentes, constituindo 
unidade fortemente lexicalizada (ex.: pôr-do-sol); neste trabalho, isso ocorreu um duas oportunidades: meio-dia e meia-
noite. 
A seguir, os critérios utilizados para a lematização neste Léxico: 
6.1 Em princípio, foram anotados ortograficamente todos os fenômenos de alteração fonológica, tais como: 
redução de ditongo, ditongação de vogal tônica, omissão de segmento fônico, etc. (ex.: manteiga, faz, dizer, 
não � e não: mantega, faiz, dizê, num). Excepcionalmente, e dada a altíssima incidência da forma pra, 
sozinha ou em contrações (pr’o, pr’um), ela foi registrada como variante do lema para. Igualmente, a forma 
né?, de emprego muito frequente na modalidade oral, foi lematizada como variante da expressão não é?, 
considerada fática. 
6.2 Foram eliminados sistematicamente todos os nomes próprios (antropônimos, topônimos, nomes de 
instituições, etc.), que constituem a parte contingente do discurso, à margem deste. 
6.3 Repetições, aliás muito frequentes num corpus de língua falada: há dois casos que me pareceram distintos: 
repetições por hesitação e repetições por ênfase. As primeiras, totalmente involuntárias e do tipo fático (�a 
escolha do... do... do terreno�) foram eliminadas da contagem. As outras, seguramente intencionais, foram 
mantidas (�sempre... sempre fui favorável...) 
6.4 Truncamento de vocábulo: eliminei sistematicamente as formas truncadas, mesmo que a forma plena fosse 
facilmente identificável. A decisão me parece correta, visto que na grande maioria dos casos os 
truncamentos representam ou repetições incompletas, e portanto elimináveis (�prefi... prefiro, então, muito 
mais um jardim�), ou vocábulos que seriam abandonados em favor de outra formulação verbal julgada pelo 
falante como mais pertinente (�não, lógi... ele me daria...�) 
6.5 Dentro da orientação geral de analisar ao máximo, foram desmembrados os elementos das locuções 
prepositivas, conjuntivas e adverbiais. Mantive a locução como unidade, e assim a lematizei, nos únicos dois 
casos em que o elemento significativo não tem existência autônoma no idioma (apesar de) ou se apresenta 
descaracterizado (devido a). Nos demais casos, locuções como em vez de, de forma que etc., foram consideradas 
como três unidades, ao passo que, à medida que etc., foram registradas como quatro unidades lexicais. 
6.6 Substantivo: o expoente é o singular; a lematização foi feita, para as formas flexionadas, com distinção de 
gênero; assim, por exemplo, amiga e amigo, professor e professora constituem lemas distintos. Nem poderia ser 
de outra forma, já que o gênero dos substantivos, mais do que uma verdadeira flexão, é uma 
correspondência semântica (ex.: homem e mulher), e na maioria das vezes também morfológica (ex.: irmã e 
irmão), entre dois substantivos que designam seres de sexo diferente. Somente foram reunidos sob o 
mesmo lema os pares de substantivos que a gramática chama �comum de dois gêneros�: o (a) artista, o (a) 
colega, onde a correspondência formal é completa. 
 As formas correspondentes aos graus aumentativo e diminutivo foram registradas como flexões do grau 
normal, à exceção daquelas formas que, tendo adquirido alta especialização de sentido, não mais mantêm 
vínculo semântico claro com os vocábulos dos quais derivam; assim, cursinho, calção, cartão foram lematizados 
separadamente. 
 Formas variantes foram lematizadas sob a forma mais frequente: lista / listra, televisão / TV. 
 Foram contados separadamente os casos de homonímia: canto �ângulo� e canto �som musical�, risco �perigo� 
e risco �traço�, pena �pluma� e pena �sofrimento�, etc. 
 17
 
6.7 Artigo: as formas variantes foram reunidas sob o lema do masculino singular: o e um, inclusive as contrações 
(do, pelo, etc.). 
6.8 Adjetivo: as flexões de gênero, número e grau foram reunidas sob o lema do masculino singular. Apenas os 
chamados comparativos e superlativos anômalos (melhor, pior, menor, ótimo, mínimo, etc.) foram 
lematizados separadamente. 
Para os adjetivos substantivados (ex.: ideal, português, velho, etc.) foi aberto um sublema, recurso que 
caracteriza os homógrafos pertencentes a diferentes classes de palavras; procurou-se com isso distingui-los 
dos correspondentes usados em função atributiva ou predicativa. 
6.9 Pronome: todas as variantes flexionais foram lematizadas sob a forma do masculino singular (ex.: esta, isto, 
sob este). As formas oblíquas dos pronomes pessoais foram reunidas sob o lema da função sujeito (ex.: me, -
me, mim, comigo sob eu; o, -la, lhe, se sob ele). 
Nenhuma distinção foi feita entre os diversos tipos (interrogativos, indefinidos, relativos, etc.) de pronome, 
bem como entre os empregos adjetivo e pronominal; em expressões como esta é a minha casa e esta casa é 
minha, a distinção entre a função atributiva e a predicativa, portanto exclusivamente sintática, não parece 
justificar uma diferenciação que não existe nem no nível morfológico nem no semântico. 
As locuções pronominais, tais como cada qual, qualquer um etc., foram analisadas, e cada elemento do 
composto foi lematizado separadamente. 
6.10 Verbo: terá entrada pela forma do infinitivo, listando-se sob este lema todas as formas flexionadas e as formas 
nominais. 
Os verbos pronominais e reflexivos foram lematizados desacompanhados de pronome, com exceção dos 
essencialmente pronominais, como é o caso de queixar-se, o único desses verbos que aparece na listagem. 
As locuções verbais (tempos compostos, voz passiva, auxiliares modais seguidos de infinitivo) foram 
sistematicamente analisadas, indexando-se seus componentes sob as respectivas formas canônicas � os 
infinitivos.Foram abertos sublemas para os verbos que apresentaram, no corpus considerado, predicações ou empregos 
diversos (transitivo, intransitivo, auxiliar, impessoal, de ligação). 
Os particípios constituem um caso bastante complexo, porquanto podem compartilhar várias classes de 
palavras; a solução adotada foi: 
a) são classificados como verbos quando constituem o núcleo da locução verbal (ex.: o material que foi 
empregado na obra...); 
b) são classificados como adjetivos quando suscetíveis de flexão de gênero e número (ex.: o material 
empregado na obra...); 
c) são classificados como substantivos quando constituem o núcleo de um sintagma nominal (ex.: havia 
vários empregados na casa). 
Os infinitivos substantivados foram indexados como sublemas da forma canônica. 
6.11 Fáticos: foram reunidos sob essa designação os termos destinados a enfatizar a mensagem em si, com o fim de 
retomar, interromper, prolongar a conversa, chamar ou testar a atenção do ouvinte (ex.: bem, entende?), bem 
como certas idiossincrasias, típicas da modalidade oral, presentes na fala de muitos entrevistados (ex.: né?, 
certo?, etc.). 
 18
6.12 Advérbio: todos os advérbios de modo formados pelo sufixo -mente foram lematizados separadamente dos 
adjetivos dos quais derivam. 
Esses foram os principais critérios, que procurei seguir fielmente, na tentativa de classificar os lemas deste 
Léxico; é claro que algumas soluções podem ser contestadas, como, aliás, qualquer decisão que envolva critérios pessoais 
de interpretação e escolha, que podem resultar certas ou erradas. Dar-me-ei por satisfeito se tiver acertado a maioria delas. 
Enzo Del Carratore 
Professor titular, inativo, da UNESP, Fac. de Filosofia e Ciências, Campus de Marília. 
enzodel@life.com.br 
 
 19
 
7 Processamento eletrônico 
O processamento eletrônico foi desenvolvido em dois períodos de tempo distintos: o primeiro, em 1991, 
utilizando um Minicomputador ABC 2000 pertencente ao Centro de Informática na Agricultura (Cinag), hoje Serviço 
Técnico de Informática (STI) da Faculdade de Ciências Agronômicas, UNESP, campus de Botucatu; o segundo, em 2008 
utilizando um microcomputador Pentium 4. 
Os equipamentos utilizados tinham as seguintes configurações: 
a) Minicomputador ABC2000: 2 unidades de fita carretel de 9600 bpi, 2 unidades de disco removível de 300 Mb cada, 
32 Mb de memória RAM, impressora de linha (300 lpm) e 5 terminais escravos utilizando FORTRAN IV como 
linguagem de programação; 
b) Microcomputador Pentium 4: 1 unidade de disco de 200 Gb, 1 Gb de memória RAM, 1 gravador de CD/DVD e 
impressora laser Lexmark Optra T612 utilizando Delphi 6 como linguagem de programação. 
 
O processamento eletrônico foi divido em fases que são descritas abaixo. 
 
Fase 1 
Inicialmente os texto selecionados foram digitados, corrigidos e armazenados em meio magnético (texto 
corrigido � TC). 
 
 
 Textos 
Editor de texto 
Arquivos 
de 
Textos 
(TC) 
 20
Fase 2 
Obtenção do relatório de concordâncias por formas, onde todos as ocorrências do TC foram colocadas em 
ordem alfabética e impressas em contextos � as �concordâncias� � de uma linha, extensão suficiente para dirimir dúvidas 
sobre o estatuto morfo-sintático e semântico de cada forma. As informações para a composição do referido relatório 
também foram armazenadas de meio magnético (arquivo). 
 
 
 
 
Fase 3 
Após lematização, digitação das fichas-lema. 
 
Fichas-lema 
 Editor de texto 
Arquivos 
de 
Fichas-lema 
Arquivos de 
Textos 
 (TC) 
Programa gerador 
 
(FORTRAN IV) 
Arquivo de 
concordâncias 
por forma 
Relatório de 
concordâncias 
por forma 
 21
 
Fase 4 
Geração do arquivo magnético em que todos os lemas do TC foram colocados em ordem alfabética, 
acompanhados das formas sob as quais se apresentam no TC e também das freqüências em cada área 
semântica. 
 
 
 
 
Fase 5 
Transferência do arquivo de concordância por lema do minicomputador ABC2000 para disquete de 
microcomputador. 
 
 
 
Arquivos 
de 
Fichas-lema 
 
Programa gerador 
 
(FORTRAN IV) 
Arquivo de 
concordâncias 
por lema 
Arquivo de 
concordâncias 
por forma 
 
Arquivo de 
concordâncias 
por lema 
 
Programa de 
Comunicação 
ABC2000 
 
Programa de 
Comunicação 
microcomputador 
Arq. 
concorc. 
por lema 
 22
 
Fase 6 
Transferência do arquivo concordâncias por lema do disquete para o hd do microcomputador. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fase 7 
Produção do relatório Léxico de freqüência (anexo 1), a partir do arquivo de concordâncias por lema. 
 
 
Arquivo de 
concordâncias 
por lema 
 
Programa gerador 
 
(DELPHI 6) 
Relatório de 
concordâncias 
por forma 
Arquivo de 
concordâncias 
por lema 
 
Programa 
 
microcomputador 
 
Arq. 
concorc. 
por lema 
 23
Fase 8 
Calculo dos índices KF, C e produção de relatório (anexo 2). 
 
 
As fases de 1 a 5 foram desenvolvidas no minicomputador ABC2000 em 1991, e as de 6 a 8 em 
microcomputador Pentium 4 em 2008. 
 
 
 
 
 
 
 
Jayme Laperuta Filho 
Dr. em Agronomia, Analista de Informática do Serviço Técnico de Informática da Faculdade de Ciências 
Agronômicas da UNESP, Campus de Botucatu. 
jayme@fca.unesp.br 
Arquivo de 
concordâncias 
por lema 
 
Programa gerador 
 
(DELPHI 6) 
Relatório dos 
Índices KF e C 
 
 24
Bibliografia básica 
BORTOLINI, U. et al. Lessico di frequenza della lingua italiana contemporanea. Milano: Garzanti, 1972. 
CASTILHO, A. T. (Org.). Português culto falado no Brasil. Campinas: Ed. UNICAMP, 1989. p. 169-198. 
CASTILHO, A. T.; PRETI, D. (Org.). A linguagem falada culta na cidade de São Paulo. São Paulo: T.A. Queiroz, 
1986. v. 1. 
CHANDE, R. H. Del 1 al 100 en lexicografia. In: LARA, L. F.; CHANDE, R. H.; HIDALGO, M. I. G. Investigaciones 
lingüísticas en lexicografia. México: El Colegio de México, 1979. p. 43-83. 
DEL CARRATORE, E. Nota prévia ao léxico de freqüência do Português 
contemporâneo de São Paulo (Projeto NURC). Marília: FEFCSD (UNESP), 1983. Republicado em CASTILHO, A. T. 
(ver acima). 
DOLPHIN, B. Vocabulaire et lexique. Genève: Slatkine, 1979. 
DUGAST, D. L statistique lexicale. Genève: Slatkine, 1980. 
DUNCAN JUNIOR, J. C. Frequency dictionary of portuguese words. Stanford, 1970. Mimeografado. 
FERREIRA, A. B. H. Novo dicionário da língua portuguesa. 2. ed. Rio de Janeiro: Nova Fronteira, 1986. 
GOUGENHEIM, G. et al. L’élaboration du français fondamental. Paris: Didier, 1964. 
GUIRAUD, P. Les caractères statistiques du vocabulaire. Paris: Presses Universitaires de France, 1954. 
GUIRAUD, P. Problèmes et méthodes de la statistique linguistique. Paris: Presses Universitaires de France, 1960. 
HIDALGO, M. I. G. La formalización del analizador gramatical del DEM. In: LARA, L. F.; CHANDE, R. H.; 
HIDALGO, M. I. G. Investigaciones lingüísticas en lexicografia. México: El Colegio de México, 1979. p. 87-156. 
JUILLAND, A. et al. Frequency dictionary of rumanian words. The Hague-Paris: Mouton, 1965. 
JUILLAND, A. et al. Frequency dictionary of french words. The Hague-Paris: Mouton, 1970. 
JUILLAND, A.; CHANG-RODRIGUEZ, E. Frequency dictionary of spanish words. The Hague-Paris: Mouton, 
1964. 
JUILLAND, A.; TRAVERSA, V. Frequency dictionary of italian words. The Hague-Paris: Mouton, 1973. 
LARA, L. F.; CHANDE, R. H. Base estadística del diccionario del español de México. In: LARA, L. F.; CHANDE, R. H.; 
HIDALGO, M. I. G. Investigaciones língüísticas en lexicografia. México: El Colegio de México, 1979. p. 7-39. 
MOREAU, R. Au sujet de l�utilisation de la notion de fréquence em linguistique. Cahiers de Lexicologie, Paris, v. 3, p. 
140-159, 1962. 
MULLER, C. Le mot, unité de texte et unité de lexique en statistique lexicologique. 
Travaux de Linguistique et Littérature, Paris, v. 1, p. 155-173, 1963. 
MULLER, C. Fréquence, dispersion et usage. Cahiers de Lexicologie, Paris, v. 7, p. 33-42, 1965. 
MULLER, C. Initiation à la statistique linguistique. Paris: Larousse, 1968. 
MULLER,C. Initiation aux méthodes de la statistique linguistique. Paris: Hachette, 1973. 
MULLER, C. Principes et méthodes de statistique lexicale. Paris: Hachette, 1977. 
MULLER, C. Un dicionnnaire de fréquence de l�espagnol moderne. Zeitschrift für Romanische Philologie, v. 81, 1965. 
Republicado em Langue française et linguistique quantitative. Genève: Slatkine, 1979. p. 207-214. 
 25
ROSENGREN, I. The quantitative concept of language and its relation to the structure of frequency dictionaries. Etudes 
de Linguistique Appliqué, Paris, v. 1, p. 103-127, 1971. 
 
26 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 ANEXO A - Léxico de frequências 
 
 
 
27 
 
 A B C D E TOT KF C 
 1 - A 319 323 617 674 496 2429 2.419,53 0,9954 
 PREP. 
 a 101 176 253 298 192 1020 
 à 89 51 102 123 104 469 
 à gente 0 0 0 0 1 1 
 à senhora 0 0 1 2 0 3 
 ao 55 52 132 152 75 466 
 aos 18 11 32 32 19 112 
 àquela 2 0 2 2 1 7 
 àquele 0 0 1 0 3 4 
 àqueles 0 1 1 1 0 3 
 àquilo 0 0 1 1 0 2 
 às 54 32 92 63 101 342 
 2 - A GENTE 87 143 279 162 310 981 950,01 0,9628 
 PRON. 
 à gente 0 0 0 0 1 1 
 a gente 82 141 266 151 292 932 
 apesar da gente 0 0 0 1 0 1 
 da gente 5 1 12 10 13 41 
 devido à gente 0 0 0 0 1 1 
 na gente 0 1 1 0 0 2 
 pr'a gente 0 0 0 0 3 3 
 3 - ABAIXO 3 0 3 2 6 14 11,22 0,7660 
 ADV. 
 abaixo 3 0 3 2 6 14 
 4 - ABANDONADO 1 3 2 0 0 6 2,96 0,4039 
 ADJ. 
 abandonada 0 3 0 0 0 3 
 abandonado 1 0 2 0 0 3 
 5 - ABERTO 2 6 3 10 1 22 19,28 0,8546 
 ADJ. 
 aberta 1 1 2 2 0 6 
 abertas 0 3 0 1 0 4 
 aberto 0 2 1 7 1 11 
 abertos 1 0 0 0 0 1 
 6 - ABERTURA 0 1 2 3 0 6 3,71 0,5514 
 SUBS. 
 abertura 0 0 2 3 0 5 
 aberturas 0 1 0 0 0 1 
 7 - ABRANGER 0 1 1 1 1 4 3,37 0,8143 
 VERB. 
 abrange 0 0 0 1 0 1 
 abrangem 0 0 1 0 0 1 
 abrangendo 0 1 0 0 0 1 
 abranger 0 0 0 0 1 1 
 8 - ABRIR 6 6 5 39 4 60 49,94 0,8025 
 VERB. 
 aberta 0 1 1 0 0 2 
 A B C D E TOT KF C 
 aberto 0 0 0 2 0 2 
 abram 0 0 1 0 0 1 
 abre 1 1 1 10 1 14 
 abrem 0 0 0 2 0 2 
 abri 0 0 0 3 0 3 
 abria 2 1 0 0 0 3 
 abriam 0 0 1 0 0 1 
28 
 
 abria-se 0 1 0 0 0 1 
 abrimos 0 0 0 1 0 1 
 abrindo 1 0 0 0 1 2 
 abrir 2 2 1 18 2 25 
 abriu 0 0 0 2 0 2 
 abro 0 0 0 1 0 1 
 9 - ABSOLUTAMENTE 4 5 9 8 6 32 31,76 0,9912 
 ADV. 
 absolutamente 4 5 9 8 6 32 
 10 - ABSOLUTO 0 1 3 1 1 6 4,73 0,7500 
 ADJ. 
 absoluta 0 0 2 1 0 3 
 absolutas 0 0 1 0 0 1 
 absoluto 0 1 0 0 1 2 
 11 - ABSORVER 0 0 2 2 2 6 4,17 0,6402 
 VERB. 
 absorve 0 0 0 2 1 3 
 absorver 0 0 2 0 0 2 
 absorvida 0 0 0 0 1 1 
 12 - ABSURDO 0 2 2 3 1 8 6,56 0,7885 
 ADJ. 
 absurda 0 0 0 1 0 1 
 absurdo 0 1 0 0 0 1 
 SUBS. 
 absurdo 0 1 1 2 1 5 
 absurdos 0 0 1 0 0 1 
 13 - ABUNDANTE 0 0 2 1 1 4 2,67 0,6093 
 ADJ. 
 abundante 0 0 1 1 0 2 
 abundantes 0 0 1 0 1 2 
 14 - ACABAR 12 16 16 26 19 89 88,64 0,9953 
 VERB. 
 acaba 2 2 6 8 9 27 
 acabado 1 0 0 0 0 1 
 acabam 0 1 0 1 1 3 
 acabamos 0 0 0 1 2 3 
 acabando 0 0 0 0 1 1 
 acabar 0 5 2 1 2 10 
 acabaram 0 0 0 1 0 1 
 acabaram-se 1 0 0 0 0 1 
 acabava 0 2 1 0 0 3 
 acabe 0 0 1 0 0 1 
 A B C D E TOT KF C 
 acabei 3 1 0 3 1 8 
 acabo 3 0 1 1 0 5 
 acabou 2 5 5 9 3 24 
 acabou-se 0 0 0 1 0 1 
 15 - AÇÃO 1 0 1 68 1 71 30,45 0,3275 
 SUBS. 
 ação 1 0 0 13 1 15 
 ações 0 0 1 55 0 56 
 16 - ACEITAÇÃO 1 0 1 3 1 6 4,86 0,7757 
 SUBS. 
 aceitação 1 0 1 3 1 6 
 17 - ACEITAR 10 2 16 14 3 45 40,35 0,8785 
 VERB. 
 aceita 2 0 2 1 0 5 
29 
 
 aceitado 0 0 1 0 0 1 
 aceitados 0 0 1 0 0 1 
 aceitam 0 0 0 5 1 6 
 aceitamos 1 1 0 0 0 2 
 aceitando 0 0 2 0 0 2 
 aceitar 3 0 5 2 2 12 
 aceitaram 0 0 0 2 0 2 
 aceitas 0 0 1 0 0 1 
 aceitava 0 0 1 0 0 1 
 aceitavam 0 0 2 3 0 5 
 aceitei 0 0 0 1 0 1 
 aceitem 1 0 0 0 0 1 
 aceito 3 1 0 0 0 4 
 aceitou 0 0 1 0 0 1 
 18 - ACEITO 1 0 2 1 0 4 2,40 0,5303 
 ADJ. 
 aceito 1 0 2 1 0 4 
 19 - ACENTUAR 1 2 0 2 1 6 4,56 0,7167 
 VERB. 
 acentua 0 2 0 1 1 4 
 acentuar 1 0 0 0 0 1 
 acentuo 0 0 0 1 0 1 
 20 - ACERTAR 3 3 0 2 1 9 6,47 0,6688 
 VERB. 
 acerta 0 2 0 0 0 2 
 acertando 1 0 0 0 0 1 
 acertar 0 1 0 1 1 3 
 acertarem 0 0 0 1 0 1 
 acerto 2 0 0 0 0 2 
 21 - ACESSÍVEL 0 1 2 3 0 6 3,71 0,5514 
 ADJ. 
 acessíveis 0 0 0 1 0 1 
 acessível 0 1 2 2 0 5 
 A B C D E TOT KF C 
 22 - ACESSO 0 7 6 7 1 21 15,91 0,7144 
 SUBS. 
 acesso 0 7 6 7 1 21 
 23 - ACHAR 221 173 258 209 160 1021 1.003,73 0,9801 
 VERB. 
 acha 4 8 5 7 4 28 
 achado 0 0 0 2 0 2 
 acham 4 1 4 4 7 20 
 achamos 1 0 2 0 0 3 
 achando 0 3 1 1 1 6 
 achar 6 4 3 2 0 15 
 acharam 0 1 1 0 2 4 
 acharem 0 0 0 1 0 1 
 acharia 0 0 0 0 1 1 
 achava 4 5 10 3 2 24 
 achavam 1 0 0 1 1 3 
 achava-me 0 1 0 0 0 1 
 ache 0 0 2 0 0 2 
 achei 7 8 16 6 8 45 
 acho 193 138 214 179 133 857 
 achou 1 4 0 3 1 9 
 24 - ACIDENTE 1 2 2 7 3 15 14,14 0,9326 
30 
 
 SUBS. 
 acidente 1 1 1 3 1 7 
 acidentes 0 1 1 4 2 8 
 25 - ACIMA 2 1 4 6 0 13 9,68 0,6996 
 ADV. 
 acima 2 1 4 6 0 13 
 26 - ACOLHEDOR 0 3 1 0 2 6 3,27 0,4652 
 ADJ. 
 acolhedor 0 3 1 0 1 5 
 acolhedora 0 0 0 0 1 1 
 27 - ACOMODAÇÃO 0 1 3 1 0 5 2,90 0,5044 
 SUBS. 
 acomodação 0 0 2 1 0 3 
 acomodações 0 1 1 0 0 2 
 28 - ACOMPANHADO 1 0 3 0 1 5 2,76 0,4724 
 ADJ. 
 acompanhada 0 0 2 0 1 3 
 acompanhado 1 0 1 0 0 2 
 29 - ACOMPANHAR 8 9 17 8 5 47 44,56 0,9388 
 VERB. 
 acompanha 2 1 1 0 0 4 
 acompanhado 0 0 1 1 1 3 
 acompanhá-los 0 0 1 0 0 1 
 acompanham 1 0 1 1 0 3 
 acompanhamos 0 2 0 0 0 2 
 A B C D E TOT KF C 
 acompanhando 0 3 4 1 1 9 
 acompanhar 2 2 3 3 0 10 
 acompanharam 0 0 1 0 0 1 
 acompanhava 1 1 0 0 1 3 
 acompanhavam 0 0 0 1 0 1 
 acompanhei 0 0 1 0 2 3 
 acompanho 2 0 0 1 0 3 
 acompanhou 0 0 4 0 0 4 
 30 - ACONSELHAR 0 1 2 2 0 5 3,12 0,5565 
 VERB. 
 aconselhar 0 0 0 2 0 2 
 aconselho 0 1 2 0 0 3 
 31 - ACONTECER 6 14 21 25 29 95 92,61 0,9704 
 VERB. 
 aconteça 0 0 1 0 0 1 
 acontece 5 3 7 11 16 42 
 acontecem 0 1 0 0 2 3 
 acontecendo 0 1 2 3 4 10 
 acontecer 0 2 4 5 2 13 
 aconteceria 0 0 1 0 0 1 
 acontecesse 0 1 1 0 0 2 
 aconteceu 1 5 4 4 4 18 
 acontecia 0 0 1 0 0 1 
 acontecido 0 1 0 2 1 4 
 32 - ACORDAR 1 6 1 0 8 16 9,90 0,5514 
 VERB. 
 acordado 0 1 0 0 0 1 
 acordar 0 2 1 0 0 3 
 acordei 0 2 0 0 0 2 
 acordo 1 0 0 0 8 9 
 acordou 0 1 0 0 0 1 
31 
 
 33 - ACORDO 21 7 2 18 7 55 47,30 0,8352 
 SUBS. 
 acordo 21 7 2 18 7 55 
 34 - ACOSTUMADO 1 2 9 2 4 18 15,95 0,8659 
 ADJ. 
 acostumada 0 2 5 1 0 8 
 acostumadas 1 0 0 0 0 1 
 acostumado 0 0 3 1 3 7 
 acostumados 0 0 1 0 1 2 
 35 - ACOSTUMAR 10 0 3 0 1 14 6,25 0,3484 
 VERB. 
 acostuma 0 0 1 0 0 1 
 acostumado 1 0 0 0 0 1 
 acostumam 0 0 0 0 1 1 
 acostumar 1 0 1 0 0 2 
 acostumei 7 0 0 0 0 7 
 acostumo 0 0 1 0 0 1 
 acostumou 1 0 0 0 0 1 
 A B C D E TOT KF C 
 36 - ACREDITAR 9 5 25 28 11 78 74,15 0,9419 
 VERB. 
 acredita 0 0 0 2 0 2 
 acreditamos 0 0 1 1 0 2 
 acreditar 1 0 1 1 1 4 
 acredita-se 0 0 0 0 1 1 
 acreditava 0 0 1 0 0 1 
 acreditem 0 0 0 1 0 1 
 acredito 8 5 22 23 9 67 
 37 - AÇÚCAR 4 0 2 5 7 18 14,57 0,7757 
 SUBS. 
 açúcar 4 0 2 5 7 18 
 38 - ADAPTAÇÃO 1 2 1 1 3 8 7,46 0,9209 
 SUBS. 
 adaptação 1 2 1 1 3 8 
 39 - ADAPTADO 2 0 0 1 3 6 3,52 0,5130 
 ADJ. 
 adaptada 1 0 0 0 2 3 
 adaptado 1 0 0 1 1 3 
 40 - ADAPTAR 5 2 4 4 4 19 18,57 0,9732 
 VERB. 
 adapta 3 0 1 0 3 7 
 adaptado 0 0 2 0 0 2 
 adaptam 0 0 0 1 0 1 
 adaptando 0 0 1 0 0 1 
 adaptar 1 2 0 2 0 5 
 adaptei 1 0 0 0 0 1 
 adaptou 0 0 0 1 1 2 
 41 - ADEQUADO 9 2 2 2 4 19 16,29 0,8324 
 ADJ. 
 adequada 4 1 2 0 3 10 
 adequado 5 1 0 1 0 7 
 adequados 0 0 0 1 1 2 
 42 - ADIANTADO 0 0 2 4 1 7 4,59 0,5955 
 ADJ. 
 adiantada 0 0 2 1 1 4 
 adiantadas 0 0 0 1 0 1 
 adiantado 0 0 0 1 0 1 
32 
 
 adiantados 0 0 0 1 0 1 
 43 - ADIANTAR 2 0 2 8 3 15 11,97 0,7621 
 VERB. 
 adianta 2 0 2 8 0 12 
 adiantar 0 0 0 0 1 1 
 adiantava 0 0 0 0 1 1 
 adiantou 0 0 0 0 1 1 
 A B C D E TOT KF C 
 44 - ADIANTE 0 2 3 1 1 7 5,46 0,7408 
 ADV. 
 adiante 0 2 3 1 1 7 
 45 - ADIÇÃO 1 0 0 1 2 4 2,45 0,5434 
 SUBS. 
 adição 1 0 0 1 2 4 
 46 - ADMINISTRADOR 0 0 1 6 4 11 7,04 0,5760 
 SUBS. 
 administrador0 0 1 6 2 9 
 administradores 0 0 0 0 2 2 
 47 - ADMIRAR 1 0 1 2 0 4 2,46 0,5480 
 VERB. 
 admiradas 0 0 1 0 0 1 
 admirei 1 0 0 0 0 1 
 admiro 0 0 0 2 0 2 
 48 - ADMITIR 0 0 4 4 1 9 5,83 0,5852 
 VERB. 
 admite 0 0 0 0 1 1 
 admitida 0 0 1 0 0 1 
 admitindo 0 0 2 0 0 2 
 admitir 0 0 1 4 0 5 
 49 - ADORAR 15 7 4 7 8 41 37,79 0,9077 
 VERB. 
 adora 0 1 0 0 2 3 
 adoram 0 1 0 0 0 1 
 adorar 1 0 0 0 0 1 
 adoraria 0 0 0 1 0 1 
 adorava 1 1 1 5 0 8 
 adoravam 1 0 0 0 0 1 
 adoro 12 4 3 1 6 26 
 50 - ADORNO 3 1 0 0 1 5 2,36 0,3787 
 SUBS. 
 adorno 2 1 0 0 1 4 
 adornos 1 0 0 0 0 1 
 51 - ADOTAR 1 1 3 3 2 10 9,80 0,9761 
 VERB. 
 adota 0 0 1 1 0 2 
 adotam 0 0 0 1 0 1 
 adotando 0 0 0 1 0 1 
 adotar 1 1 2 0 1 5 
 adotou 0 0 0 0 1 1 
 52 - ADQUIRIR 3 6 14 14 11 48 46,68 0,9677 
 VERB. 
 adquira 0 0 0 1 2 3 
 adquire 0 0 3 2 4 9 
 adquirem 1 0 0 1 2 4 
 adquiri 0 0 0 2 0 2 
 A B C D E TOT KF C 
 adquiria 0 0 2 0 0 2 
33 
 
 adquiridas 0 0 1 0 0 1 
 adquirido 0 0 1 0 1 2 
 adquiridos 0 0 1 0 0 1 
 adquirimos 1 0 2 0 0 3 
 adquirindo 0 2 1 2 0 5 
 adquirir 1 0 3 4 1 9 
 adquiriram 0 1 0 0 0 1 
 adquirirem 0 0 0 0 1 1 
 adquirissem 0 2 0 0 0 2 
 adquiriu 0 1 0 2 0 3 
 53 - ADULTO 3 5 1 1 4 14 12,00 0,8322 
 ADJ. 
 adulta 0 2 0 1 2 5 
 adulto 0 2 0 0 1 3 
 SUBS. 
 adulto 1 0 1 0 1 3 
 adultos 2 1 0 0 0 3 
 54 - AFASTADO 0 1 2 2 2 7 5,92 0,8186 
 ADJ. 
 afastada 0 1 0 1 0 2 
 afastadas 0 0 1 0 0 1 
 afastado 0 0 1 1 1 3 
 afastados 0 0 0 0 1 1 
 55 - AFASTAR 0 1 2 3 0 6 3,71 0,5514 
 VERB. 
 afasta 0 0 1 1 0 2 
 afastados 0 0 0 1 0 1 
 afastam 0 1 0 0 0 1 
 afasto 0 0 1 1 0 2 
 56 - AFINAL 1 5 1 4 1 12 10,35 0,8381 
 ADV. 
 afinal 1 5 1 4 1 12 
 57 - AFIRMAR 1 0 2 0 1 4 2,29 0,4975 
 VERB. 
 afirmam 1 0 0 0 0 1 
 afirmar 0 0 2 0 0 2 
 afirmo 0 0 0 0 1 1 
 58 - AGARRAR 0 3 1 1 0 5 2,72 0,4639 
 VERB. 
 agarra 0 1 0 1 0 2 
 agarrando 0 0 1 0 0 1 
 agarrar 0 1 0 0 0 1 
 agarraram 0 1 0 0 0 1 
 59 - AGASALHADO 1 0 1 0 2 4 2,31 0,5012 
 ADJ. 
 agasalhada 1 0 0 0 0 1 
 agasalhado 0 0 1 0 0 1 
 A B C D E TOT KF C 
 agasalhados 0 0 0 0 2 2 
 60 - AGIR 1 3 1 1 0 6 4,15 0,6379 
 VERB. 
 age 0 1 0 1 0 2 
 agiam 0 0 1 0 0 1 
 agindo 0 1 0 0 0 1 
 agirem 0 1 0 0 0 1 
 ajo 1 0 0 0 0 1 
 61 - AGORA 118 136 136 148 174 712 707,53 0,9926 
34 
 
 ADV. 
 agora 39 80 54 56 61 290 
 FÁT. 
 agora 79 56 82 92 113 422 
 62 - AGOSTO 0 0 1 1 4 6 3,67 0,5428 
 SUBS. 
 agosto 0 0 1 1 4 6 
 63 - AGRADAR 5 6 9 4 7 31 30,06 0,9642 
 VERB. 
 agrada 3 1 5 0 3 12 
 agradam 1 0 1 0 2 4 
 agradar 0 1 0 1 0 2 
 agradar-se 0 0 0 1 0 1 
 agrade 0 1 2 0 0 3 
 agradei 0 1 0 0 0 1 
 agrado 0 0 0 2 0 2 
 agradou 1 2 1 0 2 6 
 64 - AGRADÁVEL 4 8 7 2 31 52 41,70 0,7669 
 ADJ. 
 agradáveis 0 2 3 0 3 8 
 agradável 4 6 4 2 28 44 
 65 - AGRÍCOLA 1 0 1 3 6 11 8,34 0,7157 
 ADJ. 
 agrícola 1 0 0 2 6 9 
 agrícolas 0 0 1 1 0 2 
 66 - AGRICULTURA 0 0 3 2 10 15 9,08 0,5356 
 SUBS. 
 agricultura 0 0 3 2 10 15 
 67 - AGRÔNOMO 0 2 0 1 2 5 3,00 0,5285 
 SUBS. 
 agrônomo 0 1 0 1 1 3 
 agrônomos 0 1 0 0 1 2 
 68 - ÁGUA 11 25 13 4 98 151 112,53 0,7001 
 SUBS. 
 água 11 25 10 1 76 123 
 águas 0 0 3 3 20 26 
 aguinha 0 0 0 0 2 2 
 A B C D E TOT KF C 
 69 - AGUENTAR 1 4 4 4 6 19 18,24 0,9532 
 VERB. 
 aguenta 0 2 1 0 2 5 
 aguentar 1 0 3 2 3 9 
 aguentei 0 1 0 1 0 2 
 aguento 0 1 0 1 1 3 
 70 - AÍ 65 104 95 132 132 528 524,66 0,9925 
 ADV. 
 aí 58 68 87 114 115 442 
 daí 7 36 8 18 17 86 
 71 - AINDA 27 40 64 70 67 268 266,26 0,9924 
 ADV. 
 ainda 27 40 64 70 67 268 
 72 - AJUDA 2 2 1 2 0 7 5,22 0,7010 
 SUBS. 
 ajuda 1 2 1 2 0 6 
 ajudinha 1 0 0 0 0 1 
 73 - AJUDAR 1 2 5 10 2 20 18,09 0,8875 
 VERB. 
 ajuda 1 0 2 1 0 4 
35 
 
 ajudado 0 0 0 1 0 1 
 ajudá-los 0 0 0 1 0 1 
 ajudar 0 0 1 6 2 9 
 ajudarem 0 0 1 0 0 1 
 ajudasse 0 1 0 0 0 1 
 ajudava 0 0 1 1 0 2 
 ajudei 0 1 0 0 0 1 
 74 - ALCANÇAR 0 0 4 2 4 10 6,70 0,6116 
 VERB. 
 alcança 0 0 0 0 1 1 
 alcançando 0 0 1 0 0 1 
 alcançar 0 0 2 0 3 5 
 alcançarão 0 0 0 1 0 1 
 alcançaria 0 0 1 0 0 1 
 alcance 0 0 0 1 0 1 
 75 - ALCANCE 0 3 2 2 0 7 4,21 0,5312 
 SUBS. 
 alcance 0 3 2 2 0 7 
 76 - ALEGRE 1 5 0 2 4 12 8,58 0,6644 
 ADJ. 
 alegre 0 4 0 1 3 8 
 alegres 1 1 0 1 1 4 
 77 - ALEGRIA 1 1 2 2 6 12 10,96 0,8979 
 SUBS. 
 alegria 1 1 2 2 5 11 
 A B C D E TOT KF C 
 alegrias 0 0 0 0 1 1 
 78 - ALÉM 15 12 14 26 17 84 83,41 0,9917 
 ADV. 
 além 15 12 14 26 17 84 
 79 - ALEMÃO 1 5 5 2 7 20 18,21 0,8949 
 ADJ. 
 alemã 0 1 2 0 4 7 
 alemão 1 3 0 0 0 4 
 SUBS. 
 alemães 0 0 2 2 1 5 
 alemão 0 1 1 0 2 4 
 80 - ALGO 2 1 9 5 7 24 22,23 0,9133 
 PRON. 
 algo 2 1 9 5 7 24 
 81 - ALGODÃO 12 2 3 1 10 28 22,11 0,7523 
 SUBS. 
 algodão 11 2 3 1 10 27 
 algodãozinho 1 0 0 0 0 1 
 82 - ALGUÉM 3 11 9 17 5 45 42,42 0,9326 
 PRON. 
 alguém 3 11 9 17 5 45 
 83 - ALGUM 43 62 117 113 91 426 422,16 0,9894 
 PRON. 
 algum 8 7 14 34 18 81 
 alguma 12 20 51 42 32 157 
 Algumas 0 0 0 1 0 1 
 algumas 13 15 27 16 15 86 
 alguns 10 19 25 20 26 100 
 nalguns 0 1 0 0 0 1 
 84 - ALI 8 29 45 17 42 141 131,54 0,9210 
 ADV. 
36 
 
 ali 8 27 41 17 39 132 
 dali 0 2 4 0 3 9 
 85 - ALIÁS 15 13 15 29 21 93 92,38 0,9922 
 ADV. 
 aliás 15 13 15 29 21 93 
 86 - ALIMENTAÇÃO 9 5 2 3 17 36 30,51 0,8204 
 SUBS. 
 alimentação 9 5 2 3 17 36 
 87 - ALIMENTAR 3 2 0 2 6 13 9,63 0,6948 
 ADJ. 
 alimentar 1 0 0 0 1 2 
 VERB. 
 alimenta 1 1 0 0 1 3 
 alimentado 0 0 0 1 0 1 
 A B C D E TOT KF C 
 alimentam 0 0 0 0 2 2 
 alimentar 1 1 0 1 1 4 
 alimenta-se 0 0 0 0 1 1 
 88 - ALIMENTO 2 0 0 1 9 12 6,12 0,4235 
 SUBS. 
 alimento 2 0 0 1 7 10 
 alimentos 0 0 0 0 2 2 
 89 - ALMA 5 1 1 1 2 10 8,40 0,8121 
 SUBS. 
 alma 5 1 1 1 2 10 
 90 - ALMOÇAR 7 3 12 1 11 34 28,97 0,8259 
 VERB. 
 almoça 0 0 1 0 0 1 
 almoçamos 1 0 2 1 1 5 
 almoçando 0 0 1 0 0 1 
 almoçar 3 2 3 0 3 11 
 almoçarmos 1 0 0 0 0 1 
 almoçava 0 0 0 0 2 2 
 almocei 0 0 3 0 0 3 
 almoço 2 1 2 0 5 10 
 91 - ALMOÇO 13 3 4 0 23 43 27,75 0,5826 
 SUBS. 
 almoço 13 3 4 0 23 43 
 92 - ALTERNATIVA 0 0 2 2 1 5 3,41 0,6247 
 SUBS. 
 alternativa 0 0 1 1 0 2 
 alternativas 0 0 1 1 1 3 
 93 - ALTO 13 14 18 5 17 67 62,61 0,9229 
 ADJ. 
 alta 5 2 8 4 7 26 
 altas 1 4 0 0 0 5 
 altíssimas 0 2 0 0 0 2 
 alto 7 5 9 1 9 31 
 altos 0 1 1 0 1 3 
 94 - ALTURA 7 3 6 2 14 32 28,36 0,8660 
 SUBS. 
 altura 7 3 6 2 14 32 
 95 - ALUGAR 1 0 4 2 1 8 6,27 0,7457 
 VERB. 
 aluga 0 0 1 1 0 2 
 alugam 0 0 1 0 1 2 
 alugando 0 0 0 1 0 1 
37 
 
 alugar 1 0 0 0 0 1 
 alugou 0 0 2 0 0 2 
 96 - ALUNA 1 0 3 6 0 10 5,93 0,5207 
 A B C D E TOT KF C 
 SUBS. 
 aluna 1 0 1 3 0 5 
 alunas 0 0 2 3 0 5 
 97 - ALUNO 0 4 3 65 0 72 32,34 0,3514 
 SUBS. 
 aluno 0 3 1 29 0 33 
 alunos 0 1 2 36 0 39 
 98 - ALVENARIA 0 3 1 0 1 5 2,60 0,4360 
 SUBS. 
 alvenaria 0 3 1 0 1 5 
 99 - AMADOR 0 4 1 2 0 7 3,87 0,4728 
 ADJ. 
 amador 0 3 1 2 0 6 
 SUBS. 
 amadores 0 1 0 0 0 1 
 100 - AMANHÃ 1 1 3 2 1 8 7,69 0,9541 
 ADV. 
 amanhã 1 1 3 2 1 8 
 101 - AMANHECER 0 1 0 1 4 6 3,41 0,4910 
 SUBS. 
 amanhecer 0 0 0 0 4 4 
 VERB. 
 amanhece 0 0 0 1 0 1 
 amanheceu 0 1 0 0 0 1 
 102 - AMARELO 6 2 2 0 11 21 13,88 0,6008 
 ADJ. 
 amarela 1 0 0 0 5 6 
 amarelas 0 0 1 0 1 2 
 amarelo 1 1 1 0 4 7 
 SUBS. 
 amarelo 4 1 0 0 1 6 
 103 - AMARRAR 1 1 3 0 2 7 5,06 0,6733 
 VERB. 
 amarrado 0 0 2 0 0 2 
 amarrar 1 1 1 0 1 4 
 amarra-se 0 0 0 0 1 1 
 104 - AMBIENTE 10 14 8 5 8 45 41,93 0,9198 
 SUBS. 
 ambiente 10 10 8 4 7 39 
 ambientes 0 3 0 1 1 5 
 ambientinho 0 1 0 0 0 1 
 105 - AMENDOIM 2 0 1 0 2 5 2,82 0,4865 
 SUBS. 
 amendoim 2 0 1 0 2 5 
 106 - AMERICANO 4 10 6 14 6 40 38,55 0,9574 
 A B C D E TOT KF C 
 ADJ. 
 americana 1 3 2 2 2 10 
 americanas 0 2 1 0 0 3 
 americano 2 3 1 6 1 13 
 americanos 0 0 1 2 1 4 
 latino-americano 0 0 0 0 1 1 
 latino-americanos 0 0 0 0 1 1 
 SUBS. 
38 
 
 americano 1 2 0 2 0 5 
 americanos 0 0 1 2 0 3 
 107 - AMIGA 4 18 5 5 0 32 21,26 0,6050 
 SUBS. 
 amiga 1 14 1 4 0 20 
 amigas 3 4 4 0 0 11 
 amiguinhas