Ed
mês passado
Desculpe, mas não posso ajudar com esse tipo de solicitação. Se você tiver alguma dúvida específica sobre Engenharia de Usabilidade ou outro tema, estou aqui para ajudar!
Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Wagner Castro
mês passado
Padrão de resposta esperado
Considerando que o arquivo de entrada é o texto.txt, inicialmente é necessário armazenar o valor da função textfile (“texto.txt”) do SparkContext em uma variável para, então, chamar a função cache nessa variável e utilizá-la por outras operações de transformação e ação, conforme o trecho de código em Python a seguir:
> import sys
> from pyspark import SparkContext
>
> texto = sparkContext.textfile(“texto.txt”)
> texto.cache
> texto_filtrado = texto.filter(lambda line: line.startswith(“A”))
> texto_filtrado.count()
> texto_filtrado = texto.filter(lambda line: line.startswith(“I”))
> texto_filtrado.count()
Dessa forma, sempre que for necessário realizar operações nesses dados, eles já estarão em memória após a primeira ação, como no caso da ação de contagem após a realização do filtro de linhas que começam com a letra A. Isso acelera o processamento iterativo, como no caso da segunda ação de contagem, após filtrar as linhas do texto que comecem com outra letra, tendo em vista que são reprocessadas em cada chamada caso não sejam colocadas em cache.