A tarefa inicial era obter dados de depoimentos de várias fontes diferentes dentro de nossa organização e combiná-los em um único conjunto de dados. Esses depoimentos anônimos chegam até a CV por meio de mecanismos de relatórios vinculados às nossas iniciativas evangelísticas. Esse processo envolveu a padronização cuidadosa de campos como o país da missão e o grupo de pessoas, garantindo que os dados estivessem prontos para processamento avançado. Essa fase crucial de pré-processamento foi realizada usando bibliotecas Python para manipulação de dados.
Além disso, um aspecto fundamental dessa fase foi a extração de informações específicas sobre o envolvimento da mídia digital nos eventos transformadores da vida de um seeker, alguém em busca de respostas. Utilizamos um modelo LLaMA 2 hospedado localmente, em execução no hardware Mac série M, para identificar e extrair os nomes das plataformas digitais mencionadas, como Facebook, WhatsApp e Phone, que foram posteriormente padronizadas no conjunto de dados para garantir uniformidade.