La tarea inicial fue obtener datos de testimonios de diversas fuentes dentro de nuestra organización y combinarlos en un único conjunto de datos. Estos testimonios anónimos llegan a CV por medio de mecanismos (informes) vinculados a nuestras iniciativas evangelísticas. Este proceso involucró una estandarización cuidadosa de campos —como el país de misión y el grupo de personas— asegurando que los datos estuvieran listos para un procesamiento avanzado. Esta fase crucial de pre-procesamiento se logró utilizando bibliotecas de Python para la manipulación de datos.
Además, un aspecto clave de esta fase fue la extracción de información específica relacionada con la participación de los medios digitales en los eventos que cambiaron la vida de las personas en busca de la fe (seekers). Utilizamos un modelo LLaMA 2 alojado localmente, ejecutado en hardware Mac M-series, para identificar y extraer los nombres de las plataformas digitales mencionadas, como Facebook, WhatsApp y Teléfono, que posteriormente se estandarizaron en todo el conjunto de datos para garantizar la uniformidad.