• Se evaluaron 3958 bibliotecas universitarias en 43 países y 3 idiomas.
  • Se descarto al 100% la posibilidad de hacer una extracción manual de los datos, pues esto genera sesgos y subjetividad que elimina la neutralidad del ranking.
  • Se hizo un análisis semántico de las palabras claves, teniendo en cuenta aspectos lingüísticos de los diferentes países latinoamericanos.
  • Se construyo un lenguaje estructurado con las palabras claves que identificaban la presencia de cada variable evaluada en cada una de las 390 bibliotecas evaluadas en 2020.
  • Se identificaron los metadatos en el código fuente de las paginas web de cada biblioteca, que contenían las palabras claves del lenguaje estructurado.
  • Se construyó un “robot” para la recolección de datos no estructurados, que lee cada portal web de las bibliotecas universitarias, extrae las palabras claves que identifican cada variable de cada dimensión, verifica la existencia de la variable y asigna una puntuación de cumplimiento, 1 si la biblioteca cumple con la variable y 0 si la biblioteca no cumple con la variable.
  • Para la construcción del robot extractor de datos, se utilizo la metodología Small Data.
  • Se tuvo en cuenta, la metodología MOREQ para gestión documental, como guía metodológica.
  • Con los resultados del análisis semántico, se construye la base de conocimiento para etiquetar las palabras claves que se buscarían en cada una de las 3958 bibliotecas evaluadas en 2021.
  • El robot se modeló y creo en enero de 2021 y se refinó 11 veces, hasta lograr la más alta calidad de recolección de datos.
  • El robot web se ejecuto 3 veces, durante los meses de junio, julio y agosto de 2021, para verificar la calidad de la informacion, teniendo como resultado una confiabilidad del 99.7% en los datos recogidos a partir de las 3958 bibliotecas.