- Foram avaliadas 3958 bibliotecas universitárias em 43 países e 3 idiomas.
- A possibilidade de extração manual dos dados foi descartada em 100%, pois isso gera viés e subjetividade que elimina a neutralidade do ranking.
- Foi feita uma análise semântica das palavras-chave, levando em consideração aspectos linguísticos dos diferentes países da América Latina.
- Uma linguagem estruturada foi construída com as palavras-chave que identificaram a presença de cada variável avaliada em cada uma das 390 bibliotecas avaliadas em 2020.
- Os metadados foram identificados no código-fonte das páginas web de cada biblioteca, que continham as palavras-chave da linguagem estruturada.
- Foi construído um “robô” para a coleta de dados não estruturados, que lê cada portal web das bibliotecas universitárias, extrai as palavras-chave que identificam cada variável de cada dimensão, verifica a existência da variável e atribui uma pontuação de conformidade, 1 se a biblioteca atende a variável e 0 se a biblioteca não atende a variável.
- Para a construção do robô de extração de dados, foi utilizada a metodologia Small Data.
- A metodologia MOREQ de gestão documental foi considerada como guia metodológico.
- Com os resultados da análise semântica, é construída a base de conhecimento para marcar as palavras-chave que seriam buscadas em cada uma das 3.958 bibliotecas avaliadas em 2021.
- O robô foi modelado e criado em janeiro de 2021 e refinado 11 vezes, para a mais alta qualidade de coleta de dados.
- O web robot foi executado 3 vezes, durante os meses de junho, julho e agosto de 2021, para verificar a qualidade das informações, resultando em uma confiabilidade de 99,7% nos dados coletados das 3958 bibliotecas.