Chaîne de Traitement Heuristique Multi-étapes pour l'Affinage d'un Corpus Juridique Espagnol pour le Traitement Automatique du Langage Naturel
Résumé
Cette recherche présente une séquence heuristique en plusieurs étapes pour nettoyer le corpus du Bulletin Officiel de l’État (BOE) espagnol à des fins de traitement automatique du langage naturel. Les corpus juridiques bruts contiennent souvent beaucoup de « bruit », comme des erreurs d’OCR, des listes et des tableaux, qui les rendent inadaptés à l’entraînement de modèles linguistiques. Notre méthodologie commence par normaliser le texte en corrigeant les erreurs dans les caractères et en ajustant les coupures de mots par des traits d’union. Ensuite, elle applique une série de filtres basés sur des métriques quantifiables telles que le ratio de sauts de ligne, le pourcentage de caractères non alphabétiques et de mots mal orthographiés, afin d’écarter les segments structurellement ou sémantiquement inadaptés. Une contribution clé est le Score Combiné de Seuil (SCS), une technique novatrice qui identifie et élimine les segments marginaux proches de nombreux seuils d’exclusion. Le résultat est un corpus de textes juridiques nettement plus propre, fournissant une base de haute qualité pour l’entraînement de modèles destinés à des tâches telles que la simplification automatique de textes, et offrant une méthodologie réutilisable pour le nettoyage d’autres grands corpus juridiques hétérogènes.
Mots-clés
traitement automatique du langage naturel (TALN), nettoyage de corpus, traitement de textes juridiques, filtrage heuristique, prétraitement de donnéesRéférences
ADAMCZYK, D., HULA, J., Efficient use of large language models for analysis of text corpora, Proceedings of Recent Advances in NLP Applications, 2024, 695-705. https://doi.org/10.5220/0012349800003654
ANH, D. H., DO, D.-T., TRAN, V., MINH, N. L., The impact of large language modeling on natural language processing in legal texts: A comprehensive survey. 2023 15th International Conference on Knowledge and Systems Engineering (KSE), 2023, 1-7. https://doi.org/10.1109/ KSE59128.2023.10299488
ARFAT, Y., COLELLA, M., MARELLO, E., Legal text analysis using large language models, Recent Advances in NLP and AI Applications 2024, 258–268. https://doi.org/10.1007 /978-3-031-70242-6_25
CEMRI, M., ÇUKUR, T., KOÇ, A., Unsupervised simplification of legal texts, ArXiv, abs/2209.00557, 2022. https://doi.org/10.48550/arXiv.2209.00557
GARCIA, E., SILVA, N., SIQUEIRA, F., GOMES, J., ALBUQUERQUE, H. O., SOUZA, E., LIMA, E., DE CARVALHO, A., RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese, Proceedings of the 16th International Conference on Computational Processing of Portuguese, 1, 374–383, Santiago de Compostela, Galicia/Spain. Association for Computational Linguistics, 2024.
GUTIÉRREZ-FANDIÑO, A., ARMENGOL-ESTAPÉ, J., GONZALEZ-AGIRRE, A. VILLEGAS, M., Spanish legalese language model and corpora. arXiv preprint arXiv:2110.12201, 2021. https://doi.org/10.48550/arXiv.2110.12201
HUA, W., ZHANG, Y., CHEN, Z., LI, J., WEBER, M., LegalRelectra: Mixed-domain language modeling for long-range legal text comprehension. ArXiv, abs/2212.08204, 2022. https://doi.org/10.48550/arXiv.2212.08204
QUEVEDO, E., CERNÝ, T., RODRÍGUEZ, A., RIVAS, P., YERO, J., SOOKSATRA, K., ZHAKUBAYEV, A., TAIBI, D., Legal natural language processing from 2015 to 2022: A comprehensive systematic mapping study of advances and applications. IEEE ACCESS, 2024, 12, 145286–145317. https://doi.org/10.1109 /ACCESS.2023.3333946
SÁNCHEZ, D. B., ALDAMA GARCÍA, N., BARBERO JIMÉNEZ, Á., GUERRERO NIETO, M., MORALES, P. M., SERRANO SALAS, N., GARCÍA HERNÁN, C., HAYA COLL, P., MONTIEL PONSODA, E., CALLEJA IBÁÑEZ, P., MEL: Legal Spanish language model. ArXiv, abs/2501.16011, 2025. https://doi.org/10.48550 /arXiv.2501.16011
SHAHEEN, Z., WOHLGENANNT, G., FILTZ, E., Large scale legal text classification using transformer models. ArXiv, abs/2010.12871, 2020. https://doi.org/10.48550 /arXiv.2010.12871
SILVEIRA, R., PONTE, C., ALMEIDA, V., PINHEIRO, V., FURTADO, V., LegalBert-pt: A pretrained language model for the Brazilian Portuguese legal domain, Advances in Legal Language Modeling, 2023, 268282. https://doi.org/10.1007/978-3-031-45392-2_18
VALLEJO, R. G., Sobre la modernización del lenguaje jurídico: una mirada en España e Italia, ELUA: ESTUDIOS DE LINGÜÍSTICA. UNIVERSIDAD DE ALICANTE, 2021, 35, 109-123. https://doi.org/10.14198/ELUA2021.35.6
Publiée
Comment citer
Téléchargements
Données de Fonds
-
HORIZON EUROPE European Research Council
Numéros de subventions 1010094837, Topic: HORIZON-CL2-2022-TRANSFORMATIONS-01-07
© Nikolai Tiurin, Xavier Blanco Escoda 2025

Ce travail est disponible sous licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International.