Chaîne de Traitement Heuristique Multi-étapes pour l'Affinage d'un Corpus Juridique Espagnol pour le Traitement Automatique du Langage Naturel

Auteurs

Résumé

Cette recherche présente une séquence heuristique en plusieurs étapes pour nettoyer le corpus du Bulletin Officiel de l’État (BOE) espagnol à des fins de traitement automatique du langage naturel. Les corpus juridiques bruts contiennent souvent beaucoup de « bruit », comme des erreurs d’OCR, des listes et des tableaux, qui les rendent inadaptés à l’entraînement de modèles linguistiques. Notre méthodologie commence par normaliser le texte en corrigeant les erreurs dans les caractères et en ajustant les coupures de mots par des traits d’union. Ensuite, elle applique une série de filtres basés sur des métriques quantifiables telles que le ratio de sauts de ligne, le pourcentage de caractères non alphabétiques et de mots mal orthographiés, afin d’écarter les segments structurellement ou sémantiquement inadaptés. Une contribution clé est le Score Combiné de Seuil (SCS), une technique novatrice qui identifie et élimine les segments marginaux proches de nombreux seuils d’exclusion. Le résultat est un corpus de textes juridiques nettement plus propre, fournissant une base de haute qualité pour l’entraînement de modèles destinés à des tâches telles que la simplification automatique de textes, et offrant une méthodologie réutilisable pour le nettoyage d’autres grands corpus juridiques hétérogènes.

Mots-clés

traitement automatique du langage naturel (TALN), nettoyage de corpus, traitement de textes juridiques, filtrage heuristique, prétraitement de données

Références

ADAMCZYK, D., HULA, J., Efficient use of large language models for analysis of text corpora, Proceedings of Recent Advances in NLP Applications, 2024, 695-705. https://doi.org/10.5220/0012349800003654

ANH, D. H., DO, D.-T., TRAN, V., MINH, N. L., The impact of large language modeling on natural language processing in legal texts: A comprehensive survey. 2023 15th International Conference on Knowledge and Systems Engineering (KSE), 2023, 1-7. https://doi.org/10.1109/ KSE59128.2023.10299488

ARFAT, Y., COLELLA, M., MARELLO, E., Legal text analysis using large language models, Recent Advances in NLP and AI Applications 2024, 258–268. https://doi.org/10.1007 /978-3-031-70242-6_25

CEMRI, M., ÇUKUR, T., KOÇ, A., Unsupervised simplification of legal texts, ArXiv, abs/2209.00557, 2022. https://doi.org/10.48550/arXiv.2209.00557

GARCIA, E., SILVA, N., SIQUEIRA, F., GOMES, J., ALBUQUERQUE, H. O., SOUZA, E., LIMA, E., DE CARVALHO, A., RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese, Proceedings of the 16th International Conference on Computational Processing of Portuguese, 1, 374–383, Santiago de Compostela, Galicia/Spain. Association for Computational Linguistics, 2024.

GUTIÉRREZ-FANDIÑO, A., ARMENGOL-ESTAPÉ, J., GONZALEZ-AGIRRE, A. VILLEGAS, M., Spanish legalese language model and corpora. arXiv preprint arXiv:2110.12201, 2021. https://doi.org/10.48550/arXiv.2110.12201

HUA, W., ZHANG, Y., CHEN, Z., LI, J., WEBER, M., LegalRelectra: Mixed-domain language modeling for long-range legal text comprehension. ArXiv, abs/2212.08204, 2022. https://doi.org/10.48550/arXiv.2212.08204

QUEVEDO, E., CERNÝ, T., RODRÍGUEZ, A., RIVAS, P., YERO, J., SOOKSATRA, K., ZHAKUBAYEV, A., TAIBI, D., Legal natural language processing from 2015 to 2022: A comprehensive systematic mapping study of advances and applications. IEEE ACCESS, 2024, 12, 145286–145317. https://doi.org/10.1109 /ACCESS.2023.3333946

SÁNCHEZ, D. B., ALDAMA GARCÍA, N., BARBERO JIMÉNEZ, Á., GUERRERO NIETO, M., MORALES, P. M., SERRANO SALAS, N., GARCÍA HERNÁN, C., HAYA COLL, P., MONTIEL PONSODA, E., CALLEJA IBÁÑEZ, P., MEL: Legal Spanish language model. ArXiv, abs/2501.16011, 2025. https://doi.org/10.48550 /arXiv.2501.16011

SHAHEEN, Z., WOHLGENANNT, G., FILTZ, E., Large scale legal text classification using transformer models. ArXiv, abs/2010.12871, 2020. https://doi.org/10.48550 /arXiv.2010.12871

SILVEIRA, R., PONTE, C., ALMEIDA, V., PINHEIRO, V., FURTADO, V., LegalBert-pt: A pretrained language model for the Brazilian Portuguese legal domain, Advances in Legal Language Modeling, 2023, 268282. https://doi.org/10.1007/978-3-031-45392-2_18

VALLEJO, R. G., Sobre la modernización del lenguaje jurídico: una mirada en España e Italia, ELUA: ESTUDIOS DE LINGÜÍSTICA. UNIVERSIDAD DE ALICANTE, 2021, 35, 109-123. https://doi.org/10.14198/ELUA2021.35.6

Bibliographies de l'auteur

Nikolai Tiurin, Universitat Autònoma de Barcelona

Nikolai Tiurin est doctorant en traitement du langage naturel à l'Université autonome de Barcelone. Ses recherches doctorales portent sur la simplification automatique des textes juridiques espagnols. Ses domaines de recherche comprennent la simplification de textes, les méthodes statistiques en traitement du langage naturel et la linguistique de corpus.

Xavier Blanco Escoda, Universitat Autònoma de Barcelona

Xavier Blanco est professeur de Philologie française à l'Université Autonome de Barcelone, où il a enseigné la lexicologie, la sémantique et l'histoire de la langue. Il est l'auteur de nombreuses publications sur la lexicographie et le traitement automatique du lexique.

Publiée

17-12-2025

Comment citer

Tiurin, N., & Blanco Escoda, X. (2025). Chaîne de Traitement Heuristique Multi-étapes pour l’Affinage d’un Corpus Juridique Espagnol pour le Traitement Automatique du Langage Naturel. Langues & Parole, 10, 37–56. https://doi.org/10.5565/rev/languesparole.153

Téléchargements

Les données relatives au téléchargement ne sont pas encore disponibles.

Données de Fonds