Que peut la linguistique computationnelle ? Entretien avec Flavio Cecchini (2/2)

Dans les années 1940 et 1950, la traduction automatique constituait l’objectif principal de la linguistique computationnelle. On s’est alors rendu compte que l’on ne disposait pas vraiment d’outils adéquats pour représenter les langues que l’on voulait traduire. Or, dès que des dispositifs artificiels doivent interagir avec des personnes, le langage devient le principal support, et il faut savoir comment le traiter. Une grande partie de la linguistique computationnelle, d’après mon expérience, se situe juste en amont de l’aspect informatique plus communément désigné comme « intelligence artificielle » : il s’agit de trouver des moyens de représenter et d’analyser les structures du langage de manière formelle et efficace, de telle sorte que toute application qui les utilise en tire profit.

L’intelligence artificielle, quant à elle, n’existe pas en tant que discipline autonome. Une intelligence n’a même pas besoin de passer par le langage (pensez à la reconnaissance d’images ou aux calculs mathématiques); les deux sont donc distincts. Ce que l’on entend généralement par « IA » concerne l’aspect purement informatique, donc plus abstraitement mathématique, des méthodes algorithmiques et statistiques utilisées, afin de comprendre comment les optimiser et quels types de problèmes peuvent effectivement être résolus. Résumer ou générer un texte n’est pas le seul objectif possible : la recherche linguistique théorique y a également recours, dans un cercle vertueux. La mise au point empirique remet d’ailleurs en cause de nombreuses approches théoriques.

Présente dans presque toutes les sociétés, la traduction automatique est aujourd’hui l’une des technologies les plus utilisées au quotidien. Elle est souvent basée sur une représentation statistique de la langue, qui bénéficie d’une annotation linguistique cohérente. On ne s’en rend presque pas compte, mais les moteurs de recherche sont une application encore plus répandue de la linguistique computationnelle : il est nécessaire d’avoir une certaine forme de représentation de la langue pour gérer et identifier des termes qui sont similaires mais pas identiques à ceux utilisés, parce qu’ils sont synonymes, se déclinent de diverses manières, apparaissent dans des constructions syntaxiques différentes (par exemple : « conseils pour des vacances dans les montagnes de Bulgarie » au lieu de « partir en montagnes ou en Bulgarie pour les vacances ») ou sont écrits plus ou moins respectueusement de l’orthographe conventionnelle, etc.

Ces méthodes partagent les bases des divers systèmes de conversation automatisés que l’on trouve aujourd’hui sur de nombreux sites de services, et plus généralement avec toutes les fonctions complexes offertes par des modèles statistiques tels que celui de ChatGPT. Pour évoquer un aspect plus académique, disposer d’outils informatiques et de données organisées permet de répondre à des questions de toutes sortes, telles que : « Les sujets des verbes transitifs sont-ils plus souvent exprimés par des pronoms, des noms, ou restent-ils implicites ? Et cela se passe-t-il différemment en français et en vietnamien ? » Outre l’intérêt de la recherche en soi, ces questions peuvent également aider à comprendre l’état de la langue et à soutenir son enseignement (le sien et celui des autres), ainsi qu’à compiler des ouvrages aussi importants que les lexiques et les dictionnaires – qui, tout le monde ne le sait peut-être pas, doivent être mis à jour périodiquement et reposent sur des fondements théoriques qui ne sont pas toujours évidents.

Des chiffres et des lettres

Dans le cadre de mes travaux universitaires, j’ai pu m’amuser avec le De Vulgari Eloquentia de Dante, une sorte de traité proto-linguistique (à la fois politique et poétique) dans lequel l’auteur recense des dialectes italiens (et mentionne aussi le provençal). Avec la collaboration technique de mes collègues, j’ai coordonné un groupe de philologues et de linguistes pour annoter ces écrits au niveau morphologique et syntaxique, en m’appuyant partiellement sur une base de données antérieure, mais en utilisant un système différent, appelé « dépendances universelles », qui est plus large et plus utile au niveau typologique. Ce système nous permet de comparer différentes langues. Il s’agit d’un long processus qui, d’une certaine manière, est toujours en cours, et qui nous a également obligés à mieux comprendre et développer ce système d’annotation. Il est toujours agréable qu’il y ait un échange de connaissances de ce type, mais aussi de sentir que nous sommes parvenus à une conclusion, puisque les œuvres latines de Dante constituent une sorte de corpus conclusum.

Une fois ces travaux réalisés, il a été possible d’essayer de répondre à des questions que les philologues se posaient depuis un certain temps. Par exemple, Dante fait usage de constructions syntaxiques (en latin) plus ou moins acceptables sans trop s’expliquer. Peut-on comprendre son raisonnement en les étudiant et, le cas échéant, vérifier dans quelle mesure il y a effectivement adhéré dans sa production littéraire ? Les techniques développées à cette fin peuvent également être adaptées à d’autres langues et à d’autres œuvres.

De bonnes analyses ne sont pas possibles sans de bonnes données sources, et la représentation grammaticale cohérente et comparable de plusieurs langues dans un même texte est un défi qui semble avoir été plutôt négligé jusqu’à présent.

Voici un autre exemple de publication née de l’intérêt musical que mon coordinateur et moi-même partagions à l’époque, et auquel nous n’avons pas pu résister, sachant également que nous étions les seuls à pouvoir réaliser une telle étude : comprendre comment, à quel point et pourquoi le latin est utilisé dans le métal (certainement plus que dans presque n’importe quel autre genre), en exploitant des techniques informatiques ! Nous pensions qu’il s’agirait d’un petit projet secondaire, et au lieu de cela, bien sûr, il nous a pris beaucoup de temps, avec toutefois la satisfaction d’aboutir au chapitre d’une monographie sur le multilinguisme dans le métal. Nous nous sommes beaucoup amusés. Cela nous a également permis de rencontrer une communauté de chercheurs passionnés lors de la conférence thématique à laquelle nous avons participé, et je pense que nous avons réussi à apporter des perspectives intéressantes, tant pour les initiés que pour les autres.

Première chose : dans le métal, le latin est une langue très vivante, utilisée à tous les niveaux de compétence, souvent et volontiers pour des créations originales et pas seulement en citant des textes classiques, bien que son utilisation soit certainement liée à certaines bases culturelles européennes spécifiques. Les chansons entièrement en latin ne sont pas si rares, mais les associations avec d’autres langues (outre l’anglais), auxquelles elle se prête souvent, sont également intéressantes. Ensuite, la sphère à laquelle il est le plus souvent associé n’est pas destructrice ou « satanique », comme beaucoup pourraient l’imaginer, mais mystique et spirituelle. D’une certaine manière, entre les deux pôles latins que sont l’Empire romain et l’Église catholique, c’est ce dernier, le pôle religieux, qui prévaut. Cela en dit long sur l’histoire du latin et de notre société. J’ai rassemblé les morceaux sélectionnés que nous avons utilisés pour l’analyse dans une playlist YouTube. Bonne écoute !

Aujourd’hui, je participe à un projet concernant le bilinguisme gréco-latin dans les textes de la Renaissance, à commencer par ceux d’Érasme de Rotterdam et, plus généralement, ceux produits aux Pays-Bas, qui constituaient un centre important. À cette époque, entre le XV^e et le XVI^e siècle, le latin était encore la langue savante dominante en Europe occidentale, mais le grec venait d’être redécouvert, et les érudits aimaient l’intercaler avec le latin, en référence à l’époque classique où ces deux langues étaient les principales. Érasme écrit beaucoup, cite des œuvres grecques, utilise des mots isolés, parfois des mots grecs latinisés… où s’arrête une langue et où commence une autre, surtout si elles sont assez proches l’une de l’autre dans des mécanismes fondamentaux (par exemple, une syntaxe presque identique, des cas communs, des déclinaisons avec des formes très proches…) ? De quelle manière et dans quelle mesure le grec et le latin ont-ils été mélangés, consciemment ou non, et avec quels effets ?

Se former à la linguistique computationnelle

Il existe de plus en plus de cours de linguistique computationnelle – des diplômes en trois ans, des masters… Toutefois, je recommande de vérifier attentivement le programme d’étude, de s’assurer que les aspects linguistiques et mathématiques théoriques y sont bien représentés et que des cours de programmation sont inclus. Ce dernier point est fondamental : il faut s’assurer d’une compétence minimale en écriture de code pour pouvoir mener ses recherches, au moins préliminaire, avec un certain degré d’autonomie. Pour ce faire, il faut commencer le plus tôt possible par les bases (très ennuyeuses), auxquelles je suggérerais ensuite d’ajouter une étude des algorithmes avant de commencer à les mettre en pratique. Il ne faut pas contourner les fondements théoriques, et je n’insisterai jamais assez sur les fondements mathématiques – ou « formels », comme certains aiment à le dire – qui sont souvent négligés. C’est une question qui me tient à cœur car j’ai personnellement donné un cours sur le sujet et j’ai vu les résistances qu’il suscite. Sans cela, on ne comprend rien aux techniques utilisées. On en a aussi besoin pour mettre en place son travail correctement et écrire du code efficace.

Par conséquent, s’il n’y a pas assez de mathématiques, je recommanderais de passer sans tarder par une remise à niveau dans les domaines de l’analyse ou de la logique. Le terme « computationnel » n’est pas une figure de style. Il existe plusieurs autres désignations de cette discipline, plus ou moins liées les unes aux autres, impliquant même des variations considérables : avec le « traitement du langage naturel » (NLP), on indique généralement une approche beaucoup plus computationnelle centrée sur l’apprentissage automatique (à savoir le machine learning) ; même chose pour l’ « analyse de données », beaucoup plus générique, dont je me méfierais cependant parce qu’il s’agit souvent d’une étiquette dissimulant des programmes incohérents. Si l’on veut s’attaquer au langage, il vaut mieux viser les techniques dont on a besoin dans ce domaine, puisqu’il s’agit déjà d’un champ immense, ou simplement étudier les mathématiques statistiques. Enfin, les « humanités numériques » s’intéressent précisément à l’aspect le plus humaniste et ne sont peut-être pas assez approfondies, à moins que l’on ne préfère se consacrer à des études plus littéraires dans lesquelles on pourra éventuellement s’aider de techniques quantitatives. Mais les noms ne s’arrêtent pas là, car à côté de l’historique « linguistique mathématique », il existe aussi (du moins en Italie) une « informatique humaniste », et ainsi de suite… mais les ingrédients de base ne doivent pas manquer !

De vrais préjugés existent dans le monde académique, surtout du côté des philologues qui considèrent la technologie comme inutile ou ennuyeuse. On entend très souvent la question : « Que peut encore dire l’ordinateur après des siècles d’analyse approfondie ? » Au-delà du fait que si tout avait déjà été dit, toute recherche devrait être arrêtée, nous n’avons aucune mesure réelle de la rigueur avec laquel ces travaux ont été menés jusqu’à présent. Une analyse quantitative ne peut que les approfondir davantage. Cette attitude ressemble plus à une paresse mentale à l’égard de méthodes qui exigent clarté et rigueur dans la pose et la définition des questions de recherche, mais elle me semble heureusement en régression. De toute façon, même si les sujets restaient les mêmes, l’aspect méthodologique resterait un défi majeur.

Un préjugé plus spécifique à ce qui me préoccupe concerne le latin et les études classiques en général : pour certains, il semble étrange que telle ou telle technique soient appliquée aux langues anciennes, et même au sein de la discipline, certains ne considèrent pas cela utile. Il s’agit peut-être aussi d’un aspect peu connu : les nouvelles technologies ne se limitent pas aux « nouvelles » langues. Les langues ne sont pas nées hier, et la science ne fait pas de différence temporelle : je défie quiconque de soutenir que les études géologiques ne sont pas utiles parce qu’elles portent sur des roches vieilles de plusieurs millions d’années.

Propos de Flavio Cecchini recueillis et édités par Zoé Hardy.

Suggestions

Que peut la linguistique computationnelle ? Entretien avec Flavio Cecchini (2/2)

Des chiffres et des lettres

Se former à la linguistique computationnelle

Bienvenue !

Découvrez aussi :