« Je me retrouve souvent à essayer d’expliquer brièvement ce qu’est la linguistique computationnelle. Lorsque l’on me demande ce que je fais, je remarque que cette désignation suscite fréquemment de l’embarras ou des regards interrogateurs. Je pense que l’une des principales raisons tient au fait que la linguistique est une discipline totalement inconnue de la plupart des gens malgré son nom peut-être familier. Le fait d’y ajouter le qualificatif apparemment incongru de « computationnelle » met tout de suite la personne non-initiée dans tous ses états. À l’opposé, il y a ceux qui me demandent immédiatement si je fais des traductions automatiques ou s’il est vrai que l’intelligence artificielle va prendre le dessus. Le fait est que ce domaine se situe quelque part entre les branches de la science et des sciences humaines, ce qui semble être une contradiction pour beaucoup ; mais s’il est vrai que la traduction automatique est l’une de ses directions de recherche, et que toute forme d’intelligence sociale, même artificielle, est liée au langage, la définition que je donnerais est très simple et peut-être décevante : appliquer des méthodes algorithmiques à l’analyse des langues naturelles, c’est-à-dire celles qui sont parlées spontanément par les êtres humains.
À la différence de la linguistique plus « traditionnelle », une importance centrale est accordée à l’aspect quantitatif, c’est-à-dire statistique, des données linguistiques, plutôt qu’à l’aspect qualitatif, qui va plus loin dans le détail et intègre aussi plus facilement les aspects extralinguistiques, mais reste d’une portée plus limitée. La différence avec les méthodes purement informatiques réside dans le fait que l’objet d’étude concerne avant tout les langues naturelles (et non les langages de programmation) et qu’il n’est pas évident de leur appliquer de manière pertinente des modèles mathématiques, c’est-à-dire de passer « des mots aux nombres ».
La linguistique computationnelle permet aux ordinateurs de faire de l’analyse grammaticale et logique. En sachant faire cela, ceux-ci peuvent également répondre à vos questions ou traduire des textes d’une langue à l’autre.
Pour toutes ces raisons, une partie extrêmement pertinente – mais peu considérée par le grand public – de la linguistique computationnelle consiste à développer une formalisation utile, cohérente et éventuellement universelle de la structure du langage, afin que les recherches linguistiques puissent être menées sur la base de preuves empiriques solides et pas seulement de l’intuition personnelle, et que les méthodes automatiques puissent être mises en œuvre sur une base partagée et bien définie (par exemple, la traduction automatique).
C’est cette deuxième orientation qui est mise en avant par une autre étiquette largement utilisée et presque considérée comme synonyme – sans l’être – de la linguistique computationnelle, le « traitement automatique du langage » ou « traitement du langage naturel » (NLP). Même si nous nous berçons d’illusions en pensant que nous le contrôlons totalement, le langage présente de nombreuses caractéristiques d’un phénomène naturel autonome et se développe selon des schémas récurrents, indépendamment de l’époque ou de la culture. S’il existe des schémas récurrents, il est possible d’utiliser des outils mathématiques pour les étudier et les exploiter. Mais le défi consiste alors à les relier aux aspects plus cognitifs et sociaux.
Au carrefour des mathématiques, de l’informatique et de la linguistique
En mathématiques, tout me semble assez décontracté : on explore des ensembles d’objets en choisissant ses propres règles et en observant ce qui se passe. Il y a beaucoup de précision parce que tout doit être prouvé, même quand on sait où l’on va, et donc tout est discuté. Tout doit être défini car très peu de choses sont considérées comme acquises. En informatique, au contraire, il me semble que l’on veut moudre et moudre des données pour créer des algorithmes plus efficaces, mais très souvent, on ne s’arrête pas pour comprendre ce que l’on fait et pourquoi. La question devient critique si l’objet examiné est le langage naturel, qui doit être accepté tel qu’il est et ne peut être défini. J’enviais mes collègues plus techniques qui savaient comment écrire un code optimisé, mais en même temps, j’étais perplexe de voir à quel point ils se souciaient peu des fondements théoriques (et à quel point ils étaient peu versés en linguistique mais aussi, plus étonnamment, en mathématiques, du moins par rapport à mes attentes).
Je me suis trouvé plus en phase dans les groupes de recherche en linguistique computationnelle parce qu’il y a plus de connaissances dans ce domaine. Mais même là, il est facile d’oublier certains fondements théoriques; les différentes traditions (par exemple, celle propre à chaque langue : latin, grec, italien, français, langues romanes, langues germaniques, etc.) peinent souvent à se comprendre et se referment sur elles-mêmes au lieu de chercher des normes communes. Dans ma dérive vers des rivages de plus en plus humanistes, je suis entré en contact avec des philologues. J’y perçois de la décontraction et certes un souci du détail, un peu comme en mathématiques, mais aussi plus d’incertitude sur ce qu’il faut faire et comment : la volonté est là, mais parfois les moyens manquent, parce que l’on dialogue peu avec les disciplines plus techniques – que l’on craint parfois même.
En ce qui concerne le traitement automatique du langage, le risque est de penser que l’on peut tout faire soi-même en oubliant l’existence des autres. Bien que cela semble incroyable, très souvent la discipline la plus négligée est précisément la linguistique théorique ! Cette situation semble refléter la croyance qu’il suffit de parler une langue pour pouvoir en discuter de manière compétente.
Au cours de ma maîtrise en mathématiques, j’ai eu une crise de vocation – peut-être parce que, même si la géométrie algébrique m’attirait, je ne me sentais pas tout à fait à la hauteur de la tâche. J’ai alors cherché à savoir s’il était possible de décliner les mathématiques dans mon autre grande passion, la linguistique et l’étude des langues : si j’avais pu, en fait, je me serais inscrit dans les deux facultés à l’université, mais ce n’était pas possible en Italie. Rétrospectivement, il est vraiment étrange de penser à quel point il m’a été difficile, du moins à l’époque, de découvrir, mais surtout de « prendre contact » avec la linguistique computationnelle. Le fait est que de nombreuses disciplines travaillent de manière totalement compartimentée et ne se connaissent pas.
J’ai finalement réussi à intégrer un doctorat en informatique axé sur le traitement automatique des langues, et c’est là que j’ai commencé à prendre mes marques. Une fois mon doctorat obtenu, je n’avais pas d’autre projet que de trouver un poste de chercheur ; et comme par hasard, il y avait un poste vacant au début d’un projet important dans un centre de recherche (le CIRCSE, à l’université catholique du Sacré-Cœur de Milan) qui s’occupe historiquement de l’application de méthodes informatiques au latin. L’idée m’a plu, à la fois parce que je connaissais déjà le latin depuis le lycée et parce que le travail promettait de comporter une bonne partie théorique. Et c’est ce qui s’est passé : le latin, surtout d’un point de vue linguistique et typologique, est devenu ma spécialisation. Il m’a fait découvrir une communauté vivante avec des ramifications très fortes dans les domaines humanistes (philologie, histoire, enseignement…). J’appréciais beaucoup l’approche interdisciplinaire, alors j’ai continué. D’un point de vue littéraire, cependant, j’avoue rester quelque peu ignorant, et il m’arrive de choquer mes collègues en leur demandant par exemple à quel siècle vivait Cicéron ou Sénèque…
Les mathématiques, un langage comme un autre ?
Il n’est pas nécessaire de parler plusieurs langues pour faire de la linguistique computationnelle, tout comme ceux qui étudient la linguistique ne connaissent pas nécessairement beaucoup de langues. En fait, l’aspect purement informatique ne requiert pas d’en connaître : les méthodes mathématiques et statistiques sont applicables à toute étude de cas. D’un point de vue linguistique, en revanche, ce qui est commun à toutes les approches, ce sont les notions les plus générales, à savoir ce qu’est une langue, comment elle s’articule, quelles sont ses possibilités, quelles sont les tendances que l’on peut observer… Et puis, comme on se concentre généralement sur une seule langue, souvent sa langue maternelle, il est important de pouvoir appliquer ces notions à celle-ci, et cela peut suffire. Bien sûr, je crois que le fait d’avoir une vue d’ensemble profite aussi aux études plus spécialisées, mais attention, parler une langue ne signifie pas forcément la connaître !
Ma langue maternelle est l’italien (dans sa variante lombarde/milanaise, pour les connaisseurs). Tout de suite après, mais forcément moins spontané, vient l’allemand (avec un léger accent suisse), que j’ai étudié à l’école et à l’université. Je l’utilise dès que possible, je lis des livres… Je l’entretiens du mieux que je peux et j’ai la chance d’avoir des bases solides. Et puis, de fil en aiguille, j’ai appris l’anglais, qui nous entoure aussi et surtout dans le monde universitaire. Si je dois être honnête, je ne pense pas avoir un grand feeling pour cette langue, et bien que je la cultive, elle ne m’attire pas plus que ça ; lire un récit en anglais m’ennuie même légèrement. Ce n’est pas quelque chose de complètement rationnel, je pense plutôt à une question d’esthétisme. Et puis, je me débrouille aussi en français, même si c’est désordonné ! Je l’utilise lors de mes voyages en Wallonie. Le français me fascine parce que c’est une langue cousine qui a pris une direction qui lui est propre, même un peu bizarre du point de vue italien si vous le permettez…
Je pense cependant que je parle mieux le grec (moderne) : j’ai commencé à étudier la langue pour m’en inspirer (après un voyage en Crète) et pour une raison ou une autre, c’est venu naturellement. Je me sens très familier avec cette langue (le grec ancien au lycée m’a aussi un peu aidé). Je continue également à mentionner le norvégien dans mes CV parce que je l’ai étudié et que je le parle, mais il est en chute libre. Cette langue fait partie de moi, mais elle ne m’a pas marqué autant que le grec. Enfin, je mentionne également le mongol parce que, bien que mes connaissances pratiques soient rudimentaires, j’y ai consacré beaucoup de temps et je l’aime pour de nombreuses raisons. Je considère que cette langue est importante sur le plan personnel parce qu’elle m’a fait découvrir une grammaire complètement différente des standards européens auxquelles nous sommes habitués. Et puis, je reste irrésistiblement attiré par les steppes mongoles, ce qui représente un peu un désir inassouvi.
À ce stade, je pourrais presque ajouter le hongrois, car je peux soutenir une communication quotidienne très simple. J’aime beaucoup cette langue et je l’ai abordée par curiosité, mais la passion n’a pas été au rendez-vous, alors je n’ai pas continué. Et maintenant, je me lance dans la version flamande du néerlandais, avec l’avantage de l’allemand. Je parle donc sept langues, plus deux moitiés… mais quatre proviennent de la même souche (germanique) et résonnent entre elles. J’ai élargi le spectre typologique au cours de mes recherches, mais seulement sur le plan théorique, et je ne sais pas parler beaucoup des autres langues que je rencontre dans mon travail (le latin, par exemple, mais aussi le warlpiri, pour n’en citer qu’une), dont je connais les mécanismes morphosyntaxiques.
Quant aux mathématiques, elles ne sont pas une langue, contrairement à ce que l’on dit généralement. Les mathématiques ne se soucient pas du tout de la manière dont elles sont exprimées, que ce soit dans des formules modernes ou dans le style discursif des traités hellénistiques. Ce seul fait nous indique qu’il ne s’agit pas d’un langage. D’ailleurs, si nous parlons de mathématiques pures, chaque point de départ peut changer, il n’y a pas nécessairement de repères fixes. Ce qui compte, c’est la justesse du raisonnement qui s’ensuit et s’enchaîne. Certains chemins sont plus empruntés que d’autres et des conventions sont créées pour les remarquer. On aboutie donc à un langage pour les mathématiques, mais en soi, les mathématiques ne sont pas un langage : c’est une façon d’étudier des abstractions, qui peuvent ensuite être adaptées au cas par cas.
J’ai toujours aimé apprendre et étudier de nouvelles langues, peut-être parce que je suis attiré par les différentes combinaisons de sons et de mots à chaque fois (pas tellement du point de vue de la sémantique, qui ne m’a jamais beaucoup intéressée). En même temps, j’aime aller au fond des choses : je suis un mordu d’étymologie, par exemple. Ainsi, structure par structure, j’ai fini par choisir les mathématiques parce qu’elles semblaient me rapprocher de mécanismes plus universels. Ensuite, j’ai simplement voulu associer les deux choses : étudier les mécanismes cachés d’un objet aussi mystérieux que le langage est une source de grande satisfaction, car cela semble nous rapprocher lentement, rigoureusement, de la nature même de la cognition humaine.
Le latin, en plus d’être intéressant en soi pour toute l’importance qu’il a eue et continue d’avoir dans notre histoire, est également une façon d’« aller en profondeur », puisqu’il est à l’origine des langues romanes : cette longue perspective diachronique aide encore plus à faire la lumière, tout comme l’étymologie pour les mots individuels ! Le langage est un « problème » non résolu, et l’exploration de sa variété est fascinante, ne serait-ce que d’un point de vue esthétique, avec l’émerveillement de réaliser que même les détails les plus disparates en apparence sont liés dans un schéma plus large. Une vie ne suffit pas pour faire l’expérience de toute cette variété. »
Propos de Flavio Cecchini recueillis et édités par Zoé Hardy.