De formation mathématique, j’ai cependant toujours eu le goût de
l’écriture et du théâtre. Parallèlement à mes études et à ma profession (
instituteur, professeur de mathématiques en lycée, professeur
d'université en informatique ), j’ai écrit poèmes et nouvelles, j’ai mis
mes textes en scène et je les ai joués.
Dans mes écrits littéraires, j’ai parfois été influencé par des idées
scientifiques. Dans mes écrits scientifiques, on peut trouver trace d’un
style littéraire, surtout s’il s’agit de pédagogie ou de vulgarisation
(exemples : [1],[2] ).
Je me suis intéressé très tôt aux activités de l’OULIPO, sur l’apport des
contraintes dans l’écriture ; puis à celles d’ALAMO, sur l’utilisation de
l’ordinateur dans les activités oulipiennes.
Mon unité : les langages. Le langage mathématique m’a mené à la logique,
autre langage, mêlé au premier, qui m’a mené à l’informatique avec ses
langages de programmation. Parallèlement je travaillais sur le langage
dit naturel, et sur le langage théâtral. Il s’agit toujours de
communication ! entre les hommes, entre les hommes et la machine, entre
machines,.
Ces deux parallèles ont fini par se rencontrer d’une certaine manière.
Mes recherches en informatique (algorithmique, graphes) ont évolué vers
l’Intelligence Artificielle, en particulier le Traitement Automatique du
Langage Naturel (TALN).
Membre de l’ALAMO et actuellement président, j’ai le souci de faire bénéficier ALAMO des outils du TALN.
Jusqu’où peut aller le TALN et la création littéraire assistée par
ordinateur, en particulier avec ALAMO ?
Nous verrons plus loin les différents intérêts d’ALAMO, en dehors de la
création assistée.
Les recherches informatiques sur le TALN ont le mérite de nous faire
retomber constamment sur la subtilité du langage naturel et sa complexité ;
voilà qui est passionnant et décuple l'intérêt de ces recherches :
découvrir les subtilités du langage naturel, même celles auxquelles on ne
pensait pas.
C’est d’ailleurs cette complexité qui donne des limites aux réalisations,
limites qui sont constamment repoussées. Jusqu’où ? La suite va nous
éclairer.
Certains informaticiens extrêmistes voudraient simplifier le langage pour
qu’il soit plus facilement compréhensible par la machine : ce qui nous
conduirait à un langage de plus en plus pauvre ; ce serait la négation de
la littérature. Il faut prendre le langage naturel tel qu’il est.
Un des buts du TALN est de faire analyser des textes par la machine
(c’est-à-dire par des programmes) et de lui en faire
comprendre le sens
afin qu'elle puisse répondre à des questions éventuelles.
C’est fondamental pour le dialogue homme-machine, que l’on
va rencontrer de plus en plus dans la vie courante (déjà, quand on
utilise le minitel, on aimerait poser des questions simples et avoir des
réponses claires aux questions).
Par exemple, on peut toujours entrer en machine
la phrase :
Pierre est parti à la piscine
comme une chaîne de caractères,
mais on ne pourra ainsi obtenir des réponses aux questions
Où est Pierre ?
,
Que fait Pierre?
,…
D'où la nécessité de représentations plus fines de la phrase permettant de l'exploiter.
D'une manière générale, en informatique, la représentation des
connaissances est indispensable pour traiter sur ordinateur les objets du
monde réel, c'est une correspondance entre le monde extérieur et un
système symbolique permettant de raisonner.
On se rend vite compte qu’il faut fournir beaucoup d’informations à la
machine pour qu’elle puisse comprendre et traiter le langage. Si on veut
lui faire comprendre une phrase comme :
garçon, un demi !
,
il faut saisir
énormément de renseignements sur les habitudes des gens à
une certaine époque, dans un certain lieu : toute une culture.
C’est toute la difficulté de la traduction automatique. La machine a
besoin d’un contexte très large pour comprendre et traduire une phrase.
On tombe sur des problèmes d’explosion combinatoire dans la recherche des
solutions.
Toujours dans le domaine de la compréhension, les
figures de langage
ne sont pas utilisées seulement en poésie mais
apparaissent dans le langage ordinaire : le langage sort souvent des
normes fixées. C'est le cas pour la métaphore et la métonymie.
Soit la métaphore :
"L'océan se fâche
.
L'océan est personnalisé.
Considérons les métonymies.
La salle applaudit
:
il faut que la machine comprenne
qu’il y a changement contenu-contenant
,
ce sont les occupants de la salle qui applaudissent.
"Je me suis garé sur le trottoir
:
ce n’est pas de moi qu’il s’agit, mais de la voiture.
Il faut prévoir cela dans les programmes, la machine ne va pas l’inventer.
Un autre but, souvent lien à la compréhension, est la
génération automatique
de textes à partir d'informations fournies à la
machine (par exemple, on peut vouloir restituer le sens d’une
métonymie, mais aussi produire des métonymies).
C’est l’objet principal de l'ALAMO.
La génération demande l’implantation de multiples connaissances de
grammaire (accords entre certains mots, conjugaisons des verbes, …).
L’ensemble des règles de grammaire constitue la syntaxe
.
Pour la machine, une phrase correspond à un objet mathématique appelé
arbre
, exprimant la structure de la phrase, par exemple :
sujet, verbe, complément, mais ce peut être plus compliqué, chacun de ces
éléments pouvant à son tour être décomposé. Un arbre comprend des
noeuds
et des feuilles
. Aux feuilles sont associés les mots.
Si l’on veut produire une phrase, il faut construire un arbre et attacher
des mots aux feuilles. On va chercher ces mots dans un réservoir appelé
lexique
ou dictionnaire
.
Il faut prévoir les accords en genre et en nombre, la conjugaison des
verbes suivant le mode, le temps, la personne.
L’objet arbre
est très utilisé en mathématique et en
informatique. L’exploration d’un arbre permet de faire des choix à
différentes étapes. Pour la génération des textes, on l’utilise pour
construire des textes différents suivant les choix de l’utilisateur.
C’est le cas du programme CAVF
(Conte à votre façon) de l'ALAMO.
Aux noeuds peuvent être associés des sous-textes, des phrases ou expressions
toutes faites,…
Il existe d’autres représentations qui donnent d’autres informations que la structure d'arbre : les réseaux ATN (Augmented Transition Networks), graphes auxquels sont associées des conditions de changement d’état (conditions pour emprunter un arc : genre, nombre,…) et des actions suivant ce changement (construction de structures syntaxiques partielles par exemple).
Dans un dictionnaire informatisé, on ne mettra que la racine du mot et
une liste de toutes les formes permises pour le mot.
Mais il faudra y placer aussi les mots composés qui ne s’analysent pas
comme la somme des mots qui les composent :
café-filtre
, cercle vicieux
, beau-père
,
poisson volant
, pomme de terre
, preuve par neuf
,
arc-en-ciel
, tête-à-tête
, mise sur orbite
, trompe-l’œil
,
pince sans rire
, tire au flanc
, rendez-vous
,
va et vient
, ayant droit
, sauve qui peut
,
compte-rendu
, coup de téléphone
(les mots composés avec coup sont variés),…
Les linguistes ont dénombré quelques 40 000 mots composés (150 000 en allemand)
et on en fabrique tous les jours !
La plus grande difficulté du TALN réside dans la maîtrise du sens. Pour construire une phrase qui a du sens, pour assurer la cohérence d’un récit, son déroulement logique, il faut prévoir des contraintes sémantiques à tous les niveaux. Un adjectif ne peut être associé à n’importe quel nom, un sujet à n’importe quel verbe, …
Remarque 1.
L’idée de sens est relative. Un phrase peut ne pas avoir de
sens dans le monde quotidien et être acceptable en poésie.
La terre est bleue comme une orange
Remarque 2.
La syntaxe n’est pas complètement détachée de la sémantique.
Par exemple, une phrase peut avoir plusieurs sens, plusieurs
interprétations.
La belle ferme le voile
Vous avez deux arbres possibles auxquels correspondent deux sens. C’est
le contexte qui permet de choisir.
Un autre exemple en anglais :
Time flies like an arrow
.
Quatre interprétations !
le temps vole comme une flèche
les mouchent du temps aiment une flèche
chronométrez les mouches comme vous chronométrez une flèche
chronométrez les mouches qui ressemblent à une flèche.
Pour représenter le sens on utilise la logique
(ou les
logiques) et les réseaux sémantiques
:
sorte de schémas ou graphes (à chaque sommet est associée une information).
Par exemple, la phrase
Pierre mange une pomme
pourra être représentée en logique par la fonction manger(Pierre, pomme)
,
qui s’exprime facilement dans le langage de programmation PROLOG.
Un exemple de réseau sémantique est donné par les graphes conceptuels
.
Les sommets sont de deux types :
concepts et relations.
Les sommets relations décrivent la nature des relations entre les concepts.
Les graphes conceptuels sont représentés soit sous forme graphique,
soit sous forme linéaire.
La phrase Le chat se mord la queue sur le tapis
aura la
représentation graphique suivante :
La forme linéaire peut-être celle-ci :
[ chat : Tom]
<-- (agent) <-- [ mordre] --> (objet)-->[queue] <--
(possède) <--[chat : Tom]
--> (lieu) -->[tapis]
Les types de concepts sont ordonnés ( chat est animal, objet est
nonvivant,…).
Le grand intérêt des graphes conceptuels est que l'on peut effectuer des
opérations sur les graphes conceptuels.
Ce qui permet, par exemple, de répondre à des questions
Que mord le chat Tom ?
Où le chat Tom se
mord-il la queue ?
, en représentant ces questions par des graphes
conceptuels et en effectuant certaines opérations concernant le graphe de
départ et le graphe-question.
La page d'accueil du site
http://alamo.mshparisnord.org
contient une brève présentation de l'ALAMO, ainsi qu'un menu donnant accès à six
applications : Baisers de Kuhlmann, Dizains de Bénabou, Triolets de
Braffort, Alexandrins greffés, Rimbaudelaires.
Chacun de ces choix ouvre à son tour deux possibilités :
présentation du principe combinatoire
exploité dans ce type de texte, production d'un texte engendré suivant ce
principe. En "cliquant" à nouveau sur "production", on obtient à chaque
fois un nouveau texte, que l'on peut aussi imprimer.
Les programmes d’ALAMO travaillent sur plusieurs niveaux :
Litanies de la vierge,
Dizains de Bénabou,
Triolets de Braffort,
Locutions introuvables.
Alexandrins au greffoir.
Baisers de Kulhmann.
Aphorismes,
Rimbaudelaires.
farce(la farce est ce qu'on place dans le moule).
Tous les programmes ALAMO seront bientôt disponibles sur Internet. Ils
seront écrits dans un langage de programmation adapté à ce moyen de
communication et les outils linguistiques seront affinés.
Puis nous introduirons images et sons.
L’originalité d’ALAMO est de fournir un langage-auteur
(LAPAL : Langage Algorithmique pour la Production Assistée de Littérature)
qui donne la possibilité à des non-informaticiens de créer leurs propres programmes
originaux : ces auteurs
définissent eux-mêmes la structure (phrase,
poème, scénario,…), les contraintes et le lexique.
Des étudiants de l'Université Paris XIII-Villetaneuse travaillent
actuellement à l'extension de LAPAL sur Internet.
L’apport d'ALAMO
ALAMO offre :
Autres contraintes et littérature.
Outre celles présentes dans les programmes ALAMO, il existe d’autres contraintes de nature mathématique (exemples dans [3]).
Perspectives
D’autres outils permettent d’envisager d’autres formes d’écriture et de lecture des textes: hypertextes, apports des images et du son, animation, interactivité,…
Références.
[1] G.Chaty, Du côté des mathématiques et de l'informatique
,
thème Répétition et Variation
, Corps Ecrit
, PUF,
n°15, 1985.
[2] G.Chaty, La base en géométrie
, suivi de l'Érotisme
des lignes
, Phréatique n°83, Automne 1997.
[3] Jean-Paul Delahaye, Ecritures sous contraintes
, Pour la
science, Novembre 1998.
1
Texte de la conférence présentée au Club
Sciences et Citoyens de Bobigny-Drancy, à la MJC de Drancy, le 5
décembre 1998 et dans une "Rencontre-canon" dans la Nièvre,
Château-Chinon Campagne, 6 mai 2000. A également fait l'objet d'un
article:
L'ordinateur, lieu d'expressions poétiques ?,
Phréatique, n°93, printemps 2000.