la vie future des mots une fois “libérés“ des phrases

Classé dans : à partir de la communication | 0

 

 

les technologies du sens, une révolution en marche

 

Les recherches sur les algorithmes du langage convergent sur les problématiques du sens. C’est dans cette direction que vont s’opérer les évolutions les plus radicales de la communication.
Les recherches dans ce domaine se développent dans de multiples directions tant sur l’écrit que sur le parler. En dehors des problématiques de traduction sur lesquelles nous reviendront par ailleurs, on peut citer quelques exemples qui en donnent le ton actuel.

l’identification des contextes

 

Texmex, l’équipe rennaise de l’INRIA travaille à une meilleure exploitation des documents multimédia.

Pour cette démonstration, les chercheurs ont d’abord enregistré un mois de journal télévisé. “À partir de ce corpus de 30 fichiers, TexMix a extrait de l’information de manière complètement automatique et composé une interface permettant de naviguer dans ces contenus.”  Les différents reportages apparaissent sous forme de vignettes cliquables disposées sur une ligne chronologique. Dès qu’une vidéo est lancée, un sous-titre défile. “Ce flux de mots sans ponctuation illustre notre premier axe de recherche : la transcription de la parole. La segmentation thématique repose non pas sur l’image, mais sur la bande-son. Nous détectons les ruptures lexicales. Nous repérons le moment où le flux de mots passe, par exemple, du registre sportif à celui de la politique. C’est sur cette approche innovante que repose notre façon de décomposer le journal en une série de séquences.

On trouvera sur le site, les applications d’ores et déjà envisagées par les chercheurs (recherche de vidéos sur un sujet donné, navigation hypervidéo…)

le résumé automatique de texte subjectif

 

Aurélien Bossard*, Michel Généreux**, Thierry Poibeau*** présentent ainsi un système de résumé automatique de textes d’opinion (lien)  :

Nous présentons dans cet article un système de résumé automatique tourné vers l’analyse de blogs, où sont exprimées à la fois des informations factuelles et des prises de position sur les faits considérés. Notre système de résumé est fondé sur une approche nouvelle qui mêle analyse de la redondance et repérage des informations nouvelles dans les textes ; ce système générique est en outre enrichi d’un module de calcul de la polarité de l’opinion véhiculée afin de traiter de façon appropriée la subjectivité qui est le propre des billets de blogs.

On trouvera des références sur le sujet sur le site de l’ADBS

la création automatique de sens

 

Grâce à sa plate-forme d’intelligence artificielle brevetée, Narrative Science http://www.narrativescience.com/transforme des données en articles et en discours compréhensibles », explique-t-on chez Forbes… Le New York Times du 10/09/2011 a signalé qu’un client avait acheté moins de 10$ un article de 500 mots produit en 1 seconde à peine».  Il est également précisé que, dans ce laps de temps, ce genre d’articles peuvent être alimentés par la lecture de millions de tweets.

(source Le Monde Diplomatique de septembre 2012: “Un robot m’a volé mon Pulitzer“ par Evgeny Morosov )

Narrative Science a été fondé en 2010 …. Le service nécessite un flot continu de données et l’affinage d’une série de règles afin de proposer une structure acceptable de news. Les clients de Narrative Science peuvent même choisir la tonalité générale de la dépêche : salle de marché nerveuse, commentateur sportif extatique. La société compte plus de 20 clients …Le concept (et son marché potentiel au-delà du journalisme : comptes rendus d’assemblées générales, génération automatique de rapports d’activités) a séduit les investisseurs. Narrative Science a levé 6 millions $ en 2011… afin de développer son service.

(source)

 

du mot à la phrase en passant par les algorithmes

 

le mot: un “nouveau concept“

 

Pendant longtemps, le mot isolé n’a été utilisé que dans les dictionnaires et pour la signalétique dans les grands magasins. Puis, brutalement avec internet, la problématique de recherche d’informations a donné au mot un rôle central, démesuré, envahissant, y compris dans le domaine économique.

Avec l’émergence du mot-clé, le mot est devenu une donnée, puis rapidement une valeur comme le souligne Frederic Kaplan dans son billet sur le capitalisme des mots – source Monde Diplomatique

C’est avant tout un algorithme d’enchérissement sur les mots qui a rendu Google riche

Sur un plan technologique, le mot est l’élément sur lequel se focalise la reconnaissance vocale, la partie “facile“ des algorithmes du sens, du résumé, de la traduction, la donnée statistique la plus facile à gérer. L’évolution vers un web plus “intelligent“ passe:

• par l’identification des déclinaisons et des synonymes, soit… encore des mots.
• par l’identification des contextes, c’est à dire… des rapprochements de mots

Le mot est le concentré de sens que demande l’évolution des messages vers la brièveté ainsi que l’élément spécifique qui s’associe à la spécialisation.
De nouvelles entités de langage comme les acronymes se créent autour du mot (voir billet), ainsi que de nouveaux modes de navigations sur le Net (taxonomie, nuages de mots…).

la phrase vers un avenir tourmenté

 

Parallèlement, la phrase a longtemps été l’empêcheur de numériser en rond, cette “marche trop haute“ qui sépare encore la traduction automatique approximative de la traduction de qualité. Là encore, la statistique prévaut, mais une statistique beaucoup plus lourde.

La recherche, la veille, le résumé, la traduction, toutes ces problématiques du futur vont supposer une simplification drastique des grammaires et une mise en algorithme des syntaxes… en d’autres termes, une métamorphose de la phrase… donc du langage.

 

du mot à la phrase en passant par les connotations

 

Qu’est-ce qu’une connotation ?

pour le CNRTL

Tout ce qu’évoque un mot, une expression, indépendamment de sa signification.

pour SensAgent

Sens secondaire qui vient s’ajouter au sens courant d’un mot selon son contexte d’emploi.

Dans son sens faible, on pourra définir une connotation comme une association d’idées largement partagée. Dans son sens fort comme un conditionnement idéologique.

du mot qui résume au mot qui amplifie

 

Aujourd’hui:

• prononcer le mot “juif“ c’est commencer à être antisémite
Parce que ce mot est plus particulièrement utilisé dans… certaines catégories d’opinion.
• prononcer le mot “réchauffement“ ou le mot “durable“ c’est déjà commencer à parler d’écologie, mais d’une façon “technique“
•… alors que dire “OGM“ ou “nucléaire‘ c’est en parler, mais de façon beaucoup plus “militante“.
D’autres connotations apparaissent plus volatiles et plus dépendantes de l’actualité (euro, Syrie, Hadopi…), mais n’en ont pas moins une charge sémantique plus lourde que la seule signification du mot.

Car aujourd’hui plus que jamais, tout fait débat. Tout débat tend à générer un nombre restreint d’opinions. Toute opinion sur chaque débat fait émerger certains mots… qui deviennent ainsi ses représentants.
Les connotations transforment le mot pour en faire, beaucoup plus qu’une phrase: le concentré d’un débat.

Et que dire de l’association de deux mots fortement connotés (compétitivité + charges sociales)… sinon qu’elle rend quasi-superflu un quelconque développement, tous les termes paraissant connus d’avance.

 

Au carrefour des connotations et des algorithmes

 

comment allons-nous parler ?

 

Mais la nouveauté réelle se situe dans le contexte actuel d’exploitation des connotations

• pensée unique
• surabondance d’actualités
• surabondance de débats
• réduction des messages
• …etc.

Ce qui nous ramène aux algorithmes du sens si l’on admet que (w)

L’information est la mesure a priori de l’originalité d’une situation

Les connotations normalement associées aux mots d’un message appellent implicitement un développement “habituel“ par d’autres termes “prévisibles“, ce qui signifie qu’elles signalent immédiatement “l’intrus“, le mot qui ne “devrait pas être là“, l’événement linguistique qui devient par le fait… ce qui va faire du message une “information“ ou “un point de vue nouveau“.

comment allons-nous penser ?

 

Mais pour une seule “anomalie“, un seul “intrus“ qui fait “sens nouveau“, combien de répétitions, d’insistances sur les corrélations “usuelles“. Autant de coups de marteau qui font entrer dans nos têtes une pensée… unique, ou pour le moins, de type sectaire et sans nuance. Ces deux dimensions ne sont d’ailleurs pas exclusives: une pensée unique pour l’essentiel pouvant très bien cohabiter avec “un espace de liberté“ constitué d’un choix limité de “dérives types“ à la pensée dominante.

Car plus les associations de termes propres à un débat donné sont largement partagées, plus il devient difficile de faire entendre une voix totalement originale qui s’appuierait sur des concepts sensiblement différents. Si cette voix existe, elle va devoir réintégrer au moins une partie des mots généralement admis sur le thème considéré, c’est à dire se “dés-originaliser“… en d’autres termes, s’abâtardir.

Les connotations vont devenir un élément-clé de l’économie numérique:

• une “nécessité algorithmique“ pour le traitement du langage
• un instrument de contrôle statistique du social dans son ensemble
• … avec transposition à l’individu pour le recueil des croyances et opinions personnelles
•  un outil d’identification de l’information nouvelle pour tout type de veille
• … et de décisions politiques ou d’événements, d’études d’impact de publicité et de propagande
• un instrument de création automatique de sens “attendu“ par le consommateur

… et sans doute beaucoup d’autres choses par combinaison avec d’autres types de paramètres

Tout cela existe déjà dans une certaine mesure, mais deux évolutions paraissent prévisibles

• une meilleure interaction entre les données individuelles et les données globales par identification linguistique des groupes et sous-groupes intermédiaires
• des procédures globalement plus efficaces et surtout de plus en plus réactives dans la mesure où elles s’appuient sur l’approche la mieux maitrisée de l’informatique: la statistique.

 

 

 

Laissez un commentaire