Culturonomics: juste une question de corpus?

Le 11 janvier 2011 Olivier Ertzscheid

Nos sociétés de données nourrissent des monstres calculatoires et industriels qui, dans certains domaines, sont en passe d’être les seuls capables de circonscrire des corpus qui relèvent, pourtant, du bien commun. Génomique aujourd'hui, linguistique demain et la culture après-demain?

À quoi sert de numériser des millions d’ouvrages depuis 2005 ? À ça (« Quantitative Analysis of Culture Using Millions of Digitized Books », article publié dans la revue scientifique Science). Disposer de 4% de tous les livres publiés depuis 2 siècles. 7 langues. 2 milliards de mots. 5,2 millions de livres numérisés “inside” (voir l’article du NYTimes).

Ici (Google), le plus grand corpus linguistique de tous les temps.
Ailleurs (Facebook), le plus grand “corp(u)s social” numérique.

Deux corpus. Mais qu’est-ce qu’un corpus ?

“Ensemble de données exploitables dans une expérience d’analyse ou de recherche automatique d’informations.” (Source : Trésor de la langue française)
“Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire” (Source : Trésor de la langue française)

Dans le domaine du droit, le corpus : “C’est l’élément matériel de la possession, le pourvoir de fiat exercé sur une chose. (Animus).”

Du premier corpus, celui de Google, on ne pourra que se réjouir, pour ce qu’il représente de potentialités ouvertes dans l’aventure linguistique comme compréhension du monde. Et l’on mettra du temps à en épuiser les possibles. Mais nul doute qu’il contribuera aussi à alimenter tous les fantasmes, celui, notamment, d’une “intelligence artificielle” dévoyée, apprenant à penser en déchiffrant ce que le plus grand corpus du monde révèle des pensées de ce même monde. Les ingénieurs ont même inventé un mot pour cela : “culturonomics”. Culture et génomique. Enthousiasmant. Pour l’instant. Et pour les linguistes.

Du second corpus, celui de Facebook, on ne peut que continuer à raisonnablement s’alarmer. Surtout lorsque les techniques de traitement dudit corpus prennent cette orientation, rendant plus que jamais nécessaire la mise en œuvre d’un littéral Habeas Corpus numérique.

Dans l’histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l’ascendant sur leur différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l’analyse.

Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler.

Bruno Latour, Culture technique, 14, 1985 (cité par Christian Jacob dans L’Empire des cartes, Albin Michel, 1992).

L’informatique, les outils de la linguistique de corpus ont permis aux linguistes de rester les maîtres de corpus aux dimensions exponentielles. Même chose dans le domaine de la médecine : disséquer une grenouille est une chose (et un corpus), séquencer le génome humain en est une autre. Dans tous ces cas comme dans les courbes proposées par Google, le scientifique est parvenu à “ruser” le monde pour user de son corpus.

Et donc ? Nos sociétés de données, nos sociétés d’une exponentielle et inconcevable immensité de données, nourrissent en permanence des monstres calculatoires et industriels (voir les textes d’Hervé Le Crosnier sur le sujet, là ou là) qui, dans certains domaines, sont en passe d’être les seuls capables de circonscrire des corpus qui relèvent, pourtant, du bien commun. Aujourd’hui déjà la génomique, demain peut-être la linguistique, après demain qui sait, les traits culturels ? Culturonomics. Le génome de la culture.

S’il est vrai, comme le remarque Jean Véronis dans son billet que “la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques“, je pense que le choix terminologique de Google dépasse, de loin, la seule interdisciplinarité ; Culturonomics : dans l’histoire de Google comme dans ses liens les plus intimes, la culture et le génome sont les deux brins d’un même ADN fondateur.

Moralité. Celui qui peut dire que la vie l’emporte sur la mort ne doit jamais se retrouver en situation d’être le seul à pouvoir le dire. Ou à prétendre le contraire. Ou à ne pas le dire. Il est de notre responsabilité collective d’y veiller. Habemus corpus. Ceci est notre corp(u)s.

>> Article initialement publié sur Affordance

Retrouvez notre dossier :

Petite histoire de la géologie en quelques mots

La politique, le sexe et Dieu dans Google Books

>> Illustrations FlickR CC : Calamity Meg, J.Salmoral

>> Illustration de Une FlickR CC : stefernie

Connectez vous à vos fans !

Jean-Louis Nadal lève un tabou magistral

Facebook♥ Twitter♥ ♥ RSS

5
commentaires Fermer

Laisser un commentaire

Derniers articles publiés

Une Vive Internet! Inédit • 14 décembre 2012

[Infographie] 10 ans de Creative Commons

par Sabine Blanc

Cette semaine, Creative Commons fête ses dix ans dans le monde entier. Une décennie d'alternative à une vision maximaliste de la propriété intellectuelle qui a su conquérir le grand public. Owni, un des rares médias en CC en France, vous retrace cette histoire en une infographie interactive.

Twitter Facebook 188

creative commons, droit d'auteur, Lawrence Lessig

Graphisme Chronique • 14 décembre 2012

Charte de confidentialité : des icônes pour informer

par Geoffrey Dorne

Personne - ou presque - ne lit les politiques de confidentialité. Pour simplifier les choses et rendre compréhensible ce que fait chaque site avec vos données, designers, citoyens et experts soutenus par la fondation Mozilla ont mis en place une liste d'icônes. Tour d'horizon de l'initiative.

Twitter Facebook 223

Art, CGU, création, design, graphisme, icone, icônes, picto, pictogramme, vendredi-graphism, vie privée

droit Chronique • 14 décembre 2012

Les Creative Commons hackent le droit d’auteur !

par Lionel Maurel (Calimaq)

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

Twitter Facebook 344

#cc10, creative commons, droit d'auteur, licences libres

Une Vive Internet! Édito • 13 décembre 2012

Offrez-vous un Owni

par Media Hacker

Des milliers de témoignages de réconfort et de soutien, et beaucoup évoquant le souhait de participer financièrement. Il nous reste à déterminer si cette somme de bonnes intentions peut effectivement transformer notre modèle économique et faire vivre le média.

Twitter Facebook 602

42, financement, Internet, médias, owni

Presse Enquête • 13 décembre 2012

Google : chêne ou roseau?

par Andréa Fradin

Google et les éditeurs de presse belges ont enfin trouvé un accord. Pour Le Monde, cela veut dire que "la presse peut faire plier Google" et que les titres français peuvent espérer profiter d'un effet "boule de neige". En fait, c'est un poil plus compliqué. Explications.

Twitter Facebook 78

belgique, Copie presse, éditeurs de presse, Google, IPG, Laurent Joffrin, lex google, médiation

L'auteur

Olivier Ertzscheid

Suivre sur Twitter

En savoir +

Tags pour cet article:

corpus, Facebook, Google, google books, google ngram viewer

Du même auteur:

Facebook étend la statusphère

Désormais, vous pouvez étaler votre prose en long et en large sur votre mur. Pour Olivier Ertzscheid, Facebook veut "territorialiser à l’extrême – et à son seul profit – les expressions documentaires". Avec des visées commerciales, bien sûr.

144

Penser le futur du web

Réseaux sociaux et moteurs de recherche se confrontent à des silos de données toujours plus titanesques. Vie professionnelle, privée, intime : comment le web, et ces acteurs, vont-ils distribuer et exploiter ces informations dans l'avenir ?

284

L’article du futur sera une API

Pour trouver l'article du futur, les annonces sont presque plus nombreuses que les tentatives. Mais la piste la plus intéressante reste l'API, y compris pour les publications scientifiques.

Nos mémoires ne valent pas un cloud

L'externalisation de nos mémoires va-t-elle tuer le web? Pour Olivier Ertzscheid, il faut veiller à la survie de la sacro-sainte URL et ne pas placer tous nos espoirs dans le cloud computing massif.

192

Ordi en cours: soyons pragmatiques, n’ayons l’air de rien

Face au nombre croissant de ses étudiants utilisant un portable, Olivier Ertzscheid, enseignant en IUT, a décidé d'encadrer cette pratique. Prise de note attentive recommandée.

190

Voir tous les articles