Sciences & Avenir - Decouvertes
| Fecha: | 6 Avril 2010 |
| : | Sciences & Avenir |
| Emisión/Sección | Decouvertes |
| Artículo | Un logiciel peut-il identifier le style d'un auteur ? |
| Autor (es) | Olivier Hertel |
A l'université comme dans le monde de l'édition, la question revient régulièrement : peut-on identifier automatiquement le véritable auteur d'un texte ? Pour lutter contre le fléau du « copier-coller » depuis Internet qui sévit chez les étudiants, certaines universités et écoles d'ingénieurs et de commerce se sont abonnées à des services en ligne qui font de la détection de similitudes comme Compilatio.net.
« Nous découpons le texte incriminé en séquences de cinq ou six mots et un moteur de recherche le compare aux documents textuels accessibles sur le Web, explique Anne Hamel, responsable marketing chez Compilatio, l'une des sociétés spécialisées. Nous obtenons alors un taux de similitudes, exprimé en pourcentage. Le logiciel détermine la source la plus probable du plagiat : il affiche les deux textes côte à côte et surligne les tronçons communs. Le système peut aussi retrouver des documents que l'étudiant aurait éventuellement achetés sur des sites commerciaux qui vendent des thèses, des mémoires ou des rapports «clés en main» sur tous les sujets. » Mais ces outils ont surtout un intérêt dissuasif, car une simple recherche sur Google permet déjà de révéler un copier-coller. Mais la détection de similitudes peut être leurrée par l'utilisation de paraphrases qui masquent le texte original. Elle est surtout incapable d'analyser le style de l'auteur pour le distinguer d'un autre...
Des logiciels de textométrie basés essentiellement sur l'étude du vocabulaire utilisé font, eux, une vraie analyse des textes qui fait ressortir les mots clés importants ou les thèmes récurrents. Un outil précieux pour les chercheurs travaillant sur les discours politiques ou les enquêtes psychologiques et sociales. Ressortiront ainsi, lors d'un questionnaire portant sur le système éducatif par exemple, les termes les plus fréquemment utilisés par les sondés : « juste », « inégalitaire », « laïc », « gratuit », etc. Mais ces logiciels ne rentrent pas dans l'analyse littéraire du style. Il faut constituer un « référentiel d'analyse textuel », c'est-à-dire trouver dans le texte les marqueurs les plus pertinents qui caractérisent une manière d'écrire afin de pouvoir les comparer à d'autres textes. Ces marqueurs peuvent être, par exemple, l'utilisation de néologismes ou bien de mots rares chez Jean Giraudoux, l'accumulation de subordonnées dans les longues phrases de Marcel Proust, etc. « Nous travaillons à la mise au point d'un tel outil », explique Hélène Maurel-Indart, professeure de littérature à l'université de Tours et spécialiste du plagiat (*).
De son côté, Pierre Brunet, ancien professeur de littérature, de statistique et d'informatique à l'université de Nice, a développé un logiciel baptisé Hyperbase. « Tout repose sur la statistique. Nous réalisons ainsi un immense tableau comportant, en colonnes, les textes que nous voulons comparer et, en lignes, une série de marqueurs (mots, adverbes, verbes conjugués, longueur des mots, structure syntaxique, etc.). L'analyse comparative permet au logiciel de faire des rapprochements. » On peut ainsi déduire, en toute logique, que les textes les plus proches sont du même auteur. Si le texte d'un écrivain est très proche de celui d'un autre, alors il est permis d'avoir des doutes sur la paternité de l'oeuvre. « Mais attention, ce ne sont jamais des certitudes, comme une empreinte digitale. Seulement une présomption », prévient Etienne Brunet.
(*)Plagiats, les coulisses de l'écriture, Hélène Maurel-Indart, La Différence, 2007. www.leplagiat.netzv
LE CONTEXTE
Helene Hegeman, jeune Allemande de 17 ans dont le premier roman était considéré comme un phénomène, a reconnu début mars en avoir puisé de larges extraits dans un blog ; la romancière Camille Laurens accuse Marie Darrieussecq de plagiat ; les élèves sont soupçonnés de composer leurs devoirs à coups de « copier-coller » sur Internet








No dude en 