Comment ChatGPT a rédigé ma thèse de science

Audrey KG
5 juin 2024
5 min de lecture

Dernière mise à jour : 19 juin 2024

Haha ! Je vous ai bien eu·e·s avec mon titre survendu, hinhinhin... je vous vois bande de flemmard·e·s !

Evidemment que non, ChatGPT n'a pas rédigé ma thèse... Mais cet outil m'a bien aidée. Dans cet article, je vous explique comment. Spoiler alert : par souci de cohérence, et aussi parce que j'ai plein de choses à dire et pas trop le temps, cet article a été rédigé avec l'aide de ChatGPT.

Commençons par le commencement : ChatGPT, c'est quoi ?

Les modèles de langage de grande taille (LLM)

Les modèles de langage de grande taille (LLM pour large language model), comme ChatGPT, sont des intelligences artificielles conçues pour générer du texte (1). En s'appuyant sur d'immenses bases de données textuelles, ces modèles sont capables de produire des résumés, de traduire des textes, de reformuler des phrases, et bien plus encore. En gros, ils fonctionnent sur les probabilités de successions de mots : ils ne "comprennent" rien, mais sont capables de produire des suites de mots à peu près plausibles (2).

Par définition, ces outils ont des limites. Ils peuvent notamment générer des informations incorrectes (AKA ChatGPT Le Mytho) ou incohérentes (i.e. des lignes de code particulièrement sous-optimales). Il est donc crucial de les utiliser de manière critique et réfléchie.

Quelques principes pour guider l'usage de ChatGPT

Conformité : Avant de me lancer dans l'utilisation de ChatGPT, j'ai pris soin de vérifier les règlements de mon université et de mon école doctorale concernant l'utilisation d'outils d'intelligence artificielle. Ca a été rapide, vu qu'il n'y en avait pas. J'ai donc contacté mon école doctorale pour demander un avis, une autorisation, en précisant comment je pensais procéder. Cela m'a permis de m'assurer que j'agissais dans les règles et de pouvoir justifier mon utilisation de l'outil si besoin.
Professionnalisme : J'ai documenté chaque étape de l'utilisation de ChatGPT. J'ai gardé une trace écrite des autorisations et des justifications de l'utilisation de cet outil. Cela m'a permis de démontrer que j'avais suivi les procédures appropriées et que j'avais utilisé l'outil de manière éthique et responsable. N.B. : Il est possible d’accéder à l’historique de vos échanges avec ChatGPT directement dans l’outil. Dans certains cas, il peut vous être demandé de fournir l’historique de ces échanges. Pensez donc à compiler l’ensemble des questions/réponses que vous avez avec l’outil dans un document séparé, pour mise en annexe à la thèse ou référence ultérieure.
Transparence : La transparence est essentielle, tant envers le lectorat que le comité qui évalue la thèse. J'ai donc inséré un avertissement au lectorat dans ma thèse, précisant que j'avais utilisé ChatGPT à certaines étapes de la rédaction, expliquant comment et pourquoi. J'ai aussi gardé une trace écrite de toutes les interactions avec l'outil pour pouvoir les présenter si nécessaire (accessible depuis l'historique de l'interface).

Paragraphe d'avertissement, 4e page de ma thèse - après le résumé et les remerciements, avant la table des matières.

4. Rigueur : Pour garantir la qualité scientifique de mon travail, j'ai systématiquement vérifié l'exactitude et la formulation des résumés et des reformulations générées par ChatGPT. J'étais consciente des risques potentiels : sur le fond, produire un contenu de mauvaise qualité, voire des contre-vérités ; sur la forme, voir mon travail disqualifié par un style défaillant, voire par des paragraphes tels que celui-ci...

Ce qui arrive quand on ne relit pas !

Tâches confiées aux LLM

Concrètement, voici les tâches que j'ai occasionnellement confiées à ChatGPT :

Traduction anglais-français et inversement : ChatGPT m'a été d'une aide précieuse pour traduire des paragraphes entiers, ce qui m'a permis de gagner un temps considérable.
Résumé de paragraphe ou de phrase : J'ai souvent demandé à ChatGPT de résumer des paragraphes ou des phrases, ce qui m'a aidée à clarifier mes idées et à synthétiser des informations complexes.
Vérification de cohérence de phrase : En utilisant ChatGPT pour reformuler des phrases, j'ai pu améliorer la fluidité et la clarté de mon texte.
Complétude du plan d'un paragraphe : J'ai également utilisé ChatGPT pour vérifier la complétude de mes plans de paragraphe en générant des plans alternatifs et en les comparant aux miens.
Appui pour le code : J'ai également utilisé ChatGPT pour générer des lignes de code pour des opérations élémentaires, comme le nettoyage de dataframes dans R ou la création de graphiques simples. J'insiste bien sur le fait que j'ai généré des lignes et pas des fonctions ou scripts entiers : dès que la demande est un peu complexe, le code généré contient des erreurs nombreuses, parfois évidentes, parfois difficiles à détecter : c'est donc beaucoup trop dangereux à utiliser dans votre thèse. Je m'en suis également servi pour me faire expliquer les messages d'erreur obtenus dans Matlab, R ou Python.
Tests pour les éléments de discussion : "Bien que les suggestions de ChatGPT pour les implications de mes résultats expérimentaux n'aient pas toujours été satisfaisantes, ces tests m'ont permis de réfléchir différemment et de confirmer mes propres conclusions." HAHAHAHA lol. Cette phrase a été suggérée par ChatGPT, sur la base du prompt suivant : J'ai enfin fait quelques tests pour les éléments de discussion en posant des questions du type : "j'ai trouvé tel résultat expérimental, quelles peuvent être les implications", mais les propositions étaient décevantes et je ne les ai pas retenues. Comme vous pouvez le voir, la suggestion de ChatGPT a complètement changé le sens souhaité afin de s'auto-promouvoir. C'est moche, et ça illustre parfaitement qu'il faut prendre ses précautions avec cet outil.

Un autre LLM pour étoffer sa bibliographie : Elicit.ai

En plus de ChatGPT, j'ai également utilisé un autre outil LLM appelé Elicit.ai. Cet outil m'a été particulièrement utile pour compléter ma bibliographie scientifique. Elicit.ai est conçu pour aider les chercheurs à trouver et synthétiser des informations provenant de la littérature. En entrant des requêtes spécifiques, j'ai pu obtenir des suggestions pertinentes d'articles et de papiers de recherche, ce qui m'a permis d'enrichir ma bibliographie de manière efficace et ciblée, ou parfois, de constater que j'avais bien couvert le principal, et qu'il était donc inutile de continuer à chercher (toi même tu sais qu'il est possible de chercher à l'iiiiiiiiiinfini des articles sur un certain sujet, repoussant d'autant la mise en rédaction #procrastination ...).

Conclusion

J'ai utilisé ChatGPT à environ 90% pour des tâches de traduction, de résumé et de reformulation, ce qui correspond bien au fait que c'est un LLM. Et 90% du travail aidé par ChatGPT est localisé dans les pages d'intro théorique de la thèse (50-60 premières pages). Cette démarche m'a permis d'optimiser mon temps et de me concentrer sur l'analyse et la réflexion critique.

La transparence vis-à-vis de l'administration, des rapporteur·ice·s et examinateur·ice·s a été appréciée. L'avertissement a été recu comme une marque de professionnalisme et de respect, alors que les étudiant·e·s utilisant ChatGPT de façon évidente mais sans le mentionner sont aujourd'hui si nombreux·ses... D'une facon générale, le niveau du manuscrit a répondu aux attentes du comité d'évaluation de la these.

Si vous envisagez d'utiliser un outil similaire pour votre propre travail académique, je vous encourage donc à suivre ces mêmes principes, précautions et limitations pour garantir un usage éthique et efficace.

A l'occasion, je rédigerais bien un article sur le prompt engineering pour la thèse. Il y a tellement de mauvais exemples sur le net... J'aimerais aussi beaucoup avoir l'occasion de partager davantage sur les pratiques des uns et des autres en termes d'usages de LLM. Et vous, quels sont vos usages ? Au contraire, quelles sont vos craintes ? Des conseils ? Des questions ? N'hésitez pas à commenter et partager l'article !

(1) On parle aussi d'IA générative, puisqu'il s'agit de généré un contenu nouveau sur la base de probabilités statistiques. Tout LLM est une IA générative, cependant les IA génératives peuvent ne pas être des LLM : par exemple, Dall-e et Midjourney sont des IA génératives pour les images, pas pour le texte.

(2) Bien évidemment, je simplifie de façon extrême quand je parle de probabilités. Derrière cela, il y a une évaluation du contexte sémantique de la phrase, une analyse grammaticale... mais ça reste un outil qui ne fait que manipuler des mots dans un contexte donné, sans les comprendre.