Outil de détection et suppression de texte invisible
Utilisez cet outil gratuit pour détecter et supprimer tous les caractères Unicode cachés dans votre texte. Les LLM comme ChatGPT peuvent injecter des caractères invisibles, comme les tirets cadratins ou les espaces insécables zéro largeur. Cet outil gratuit permet de les identifier et d'effacer ceux que vous ne souhaitez pas conserver.
🎯 Points clés
- ✨ Nettoyage en un clic – Identifiez et supprimez facilement tous les caractères Unicode cachés
- 🔒 Confidentialité garantie – Tout le traitement se fait localement dans votre navigateur, vos données ne quittent jamais votre appareil
- ❌ Pas de filigrane secret – Les IA comme ChatGPT injectent des caractères cachés, mais ce n'est pas pour du watermarking
- 📊 Surutilisation de certains caractères – ChatGPT utilise beaucoup certains caractères Unicode "cachés" (comme le tiret cadratin)
- ⚠️ Risques réels – Les caractères invisibles peuvent causer des problèmes de sécurité et de formatage
- 🔍 Ne contourne pas les détecteurs – La détection IA reste aussi efficace, même après suppression des caractères cachés
- ✔️ Suppression automatique des marqueurs data (Nom officiel : HTML custom data attributes - Souvent appelés simplement : data attributes) - Exemple de marqueurs temporels ajoutés par un outil IA ici ChatGpt -data-start="250" data-end="679"
🤔 Que sont les caractères Unicode cachés ?
Les caractères Unicode cachés, qu'ils soient subtilement visibles (tirets cadratins, guillemets courbes, espaces insécables) ou complètement invisibles (espaces de largeur zéro, jointures, marques directionnelles), sont des points de code spéciaux qui ne se comportent pas comme l'ASCII classique.
Ils agissent comme une "encre numérique" qui modifie la façon dont les logiciels gèrent les sauts de ligne, divisent les mots, analysent les données ou comparent le texte, même quand vous ne savez pas qu'ils sont là.
💧 ChatGPT utilise-t-il des caractères cachés comme filigrane ?
Non – Il a été incorrectement rapporté que l'injection de caractères cachés par ChatGPT serait une tentative de "watermarking". Cependant, deux raisons rendent cela très improbable :
- Trop facile à contourner – Il suffit de supprimer les caractères pour contourner un filigrane, rendant cette stratégie inutile
- OpenAI l'a confirmé – Ils ont déclaré que c'est simplement "une particularité de l'apprentissage par renforcement à grande échelle"
🤖 Les IA injectent-elles vraiment ces caractères ?
Oui – Les LLM comme ChatGPT injectent des caractères cachés. Beaucoup sont inoffensifs (comme le populaire tiret cadratin), tandis que d'autres peuvent causer des problèmes de formatage (espace de largeur zéro).
➖ Tiret cadratin (U+2014)
Le long tiret que ChatGPT insère fréquemment—surtout dans les versions récentes (o3, 4o, 4.1)—pour couper les phrases ou ajouter des pauses dramatiques.
Exemple : mot—mot (ressemble à mot-mot mais est un caractère Unicode distinct)
❝ Guillemets courbes (U+201C, U+201D, U+2018, U+2019)
Les guillemets "typographiques" courbés que ChatGPT substitue parfois aux guillemets droits.
Exemple : "bonjour" ou 'monde'
👻 Espace de largeur zéro (U+200B)
Un caractère d'espacement complètement invisible qui peut se glisser dans le texte lors de la copie depuis ChatGPT.
Peut casser la correspondance de chaînes, les URLs et le comptage de mots
🧠 Pourquoi les IA utilisent-elles ces caractères ?
- Biais des données d'entraînement – Les IA s'entraînent sur des textes professionnels où ces caractères sont standard
- Imitation du ton formel – Ces caractères aident les IA à paraître plus formelles et autoritaires
- Pas de clavier physique – Les IA ne "tapent" pas avec un clavier, donc utiliser ces caractères ne leur demande aucun effort supplémentaire
⚠️ Usages courants et préoccupations
✅ Pourquoi les utiliser ?
- Mise en page propre – Contrôle des sauts de ligne
- Noms d'utilisateur – Contourner les restrictions "pas d'espace"
- Filigranes subtils – Protection du contenu
❌ Pourquoi s'inquiéter ?
- Formatage cassé – Même apparence, comportement différent
- Sécurité – Cache du code malveillant
- Prompts piégés – Instructions cachées dans les prompts IA
- Détection IA – Le formatage révèle l'origine IA du texte
📋 87+ caractères détectés
Notre outil détecte et traite 87+ caractères Unicode invisibles, incluant :