11/54 études qui en parlent 20.4% du corpus
1.13/10 moyenne sur le corpus 54 études (zéros inclus)
5.55/10 moyenne hors zéros sur 11 études

Définition

La source connue désigne le fait qu'une URL ait déjà été ingérée par le moteur IA via ses données d'entraînement, ce qui peut la rendre citable même sans passer par la phase de grounding en temps réel. Shepard : « parfois (en fait, assez souvent), une IA va citer une URL simplement parce qu'elle la connaît déjà via ses données d'entraînement. Plus typique de ChatGPT et Perplexity, cela peut contourner la phase grounding/search habituelle, menant à des citations qui n'existent plus ».

11 études du corpus le couvrent (20,4 %). Shepard le classe au rang 21 sur 23 (score 5,4 / 10). Note importante : ce critère est situationnel — l'URL doit avoir été crawlée avant la date de coupure d'entraînement du modèle, ce qui est largement hors contrôle.

Comment l'auditer sur une page

  • Ancienneté de l'URL : URLs publiées il y a 1 an+ ont plus de chances d'avoir été ingérées par les modèles récents.
  • Stabilité de l'URL : pas de redirections multiples successives. Un slug stable depuis l'origine est plus probablement connu.
  • Test direct : poser à ChatGPT (sans web search) « que connais-tu de [URL] ? » et observer si le modèle restitue du contenu cohérent.
  • Publication tôt sur les sujets émergents : être premier à publier sur un sujet augmente la probabilité que les futures versions des modèles ingèrent la page comme référence historique.
  • Limite : signal peu actionnable rétroactivement. À considérer comme un bonus structurel plutôt que comme un levier.
Études qui le valident fortement (score ≥ 7) 3
Études qui le mentionnent faiblement (score 1-3) 2

Le critère est cité mais le poids accordé reste limité.