Document opposable
Méthodologie
Cette page décrit la méthode commune que la cellule recherche applique à ses études empiriques. Chaque étude particulière peut adapter cette méthode et précise dans son encart les variations adoptées.
1. Échantillonnage
Chaque étude part d'un échantillon documenté : nombre de pivots, nombre de verticales, période de collecte, source de la liste. Les listes de pivots ne sont jamais générées par IA : elles sont issues d'outils de recherche de mots-clés établis ou de listes éditoriales auditées.
2. Génération du fan-out
Pour chaque pivot, nous générons un faisceau de sous-requêtes via au moins deux outils indépendants : Qforia (iPullRank, mode AI Mode) et un simulateur maison écrit sur l'API Gemini avec un prompt stable. Le prompt est documenté en annexe de chaque étude.
3. Étiquetage des sous-requêtes
Chaque sous-requête est étiquetée selon la taxonomie en sept types (related, implicit, comparative, recent, personalized, reformulation, entity-expanded), suivant la formalisation proposée par Mike King. L'étiquetage est semi-automatique : un premier passage par modèle, un second passage humain sur dix pour cents de l'échantillon pour contrôle qualité.
4. Analyse statistique
Les distributions sont exprimées en pourcentages relatifs. Les moyennes inter-pivots sont accompagnées de l'écart-type et des quartiles quand l'échantillon le permet. Aucune affirmation statistique n'est publiée sans un échantillon supérieur à 100 observations.
5. Biais identifiés
Trois biais récurrents sont systématiquement signalés :
- Biais de prompt. Le prompt utilisé pour générer le fan-out conditionne les distributions. Nous gelons le prompt sur toute la durée d'une étude.
- Biais d'échantillon. Les pivots sont issus de listes éditoriales, pas d'un tirage aléatoire des requêtes utilisateurs.
- Biais d'annotation. Les sept catégories ne sont pas mutuellement exclusives. Notre procédure attribue la catégorie dominante.
6. Reproductibilité
Pour chaque étude, nous publions sur demande :
- La liste des pivots utilisés (CSV).
- Le prompt utilisé pour le simulateur maison.
- Les sorties brutes anonymisées.
- Le code d'analyse statistique (notebook Python).
Demande à adresser à redaction@search-fanout.fr avec mention de l'usage prévu.
7. Mise à jour des études
Les études sont datées au moment de leur publication. Quand une mise à jour substantielle est faite (ré-étiquetage, correction d'un biais identifié, changement de prompt), une nouvelle version est publiée avec un numéro de version explicite et une note de changements en pied d'étude.