Le Nutri-Score de la science : comment nous scorons un article

L'analogie Nutri-Score

Quand Yuka scanne un produit alimentaire, il ne vous dit pas s'il est bon. Il vous dit si la composition est équilibrée : sucre, sel, acides gras saturés, additifs. Le Nutri-Score évalue la recette, pas le goût.

Publi-Score fait la même chose pour les publications scientifiques. Nous n'évaluons pas si les auteurs ont raison. Nous évaluons si le processus qui a produit leurs résultats est rigoureux : randomisation, pré-enregistrement, partage des données, indépendance du financement.

C'est une distinction fondamentale. Un article peut avoir des résultats vrais et une méthodologie fragile. Un article peut avoir une méthodologie exemplaire et des résultats qui seront réfutés par la suite. La science avance par accumulation — un seul article, même parfait, n'est jamais définitif. Publi-Score mesure la qualité de la contribution au débat scientifique, pas sa vérité finale.

Les 7 catégories

La grille Publi-Score v1 couvre 7 catégories et plus de 30 sous-critères. Voici les 7 catégories expliquées simplement.

Design de l'étude

Comment l'expérience a-t-elle été construite ?

Randomisation, double aveugle, groupe contrôle, comparateur actif ou placebo. C'est la colonne vertébrale de toute étude. Un essai randomisé contrôlé bien conçu est la référence : il évite les biais de sélection et permet de conclure à une causalité.

Exemple : Une étude qui compare un médicament à un placebo en double aveugle marque bien ici. Une étude sans groupe contrôle marque mal.

Transparence et pré-enregistrement

Les règles du jeu ont-elles été définies avant de jouer ?

Le pré-enregistrement (sur ClinicalTrials.gov, OSF, PROSPERO...) force les chercheurs à définir leurs hypothèses et critères de jugement avant de voir les données. Sans ça, il est facile de chercher ce qui fonctionne dans les données a posteriori — ce qu'on appelle le HARKing (Hypothesizing After Results are Known).

Exemple : Une étude pré-enregistrée avec conformité vérifiée au protocole marque 4/4. Une étude sans pré-enregistrement marque 0.

Puissance statistique

L'étude était-elle assez grande pour détecter un effet réel ?

Une étude sous-puissante rate un effet réel. Une étude sur-puissante détecte des effets sans importance clinique. Le calcul de puissance a priori montre que les chercheurs ont réfléchi à leur taille d'échantillon avant de commencer — pas après.

Exemple : Un essai de 50 patients sur une maladie rare avec calcul de puissance justifié peut marquer correctement. Un essai de 12 patients sans justification marque mal.

Analyse statistique

Les chiffres ont-ils été triturés ?

Sous-groupes post-hoc, endpoints multiples, analyses intermédiaires non planifiées, per-protocole vs intention de traiter — chacune de ces pratiques, si non planifiée, augmente le risque de faux positifs. Publi-Score applique des malus cumulatifs pour l'inflation statistique.

Exemple : Une étude qui pré-spécifie ses analyses principales et corrige pour les comparaisons multiples marque bien. Une étude qui rapporte 30 sous-groupes dont un seul est significatif marque mal.

Données et reproductibilité

Peut-on vérifier les calculs ?

Partage des données brutes, du code d'analyse, du protocole complet. La reproductibilité est une propriété fondamentale de la science : si personne ne peut refaire le calcul, on ne peut pas vérifier l'erreur. Les journaux en accès ouvert avec données partagées marquent mieux.

Exemple : Une étude qui dépose ses données sur un repository public (OSF, Zenodo, Dryad) marque 2/2. Une étude sans données partagées et sans justification marque 0.

Reporting

L'article dit-il tout ce qu'il faut dire ?

Les standards CONSORT (essais cliniques), PRISMA (méta-analyses), STROBE (études observationnelles) définissent ce qui doit être rapporté pour qu'un article soit évaluable. Les conflits d'intérêts, les limites reconnues, les résultats négatifs — tout doit apparaître.

Exemple : Un essai qui suit CONSORT et déclare explicitement ses conflits d'intérêts marque bien. Un article qui omet les résultats secondaires non significatifs marque mal.

Processus éditorial

La publication a-t-elle été vérifiée sérieusement ?

Qualité de la revue (DOAJ, facteur d'impact, peer review en double aveugle), délai de soumission à acceptation, présence dans des bases indexées reconnues. Un article accepté en 3 jours dans une revue peu connue est un signal d'alerte — pas une preuve.

Exemple : Un article du NEJM avec peer review documenté marque 1.0. Un article dans un journal prédateur (liste Beall) marque 0.

Le coefficient d'intégrité : un multiplicateur, pas un bonus

Les 7 catégories produisent un score brut sur 100 — la qualité méthodologique. Ce score est ensuite multiplié par un coefficient d'intégrité compris entre 0 et 1.

Le coefficient d'intégrité évalue deux dimensions :

·Intégrité des auteurs — déclaration des conflits d'intérêts, indépendance du financement
·Processus éditorial — qualité du peer review, délai de publication, journal reconnu

La logique du multiplicateur est importante : ce n'est pas un bonus qui s'additionne, c'est une condition nécessaire. Un article rétracté pour fraude avec un score brut de 90/100 ne vaut pas 80 — il vaut 0. Les signaux d'alerte bloquants (rétractation, fraude avérée, journal prédateur) forcent le coefficient à zéro, quel que soit le reste.

Publi-Score=Qualité méthodologique×min(Coeff. auteurs, Coeff. éditorial)

L'échelle A–E (et X)

Fiable76–100 pts

Les standards sont respectés sur presque tous les critères. La preuve est robuste et interprétable.

Plutôt fiable56–75 pts

Quelques lacunes mineures qui n'invalident pas les conclusions, mais méritent attention.

À nuancer46–55 pts

Des faiblesses méthodologiques importantes qui invitent à la prudence dans l'interprétation.

Peu fiable26–45 pts

Les conclusions sont fragiles. L'étude peut contenir des observations utiles, pas des preuves.

Non fiable1–25 pts

Les limites sont trop nombreuses pour tirer des conclusions fiables.

Invalidé0 pts

Rétractation, fraude avérée, ou signal bloquant. Le score est forcé à zéro.

Ce que Publi-Score ne mesure pas

⊘La vérité — un score A ne signifie pas que l'étude a raison. Un score E ne signifie pas qu'elle a tort.
⊘L'impact — une étude très citée peut avoir un Publi-Score faible si sa méthodologie est lacunaire.
⊘La pertinence clinique — un effet statistiquement significatif peut être cliniquement négligeable, et inversement.
⊘La nouveauté ou l'importance — une réplication confirmant un résultat connu peut avoir un excellent score.

Publi-Score répond à une seule question : cette étude a-t-elle respecté les règles du jeu scientifique ?C'est une question nécessaire. Ce n'est pas la seule.

La grille est publique — et contestable

La grille Publi-Score v1 est documentée intégralement dans la page méthodologie. Chaque sous-critère, chaque barème, chaque limite assumée est accessible.

Si vous pensez qu'un critère est mal calibré, qu'un score est incorrect, ou qu'une dimension importante manque, vous pouvez le signaler depuis n'importe quelle page article. Chaque contestation justifiée conduit à une révision documentée du score ou de la grille.

La transparence n'est pas un argument de vente. C'est la condition pour que Publi-Score soit lui-même crédible.

Essayez avec un article → vous verrez le score catégorie par catégorie.