El Nutri-Score de la ciencia: cómo puntuamos un artículo — Publi-Score

La analogía del Nutri-Score

Cuando Yuka escanea un producto alimentario, no te dice si estará bueno. Te dice si la composición es equilibrada: azúcar, sal, grasas saturadas, aditivos. El Nutri-Score evalúa la receta, no el sabor.

Publi-Score hace lo mismo con las publicaciones científicas. No evaluamos si los autores tienen razón. Evaluamos si el proceso que produjo sus resultados es riguroso: aleatorización, prerregistro, compartir datos, independencia de la financiación.

Esta es una distinción fundamental. Un artículo puede tener resultados verdaderos y una metodología frágil. Un artículo puede tener una metodología ejemplar y resultados que posteriormente serán refutados. La ciencia avanza por acumulación — un solo artículo, aunque sea perfecto, nunca es definitivo. Publi-Score mide la calidad de la contribución al debate científico, no su verdad final.

Las 7 categorías

La grilla Publi-Score v1 cubre 7 categorías y más de 30 subcriterios. Aquí están las 7 categorías explicadas de manera sencilla.

Diseño del estudio

¿Cómo se construyó el experimento?

Aleatorización, doble ciego, grupo de control, comparador activo o placebo. Esta es la columna vertebral de cualquier estudio. Un ensayo clínico aleatorizado bien diseñado es la referencia: evita los sesgos de selección y permite concluir causalidad.

Ejemplo: Un estudio que compara un medicamento con placebo en doble ciego puntúa bien. Un estudio sin grupo de control puntúa mal.

Transparencia y prerregistro

¿Se definieron las reglas del juego antes de jugar?

El prerregistro (en ClinicalTrials.gov, OSF, PROSPERO...) obliga a los investigadores a definir sus hipótesis y criterios de evaluación antes de ver los datos. Sin él, es fácil buscar lo que funciona en los datos a posteriori — lo que se llama HARKing.

Ejemplo: Un estudio prregistrado con conformidad verificada al protocolo puntúa 4/4. Un estudio sin prerregistro puntúa 0.

Potencia estadística

¿Era el estudio suficientemente grande para detectar un efecto real?

Un estudio con poca potencia pasa por alto un efecto real. Uno con demasiada detecta efectos sin relevancia práctica. El cálculo de potencia a priori muestra que los investigadores pensaron en su tamaño muestral antes de empezar.

Ejemplo: Un ensayo de 50 pacientes con cálculo de potencia justificado puede puntuar correctamente. Uno de 12 pacientes sin justificación puntúa mal.

Análisis estadístico

¿Se manipularon las cifras?

Subgrupos post-hoc, múltiples endpoints, análisis intermedios no planificados, per-protocolo vs intención de tratar — cada una de estas prácticas, si no fue planificada, aumenta el riesgo de falsos positivos. Publi-Score aplica penalizaciones acumulativas por inflación estadística.

Ejemplo: Un estudio que preespecifica sus análisis principales y corrige comparaciones múltiples puntúa bien. Uno con 30 subgrupos donde solo uno es significativo puntúa mal.

Datos y reproducibilidad

¿Se pueden verificar los cálculos?

Compartir datos brutos, código de análisis y protocolo completo. La reproducibilidad es una propiedad fundamental de la ciencia: si nadie puede rehacer el cálculo, nadie puede verificar el error. Las revistas en acceso abierto con datos compartidos puntúan mejor.

Ejemplo: Un estudio que deposita sus datos en un repositorio público (OSF, Zenodo, Dryad) puntúa 2/2. Uno sin datos compartidos y sin justificación puntúa 0.

Reporting

¿Dice el artículo todo lo que hay que decir?

Los estándares CONSORT (ensayos clínicos), PRISMA (metaanálisis), STROBE (estudios observacionales) definen lo que debe reportarse para que un artículo sea evaluable. Los conflictos de interés, las limitaciones reconocidas, los resultados negativos — todo debe aparecer.

Ejemplo: Un ensayo que sigue CONSORT y declara explícitamente sus conflictos de interés puntúa bien. Uno que omite resultados secundarios no significativos puntúa mal.

Proceso editorial

¿Fue la publicación revisada seriamente?

Calidad de la revista (DOAJ, factor de impacto, revisión por pares doble ciego), tiempo de aceptación, presencia en bases indexadas reconocidas. Un artículo aceptado en 3 días en una revista poco conocida es una señal de alerta — no una prueba.

Ejemplo: Un artículo del NEJM con revisión por pares documentada puntúa 1.0. Uno en una revista depredadora (lista Beall) puntúa 0.

El coeficiente de integridad: un multiplicador, no un bonus

Las 7 categorías producen una puntuación bruta sobre 100 — la calidad metodológica. Esta puntuación se multiplica luego por un coeficiente de integridad entre 0 y 1.

El coeficiente de integridad evalúa dos dimensiones:

·Integridad de los autores — declaración de conflictos de interés, independencia de la financiación
·Proceso editorial — calidad de la revisión por pares, tiempo de publicación, revista reconocida

La lógica del multiplicador es importante: no es un bonus que se suma, es una condición necesaria. Un artículo retractado por fraude con una puntuación bruta de 90/100 no vale 80 — vale 0. Las señales de alerta bloqueantes (retractación, fraude probado, revista depredadora) fuerzan el coeficiente a cero, sea cual sea el resto.

Publi-Score=Calidad metodológica×min(Coef. autores, Coef. editorial)

La escala A–E (y X)

Fiable76–100 pts

Los estándares se cumplen en casi todos los criterios. La evidencia es robusta e interpretable.

Bastante fiable56–75 pts

Algunas lagunas menores que no invalidan las conclusiones, pero merecen atención.

A matizar46–55 pts

Debilidades metodológicas importantes que invitan a la prudencia en la interpretación.

Poco fiable26–45 pts

Las conclusiones son frágiles. El estudio puede contener observaciones útiles, no pruebas.

No fiable1–25 pts

Las limitaciones son demasiado numerosas para extraer conclusiones fiables.

Invalidado0 pts

Retractación, fraude probado o señal bloqueante. La puntuación se fuerza a cero.

Lo que Publi-Score no mide

⊘La verdad — una puntuación A no significa que el estudio tenga razón. Una puntuación E no significa que esté equivocado.
⊘El impacto — un estudio muy citado puede tener un Publi-Score bajo si su metodología es deficiente.
⊘La relevancia práctica — un efecto estadísticamente significativo puede ser clínicamente irrelevante, y viceversa.
⊘La novedad o importancia — una replicación que confirma un resultado conocido puede tener una excelente puntuación.

Publi-Score responde a una sola pregunta: ¿este estudio respetó las reglas del juego científico?Es una pregunta necesaria. No es la única.

La grilla es pública — y rebatible

La grilla Publi-Score v1 está íntegramente documentada en la página de metodología. Cada subcriterio, cada baremo, cada limitación asumida es accesible.

Si crees que un criterio está mal calibrado, que una puntuación es incorrecta, o que falta una dimensión importante, puedes señalarlo desde cualquier página de artículo. Cada impugnación justificada conduce a una revisión documentada de la puntuación o de la grilla.

La transparencia no es un argumento de venta. Es la condición para que Publi-Score sea él mismo creíble.

Pruébalo con un artículo → verás la puntuación categoría por categoría.