Afirmar que una cosa és certa basant-nos en la nostra expertesa no és suficient.
Del 26 de maig al 4 de juny el CREAF va celebrar el curs “Caring for your data: Ensuring quality and protection”, la primera formació interna sobre gestió de dades organitzada des de la nova oficina de Ciència Oberta i Gestió del Coneixement. Emmarcat pel programa Watering Talents del centre i finançat per Fundae, aquest curs de vuit hores es va estructurar en tres sessions de tipus masterclass que concentraven el coneixement més actual i les tendències en la gestió de dades a la recerca amb la integritat i qualitat científiques com a rerefons.
Les sessions, que van ser dirigides per col·laboradors de la Universitat de Barcelona (UB), l’Institut d'Anàlisi Econòmica del CSIC (IAE-CSIC) i la Barcelona School of Economics (BSE), s’endinsaven en aspectes filosòfics, legals i pràctics per donar una resposta holística a qüestions com: per què hem de reproduir els resultats científics? Sabem tractar una dada sensible? Com planifiquem la gestió de dades?
Potser et preguntaràs per què calia fer una formació tan intensa i què hi pinta la caverna de Plató. Fem un tastet previ:
- La majoria dels resultats científics no es poden reproduir. Ens endinsarem en les causes i conseqüències d’aquest fenòmen.
- Hi ha solució davant aquesta crisi? Pista: fer autocrítica.
Agafa’t, que t’ho expliquem!
La irreproductibilitat de la ciència
La irreproductibilitat de la ciència
Com ens va recordar l’Oriol Pujol, catedràtic del departament de Matemàtiques i Informàtica de la UB i col·laborador del curs, el coneixement científic es crea sobre conclusions que es basen en i es poden comprovar amb resultats reproduïbles, els quals són vàlids independentment de qui els informa i els verifica. Malauradament, la majoria dels i les investigadores son incapaces de reproduir els resultats científics publicats per les seves col·legues i més de la meitat no poden ni reproduir els propis. Aquesta és la conclusió d’un estudi publicat el 2016 que fa referència a un fenomen que té les seves arrels a mitjan del segle XX: la crisi de reproductibilitat.
Alimentada per la pressió acadèmica per publicar, fallades en el sistema de revisió per parells i el biaix editorial que filtra els resultats negatius i poc llaminers, l’acumulació de literatura científica errònia i mutilada ens està portant a construir una base de coneixement fals (és a dir, a tornar a la caverna). Per exemple, entre 1996 i 2010 es van publicar diversos articles sobre la navegació de les abelles que es basaven en dades duplicades i manipulades i errors de càlcul. Aquests articles, publicats a revistes com Science, PNAS o PLOS Biology, es van citar més de 1000 vegades. La Maria Ángeles Oviedo-García, catedràtica del departament d’Administració d’Empreses i Màrqueting de la Universidad de Sevilla és clara: “Altres investigadores basaran la seva recerca en aquesta informació falsa, la qual cosa és aterridora”. Tot plegat fa trontollar la credibilitat en la ciència i inflama les narratives negacionistes.
En llamas. Fuente: KC Green
Les vigilants de la ciència
Les vigilants de la ciència
El prestigi tant dels anomenats popes científics com els de les revistes on publiquen enlluerna i captiva, però se’ls hi veu el llautó gràcies al creixement de la revisió postpublicació i la metaciència forense. El 2023 es van haver de retractar més de 10.000 articles científics, dels quals 8.000 es van publicar per l’editorial Wiley. Cada dia, vigilants com RetractionWatch desvetllen casos de dades inventades, cherry-picking, compravenda d’autories, controls de qualitat inexistents, etc. Aquestes pràctiques no son alienes a investigadors/es d’influència que arriben a ocupar càrrecs d’alta responsabilitat i que publiquen a revistes com Science o Nature i tenen repercussió als mitjans de comunicació. Aquest és el cas d'una investigadora d'ètica a la recerca que, irònicament, va falsificar dades. Com subratllava l’Oriol a la seva sessió, “Afirmar que una cosa és certa basant-nos en la nostra expertesa no és suficient”. Parafrasejant-lo, podríem dir que afirmar que una cosa és certa perquè s’ha publicat en una revista de suposat alt impacte o renom tampoc no és suficient.
Evidentment que no tot és frau o mala praxi; també hi ha errors i biaixos inconscients. Per exemple, segons un estudi amb ecòlegs/es, davant les mateixes dades les investigadores poden arribar a conclusions oposades, la qual cosa s’explica per les decisions subjectives que pren cadascuna durant l’anàlisi. Això no fa més que reforçar el proverbi rus que diu “Confia, però verifica”, ja que les retraccions no resolen el problema, sobretot perquè menys del 5% dels articles retractats s’assenyalen com a tal.
Reproduir vs. replicar
Reproduir vs. replicar
Quan parlem de confirmar els resultats d’un estudi científic, hem de distingir dos conceptes: reproductibilitat i replicabilitat. Per una banda, la reproductibilitat fa referència a la possibilitat de fer servir les mateixes dades i mètodes per arribar a igual resultat. Per altra banda, la replicabilitat apareix quan s’arriba a un resultat igual o semblant (amb un marge de diferència raonable) fent servir dades i mètode nous, dades noves i el mateix mètode que l’original o les mateixes dades amb un mètode nou. Com ens va explicar el Joan Llull, catedràtic d’Economia de l’IAE-CISC i la BSE i col·laborador del curs, les revistes verifiquen la reproductibilitat perquè la comunitat científica busqui la replicabilitat. I afegeix: “L’impacte es deriva del fet que altres puguin construir en base al que nosaltres hem investigat. Per això hem de facilitar la replicabilitat de les dades amb la màxima claredat i detall possibles”.
Per contribuir amb coneixement de qualitat i d’impacte científic i ajudar-nos a nosaltres mateixes, el Joan ens va ensenyar les regles bàsiques per crear un paquet de reproductibilitat seguint un estàndard de disponibilitat de dades i codi. Des de compartir dades en brut (o raw, en anglès) a oferir documentació detallada, la regla fonamental és que siguem empàtiques! Hem de fer tot el possible perquè els i les usuàries del nostre paquet de reproductibilitat entenguin bé el que hem fet.
L’espectre de la ciència oberta
L’espectre de la ciència oberta
Amb el mantra “Tan oberta com sigui possible, tan tancada com sigui necessari”, la Ciència Oberta ens encoratja a fer que la recerca sigui accessible per reutilitzar-la en equilibri amb allò que cal protegir. Com podem posar-ho en pràctica al CREAF?
Per exemple, les coordenades geogràfiques o les imatges de satèl·lit dels hàbitats crítics o els registres de presència d’espècies amenaçades son dades d’interès científic, alhora que una porta d’entrada a activitats que posin en perill la seva conservació, com l’extracció il·legal de fusta o la caça furtiva. Una forma de tenir cura d’aquestes dades sensibles sense limitar la seva reutilització és dipositar-les en un repositori de confiança -com el CORA RDR- amb accés restringit i amb les seves metadades en obert.
També hi ha tècniques o programari específic per identificar i anonimitzar dades personals o per gestionar el consentiment. Com a centre amb vincles estrets amb la societat, el CREAF tracta dades de voluntàries i usuàries finals dels projectes de ciència ciutadana i cocreació, partners, donants, subscriptores a butlletins, etc. En aquest sentit, el Ruben Ortiz, ex Delegat de Protecció de Dades de la UB i col·laborador del curs, ens va desmuntar un mite: “No és cert que la normativa de protecció de dades no ens deixi fer res. La norma el que vol és que les dades s’utilitzin, que es moguin, però dintre uns límits de seguretat i confiança”. Un dels assistents al curs, l’Agustí Escobar, reflexiona que les lleis de protecció de dades són més complexes del que sembla i alguns aspectes que, inicialment, es poden veure com imposicions arbitràries, ben argumentats tenen tot el sentit del món. Per navegar aquesta complexitat, el CREAF compta amb la bústia de consultes de la Delegada de Protecció de Dades: dpo@creaf.uab.cat
TAMBÉ ET POT INTERESSAR
TAMBÉ ET POT INTERESSAR
"No és cert que la normativa de protecció de dades no ens deixi fer res. La norma el que vol és que les dades s’utilitzin, que es moguin, però dintre uns límits de seguretat i confiança” va comentar Ruben Ortiz, de la Universitat de Barcelona
Altres casos que necessitarien una protecció especial tenen a veure amb la propietat intel·lectual. És clau assignar llicències d’ús a les nostres creacions per tal de protegir l’autoria i indicar quin ús se’n permet fer. A més, s’ha de planificar la publicació de resultats d’una invenció potencialment patentable per no avançar-se al procés de registre de la patent.
Finalment, hi ha alternatives com publicar dades sintètiques o simulades o fer servir Data Sharing Agreements (DSA), uns acords que permeten fer intercanvi de dades amb clàusules sobre drets de propietat intel·lectual, propòsit, restriccions, seguretat, etc. per prevenir un mal ús i la disseminació no autoritzada.
La recepta d'un pla de gestió de dades
La recepta d'un pla de gestió de dades
Ara que ja sabem què ens cal per garantir que els nostres resultats es puguin reproduir i protegir, arremanguem-nos amb el pla de gestió de dades (Data Management Plan, DMP, en anglès).
Un DMP és un document viu que ens ajuda a organitzar les dades de la nostra recerca de principi a fi. Com una recepta de cuina, a un DMP trobem:
- Ingredients: descripció de les dades que recollirem o reutilitzarem.
- Instruccions de preparació: indicacions dels mètodes, eines i estàndards que farem servir per recollir i processar les dades amb integritat.
- Emplatat i conservació: detalls sobre com compartir o emmagatzemar amb les dades amb seguretat i sobre com i durant quant de temps seran accessibles.
Dades cuites? No, gràcies, les prefereixo crues!
Dades cuites? No, gràcies, les prefereixo crues!
Fotograma modificat de la pel·licula El Senyor dels Anells. Font: tooomanysteves
La vintena de persones participants de la formació, entre personal investigador i gestor, van aprendre que fer una pràctica científica amb ètica i rigor requereix que qüestionem els nostres processos. Aquest exercici no treu valor ni deslegitima la ciència, sinó que millora la seva exactitud, eficiència i utilitat.
La Meritxell Batalla i l’Agustí Escobar, tècnics de recerca del CREAF, valoren el curs coincidint en la importància de tenir bona cura de les dades que es manipulen i gestionen en el món científic. L’Agustí comenta que “és una cosa que pot comportar feina addicional, però que aporta beneficis molt tangibles a la llarga”. La Meritxell afegeix: “Si n'hagués estat conscient quan vaig començar, m’hauria estalviat molts sobreesforços en el futur!”. Per la seva banda, la Laura Force, tècnica de Ciència Ciutadana i Educació ambiental del CREAF reflexiona que “la formació ens ha ajudat, encara més, a reforçar el fet que quan persones fora del CREAF entren en escena -com les voluntàries i voluntaris en projectes de ciència ciutadana-, hem de tenir especial cura de les seves dades personals i les dades per a la recerca que generen”.
L’al·legoria de la caverna de Plató ens recorda que la ciència oberta i la seva obsessió per la qualitat, i la responsabilitat i la col·laboració trenca les cadenes de l’accés al coneixement.