Comprendre la démarche de recherche et le traitement des données

Le traitement des données découle d’une démarche, d’une réflexion scientifique constante, menées par les différents participants au programme les sentinelles du climat. Choisir les méthodes de traitement des données qui seront utilisées implique de s’interroger. Ce questionnement se base sur la connaissance existante, sur les travaux déjà réalisés, accessibles via les publications scientifiques. La littérature scientifique donne les références nécessaires à la réflexion. Elle rend compte de ce qui a été fait, de ce qui existe, de ce qui peut s’adapter, convenir, de ce qui manque. La réflexion sur le traitement de données a commencé dès le démarrage de l’étude, et se poursuivit tout au long du programme. Les tests de protocoles, les recherches bibliographiques, les premiers résultats amènent à revoir des choix de méthodologie, à approfondir certains points, à construire d’autres jeux de données, etc.
Les scientifiques du programme échangent régulièrement sur ces points pour ajuster le traitement des données et partager leurs expériences.


Sur quelles données travaille-t-on ?

Dans ce programme, trois types de données sont recueillies et analysées. Elles sont liées les unes aux autres.
Ce sont :

  • les données espèces, liées au vivant,
  • les données météorologiques, liées aux conditions de température et d’humidité,
  • les données d’occupation des sols, liées à la structuration du milieu de vie.

Plusieurs types de jeux de données peuvent être mobilisés selon les questions posées et le type d’analyse à réaliser, à des échelles différentes.

A l’échelle de la région

A cette échelle, pour travailler sur l’évolution des conditions climatiques favorables à telle ou telle espèce sur le territoire, les jeux de données nécessaires sont issus :

  • des Observatoires Régionaux pour les données de présence des espèces (OBV pour la flore et FauNA pour la faune). Ces données sont géolocalisées et comptent pour une donnée de présence d’une espèce donnée à un endroit géoréférencé. Il n’y a souvent pas de données d’absence des espèces.
  • de Météo France, et plus précisément du réseau de stations météo Radome, positionnées tous les 30 km à une hauteur de 10 m. Les données recueillies et traitées par Météo France permettent d’obtenir le contexte climatique de mailles de 8×8 km, mais pas les conditions réelles de température et d’humidité dans lesquelles les espèces évoluent.
  • des référentiels existants sur l’occupation des sols construits à partir du traitement d’images aériennes ou satellites.

A l’échelle du site de suivi

Sur les sites de suivi, des données pus fines sont recueillies :

  • Les données espèces sont issues des suivis réalisés par les naturalistes depuis le début du programme. Elles apportent des informations supplémentaires à la seule présence et sont répétées dans le temps.
  • Sur les sites de suivi, des sondes météo sont positionnées de manière à être représentatives du site d’étude, et comparables entre sites (toujours positionnées vers le sud et à 1 m 30 du sol, par exemple), soit selon un protocole défini et identique pour chaque station posée. Elles permettent d’intégrer l’effet de la couverture végétale ou de la topographie sur la température et l’humidité effective de l’espace de vie des espèces. Elles sont complétées par un réseau de sondes positionnées au sol, car pour de nombreux organismes se déplaçant au sol ou dans la végétation basse, les processus écologiques ont lieu dans cette zone entre sol et air.
  • – Les Conservatoires Botaniques participant au programme analysent la végétation des sites d’étude. Ils travaillent sur les espèces présentes et leur recouvrement au sol, mais aussi sur les associations végétales qui caractérisent les habitats.

Des données issues d’expérimentations

Des expériences ont été menées (sans atteintes aux individus) en laboratoire ou sur le terrain. Elles ont pour but de mieux comprendre les effets du changement climatique sur la physiologie ou le comportement des espèces, pour mieux appréhender les paramètres environnementaux limitant pour les espèces ainsi que leurs capacités d’adaptation.


Les méthodes d’analyse

L’analyse des données consiste à extraire l’information pertinente des données brutes, à produire du savoir.

Analyses descriptives

Les analyses descriptives sont le préliminaire indispensable à la compréhension des données. Elles ont pour but de décrire et de résumer les données.
On travaille en effet sur des échantillons, qu’on veut représentatifs de l’ensemble dont ils sont extraits (une population). Les paramètres sont calculés sur ces échantillons.
Les paramètres de base sont le plus généralement la moyenne et son erreur-standard, soit sa fiabilité par rapport à l’ensemble des données.
Mais on ne connaît jamais la moyenne exacte de la population dont sont issus ces échantillons. Se pose alors la question de la précision de l’estimation. On calcule l’intervalle de confiance qui dit dans quel intervalle on peut faire confiance aux valeurs des paramètres obtenus avec une probabilité choisie.

Tests statistiques

Les tests statistiques comprennent l’ensemble des techniques d’interprétation mathématique appliquées à des phénomènes dont on ne peut réaliser l’étude exhaustive (on s’appuie donc sur des échantillons).
Ils permettent d’apprécier la validité d’une hypothèse formulée à partir des données issues des échantillons et de leur représentativité : est-ce qu’on décèle quelque chose à partir des données, et si oui, dans quel sens, avec quelle probabilité sur la fiabilité des conclusions ? Ils peuvent aussi permettre de tester la corrélation de jeux de données ou de paramètres calculés de ces données, en gardant à l’esprit que cette corrélation n’est pas une relation de cause à effet !

Des méthodes d’analyses statistiques de gros jeux de données existent, basées sur ces corrélations entre de nombreux paramètres. Elles ont pu être développées grâce à la puissance de calcul des ordinateurs. Les modèles de répartition des espèces en font partie.

Cas des modèles de répartition d’espèces

ou SDM (Species Distribution Models).
Ils sont des représentations simplifiées d’un état (s’il est statique) ou d’un processus (s’il est dynamique) de la réalité.
Cette représentation est descriptive, mais elle peut aussi devenir prédictive, comme le GIEC le fait pour projeter le climat futur dans différents scénarios. Les modèles mathématiques permettent de rendre compte, d’une manière suffisamment générale, d’un phénomène donné – quel que soit sa nature (toutes les disciplines utilisent des modèles).

Les SDM permettent de travailler sur les données de présences des espèces, en les corrélant, par exemple, aux données climatiques existantes ou issues des modèles prédictifs du GIEC.
D’autres données environnementales peuvent être ajoutées aux modèles afin d’affiner les projections. Certaines sont indépendantes de l’évolution de nos sociétés (topographie, géologie, pédologie en partie), d’autres non (occupation des sols, zones humides par exemple). Pour ces dernières, il n’existe pas de projection de leur évolution future. Ceci constitue une première limite aux projections géographiques effectuées.

Les limites de ces modèles

  • Les données de présence ne concernent souvent qu’un petite partie de l’aire de répartition des espèces, et non pas sa totalité. L’écologie des espèces concernées, telle que reconstituée par les modèles, peut donc s’en trouver tronquée. Ceci peut entraîner des biais, surtout lorsque l’on s’intéresse à des espèces qui sont en limite d’aire de répartition en Nouvelle-Aquitaine.
  • Le nombre de variables intégrables dans ces modèles est limité par le logiciel et par la puissance de calcul des ordinateurs. Il faut donc faire des choix.
  • Les continuités ou limites au déplacement des espèces ne sont pas prises en compte discontinuités écologiques nécessaires au déplacement des espèces, les capacités de dispersion des espèces, les interactions avec d’autres espèces qui peuvent aussi limiter leur capacité à s’implanter ailleurs.
  • Les données climatiques disponibles ont une résolution bien moins fine que celle des données de présence et ne permettent pas, par exemple, de mettre en évidence les microclimats frais où persistent certaines espèces.

Les données climatiques disponibles ont une résolution bien moins fine que celle des données de présence et ne permettent pas, par exemple, de mettre en évidence les microclimats frais où persistent certaines espèces.