L’analyse des données consiste à extraire l’information pertinente des données brutes, à produire du savoir.
« L’analyse des données n’est certes pas simplement un ensemble de techniques nouvelles et, sans être le vecteur philosophique de la recherche du sens de toute chose, c’est quand-même une nouvelle manière d’être, face à un tableau de données ».
J-P. Fénelon, 1981.
Les analyses descriptives sont le préliminaire indispensable à la compréhension des données. Elles ont pour but de décrire et de résumer les données.
Il s’agit souvent d’une présentation graphique des données résumées par des paramètres simples comme la moyenne, l’erreur-standard et l’intervalle de confiance.
On travaille en effet sur des échantillons, qu’on veut représentatifs de l’ensemble dont ils sont extraits. Les paramètres sont calculés sur ces échantillons.
Les paramètres de base sont le plus généralement la moyenne et son erreur-standard, soit sa fiabilité par rapport à l’ensemble des données.
Mais on ne connaît jamais la moyenne exacte de la population dont sont issus ces échantillons. Se pose alors la question de la précision de l’estimation. On calcule l’intervalle de confiance qui dit dans quel intervalle on peut faire confiance aux valeurs des paramètres obtenus avec une probabilité choisie.
Les tests statistiques comprennent l’ensemble des techniques d’interprétation mathématique appliquées à des phénomènes dont on ne peut réaliser l’étude exhaustive (on s’appuie donc sur des échantillons).
Ils permettent d’apprécier la validité d’une hypothèse formulée à partir des données issues des échantillons et de leur représentativité : est-ce qu’on décèle quelque chose à partir des données, et si oui, dans quel sens, avec quelle probabilité sur la fiabilité des conclusions ?
Ils peuvent aussi permettre de tester la corrélation de jeux de données ou de paramètres calculés de ces données, en gardant à l’esprit que cette corrélation n’est pas une relation de cause à effet !
Des méthodes d’analyses statistiques de gros jeux de données existent, basées sur ces corrélation entre de nombreux paramètres. Elles ont pu être développées grâce à la puissance de calcul des ordinateurs. Les modèles de répartition des espèces en font partie.
« Un modèle est un aboutissement (provisoire, bien sûr) dans la construction du savoir ». Chamussy, 2014
Il est la représentation simplifiée d’un état (s’il est statique) ou d’un processus (s’il est dynamique) de la réalité. Cette représentation est descriptive, mais elle peut aussi devenir prédictive, comme nous souhaitons le faire pour les espèces sentinelles, et comme le GIEC le fait pour projeter le climat futur dans différents scénarios.
Les modèles mathématiques permettent de rendre compte, d’une manière suffisamment générale, d’un phénomène donné – quelque soit sa nature (toutes les disciplines utilisent des modèles).
Comment ça se passe ? Par exemple, dans notre cas, en mettant ensemble des paramètres de natures différentes, on peut modéliser des causes climatiques et anthropiques de la répartition actuelle des espèces. En modifiant sensiblement certains paramètres, on peut évaluer la réponse de la biodiversité à ces modifications.
Il est nécessaire de définir les paramètres et l’intensité de leur impact mais aussi de les relier au cadre de connaissances existantes. C’est tout l’objet du traitement des données !
Il existe déjà des modèles mathématiques développés pour répondre aux interrogations du futur de la biodiversité face au changement climatique. Ils sont nombreux (algorithmes différents, plus ou moins complexes), intègrent des jeux de données différents, sont développés en libre ou non… Différents modèles peuvent travailler sur différents sujets. Les résultats seront dépendants des questions et données injectées dans le modèle.
Les modèles de répartition s’appuient sur des données géoréférencées, c’est-à-dire que chaque donnée possède une information géographique correspondant à ses coordonnées latitude- longitude. Elles peuvent ainsi être représentées cartographiquement : le résultat paraît visuellement simple à appréhender. Mais comme pour tout analyse, les paramètres d’incertitude, de confiance ne doivent pas être oubliés !
Il existe de nombreux modèles, dont le choix doit être analysé ; les données environnementales sont intégrées suite à une sélection statistique. En attendant le détail, voici un schéma très simplifié des étapes :