Auto-corrélation des observations spatiales agronomiques et environnementales
Un exemple de structure spatiale de la biomasse au sein d’une parcelle
Dans les domaines de l’agronomie et de l’environnement, les observations spatiales sont généralement auto-corrélées, dans une plus ou moins grande mesure. Ces données spatiales partagent effectivement des caractéristiques plus proches avec leurs observations voisines qu’avec les observations éloignées. Ce concept a été bien décrit par Tobler (1970) 1 dans sa première loi de géographique : « everything is related to everything else, but near things are more related than distant things » (tout est relié à tout le reste mais les choses proches sont plus reliées que les choses éloignées). En effet, des observations voisines dans l’espace partagent des caractéristiques topographiques, édaphiques et climatiques plus proches et sont donc sensées être relativement plus cohérentes entre elles que des données plus éloignées dans l’espace. C’est pourquoi des gradients ou des patrons spatiaux apparaissent souvent dans les jeux de données agronomiques et environnementaux.
Dans les projets d’agriculture de précision, il est très souvent nécessaire de réaliser des études de corrélation entre les variables à disposition. L’objectif est généralement de trouver des relations entre un paramètre relativement coûteux, fastidieux ou chronophage à acquérir (ex : état hydrique des plantes, teneur en azote des feuilles…) et d’autres variables qui sont bien plus faciles à obtenir (ex: NDVI, conductivité électrique apparente du sol). Une fois les corrélations définies, il est possible d’estimer la variable d’intérêt plus simplement et efficacement.
Un usage inapproprié des tests statistiques classiques en présence d’auto-corrélation
Les tests statistiques classiques comme la corrélation de Pearson ou les ANOVA sont largement utilisés pour évaluer ces corrélations. Ces approches font l’hypothèse forte d’indépendance entre les observations étudiées. Cependant, comme il l’a été précisé préalablement, les données spatiales agronomiques sont très souvent auto-corrélées ce qui veut dire que l’hypothèse d’indépendance des observations ne peut pas être acceptée. Pour être plus précis, les observations auto-corrélées représentent une information équivalente (en totalité ou en partie) alors que des observations indépendantes caractérisent un différent type d’information. Par conséquent, la corrélation spatiale entre observations voisines va accroître les corrélations entre les variables étudiées alors que la corrélation observée n’est peut être due qu’au fait que les observations sont spatialement proches et corrélées. Si cette auto-corrélation n’est pas prise en compte dans les tests statistiques classiques, la significativité des corrélations est souvent surestimée ce qui peut conduire à des conclusions erronées. Taylor and Bates (2013) 2 ont montré que certaines corrélations entre des données de biomasse acquises par capteur (NDVI) et le poids des sarments issus de la taille de la vigne étaient devenues non significatives après avoir pris en compte l’auto-corrélation des données alors que la corrélation était significative dans le cas contraire. Cette étude montre l’importance qu’il y a à considérer l’auto-corrélation des données spatiales avant de réaliser des analyses de corrélation.
Comment prendre en compte la structure spatiale des données dans les analyses de corrélation ?
Dale and Fortin (2002) 3 ont proposé un état de l’art des méthodes pour prendre en compte l’auto-corrélation des données dans les analyses de corrélations. Trois des approches présentées peuvent être intéressantes à retenir. La première est relativement simple et consiste à supprimer certaines des observations disponibles pour réduire l’auto-corrélation au sein du jeu de données. Ensuite, les tests statistiques peuvent être appliqués sur le nouveau jeu de données défini. La deuxième méthode a pour objectif de réduire les degrés de liberté au sein des tests statistiques. Dans ce cas, les observations se sont pas retirées du jeu de données mais la significativité des corrélations est rapportée à un nombre beaucoup moins élevé d’observations. Cette approche a l’avantage d’augmenter significativement la p-value associée aux corrélations, rendant le test statistique plus robuste à la présence de données auto-corrélées. Il faut comprendre qu’ avec cette approche, la force de la corrélation ne sera pas affectée mais c’est bien la p-value associée à la corrélation qui sera bien plus grande que ce qu’elle n’était auparavant. La dernière approche mentionnée ici met en oeuvre des méthodes dites de permutation ou de randomisation. Comme le nom le laisse à penser, les observations sont permutées de nombreuses fois et les tests de corrélations sont réalisés sur chacun des jeux de données construits. L’objectif est d’évaluer si les corrélations obtenues avec le jeu de données initial (sans permutation) sont meilleures que la majorité des corrélations issues des jeux de données permutés. En d’autres termes, on cherche à savoir si la probabilité d’apparition de la corrélation avec jeu de données initial est rare par rapport à la distribution des corrélations issues des jeux de données permutées. Si c’est le cas, il est possible de considérer que le jeu de données initial donne lieu à une corrélation relativement significative.
Malgré le fait que ces approches aient pu être comprises, leur implémentation peut paraître un peu plus compliquée. En fait, en regardant certaines références bibliographiques (notamment celles qui ont donné naissance à la deuxième méthode : Cressie (1990) 4; Dutilleul (1993) 5), il est possible d’être complètement perdu. La référence de Dale and Fortin (2002) est beaucoup plus accessible et devrait aider à implémenter ces méthodes. Des exemples concrets de l’application de ces méthodes peuvent également être trouvés dans un article présenté à Conférence Européenne d’Agriculture de Précision (Tisseyre, B., & Leroux, C., 2017). 6
Soutenez les articles de blog d’Aspexit sur TIPEEE
Un p’tit don pour continuer à proposer du contenu de qualité et à toujours partager et vulgariser les connaissances =) ?
- Tobler W., (1970) « A computer movie simulating urban growth in the Detroit region ». Economic Geography, 46(2): 234-240
- Taylor, J., & Bates, T. (2013). A discussion on the significance associated with Pearson’s correlation in precision agriculture studies. Precision Agriculture, 14, 558-564
- Dale, M. R. T., and M. J. Fortin. 2002. Spatial autocorrelation and statistical tests in ecology. Ecoscience 9:162–167
- Cressie, N. A., (1991). Statistics for Spatial Data. John Wiley & Sons, New York
- Dutilleul, P. (1993). Modifying the t-test for assessing the correlation between two spatial processes. Biometrics, 49, 305–314
- Tisseyre, B., & Leroux, C. (2017). How significantly different are your within-field zones? Paper presented at the 11th European Conference on Precision Agriculture (ECPA 2017), John McIntyre Centre, Edinburgh, UK, July 16–20 2017, Advances in Animal Biosciences, 8(2), 620-624