L’Agriculture de Précision est une discipline basée sur la donnée ; donnée que l’on va collecter pour mesurer, décrire, quantifier, comprendre, ou encore analyser les agro-systèmes. Des systèmes de mesure très variés sont développés pour mesurer des paramètres agronomiques d’intérêt, de l’état de végétation des plantes au rendement d’une culture, en passant par la détection d’adventices ou les paramètres physico-chimiques du sol. Ces systèmes, toujours plus sophistiqués, permettent d’acquérir de l’information à des résolutions de plus en plus fines sur les systèmes de production. La résolution des données est souvent mise en avant comme un critère de qualité ou de performance dans les services proposés, mais qu’est-ce qu’implique le fait de travailler avec des données à toujours plus haute résolution ? Ce post est assez court mais permet de garder un certain nombre d’idées en tête.
Autocorrélation / Cross-corrélation
Les données d’Agriculture de Précision présentent des structures de corrélation dans l’espace et/ou dans le temps. C’est un phénomène assez intuitif. Pour la corrélation spatiale par exemple, deux échantillons de sol récupérés très proches l’un de l’autre dans une parcelle sont plus susceptibles de partager des caractéristiques communes que deux échantillons de sols chacun à un bout d’une parcelle. Pour la corrélation temporelle par exemple, de la même façon, deux images de végétation acquises par drone seront d’autant plus ressemblantes qu’elles auront été prises à une date proche. La corrélation peut aussi être spatio-temporelle quand les données sont structurées à la fois dans l’espace et dans le temps. Certaines variables sont également corrélées entre elles (on parle alors de cross-corrélation). En quoi ces formes d’autocorrélation posent-elles question ?
- Le fait que les données soient corrélées viole l’hypothèse d’indépendance des observations dans certains tests statistiques. Par exemple, lorsque l’on cherche à évaluer l’état d’une relation linéaire entre deux variables agronomiques, on doit faire l’hypothèse que les échantillons sont indépendants (ce qui n’est plus le cas en présence de structures de corrélation). Sans prendre en compte ce phénomène, on aura tendance à surestimer la relation entre ces variables. Et ce risque est extrêmement important quand on travaille avec des données à très haute résolution, et surtout quand on travaille avec beaucoup de variables en même temps (multi-factoriel ou multi-dimensionnel).
- Lorsque l’on cherche à mettre en place un modèle de prédiction d’une variable agronomique d’intérêt, on construit souvent un modèle sur un jeu d’apprentissage, et on le valide sur un jeu de validation, censé être totalement indépendant du jeu d’apprentissage pour être sûr que le modèle est capable de faire des prédictions sur un nouveau jeu de données (ça ne servirait pas à grand-chose d’apprendre et de valider un modèle sur un même jeu de données…). Dans la grande majorité des cas, on acquiert un gros jeu de données, et on sépare ce jeu de données en jeu d’apprentissage et en jeu de validation (de façon plus ou moins aléatoire). En présence d’autocorrélation dans les données, la sélection des jeux d’apprentissage et de validation doit être beaucoup plus réfléchie au risque de surestimer la capacité de prédiction du modèle (si vos données de validation sont corrélées à vos données d’apprentissage, vous aurez plus de chances de trouver de bons résultats pour votre modèle, ce qui est un peu biaisé…). Cela peut être par exemple le cas pour de la prédiction de rendement, quand les jeux d’apprentissage et de validation contiennent des données collectées sous des conditions climatiques assez proches, ou dans des parcelles très proches dans l’espace.
Bruit
Les données fortement résolues en Agriculture de Précision sont bruitées, c’est cet effet « poivre et sel » ou ce manque de continuité dans les couleurs (quand vous colorisez les données) que vous pouvez observer dans vos jeux de données. Ce bruit peut être dû à la variabilité naturelle des plantes, à la précision du capteur, ou encore aux conditions d’acquisition. En quoi ce bruit pose-il question ?
- Le bruit peut perturber la lecture d’une carte dans le sens où on peut avoir du mal à dégager les grandes tendances spatiales et/ou temporelles dans les données. Pour faciliter la lecture des cartes et/ou pour proposer des cartes de modulation opérationnelles, certains cherchent à délimiter des zones homogènes de la variable d’intérêt dans les parcelles. Cette opération n’est pas évidente, déjà parce que la définition même d’une zone n’est pas claire, et ensuite parce que la présence de bruit complexifie les méthodes à mettre en place. D’autres chercheront à dégrader l’information initiale sur des grilles d’interpolation aux tailles variables (quelle que soit la méthode d’interpolation – la moyenne des données dans une grille reste une forme interpolation). Se posera alors la question de la taille des mailles de la grille : Comment dégrader la résolution sans trop perdre d’information et rester en cohérence avec une application opérationnelle au champ ?
- En plus de perturber la lecture d’une carte, le bruit peut affecter les corrélations entre variables agronomiques. Comparer des données collectées précisément au niveau d’une placette de mesure avec des données à haute résolution et bruitées au niveau de cette placette peut s’avérer dangereux. Il est parfois plus judicieux de chercher des corrélations à des échelles plus grossières (par exemple à l’échelle d’une zone que d’un pied de vigne) pour ne pas perdre de vue des tendances importantes.
Bruit et autocorrélation
Les modèles agronomiques, qu’ils soient complexes ou non, (modèle de prédiction de rendement, modèle de stress hydrique, modèle de développement d’une plante…) sont souvent construits à partir de données collectées en conditions d’expérimentation ou laboratoire et acquises avec une très grande précision. Ces données sont généralement peu nombreuses : entendons nous-bien, en disant « peu nombreuses », je n’insinue pas que ces données ne sont pas suffisantes pour construire un modèle, je dis simplement qu’elles sont peu nombreuses par rapport à ce qu’on peut acquérir en conditions opérationnelles au champ. Le fait d’acquérir des données à très haute résolution (bruitées, auto corrélées…) pour affiner ces modèles pose question parce que les modèles n’ont souvent pas été développés dans ce sens. Est-ce que des corrélations établies avec des données très précises peuvent être considérées aussi avec des données bruitées et entachées d’incertitude ? Comment l’autocorrélation des données va-t-elle impacter les relations du modèle ? Toutes ces questions ne sont pas évidentes et méritent de s’y intéresser.
Fiabilité et qualité des données
Parler de fiabilité et de qualité des données peut paraitre surprenant tant on a l’impression que ces caractéristiques sont admises. En d’autres termes, on ne va pas forcément remettre en cause une donnée ou un résultat quand on va la/le recevoir. Pourtant, au fur et à mesure que l’on développe des modèles plus complexes, et que l’on travaille avec des résolutions spatiales et temporelles, ces questions de fiabilité et de qualité de données deviennent prépondérantes ! Comment imaginer des applications agronomiques à l’échelle du centimètre ou du mètre si les données sont bruitées ? Le capteur utilisé est-il sensible aux variations que je cherche à détecter ? Quel compromis trouver entre la qualité de la donnée utilisée et une échelle de travail qui reste opérationnelle ?
Quelques mots de conclusion
L’un des risques principaux en travaillant avec des données de toute sorte, et des données à haute résolution, c’est d’avoir l’impression qu’on va être capable de tout comprendre sur l’agro système étudié. Il faut faire attention à prendre en compte les caractéristiques des données collectées pour établir ou non des corrélations, à ne pas confondre cause et corrélation, à ne pas chercher des corrélations entre tout et n’importe quoi, à être conscient des données et/ou facteurs non mesurés, et surtout à reconsidérer l’agronomie et l’expertise dans les réflexions ! La donnée et les outils numériques doivent être service de l’agronomie et de l’expertise, elles ne doivent pas et surtout ne peuvent pas la remplacer.
Pour terminer, j’insisterai sur l’importance de considérer les aspects énergétiques et environnementaux dans le développement et l’utilisation de solutions numériques. Le numérique dans son ensemble étant responsable de 10% de la consommation électrique mondiale, soit environ 4% des émissions mondiales de gaz à effet de serre (avec des progressions extrêmement rapides, de 5 à 10% par an selon les estimations), il faut que les outils numériques soient pris en compte avec sobriété et responsabilité. Ces aspects énergétiques et environnementaux doivent être au cœur de tout projet numérique en agriculture. Est-ce que j’ai vraiment besoin de toutes ces données-là ? De quelle résolution spatiale/temporelle de données ai-je vraiment besoin ? Pourquoi acquérir une information à si haute résolution spatiale si c’est pour la dégrader autant après ? Comment mesurer simplement mon paramètre d’intérêt ? Est-ce que mes données sont acquises pendant un passage machine que je dois forcément réaliser ou faut-il des passages supplémentaires ?
Soutenez les articles de blog d’Aspexit sur TIPEEE
Un p’tit don pour continuer à proposer du contenu de qualité et à toujours partager et vulgariser les connaissances =) ?