Dans le post précédent, on a dressé un portrait assez général des capteurs de rendement et des données associées. On revient ici sur une question récurrente en rapport avec les données de rendement : Comment s’assurer que les données de rendement soient assez fiables pour pouvoir les utiliser correctement ? Nous allons donc passer en revue les principales sources d’incertitude de ces jeux de données ; et évoquer certaines des méthodes qui ont été proposées pour s’attaquer à ce problème. Nous ne détaillerons pas l’ensemble de ces méthodes, ce serait beaucoup trop fastidieux mais la bibliographie reste à disposition pour les intéressés !
Pourquoi filtrer ses cartes de rendement ?
Les cartes de rendement ont été largement reconnues comme une source d’information précieuse pour la prise de décisions sur le terrain (Diker et al. 2004 ; Florin et al. 2009 ; Pringle et al. 2003). Elles fournissent effectivement un aperçu global de la variabilité spatiale sur le terrain, ce qui les rendent intéressantes pour cibler des zones d’intérêt dans les parcelles ou des secteurs sur lesquels il pourrait être pertinent de réaliser des applications modulées. Comme on l’a vu dans le post précédent, des centaines voire des milliers d’observations spatiales de rendement sont générées et sont prêtes à être utilisées dans le processus décisionnel. Bien que ce volume considérable de données soit essentiel pour la gestion et la prise de décision sur le terrain, ces jeux de données doivent être utilisés avec un peu de prudence et de recul.
Ces jeux de données contiennent en effet beaucoup d’observations défectueuses ou d’erreurs techniques qu’il faut éliminer pour assurer la qualité des données (Arslan et Colvin, 2002 ; Blackmore et Moore, 1999). Il faut bien comprendre que considérer ces observations défectueuses comme des « erreurs » est en fait un peu faux. Ce sont plutôt des observations qui ne correspondent pas au véritable rendement observé sur les parcelles et qu’on aurait pu attendre de l’itinéraire cultural. Si on voulait être précis, il faudrait dire que c’est le processus d’acquisition des données (avec un capteur embarqué sur la moissonneuse-batteuse, laquelle récolte la parcelle) qui conduit à générer des données qui, parfois, ne sont pas cohérentes avec la réalité. Ce n’est pas le capteur en lui-même qui fait une erreur (même si ça peut arriver) mais c’est le fait d’avoir un système embarqué qui conditionne la façon d’acquérir les données. Vous devriez y voir un peu plus clair par la suite. Dans la suite de ce post, je parlerai « d’erreurs de rendement » parce que c’est plus simple mais vous aurez compris (je l’espère) que c’est une simplification de la réalité.
Au vu des erreurs de rendement, ces jeux de données de rendement sont souvent sévèrement filtrés pour s’assurer que les analyses ultérieures ne soient pas défectueuses (Robinson et Metternicht, 2005 ; Sudduth et Dummond, 2007 ; Sun et al. 2013). Plusieurs auteurs ont montré à quel point une carte de rendement pouvait évoluer avant et après avoir supprimé les observations jugées anormales (Simbahan et al., 2004 ; Sudduth et Dummond, 2007). Griffin et al. (2008) ont même montré que ces dernières observations pouvaient influencer les décisions de gestion au champ. Attention quand même parce que l’article de Griffin et al. (2008) reste assez qualitatif. Il n’existe pas vraiment d’études qui ont étudié vraiment très en profondeur l’impact que pouvaient avoir les observations défectueuses sur la cartographie de rendement. Si ça ne tenait qu’à moi, j’aurais tendance à dire que tout dépend ce qu’on veut faire des données de rendement. Si l’on souhaite avoir une information de rendement moyenne à la parcelle ou dégager des grosses tendances de rendement dans les parcelles, une méthode de filtrage assez simple devrait suffire et rendre des résultats assez concluants. Si l’on souhaite par contre rentrer dans le détail, par exemple en cherchant à valider des résultats d’expérimentation, ou à moduler des apports de façon précise, il faudrait mieux travailler avec des méthodes un peu plus avancées et un peu plus robustes. Il ne faut par contre jamais considérer que le nettoyage des données sera parfait ! L’expertise du terrain, que ce soit celle de l’agriculteur, de son conseiller ou d’un chef d’expérimentation, qui connait la parcelle, est primordiale.
Typologies d’erreurs dans les cartes de rendement
Ces erreurs techniques ou ces observations défectueuses ont été largement documentées dans la littérature. Lyle et ses collaborateurs (2013) ont proposé une catégorisation de ces erreurs en quatre grands groupes : (i) la dynamique de récolte de la moissonneuse-batteuse, (ii) les mesures continues du rendement et de l’humidité, (iii) la précision du système de positionnement et (iv) l’opérateur de la moissonneuse-batteuse. Ces erreurs techniques sont brièvement décrites ici avec certaines des méthodologies qui ont été proposées par la communauté scientifique pour identifier ces observations défectueuses.
- La dynamique de la récolte de la machine comprend trois décalages différents, appelés temps de latence, temps de montée en charge et temps de descente en charge (Blackmore et Moore, 1999). Le temps de latence induit un décalage entre l’emplacement actuel et l’emplacement réel d’une observation de rendement dans l’espace parce que le rendement n’est pas mesuré au moment où la plante est coupée (c’est en quelque sorte le temps entre le moment où la plante est coupée et le moment où le grain arrive jusqu’au capteur de rendement). Plusieurs méthodes ont été mises au point pour déterminer ce décalage, soit par (i) des méthodes géostatistiques (Chung et al., 2002), (ii) des techniques de traitement d’images (Lee et al. 2012) et (iii) des méthodes de déconvolution du signal (Arslan, 2008 ; Reinke et al. 2011). Le temps de montée en charge, à l’entrée de parcelle lors d’une nouvelle ligne de récolte, conduit à une sous-estimation du rendement car le flux de grains dans la moissonneuse augmente petit à petit et n’a pas encore atteint un plateau, c’est-à-dire le régime permanent. Par conséquent, les mesures de rendement ne correspondent pas aux valeurs réelles de rendement attendues. A la fin d’une ligne de récolte, il se peut qu’une partie du grain continue à circuler dans la moissonneuse même s’il n’y a plus de plantes à récolter et que le temps de latence ait été atteint. Par conséquent, les dernières observations d’une ligne de récolte sont généralement sous-estimées. Les méthodes qui ont été proposées jusqu’à présent sont exclusivement visuelles, c’est-à-dire que le flux de grain est tracé en fonction du temps de parcours dans la parcelle ou de la distance d’avancement de la machine, et que les données situées avant ou après le plateau de rendement sont supprimées (Lyle et al. 2013 ; Simbahan et al. 2004).
- Les mesures continues se rapportent aux erreurs dans les observations de rendement et d’humidité dus à des mal fonctionnements de capteurs. Jusqu’à présent, les travaux de recherche ont cherché à trouver des seuils, déterminés pour la plupart de façon empirique, afin de déterminer ces types d’erreurs (Sudduth et Drummond, 2007 ; Taylor et al. 2007). Arslan et Colvin (2002) ont par exemple mis en avant des précisions de capteurs variant de 1 et 4 %, tandis que d’autres auteurs ont constaté des différences allant jusqu’à 10 % selon les conditions environnementales pendant l’acquisition des données, p. ex. des pentes raides (Reitz et Kutzback, 1996). Pour surmonter ce problème, quelques études ont porté sur l’impact des vibrations de la moissonneuse-batteuse sur la précision de la mesure du rendement (Hu et al. 2012 ; Jingtao et Shuhui, 2010).
- La précision des systèmes de positionnement peut conduire (i) à des observations en dehors des limites de la parcelle, (ii) à plusieurs observations de rendement à la même position dans l’espace, c’est-à-dire à des points colocalisés, ou (iii) à des écarts dans l’espace par rapport à la ligne de récolte (Blackmore et Moore, 1999). Les deux premiers types d’erreurs peuvent être facilement traités en éliminant les points situés à l’extérieur des limites parcellaires ou les points dont les coordonnées sont similaires (Robinson et Metternicht, 2005 ; Simbahan et al. 2004). Certains algorithmes ont été développés pour reconstruire précisément les lignes de récolte en étudiant les angles formés par des points de mesure consécutifs (Lyle et al., 2013). Les points suspects – ceux par lesquels la moissonneuse-batteuse a peu de chance d’être passés – sont retirés du jeu de données.
- Le dernier type d’erreurs concerne l’opérateur de la moissonneuse-batteuse. Premièrement, de grandes variations de vitesse sont susceptibles d’avoir un impact important sur la qualité de l’ensemble des données de rendement (Arslan et Colvin, 2002 ; Sudduth et Drumond, 2007). Les questions de vitesse sont généralement traitées de la même façon que les questions de mesures continues de rendement et d’humidité, c’est-à-dire en fixant des seuils globaux pour l’ensemble du jeu de données ou des seuils locaux seulement pour des données voisines dans l’espace (Lyle et al., 2013). Il peut aussi arriver que l’opérateur, en conduisant, chevauche des lignes de récolte déjà en partie ou totalement récoltées, ce qui est susceptible d’entraîner des observations de rendement aberrantes. Certains auteurs ont mis l’accent sur cet effet de » barre de coupe partiellement utilisée » et ont proposé des méthodes de prétraitement vectoriel pour tenir compte de ces chevauchements, principalement en reconstruisant le passage de la machine dans la parcelle (Drummond et al., 1999). Ces méthodes vectorielles dépendent fortement de la précision du positionnement du dispositif GNSS et nécessitent un temps de traitement important. D’autres auteurs ont proposé des systèmes embarqués spécifiques, notamment des capteurs ultrasoniques (Zhao et al., 2010). Enfin, les tournières sont également à l’origine de mauvaises estimations de rendement (Lyle et al. 2013). Les études consacrées à ces dernières sources d’erreurs – bien que limitées dans la littérature – se sont concentrées sur la recherche des points à l’intérieur des tournières en utilisant des mesures de distance ou d’angle entre des observations consécutives. Les points suspects sont éliminés.
Des exemples de ces typologies d’erreurs sont présentés sur les deux figures suivantes:
Figure 1. Carte de rendement
Figure 2. Carte de rendement avec sources d’erreurs labellisées.
Les capteurs embarqués comme les capteurs de rendement génèrent une quantité d’observations très importante. Au vu du volume considérable d’observations et du besoin de travailler de façon opérationnelle avec ces données, les approches de filtrage se doivent d’être à la fois automatisées, très générales et non paramétriques – c’est-à-dire qu’on ne doit pas avoir à régler plein de paramètres tout le temps (Simbahan et al. 2004 ; Spekken et al. 2013). La condition d’automatisation est très importante, notamment parce que le nombre de données de rendement à traiter ira en augmentant. L’automatisation ne veut néanmoins pas dire que l’expertise humaine peut être mise de côté, bien au contraire. C’est l’expert qui jugera, au vu de la méthode utilisée et de ses connaissances sur la parcelle, si le traitement lui convient. Les méthodes de filtrage générales et non paramétriques sont également à privilégier en raison de la diversité des jeux de données à traiter. Ces jeux de données sont effectivement acquis avec des systèmes d’acquisition différents – machines, capteurs – et sur des cultures variées, avec différents opérateurs et dans des conditions d’acquisition variables (topographie, climat…). Il est donc important de s’assurer que les approches sont capables de fournir des résultats concluants quel que soit le jeu de données à analyser. Même si de nouvelles solutions techniques existent pour améliorer la qualité des jeux de données de rendement, par exemple les capteurs à ultrasons (Zhao et al. 2010), les moissonneuses-batteuses actuelles sont loin d’en être toutes équipées (il resterait à vérifier si ces capteurs à ultrasons fonctionnent bien en condition opérationnelles). Des méthodes générales sont donc nécessaires pour traiter les jeux de données provenant de plusieurs types de machines, quel que soit le niveau d’équipement supplémentaire installé.
Il faut garder à l’esprit que les jeux de données de rendement seront potentiellement utilisés pour prendre une décision opérationnelle, ou comme point d’entrée de modèles agronomiques. Les méthodes de filtrage des données doivent donc être suffisamment robustes pour que le processus de prise de décision soit précis et sans faille. Une des limites de la littérature actuelle est que la plupart des approches existantes sont semi-automatiques et reposent presque exclusivement sur des seuils et des filtres d’experts. La conséquence principale étant que le traitement des cartes de rendement à grande échelle (mais même au niveau d’une exploitation entre plusieurs années par exemple), soit rendus compliqués parce que les paramètres de filtrage peuvent être influencés par chaque producteur de cartes et des opérateurs qualifiés pourraient être nécessaires pendant une période de temps considérable (Spekken et al. 2013). Encore une fois, l’utilisateur final aura la main sur le traitement issu d’une méthode automatisé, et pourra considérer que le traitement lui parait pertinent ou non. Pour les lecteurs intéressés, une méthode de filtrage tentant de répondre au maximum à ces contraintes a été proposée dans le cadre de ma thèse (Leroux et al., 2018).
Quelques éléments complémentaires
Jusqu’ici, nous nous sommes concentrés sur différentes erreurs de rendement, mais en faisant l’hypothèse que les informations de rendement collectées sont quand même majoritairement de qualité (sinon, si tout était mauvais, comment pourrait-on considérer que des données sont à enlever et d’autres à garder). C’est-à-dire que nous avons fait l’hypothèse qu’au départ, le capteur de rendement était bien étalonné…. L’étalonnage du capteur de rendement (et d’humidité…) est très important pour être sûr que les valeurs de rendement obtenues puissent être utilisées telles quelles, c’est-à-dire en valeur absolue. Si le capteur est mal étalonné, rien ne nous dit que les valeurs sont celles attendues ; par contre on peut quand même faire l’hypothèse que le capteur n’inversera pas les tendances de rendement observées (en d’autres termes qu’il ne va pas considérer qu’un rendement faible est fort et inversement). Tout ça pour dire que même mal étalonné, un capteur de rendement devrait quand même assez fidèlement reproduire les grandes tendances de rendement dans la parcelle, même si ces valeurs peuvent être fausses en absolu. De façon optimale, il faudrait pouvoir étalonner le capteur tous les jours (au vu du changement des conditions d’acquisition, comme l’humidité par exemple) et quand le type de plantes récoltées change. C’est malheureusement difficilement envisageable d’un point de vue opérationnel ; mais l’étalonnage du capteur de rendement devrait être fait au moins correctement une fois au début de la saison de récolte. On pourrait également imaginer corriger la carte de rendement en absolu à partir d’une valeur de rendement de référence à la parcelle, par exemple celle obtenue à la pesée en sortie de parcelle (si tant est que la pesée soit faite pour chaque parcelle). Cela pourrait être le moyen de comparer le rendement moyen « vrai » à la parcelle et le rendement moyen obtenu avec les données de rendement. Attention néanmoins à l’erreur d’étalonnage qui n’est pas forcément linéaire sur toute la plage de valeurs de rendement (c’est-à-dire que l’erreur de rendement sera peut-être plus importante pour des valeurs de rendement fortes que pour des valeurs de rendement faibles). Attention également au fait qu’en corrigeant avec une valeur moyenne, on ne prend pas en compte la variance du rendement que l’on pourrait attendre dans la parcelle.
La majorité des cartes de rendement sont présentées sous la forme de données ponctuelles (de points). Il faut néanmoins garder à l’esprit que l’information de rendement est en réalité une surface, celle donnée par la vitesse d’avancement de la moissonneuse et sa barre de coupe. Rajoutons à cela, si l’on veut être tatillon, qu’au moment où les plantes sont coupées, ce sont les plantes au centre de la barre de coupe qui sont ramenées en premier dans la moissonneuse, par rapport aux plantes aux extrémités de la barre de coupe. Tout cela pouvant jouer sur la pondération réelle à donner aux observations de rendement. Rentrer dans ces considérations devient extrêmement complexe et on pourrait questionner la pertinence d’aller dans tant de détail. Certains travaux de recherche sont quand même allés jusqu’à la modélisation du fonctionnement d’une moissonneuse batteuse pour prendre en compte ces aspects-là (Reinke et al., 2011). Comme les moissonneuse-batteuse lsont toutes différentes, cette approche parait malheureusement un peu trop complexe pour être appliquée sur le terrain. Pour terminer, en rapport avec la modélisation du fonctionnement de la moissonneuse-batteuse, j’aimerais revenir sur un point que nous avons un peu laissé de côté jusqu’ici, le retour d’Otons (présenté sur la figure de la moissonneuse batteuse dans le post précédent). Pour comprendre ce phénomène, on peut s’imaginer qu’au temps ‘t’, un stock de grain rentre dans la moissonneuse. Dans un système parfait, tout le stock de grain qui rentre en même temps dans la moissonneuse, arriverait en même temps dans la trémie. Malheureusement, une partie de ce grain (qui n’a pas forcément été bien battu ou tamisé) reste dans les organes de la moissonneuse et est mélangé avec le ou les stocks de grain qui continuent à arriver au temps ‘t+1’ par exemple. Ce phénomène pose donc question quand à la pondération de rendement sur chacun des points de mesure réalisés puisqu’en réalité, le rendement mesuré ne correspond qu’à une partie du grain réellement récolté à un point précis dans l’espace. Peut-on faire l’hypothèse que ce retour d’Otons reste à peu près stable pendant toute la récolte et donc que toutes les observations seraient affectées de la même manière ? Ca pourrait être à vérifier… C’est en tout cas l’hypothèse que nous faisons.
Vous m’excuserez pour les références bibliographiques que je n’ai pas reclassé spécifiquement pour ce post… mais vous devriez pouvoir les retrouver sans problème =)
