Présentées comme une véritable révolution méthodologique pour les sciences économiques, les évaluations aléatoires sont des outils performants permettant, par un processus de sélection randomisée d’établir rigoureusement des inférences causales aux implications normatives en matière de politiques publiques. Le prix dit « Nobel » d’économie 2019 a ainsi récompensé des travaux portant sur leur utilisation en économie du développement. Mais les problèmes afférents à la faisabilité et à la validité de telles expériences viennent néanmoins nuancer leur portée, rappelant encore une fois la nécessité de refuser le manichéisme méthodologique opposant binairement “panacée scientifique” et “idéologie” en sciences économiques.
L’attribution du prix dit « Nobel » d’économie 2019 à Esther Duflo, Abijit Banerjee et Michael Kremer pour leurs travaux visant à adapter la méthode des essais contrôlés randomisés (ECR) au domaine du développement a fortement contribué à la médiatisation de la randomisation – ou encore des « évaluations aléatoires », une pratique notamment issue de la pharmacologie. Aux mots du jury, leurs travaux ont « considérablement amélioré notre capacité à lutter contre la pauvreté dans le monde » et « transformé l’économie du développement ». Pourtant, nombreux sont les articles à mettre en garde contre cette vision idéaliste : après tout, « All that glitters is not gold » (1).
En quoi consistent exactement ces évaluations aléatoires, et quelle est leur portée opérationnelle en tant qu’instruments des politiques du développement ?
Une approche descriptive de l’évaluation aléatoire révèle ses fantastiques atouts techniques et pratiques dans l’établissement d’inférences causales en économie.
L’évaluation aléatoire permet d’établir des inférences causales rigoureuses et est en conséquence un instrument d’une efficacité redoutable pour déterminer les politiques publiques à mener.
Les évaluations aléatoires permettent de contourner le problème du biais de sélection
L’évaluation aléatoire permet d’établir prescription de politiques publiques en contournant le biais de sélection, un obstacle conséquent à l’établissement d’inférences causales.
Pourquoi vouloir contourner le biais de sélection ? Des difficultés de l’établissement d’une inférence causale en économie.
Quelle taille optimale d’une classe pour l’apprentissage ? Quels effets de l’accès au micro-crédit sur l’accumulation du capital ? Quels effets des programmes de déparasitage des vers intestinaux sur l’assiduité scolaire au Kenya (2) ? L’établissement rigoureux d’une inférence causale est au fondement de toute prescription normative de politique du développement : la connaissance précise des effets – qualitatifs comme quantitatifs – des différents programmes conditionne sans aucun doute l’efficacité de l’intervention de l’Etat.
Le problème apparaît immédiatement : comment établir cette inférence causale ?
Imaginons : à un moment donné, une personne est soit exposée à une politique, une variable ou un programme (des « traitements »), soit elle ne l’est pas. Comment quantifier l’impact du programme ?Comparer la même personne dans le temps n’en donnera pas, dans la plupart des cas, une estimation fiable. En effet, d’autres facteurs qui influent sur les résultats peuvent avoir changé depuis l’introduction du programme. Impossible, dès lors, d’obtenir une estimation de l’impact du programme pour cet individu. Il apparaitrait également possible d’établir l’impact moyen d’un traitement en l’inoculant à un groupe d’individus puis en les comparant à un groupe similaire d’individus qui, au contraire, n’ont pas bénéficié du traitement. En réalité, cependant, les individus qui sont exposés à un traitement diffèrent généralement de ceux qui ne le sont pas : c’est le problème du biais de sélection.
Plus concrètement, prenons un exemple où l’on cherche à capturer l’effet moyen attendu de la lecture hebdomadaire d’Oeconomicus (le « traitement » ou « programme ») sur le niveau en économie (représenté par exemple, pour simplifier, par la note au baccalauréat d’économie) des lycéens de France pendant un an. La comparaison des résultats en économie, au bout d’un an de lecture (« l’exposition au programme ») pourrait-il permettre de mesurer exactement l’impact de la lecture d’Oeconomicus sur le niveau en économie ? Cependant, les groupes sélectionnés peuvent présenter des caractéristiques très différentes. Ce serait par exemple le cas si les classes bénéficiant du traitement comptent deux fois moins d’élèves que les classes n’en bénéficiant pas, ou encore si les classes bénéficiant du traitement font toutes parties d’un des meilleurs lycées de France, tandis que les autres, au contraire, sont dans les lycées ayant régulièrement les pires résultats au baccalauréat de France. La comparaison des notes en économie à la fin de l’année pourrait-elle permettre d’établir précisément l’impact de la lecture d’Oeconomicus ? La réponse est évidemment négative en raison de l’existence d’un fort biais de sélection initial.
Comment contourner le biais de sélection ? L’efficacité des expériences randomisées de terrain.
À mi-chemin entre l’expérimentation en laboratoire et l’expérience naturelle, les expériences randomisées de terrain permettent de contourner ce biais de sélection.
Dans une expérience aléatoire de terrain, deux groupes sont sélectionnés au hasard (par exemple en utilisant un générateur de nombres aléatoires) au sein d’une population homogène : le premier reçoit une “intervention” (subvention, crédit, formation, etc.), tandis que le second ne reçoit aucune intervention (si l’étude se concentre sur les effets d’un programme en particulier) ou une autre intervention (si l’objet de l’étude est de comparer les mérites relatifs de plusieurs traitements). Dans un deuxième temps, les deux groupes sont comparés afin d’évaluer l’efficacité de l’intervention.
En attribuant aléatoirement les individus ou groupes d’individus aux groupes traités ou de contrôle, la loi des grands nombres assure, si l’échantillon est « suffisamment grand » que les caractéristiques initiales, observables comme inobservables, des deux groupes soient similaire. Formellement, le biais de sélection est nul. Dès lors, la randomisation permet d’estimer l’effet moyen du traitement comme la différence entre la moyenne empirique de la variable d’intérêt (ici, le niveau en économie des élèves) entre le groupe traité et le groupe contrôle (3). Ainsi, l’évaluation aléatoire permet d’estimer précisément les effets qualitatifs et quantitatifs d’interventions afin d’en déduire des prescriptions normatives en matière de politiques du développement.
Ainsi, sélectionner aléatoirement des lycéens de toute la France pour les répartir en deux groupes, le groupe « traitement » lisant régulièrement Oeconomicus et le groupe contrôle, permettra de mesurer exactement l’effet de ce programme sur leur niveau en économie. Le biais de sélection, tenant aux différences initiales de niveau entre les élèves ou encore des conditions de leur apprentissage, s’en trouve effectivement neutralisé !
Les expériences aléatoires en économie du développement en pratique : l’établissement de prescriptions normative en matière de politiques publiques.
Les intérêts pratiques de l’évaluation aléatoire sont multiples. D’abord, dans le cadre de projets pilotes destinés à tester, à petite échelle, l’efficacité d’une politique, ils peuvent contribuer à déterminer l’opportunité de leur généralisation au niveau national (4). Ils peuvent également servir d’appui à un arbitrage entre différentes interventions (5), ou pour résoudre des questions théoriques spécifiques. La délivrance du Nobel précité a surtout médiatisé leur utilisation pour l’évaluation d’interventions spécifiques.
A titre d’exemple (6), Banerjee et ses coauteurs ont étudié en 2007 la nature et l’intensité des effets des programmes de rattrapage scolaire en Inde urbaine. En l’occurrence, ils mènent deux expériences randomisées sur des écoles. La première consiste en un programme de rattrapage scolaire se focalisant sur les élèves avec du retard sur les compétences fondamentales – lecture, écriture et calcul (A). Pour la seconde, ils mettent en oeuvre un programme d’apprentissage assisté par des ordinateurs centré sur les mathématiques (B). L’évaluation aléatoire permet ici de quantifier exactement leur impact : le programme A augmente les résultats moyens de « 0,28 écart-type », principalement en raison des gains importants obtenus par les enfants se trouvant au bas de la distribution des résultats des tests. Le programme B a permis d’augmenter les scores de « 0,47 écart-type », soit une augmentation de niveau plus significative. Il est ainsi possible d’en déduire des prescriptions de politiques publiques. Surtout, par un suivi, il est également possible de déterminer l’éventuelle persistance des effets du traitement. Un an après la fin des programmes, les gains initiaux sont restés significatifs pour les enfants ciblés, mais ils ont diminué pour atteindre environ « 0,10 écart-type ».
Il apparaît ainsi que les expériences randomisées de terrain permettent de faire de conséquents progrès, à la fois scientifiquement dans l’établissement de relations causales, mais également – plus concrètement – par la recommandation de politiques concrètes et efficaces destinées aux pays en développement. L’expérience précitée participera sans doute ainsi à la construction d’un programme d’éducation efficace et adapté à une échelle large.
Cette méthode expérimentale présente néanmoins des limites, mais celles-ci ne sont pas nécessairement incontournables.
Une approche analytique révèle les nombreuses limites des évaluations aléatoires.
De nombreuses difficultés liées à la validité et à la faisabilité de ces études se posent.
La validité des études basées sur l’évaluation aléatoire est relative.
La notion de validité (7) d’une étude renvoie à la qualité démonstrative d’une recherche empirique, c’est à dire à la fiabilité des résultats obtenus grâce à l’analyse statistique de l’échantillon (validité interne) et la généralisation de ces résultats à l’ensemble de la population (validité externe).
La validité interne de la méthode d’évaluation aléatoire est en effet critiquable. Comme l’ont démontré Deaton (« Nobel » d’économie 2016) et Cartwright en 2016 (8), les ECR sont tiraillés entre minimisation du biais et maximisation de la précision : ils étudient en conséquence l’impact moyen sur une population donnée. Cependant, la plupart des politiques du développement ont un impact hétérogène sur la population étudiée. Par exemple, l’effet d’une mesure de soutien scolaire sur le premier de la classe n’est pas le même que sur le dernier.
La mesure peut également être rendue difficile par l’attrition, c’est-à-dire la perte d’individus de l’échantillon au cours du temps (cf annexe). D’autres problèmes viennent s’y ajouter. La comparabilité entre les groupes peut par exemple être compromise si les individus modifient leurs comportements en raison de leur participation à une expérience : conscients d’être observés, les sujets du groupe traité peuvent être plus motivés et donc plus performants (effet Hawthorne) et le groupe de contrôle, conscient de son « retard » sur le groupe testé, peut avoir un comportement réactif et travailler plus activement (effet John-Henry). La rencontre même avec l’expérimentateur peut modifier le comportement des sujets. L’ordre des questions, ou même l’attitude de l’expérimentateur peuvent ainsi influer le sujet (comme l’illustre Rosenthal en 1966 (9)).
Les résultats peuvent également être affectés par un biais de diffusion, dans le cas où des sujets du groupe contrôle sont affectés par le programme alors même qu’ils ne font pas parti du groupe test. C’est par exemple le cas dans le cadre d’une campagne de vaccination qui, du fait d’externalité positive, diminuera la probabilité d’être infecté de l’ensemble des sujets. De même, l’existence de l’expérience peut pousser des membres du groupe contrôle à prendre conscience de l’existence de solutions ou de programmes pour améliorer leur condition. Ils rechercheront ainsi spontanément un programme alternatif, alors même qu’ils ne l’auraient pas fait s’ils n’avaient pas participé à l’expérience. Cela peut conduire à sous-estimer considérablement l’impact causal du programme (comme le montrent Heckman et ses coauteurs en 1999 (10))
D’autre part, la validité externe – ou la généralisation de résultats – des évaluations des résultats présente également quelques faiblesses. Les expériences sont en effet souvent extrêmement localisées et reposent sur des échantillons qui ne représentent pas la population dans son ensemble. Dès lors, comment savoir si les résultats obtenus dans des écoles rurales du Pérou sont transposables aux établissements éducatifs des grandes villes du Nicaragua ? Même si cette limite est connue par la communauté scientifique, il est difficile d’en tenir compte pratiquement.
De nombreuses difficultés pratiques à la conduite des évaluations aléatoires remettent en cause leur efficacités
Plus généralement, de nombreuses difficultés pratiques surgissent dans la conduite d’expériences aléatoires.
D’abord, les ECR impliquent souvent une série de parties prenantes dont les intérêts sont parfois en conflit. Leur interaction influence chaque étape de l’essai : les protocoles techniques, leur mise en œuvre, l’analyse des résultats, leur publication et leur diffusion, ce qui peut parfois conduire à la « politisation » de certaines études.
Surtout, la conduite de telles expériences pose de nombreuses questions sur le plan éthique : elle consiste, après tout, à refuser sciemment l’application d’un traitement supposé bénéfique à une partie de la population au profit d’une autre. Est-il correct de choisir les membres des groupes au hasard, quitte à refuser le programme à ceux en ayant le plus besoin ? En l’absence – à ma connaissance – de cadre juridique exhaustif sur la question en France (contrairement au domaine de la pharmacologie), on saurait se référer utilement au rapport Belmont (11) en la matière.
Enfin, la faisabilité statistique de tels programmes présente de nombreuses difficultés, du fait de la conflictualité entre puissance statistique (qui nécessite l’échantillon le plus grand possible) et faisabilité opérationnelle (échantillon le plus petit possible – ou, tout du moins, le moins coûteux).
L’évaluation randomisée reste néanmoins un des outils les plus performants des sciences économiques
Il ne faut néanmoins pas dramatiser : malgré ces nombreuses limites, l’expérimentation aléatoire reste une des méthodes les plus rigoureuses pour établir des inférences causales.
D’abord, les économistes sont conscients de ces limites, et ne prétendent pas arriver à une vérité objective et universelle s’émancipant totalement du contexte expérimental. A titre d’exemple, le papier « Using Randomization in Development Economics Research: A Toolkit » d’Esther Duflo, Rachel Glennerster et Michael Kremer (12) contiennent des chapitres entiers (chapitre 7 et 8 par exemple) faisant état des limites de ces pratiques et décrivant les différentes façons de les contourner.
Ainsi, de nombreuses méthodes permettent de contourner ces biais. Prenons par exemple le biais de l’observateur où, en agissant différemment – même inconsciemment – avec le groupe traité et le groupe contrôle, l’expérimentateur influe les résultats de l’étude. Il peut être limité par la conduite d’expériences en « double aveugle » ou, non seulement les sujets mais également l’observateur – différent de l’expérimentateur – ne sont pas informé quant à la nature de « contrôle » ou « traité » du groupe dont ils font partie ou qu’ils étudient. La modification du design expérimental, ou encore l’estimation des externalités peuvent permettre d’arriver à des résultats plus précis.
Enfin, chaque expérience ne doit pas être analysée individuellement. D’abord parce que les expériences randomisées peuvent être utilisées en compléments d’autres dispositifs expérimentaux, en laboratoire par exemple, permettant de renforcer leur validité interne. Mais, surtout, une expérience ne doit jamais être analysée isolément. La « connaissance » sur une question ne saurait se réduire à une seule expérience, mais doit être mise en relation avec les résultats passés sur des questions similaires, les tentatives de réplication et les recherches futures qui seront menées en approfondissement.
En définitive, si d’autres techniques permettent de limiter le biais de sélection, la méthode de l’évaluation aléatoire permet de surmonter un grand nombre des limites des méthodes non-expérimentales d’observation des effets d’un programme. Si le principe de la randomisation est simple, leur pratique – de la conception du protocole à la généralisation des conclusions de l’étude – est loin de l’être et doit faire l’objet d’une rigueur toute particulière. Il apparaît une fois de plus qu’il faut refuser le manichéisme méthodologique en économie, pour rétablir une complémentarité analytique entre les différentes approches en faisant fi d’une conflictualité parfois trop médiatisée.
Annexe – Un exemple d’expérience randomisée de terrain
En pratique, comment les économistes font-ils pour mener leurs expériences randomisées de terrain ?
Prenons en exemple une étude menée par Esther Duflo, Pascaline Dupas and Michael Kremer intitulée « Peer Effects, Teacher Incentives, and the Impact of Tracking: Evidence from a Randomized Evaluation in Kenya » (13). Dans cette étude, ils présentent les effets sur le niveau scolaire des élèves des incitations des enseignants et du « suivi » (c’est à dire la division de classes en groupes de niveau) découlants d’une évaluation randomisée au Kenya.
Cette étude a été menée dans le cadre d’une expérience de réduction de la taille des classes de l’enseignement primaire dans la province de l’Ouest, au Kenya. Comme beaucoup d’autres pays, le Kenya a un système éducatif centralisé avec un programme national unique et des examens nationaux. Ici, la nature et la structure des incitations des enseignants, est telle que la rémunération est partiellement fonction croissante des résultats aux examens finaux. Cela implique un biais poussant les professeurs à se consacrer d’avantages aux bons élèves, qui ont plus de chance de passer et de réussir cet examen. Notons de même que les incitations varient selon les professeurs. La plupart des enseignants du primaire sont recrutés au sein de la fonction publique nationale, les contractuels sont soumis à des incitations plus fortes.
Dans le cadre de l’expérience, avec un financement de la Banque mondiale, une ONG (ICS Africa) a fourni à 140 écoles des fonds pour embaucher un enseignant supplémentaire en première année sur une base contractuelle à partir de mai 2005. Le programme a été conçu pour permettre aux écoles d’ajouter une section supplémentaire en première année.
L’étude porte sur l’impact du suivi et des effets des pairs en utilisant deux versions différentes de l’expérience ETP. Le programme décrit ci dessous a duré 18 mois, soit les deux derniers trimestres de 2005 et toute l’année scolaire 2006. Parmi les 121 écoles qui ne disposaient à l’origine que d’une seule section en première année, 61 ont été sélectionnées au hasard et les élèves de première année y ont été assignés au hasard à l’une des deux sections de première année. Ces écoles sont dites « non-suivies ». Dans les 60 écoles restantes, dites les « écoles suivies », les enfants ont été affectés à l’une des deux sections en fonction de leurs résultats aux examens administrés par l’école auparavant. 19 écoles qui avaient initialement plus d’une classe de première année n’ont pas été ultimement inclues dans l’analyse. Après l’assignation des élèves (l’échantillon est constitué d’environ 10 000 élèves inscrits en première année en mars 2005) entre les sections, les enseignants contractuels fonctionnaires ont été assignés au hasard à des écoles et des sections.
Le niveau des élèves était évalué avant le programme, à sa fin, et, enfin, un an après sa fin. La comparaison de ces résultats permet ainsi de quantifier précisément l’effet du programme. En moyenne, au bout de 18 mois, les scores étaient plus élevés de 0,14 écart-type dans les écoles suivies que dans les autres (0,18 écart-type de plus après contrôle des scores de base et des autres variables de contrôle). Après contrôle des scores de base, les élèves de la moitié de la distribution avant l’affectation ont gagné 0,19 écart-type, et la moitié inférieure a gagné 0,16 écart-type. Les étudiants de tous les quantiles bénéficient du suivi. En outre, le suivi a eu un impact persistant : un an après la fin de la scolarité, les élèves des écoles de suivi ont obtenu 0,16 écart-type
Ici, la randomisation permet donc de contourner le biais de sélection non seulement lié aux élèves, mais également aux professeurs. Une étude du protocole révèle cependant les failles de ce type de méthodes en fournissant notamment un bon exemple « d’attrition ». En effet, pour obtenir l’évolution du niveau des élèves au cours du temps, il faut bien obtenir ces notes. Les auteurs avaient donc, après la sélection randomisée des élèves, organisés des tests (en mathématiques, en langues…). Mais certains élèves, pourtant sélectionnés, ne se sont pas présentés au test : ce phénomène dit « d’attrition », renvoyant au fait que certains élèves « quittent » le programme et ne se plient pas aux règles de l’expérimentateur, induit un biais dans la comparaison finale. Ici, malgré la mobilisation des examinateurs, le taux d’attrition au test initial mesurant les résultats scolaires et conditionnant la répartition en groupes de niveau était de 18%, soit près d’un cinquième. Le taux d’attrition pour le suivi à long terme était de 22 %, soit seulement 4 points de plus que le taux d’attrition au test final. Le phénomène de l’attrition, même si il est inévitable dans l’étude d’échantillons importants, n’est pas nécessairement un problème dans l’absolu (0% d’attrition est impossible en particulier sur le suivi d’élève). Les chercheurs s’assurent que l’attrition n’est pas plus élevée dans le groupe de traitement que dans le groupe de contrôle. Si c’est le cas, l’attrition ne biaise pas l’estimation.
Bibliographie et Sources :
1 – Florent Bédécarrats, Isabelle Guérin, François Roubaud. 2019. « All that glitters is not gold : the political economy of randomized evaluations in development. » Development and Change, Wiley,, 50 (3), pp.735-762. Cet article controversé affirme que le succès des ECR est principalement dû à un nouveau modèle scientifique à visée lucrative basé sur un mélange de simplicité et de rigueur mathématique, d’attrait pour les médias et les donateurs, et de rendement académique et financier. Ce modèle répondrait aux intérêts et aux préférences actuels du monde universitaire et de la communauté des donateurs.
2 – Pour une réponse : Miguel, E., Kremer, M. 2004., “Worms : Identifying impacts on education and health in the presence of treatment externalities”, Econometrica, vol. 72, No. 1, pp. 159-217. Le déparasitage augmente la participation scolaire de 7% et réduit d’un quart le taux d’absentéisme à l’école primaire au Kenya.
3 – Basé notamment sur le modèle causal de RUBIN : Rubin, D.B., 1974;, “Estimating Causal Effects of Treatments in Randomized and Non-randomized Studies”, Journal of Educational Psychology, Vol. 66, pp 688-701.
4 – Ce fut par exemple le cas du projet Progresa-Oportunidades au Mexique, qui offre une assistance monétaire pour encourager la scolarisation des enfants et des prestations de santé à des familles en situation d’extrême pauvreté. (Voir Bey Marguerite, 2008. « Le programme social PROGRESA-OPORTUNIDADES au Mexique. De Vieilles recettes pour un nouveau modèle», Revue Tiers Monde, 2008/4 (n° 196), p. 881-900. DOI : 10.3917/rtm.196.0881.)
5 – Duflo et al [2006] utilisent ainsi cette méthode pour arbitrer entre la formation des professeurs, des politiques actives encourageant les débats entre les étudiants et la réduction du coût de l’éducation en matière de prévention du VIH/SIDA : Duflo, E., Dupas, P., Kremer, M., Sinei, S., 2006, “Education and HIV/AIDS prevention : evidence from a randomized evaluation in Western Kenya,” Policy Re- search Working Paper Series 4024, The World Bank.
6 – Banerjee, A., Duflo, E., Cole, S., Linden, L. 2007. “Remedying education : Evidence from two randomized experiments in India”, Quarterly Journal of Economics 122 (3), p. 1235-1264.
7 – Donald T. Campbell, 1957. « Factors relevant to the validity of experiments in social settings. », Psychological Bulletin, vol. 54, no 4,, p. 297–312
8 – Angus Deaton and Nancy Cartwright. 2016. « Understanding and Misunderstanding Randomized Controlled Trials », NBER Working Paper No. 22595
9 – Rosenthal R, Jacobson L. 1966. « Teachers’ Expectancies: Determinants of Pupils’ IQ Gains. » Psychological Reports.;19(1):115-118.
10 – Heckman, James, LaLonde, Robert and Smith, Jeffrey, 1999. The economics and econometrics of active labor market programs, ch. 31, p. 1865-2097 in Ashenfelter, O. and Card, D. eds., Handbook of Labor Economics, vol. 3, Part A, Elsevier.
11 – Rapport de la Commission nationale pour la protection des sujets humains dans le cadre de la recherche biomédicale et comportementale (Rapport BELMONT), 18 avril 1979
12 – Esther Duflo, Rachel Glennerster, and Michael Kremer, 2006.« Using Randomization in Development Economics Research: A Toolkit », NBER Technical Working Paper No. 333, JEL No. C93,I0,J0,O0
13 – Duflo, Esther, Pascaline Dupas, and Michael Kremer. 2011. “Peer Effects, Teacher Incentives, and the Impact of Tracking: Evidence from a Randomized Evaluation in Kenya.” American Economic Review, 101 (5): 1739-74.