Interviews

Entretien avec Jocelyne Delarue et Tanguy Bernard

Voir biographie Jocelyne Delarue
Voir biographie Tanguy Bernard

Date : mercredi 10 mars 2010
Lieu : dans les locaux de l'AFD
Membres du groupe présents : Léa

Quels sont selon vous les critères microéconomiques qui permettent de déterminer l'impact de l'aide? Ceux de l'UE?

Ces critères sont assez consensuels, a peu près ceux de la Commission Européenne . Ceux utilisés par l'AFD sont quasiment les mêmes, ils s'alignent sur ceux du CAD (Comité d 'Aide au Développement de l'OCDE).
La durabilité est le critère le plus difficile à remplir, mais on le voit assez vite, parfois, les projets sont arrêtés 2 ans après, quand les financements de l'AFD se sont arrêtés.

En fait, le débat se concentre plus sur les méthodes d'évaluation que sur les critères. Il y a quatre types de produits d'évaluation. Toutes sont des évaluations d'impact, même si ce terme est maintenant surtout utilisé pour les expériences aléatoires.

Avant, le rôle de l'évaluation n'était pas assez développé, c'était un poste de fin de carrière. Il n'y avait pas de liberté de choix de l'évaluation, et on n'évaluait pas tous les projets... Il n'y avait pas non plus de demande d'évaluation indépendante et systématique.

Il y a donc quatre types de produits d'évaluation. La division d'évaluation de l'AFD a été réformée en 2006. Auparavant elle était rattachée au management, maintenant, elle est rattachée à la division stratégie, recherche. Donc les produits sont souvent nouveaux.

Les évaluations décentralisées

Avant, on évaluait seulement 15% des projets. Maintenant, l'évaluation est systématique. On essaie de développer les évaluations faites sur place, d'associer des partenaires locaux. Les évaluations sont donc externes. Les évaluations étant systématiques depuis peu de temps, on n'a pas assez de recul pour voir comment ça va être utilisé (changer les programmes, voir si l'on continue d'intervenir dans un secteur? D'être porteur de dialogue?). En général, le projet suivant a déjà commencé quand on évalue, donc l'évaluation ne peut pas permettre de l'orienter. On fait des recommandations pour les prochaines interventions dans le secteur, mais on ne vérifie pas si elles sont appliquées. On évalue 1 ou 2 ans après la mise en place du projet.
L'impact n'est pas mesuré sur des critères rigoureux, mais sur des dires d'acteurs. Ce n'est pas fiable précisément, mais cela permet d'avoir des image globale de l'efficacité d'un projet. De plus, on peut évaluer plus de programmes, car c'est moins cher.
Par exemple : le prix du caoutchouc a augmenté énormément. Les personnes gagnent plus d'argent et disent que cela les a aidé. Mais il n'y a pas de groupe de contrôle. Pour 40 jours de mission, cela coûte 20000 euros.
Un autre exemple : le rapport sur un projet de piste d'atterrissage au Sénégal. Il y a eu tellement de problèmes dans la mise en œuvre du projet (délais supplémentaires, besoin de faire un pont qui n'était pas prévu). Dans ce cas, il aurait été inutile de faire une expérience aléatoire, car on voit déjà le problème. En plus, on ne peut pas faire un groupe de contrôle dans le cas d'une infrastructure.

Les évaluations stratégiques

Il s'agit de choisir une thématique transversale et explorer plus à fond, sur plusieurs projets, tous les effets. C'est plus poussé plus cher car on emploie des experts qualifiés internationaux ou locaux dans les autres. L'implication de l'AFD est plus grande, mais cela soulève la question sur les instruments de l'AFD.

Les expériences aléatoires

La plupart des bailleurs contribuent à des fonds d'évaluation d'impact, (Banque Mondiale, Fondation Gates...). L'AFD voulait, pour décider si elle voulait faire ce type d'évaluations, d'en mener en interne. Elle a commencé notamment avec une étude sur l'impact du micro-crédit en milieu rural marocain, piloté en interne. Ce sont des exercices lourds, qui coûtent environ 100 000€, menés sur plusieurs années et qui nécessitent une forte collaboration entre bailleur-chercheur-opérateur (association de micro-crédit). L'étude sur l'impact du micro-crédit au Maroc était une stratégie de déploiement en milieu rural, dans certains villages mais pas dans d'autres (randomisation) pendant 2 ans. Cela représente un coût pour l'association et les personnes qui n'ont pas bénéficié de l'aide; c'est très intense en termes de collecte de données (5000 à 6000 ménages). On change d'échelle d'évaluation. Il y a actuellement deux expériences aléatoires en cours à l'AFD, qui représentent une partie importante du budget.

Les méthodes d'appariement sont intéressantes aussi, puisqu'elles sont une alternative aux expériences aléatoires (on crée le groupe contrôle ex post).
Par exemple : le micro-crédit à Madagascar. Parmi ceux qui ont eu accès, et ceux qui n'ont pas eu accès, on essaie de trouver des similarités, sur des caractéristiques observables (plus grande maison, famille, terre). Les résultats sont proches de ceux obtenus par randomisation.
Au delà de la démarche statistique, il faut des démarches qualitatives, car mesurer sur quelques indicateurs ne permet pas d'évaluer tous les impacts. Si l'on constate que les gens prennent moins de crédit que prévu, il faut une étude complémentaire pour comprendre pourquoi. Même si cela est difficilement généralisable (car milieu rural enclavé), on a une vision entière d'un cas, ce qu'on ne peut pas faire avec un questionnaire qui n'est gérable à grande échelle que si les questions sont fermées.

Le débat sur les évaluations

C'est un débat clivé L' AFD quant à elle, a une position centriste. Certains en pensent qu'à la randomisation, que tout ce que l'on avait fait avant était inutile. D'autres disent que les expériences aléatoires ne permettent pas de tout voir.
Les sociologues sont souvent opposés aux expériences aléatoires.
Certains économistes disent que même d'un point de vue économétrique, il faut « mettre de l'eau dans son vin ». Selon l'AFD, les expériences aléatoires ne sont pas intéressantes pour n'importe quel programme, c'est une « ossature sur laquelle il faut rajouter de la chair ». Il faut continuer les autres évaluations quand on ne peut pas faire des expériences aléatoires.

Il ne faut pas oublier que l'impact n'est qu'un des critères d'évaluation. Les expériences aléatoires ne sont qu'une technique parmi d'autres pour évaluer l'impact.

Il faut recouper des données, des preuves, différentes sources : si la conclusion est la même, elle est sans doute juste. Cela permet de définir des théories (par exemple : il faut un minimum d'éducation pour comprendre qu'il faut aller à la clinique). L'identification des hypothèses est un travail qualitatif.

Il y a 2 approches opposées. Celle des économistes, qui dit que tout le monde est pareil, seules les contraintes changent, et on les connait. Les évaluations d'impact permettent de tester telle façon de lever la contrainte, telle autre façon. Et celle des anthropologues avec des schémas des raisonnements différents selon l'environnement, il faut en fait une analyse approfondie.
La position médiane existe aussi : on ne connait pas toutes les contraintes. Cela nécessite du terrain, du qualitatif pour comprendre les contraintes, et du quantitatif et de la théorie pour généraliser les comportements.

Sur la controverse : Free Distribution or Cost Sharing?

Pensez-vous qu'il vaut mieux donner des biens, pour toucher largement la population, y compris les plus pauvre, ou les vendre à un prix modique, pour que les gens donnent plus de valeur au bien et les utilisent mieux?

Ce sont des décisions politiques ou de bailleurs. Les scientifiques apportent des éléments aux autorités des pays et à la communauté internationale, et décident ce qu'ils veulent promouvoir. S'ils décident de donner les moustiquaires, on peut déstructurer des filières locales, il y a un risque de non-reconduction: lorsqu'ils partent, personne ne prendra le relai. Ce choix n'est pas le rôle des évaluateurs.

La Déclaration de Paris (DdP) donne des indicateurs beaucoup plus qualitatifs que quantitatifs. Est-elle réellement utile pour évaluer votre action avec les pays partenaires, ou vous sert-elle seulement de "profession de foi", de bons principes à garder à l'esprit?

La DdP permet des évaluations conjointes avec autres bailleurs. Ce sont les ministères locaux qui s'associent à l'évaluation, contribuent à la réflexion sur leur propre politique, car on s'aligne sur leur politique quand on fait un projet.

La réforme générale des politiques publiques (RGPP) a regardé l'aide au développement. À l'AFD, les évaluateurs sont sollicités pour fournir des résultats aux tutelles (ministères des finances, autres ministères).
L'AFD avait surtout évalué ex ante. La RGPP a demandé ce qui se faisait réellement, ex post. Beaucoup de projets ne peuvent être évalués (exemple : financement parmi d'autres d'un prêt).

Entretien avec P.A. Delhommais

Voir biographie

Date : mercredi 17 février
Lieu : rédaction du journal Le Monde
Membres du groupe présents : Marie-Louise et Meghann

Vous évoquez dans votre article paru le 25 octobre 2009 « Plus de Moyo, moins de Bono » l’existence d’une controverse autour du livre l’aide fatale de D. Moyo…

J-M. Severino [Directeur général de l’AFD depuis 2001] accuse D. Moyo de relayer un discours super conservateur, super égoïste, d’anti aide, d’anti politique sociale.

Quels sont les outils pour évaluer l'éfficacité de l'aide ?

Ce n’est pas évident d’évaluer l’efficacité de l’aide. A ce sujet, il existe une polémique entre J. Sachs et D. Moyo. D. Moyo donne l’exemple de pays qui s’en sont très bien sortis en Afrique, sans beaucoup d’aide. Sachs dit que ce n’est pas vrai, en donnant notamment l’exemple du Ghana : ces pays sont en fait ceux qui ont reçu le plus d’aide. Il existe différentes mesures de l’aide d’autant plus qu’elle peut prendre de nombreuses formes telles que l’annulation de dettes, les prêts, etc. Il faut également faire la distinction entre aide publique/privée et il y a aussi le problème de la fiabilité dans la mesure de l’aide. Est-ce que l’aide est efficace ? Cette question dépasse le cadre économique, il faut prendre en compte la mortalité, le développement humain, le PIB par habitant, le niveau d’éducation, la mortalité infantile, l’espérance de vie. Ces critères restent objectifs mais ils font déjà l'objet d'un débat dans les pays développés où l’important n’est pas tellement de savoir si l’aide permet d’élever le PIB par habitant mais de lutter contre l’extrême pauvreté (moins d'1$ par jour), ce qui est difficile à savoir. Il y a en plus un problème de statistiques en Afrique et J. Sachs et D. Moyo ont des chiffres opposés.

Avez-vous entendu parler du Poverty Action Lab qui mesure l’efficacité de l’aide à partir d’expériences aléatoires?

Non, mais cela semble intéressant. La mesure de l’efficacité de l’aide, c’est grosso modo le taux de croissance. L’aide est d’autant plus efficace qu’elle permet à un pays de connaître un taux de croissance supérieure à la moyenne des autres pays.

Mais est-ce que ça ne pose pas de problèmes de ne regarder que l’aspect quantitatif ?

C’est aussi un débat dans les pays développés. On a notamment beaucoup parlé du rapport Stiglitz. [Rapport qui identifie les limites du produit intérieur brut (PIB) comme indicateur de performance économique et de progrès social] Le Rapport Stiglitz remet en cause le PIB, la création de richesse. Ce ne sont pas de bons indicateurs du développement du bien être économique. La question se pose déjà dans les pays industrialisés. A la limite, en Afrique, c’est plus simple, les gens ont le choix entre mourir de faim, jeune de maladie, etc. donc l’indicateur de l’espérance de vie est un bon indicateur du développement économique réel et de l’efficacité de l’aide. Mais des telles mesures restent générales et contiennent beaucoup de données; il est donc difficile de voir l’impact d’une mesure en particulier. Ce que dit D.Moyo, c’est que les chinois savent faire : ils ne font pas de dons sans retour sur investissement, c’est du donnant/donnant. Par exemple, ils construisent des infrastructures, en échange de parts dans des entreprises. Ils font de l’aide pour récupérer des matières premières, pour faire du business, pour gagner de l’argent et c’est plus efficace ! L’aide chinoise n’est pas comme l'aide occidentale, fondée sur la compassion, où l’on n’attend pas vraiment de retour financier. L’aide occidentale est bien plus dans rôle d’assistance, sans véritable contribution au développement économique et cela rend la mesure de l’efficacité de l’aide plus difficile car ce ne sont pas des projets où on peut mesurer le retour sur investissement.

Comment savoir à quels acteurs accorder du crédit ?

C’est très dur, un article surprenant du Financial Times prend la défense de D. Moyo et montre la campagne des ONG montée contre elle, on est surpris ! Quant à l’étude de J-M. Severino, publiée dans le journal, qui dénonce D. Moyo, il faut savoir qu’il est payé 500 000euros par an pour dire que l’aide est utile. Quand j’ai écrit ma chronique, j’ai reçu beaucoup d'e-mails pour me dire « bravo », notamment de la part de personnes qui habitent en Afrique et qui me disent : « vous verriez comment son logés les gens qui travaillent pour les ONG, ils louent des palaces quatre fois le prix du marché. ». Le discours est très biaisé : les gens les plus favorables à l’aide sont ceux qui en vivent. J’ai été sensible au discours de D. Moyo parce qu’elle n’en vit pas, son discours a plus d’authenticité, il est plus crédible. C’est énorme, l’argent des ONG ! Il ne faut pas s’arrêter à ça mais il ne faut pas l’oublier non plus. Il y a eu une campagne très bien orchestrée par les ONG pour détruire les thèses de D. Moyo. J’aime bien Pierre Jacquet (économiste du développement), lui aussi vit de l’aide, mais il en voit bien les défauts. On sait pas combien d’argent est injecté, on ne sait pas où va l’argent,…
Depuis deux jours, il y a une polémique sur la diminution de l’aide au développement par les pays riches dont la France. Ce n’est pas de l’argent en moins, comme ça, mais plutôt une reprise de dette. On n’arrive pas avec des valises de dollars en Afrique, ce n’est pas comme ça que ça marche.
Ce n’est pas facile de mesurer l’aide versée, l’efficacité de l’aide, encore moins dans les pays africains où l’outil statistique n’est pas au point. Maintenant les débats sont un peu idéologiques quand il s’agit de savoir quelles peuvent être les modalités efficaces de l’aide. D. Moyo n’est pas toujours contre l’aide, mais elle dit qu’elle est parfois contre-productive. Elle n’est pas contre les aides d’urgence (Haïti) mais elle est contre l’aide en général.
Il y a longtemps que l’on a l’idée de l’aide compassionnelle, mais maintenant, avec Robert Zoellick à la Banque Mondiale, cela change un peu, l’aide se fait plus « à la chinoise », avec des projets d’infrastructure plus ciblés, pour donner aux pays les moyens de se développer eux-mêmes.

On est également en train de contacter l’AFD…

Chez l’ADF, ils ne vont pas vous dire que l’aide c’est mal.

Quelles recommandations pouvez vous nous faire pour la suite de nos recherches ? 

Lisez Le Fardeau de l’Homme Blanc de William Easterly. C’est un livre moins polémique que L’Aide Fatale, plus scientifique avec beaucoup d’études scientifiques et de références. Vous pouvez essayer de contacter D. Moyo ou les universitaires en référence des livres. Sur la mesure de l’efficacité de l’aide, les américains sont beaucoup plus avancés que les français.

Entretien avec l'ONG Seva Mandir

Voir biographie

Date: 4 Avril 2010
Membre du groupe: Meghann

Pourquoi Seva Mandir a-t-elle décidé de participer aux expriences des économistes? Comment avez-vous connu Esther Duflo?

Nous avons d'abord connu le professeur Abhijit Banerjee, et nous avons commencé à travailler avec lui en 1996. Esther Duflo était alors son élève et nous l'avons connue par l'intermédiaire du professeur Banerjee. Nous avons décidé de travailler avec eux car nous avons toujours été intéressés de comprendre l'efficacité de nos actions, et les deux économistes ont apporté de nouvelles perspectives pour nos efforts d'évaluer notre aide, ainsi qu'une nouvelle méthode d'évaluation.

Au cours d'une expérience décrite dans le papier « Improving Immunization Coverage in Rural India: a Clustered Randomized Controlled Evaluation of Immunization Campaigns with and without Incentives » vous avez dû choisir 60 villages parmi 134. Est-ce que le fait de choisir au hasard ces villages pose un problème selon vous? Considérez-vous que les expériences aléatoires soient injustes pour le groupe de contrôle qui ne reçoit pas l'aide, contrairement au groupe de traitement?

Nous sommes une ONG fondée sur la communauté et nous travaillons depuis très longtemps avec ces villages. Grosso modo, nous travaillons dans environ 600 villages, mais toutes nos activités ne touchent pas les 600 villages en même temps. Nos actions diffèrent de village en village, en fonction de la disponibilité des fonds, du personnel et des préférences de la communauté. Par conséquent, la randomisation ne nous est pas apparue comme un problème éthique important. Aujourd'hui, après l'arrêt de l'étude, nous continuons cette méthode, et même maintenant nous ne sommes en mesure de la mettre en place que dans 65 villages puisque nous n'avons pas assez d'argent pour l'étendre. Donc ne pas être sélectionné pour un programme (comme les groupes de contrôle), même si ce n'est pas totalement juste, est une caractéristique des aides au développement.

Comment le groupe de contrôle réagit-il aux expériences aléatoires? Sont-ils au courant de leur existence?

Dans la plupart des cas, oui, ils sont au courant des expériences aléatoires. Dans ce cas, le groupe de contrôle sait que dans d'autres villages une approche différente de l'immunisation est en cours d'essai.

Selon vous, quels sont les critères les plus importants pour déterminer si l'aide est efficace ou non?

De notre point de vue, un aide est efficace si elle contribue à la hausse de l'autonomie et du libre-arbitre dans la prise de décision des individus ou des institutions.

Avez-vous entendu parler du livre “L'Aide Fatale” de D.Moyo? Si oui, qu'en pensez-vous?

Non, nous ne sommes pas au courant de cela.

Interview avec Thomas Mélonio - 12 Mai 2010

Voir biographie

Dans le carde de cette controverse économique, nous avons étudié jusqu'à présent quatre méthodes d'évaluation de l'efficacité de l'aide. Pouvez-vous nous donner un exemple de méthode alternative à la randomisation ou à la méthode décentralisée?

La méthode de régression discontinuité, qui utilise des seuils qui limitent par exemple l’accès à une politique publique, est une technique alternative à la randomisation qui d'un point de vue éthique est parfois moins facilement justifiable.

    A l’AFD, on a mis en place, entre autres, 3 projets d'études pour évaluation d'impact:
  1. Un projet dirigé par Esther Duflo au Maroc: micro-crédit rural, la randomisation n'étant pas trop complexe: i.e.: on pourrait potentiellement ouvrir un grand nombre de caisses de micro-crédit, mais on ne pouvait financièrement en ouvrir qu’un nombre limité. On a donc randomisé sur 88 villages. C'est ce qui s'est passé: on a donc une randomisation presque « naturelle ». Le vrai débat éthique porte sur le « phasage » d’un tel projet. Pour que les effets soient détectables, il fallait qu'il y ait une certaine période avant l’extension du projet : peut-on limiter, parfois volontairement, l’expansion d’un projet ?

  2. Un projet de micro-assurance au Cambodge.

  3. Un projet d'expérience quasi-naturelle qui s'appuie sur la discontinuité. Il s'agit d'un système de crédits pour les études supérieures, où l'on évalue la crédibilité des demandeurs de crédit: s'ils sont au dessus du seuil fixé par l'organisme Eduloan, le taux d'obtention d'un crédit est d'environ 60%.
    Il faut comparer les personnes situées juste en dessous ou juste au-dessus du seuil, qui ont presque les mêmes caractéristiques, mais pas le même taux d'obtention du crédit: une partie d'entre elles a obtenu un crédit, l'autre partie n'ayant pas obtenu l'accord d'Eduloan. On a ainsi obtenu un groupe de contrôle et un groupe de traitement quasi-naturellement.
    On peut se poser la question si avoir des seuils est intelligent ou pas. Ce n'est donc plus la même question que la randomisation. L'intérêt de cette question c'est de mettre en évidence que le management d'Eduloan a décidé par lui-même d'avoir un seuil d'acceptation pour le crédit . L'AFD a pris ce seuil pour l'étudier, mais elle ne l'a pas mis en place elle-même, et elle s'est appuyée sur les bases de données d'Eduloan. C'est donc une expérience quasi-naturelle puisque c'est l'organisme lui-même qui a choisi le seuil et aussi parce que les groupes se sont formés quasi-naturellement Grâce à cette méthode, nous pouvons déduire l'impact du crédit sur l'inscription à l'Université des bénéficiaires.

Une autre méthode en économie c'est la « Diff-en-Diff » (différence en différence). Nous avons utilisé cette méthode toujours au sein du projet d'Eduloan, mais nous avons ciblé deux années particulières. Entre 2007 et 2008, au sein même du groupe de traitement (au dessus du seuil), il y a une grande différence de taux d'obtention de crédit: en 2007 ce taux était de 40% tandis qu'en 2008 il n'était que de 20%. Ce sont deux groupes comparables. De plus, nous avons comparé aussi les groupes de contrôle, qui eux, avaient obtenu le même taux, quelque soit l'année d'étude (environ 10%). Il faut savoir qu'avec cette méthode, on obtient un degré de fiabilité très proche de celui de la randomisation, voire même plus d'informations rétrospective si la politique étudiée a été mise en place longtemps en amont. Avec la randomisation, on observerait juste la croissance des inscriptions à l'université grâce au micro-crédit, mais c'est le seul chiffre que l'on pourrait obtenir et ce n'est pas forcément une causalité.
La question que l'on se pose est aussi différente: pourquoi obtenir un crédit a un impact? Si le marché du crédit était « parfait », on n'aurait aucun impact d'Eduloan dans ce segment du marché de crédit. En effet, s’il y avait beaucoup plus d'agences de micro-crédit, les personnes dont la demande de crédit serait refusée par Eduloan se tourneraient vers les organismes concurrents et on n’observerait aucun impact d’Eduloan si les alternatives existaient et étaient identiques. En réalité, ceux qui sont en dessous du seuil d'acceptation ne trouvent pas d'alternative pour un micro-crédit. Cependant, 50% de ceux-ci vont tout de même à l'université. Cela signifie qu'ils trouvent cet argent ailleurs, dans leur famille par exemple. En fait, obtenir un crédit augmente de 25 points l'inscription à la faculté (75% des personnes qui ont obtenu ce crédit s'inscrivent à l'université). En plus de l'impact positif sur le taux d'inscription dans le supérieur, on en déduit que dans cette région il n'y a pas d'alternative à Eduloan pour trouver un crédit.

La randomisation est en fait une vraie expérience tandis que les méthodes de la discontinuité ou de différence de différence sont des quasi-expériences.

Les expériences aléatoires posent effectivement parfois un problème éthique, mais aussi et surtout un problème de coût et de pérennité. Par exemple, l'étude par la régression-discontinuité à partir des données d'Eduloan coûte environ 3 fois moins cher qu’une randomisation, et il aurait été très difficile de prolonger sur cinq à six ans une randomisation en séparant deux échantillons distincts. Il faut donc trouver des projets à évaluer avec des délais de réalisation assez courts et qui ne coûtent pas excessivement cher. Si une évaluation dépasse 5% du coût du projet, ce n'est pas nécessairement acceptable pour un organisme qui doit essayer de consacrer un maximum de moyens à des actions effectives de terrain. Cela n'a de sens que si le projet est réplicable ailleurs dans des conditions proches, donc la validité externe des résultats est très importante. Étendre les résultats d'une région à un pays entier reste possible dans certains cas, même si cela s'avère souvent difficile. Il est plus difficile de projeter des résultats d’un pays à un autre, deux pays ne pouvant jamais être totalement comparés. Et dans tous les cas, la validité externe de résultats micro n'est jamais totale. Ainsi on peut se demander quels sont les bons paramètres de la montée en généralité? Est-ce qu'un projet du type « Eduloan » aurait le même type d'impact en Algérie ou au Vietnam par exemple? Si de plus on prend en compte le fait que les économies des pays en développement sont très différentes entre elles, l'extrapolation devient acrobatique.

L'AFD procède-t-elle à la généralisation et à l'extension des résultats?

L'extrapolation n'est pas un processus très scientifique. En général, on divise les analyses post-résultats économétriques en deux parties: la validité externe et le coût-efficacité, ce qui pose un double problème théorique. Par exemple, on a estimé en France que le RSA conduisait à une: augmentation de 3% à 3,3% du retour à l'emploi pour les bénéficiaires. Sachant qu’il coûte 2 milliards € par an qu’ il faut prélever dans les impôts d'une partie de la population, si les bénéfices de la population bénéficiaire du RSA sont inférieurs à ceux de la partie de la population imposable, alors on ne peut pas parler d'impact positif. En effet, en microéconomie il y a un équilibre partiel qui pose un problème lors du passage à la macroéconomie. Par exemple, la population ayant bénéficié d'une certaine mesure économique peut amener à conclure qu’il y a un équilibre partiel positif (la mesure a eu un effet positif), mais d'un point de vue macroéconomique, l'équilibre total peut être négatif car la mesure pourrait avoir un effet négatif sur la population non traitée ou non-étudiée. De même, on ne sait rarement comment aurait pu évoluer le groupe de contrôle si l'on n'avait pas agi sur le groupe de traitement. Dans certains cas, on peut tout de même ignorer cet effet, il faut en fait rapporter le coût du projet à l'impact mesuré. Malheureusement, il y a peu d'articles qui mesurent le coût-efficacité. On doit comparer des projets ayant le même objectif mais avec des coûts différents.

Que pensez-vous de la critique à propos de l'utilisation des pays en développement comme des laboratoires?

nIl est vrai qu'en économie nous avons tendance à utiliser les pays en développement (PED) comme terrain d’expérimentation mais ce n'est pas pour autant que l'on ne le fait pas dans les pays développés (PD). Cependant, dans les PED il y a plus de facilités à travailler avec les ONG. L'évaluation devient elle-même un projet de développement. Effectivement, il y a parfois un coté « terrain de jeu ». C'est vrai pour les PED, mais par exemple au États-Unis, les expériences économiques se font depuis longtemps, et parfois le coté ludique l'emporte sur le sérieux. Il arrive qu’on expérimente des politiques qui coûtent très peu cher et qui ont un très faible impact (ou alors peu généralisables): comme le montre l'exemple des panneaux « flip-charts » au Kenya, qui étaient censés apprendre à lire aux enfants. L’évaluation a montré que cela a peu ou pas d’impact. L'impact est ultra-marginal: peut être que l'on a répondu à une question précise, mais c'est tout ce que l'on peut en tirer.
En Zambie, lors d'une évaluation, une équipe a voulu répondre à la question « faut-il que les hommes soient présent dans les ateliers d'apprentissage des méthodes de contraception? ». Ceztte politique ne coûte rien, mais l'impact est aussi très faible . Le résultat est qu'en Zambie il vaut mieux qu'ils ne soient pas là. Cependant il faut des effectifs très grands pour pouvoir mesurer un tel impact, ce qui entraîne un coût supérieur à la mise en place même du programme. De plus, la validité externe n'est pas assurée. Dans ce cas-ci, il aurait mieux valu évaluer quelque chose de plus significatif.
Une des explications de la prolifération des expériences économiques est que pour les chercheurs, la vraie incitation c'est de publier des articles qui soient sélectionnés dans des conférences et des revues de bon niveau. La démonstration d'un impact positif n'a, en principe, aucune influence, mais aujourd'hui, une des vraies failles du système des conférences et des revues, est que la pertinence des politiques économiques évaluées n'est un critère que marginalement pris en compte par rapport à la robustesse de la technique d’identification utilisée, et c'est bien souvent dommage.

Pourquoi les économistes plus jeunes (moins de 45 ans) préfèrent-il randomisation?

Je pense qu'il s'agit en partie d'une fracture générationnelle. Les techniques expérimentales sont enseignées depuis assez peu de temps, en tout cas de manière aussi généralisée. Il y a des économistes qui ont été habitués uniquement aux techniques multivariées classique, ou encore au « matching » où l’ on a un échantillon de base, et où l’on essaye d'en créer un autre avec les mêmes caractéristiques observables. Mais c’est souvent suffisant car dans tout échantillon il y a aussi des caractéristiques inobservables. Reprenons les « flip-charts » (les panneaux au Kenya): les écoles qui en détenaient obtenaient de meilleurs résultats scolaires. En fait, après l'évaluation rigoureuse, ces écoles avaient adopté les panneaux parce que les professeurs étaient plus motivés, donc les meilleurs résultats scolaires viennent aussi de l'implication des professeurs dans leur travail. On en déduit ainsi l'intérêt méthodologique de la randomisation: adhérer à une expérience c'est déjà un indice de motivation. Sans la randomisation, on risque de surestimer un impact.
De plus, depuis 10 ans, il y a une progression très forte de l'utilisation même des méthodes d'évaluation. L'enseignement de l'économie a changé aussi. Les publications demandent de plus en plus de montrer ce que l'on affirme comme causalité, c'est pourquoi on a recours à la randomisation.
Il y a aussi une autre réalité purement sociologique: dans milieu de l'économie, on publie souvent dans les deux premiers tiers d’une carrière car il faut suivre un cheminement: devenir professeur, avoir l'agrégation. De manière classique pour le milieu universitaire, les économistes ont ensuite souvent des fonctions de direction.

Question: Connaissez vous d'autres débats autour de l'efficacité de l'aide et de sa mesure?

Les vrais débats éthiques ont lieu quand il y a un projet qui coûte cher ou lorsque l'on va donner de l'argent à certaines personnes mais pas à d'autres, comme dans les évaluations sur le projet PROGRESA. Celui-ci a été mis en place au Mexique et il consiste à donner des chèques à certaines familles, mais pas à d'autres, afin favoriser la scolarité et la réussite scolaire des enfants. Certains peuvent y voir une injustice. Certes, on peut mesurer l'impact: en équilibre partiel on obtient des résultats positifs pour les familles ayant reçu l'aide, mais en équilibre général c'est tout à fait différent. Il faut payer des impôts pour financer cette politique: tout le monde paye des impôts mais tout le monde ne bénéficie pas des chèques. Pourquoi certains n'y ont pas droit alors qu'ils sont aussi imposables? Une solution serait de donner des chèques, par exemple, pendant 2 ans à une moitié de la population, et à l'autre moitié pendant les 2 années suivantes. Mais durant ces périodes, l'éligibilité d'une famille peut changer et elle ne bénéficiera jamais de l'aide: lorsqu'elle était éligible, elle faisait partie de la partie non-traitée et lorsque cela a changé 2 ans après, elle pourrait ne plus être éligible pour différentes raisons.

Question: Connaissez-vous des acteurs qui se positionnent contre les expériences aléatoires?

Le problème vient de deux critiques jointes: il y a des économistes qui maîtrisent mal des techniques et qui utilisent les arguments éthiques pour contrer les autres. En France, il y a aussi le débat entre les économistes plus « quantitatifs » et ceux plus « qualitatifs », les économistes « qualitatifs » ayant tendance à critiquer les expériences des plus « quantitatifs ».
Néanmoins si l'on regarde le débat sur l'évaluation de l'impact du RSA en France, on observe qu'il en a eu au sein même des économistes « quantitatifs ». La principale expérience en France a donné un impact positif, mais le résultat est incomplet. Il devait y avoir 2 rapports préalables à la généralisation du RSA. Pierre Cahuc a alors démissionné quand il est apparu que la décision allait être prise après la première période intermédiaire, sans que les résultats ne soient connus. Il faut aussi prendre en compte le fait que les départements ayant reçu le RSA étaient volontaires et que les zones du groupe de contrôle étaient moins urbaines: ce n'est donc pas la randomisation « ultime ». On a essayé de tirer au sort des bureaux de Pôle Emploi ressemblants, mais la présélection était déjà faite. Par conséquent, il y a de nombreux biais possibles, même si dans l’ensemble j’estime que cette évaluation a été utile.

Question: Pouvez-vous nous parler un peu de la position de l'AFD, du J-PAL et de la Banque Mondiale (BM) par rapport aux expériences aléatoires, ainsi que du rôle d'Esther Duflo?

E. Duflo, avec Banerjee et bien d’autres au sein du J-PAL, a beaucoup œuvré pour la diffusion des techniques expérimentales aux pays en développement. Ce type d'expériences existait depuis les années 1960 aux États-Unis. On pourrait faire une métaphore en disant que le J-PAL « promeut ou vend » la randomisation, tandis que l'AFD, qui n'est pas dans la même position institutionnelle que le J-PAL, en « utilise ou achète ».

D'autre part, l'AFD procède au financement d’évaluations sur ses propres projets, et la direction de l'AFD a décidé clairement de soutenir les évaluations.

    La Banque Mondiale, quant à elle, ne le fait pas pour deux raisons:
  1. une évaluation pose potentiellement un problème d'autocritique, et comme la Banque mondiale ne finance que des programmes nationaux, il y a une assez grande probabilité de trouver des résultats négatifs, en tout cas sur des parties de programme, à cause de l'échelle plus étendue des projets que ceux de l'AFD (encore que l’AFD finance beaucoup de programmes nationaux, mais ceux si dont difficilement évaluable).

  2. elle fait du financement des projets d'États, non pas à l'échelle régionale (par exemple le projet PROGRESA). Cela rend impossible la randomisation durable et difficile l’expérimentation.

Il faut aussi prendre en compte une dimension plus personnelle, puisque étant donné qu’une évaluation dure longtemps, les économistes développent un lien avec les personnes avec qui ils travaillent et n'ont pas forcément in fine envie de montrer que leur projet et leurs partenaires ont un impact négatif. L'opinion sur les expériences aléatoires peut dépendre aussi de facteurs plus personnels, plus subjectifs, qui bien qu'ils ne soient pas essentiels, existent toujours.

On doit aussi tenir compte d'une différence de philosophie: les économistes qui font des évaluations classiques (procédurales et non économétriques) privilégient aussi l’aspect descriptif (par exemple, savoir si le nombre prévu d'écoles construites a bien été respecté). C'est davantage une vérification de la procédure qu'une mesure de l'impact. Par exemple, si l’on a prévu de scolariser X personnes, est-ce qu'il y en a vraiment autant qui ont été réellement scolarisées? On peut avoir l'impression que l'on va mesurer un impact, mais finalement ce n'est qu'une vérification.
Pour vous donner un ordre de grandeur, les évaluations procédurales décentralisées peuvent coûter environ 15 000€ à 30 000€, cela ne permettant pas de démontrer un impact mais plutôt de faire internaliser aux porteurs de projets l’idée qu'ils seront contrôlées à la fin du projet, tandis qu'une évaluation directe de l'impact peut coûter jusqu’à 400.000-500.000€. La deuxième option est plus scientifique, plus rigoureuse, mais souvent beaucoup plus chère. Elle produit aussi un système d’incitations différents pour le porteur de projets.

Question: Que pouvez-vous nous dire à propos des autres méthodes (capitalisation thématique et méthode stratégique)?

Dans la capitalisation, l’AFD recherche plus loin dans le temps les points communs des projets ayant été couronnés de succès. C'est la recherche du « généralisable ».
Pour la méthode stratégique, nous évaluons des types d’interventions : par exemple l'intermédiation financière, ou le recours à l’assistance technique, qui se situent plus haut dans l'échelle d'analyse (niveau des outils ou des secteurs économiques).

Question: Qu'en est-il des différences entre les indicateurs de l'AFD et ceux de la Déclaration de Paris (DdP)?

A l'AFD nous avons plus d'objectifs que d'indicateurs OMD, et d’autre part nous ne nous contraignons pas avec des indicateurs non-pertinents.

Interview d’Armand Rioust de Largentaye, directeur de l’unité Animation et Prospective de l’AFD

Voir biographie

Date : le 19 mars 2010
Lieu : dans les locaux de l’AFD
Membres du groupe présents: Sarah et Marie-Louise
Durée de l’entretien : 45 minutes

Contenu de l’entretien :

M. Rioust de Largentaye est chargé de la stratégie globale de l’ AFD en tant qu’agence et il la représente à l’extérieur, notamment à l’OCDE. Il est ainsi en contact avec les agences publiques d’aide au développement des autres pays. Puisque c’est lui qui communique à l’extérieur sur les performances de l’agence, on peut le présenter comme le « M. Efficacité de l’Aide » de l’AFD.

Il s’occupe notamment de l’application de la Déclaration de Paris au sein de l’AFD, déclaration qu’il porte en haute estime pour les principes qu’elle érige, même s’il lui reconnaît des imperfections, en pratique, pour l’évaluation des programmes. Il est ainsi convaincu que ses indicateurs sont une bonne base, et qu’ils seront perfectionnés au fil du temps.

Nous l’avons aussi questionné sur la réaction de l’AFD face à l’application de la LOLF [loi organique relative aux lois de finances] qui oblige depuis quelques années l’AFD à rendre des comptes quantitatifs sur ses activités. Il nous a alors appris que l’AFD s’était préparée à cette petite révolution, en commençant à publier ses comptes avant même qu’ils lui soient officiellement demandés. Mais il fait noter que cette évaluation reste pour le moment plus une estimation a priori (budgets alloués par type d’activité) qu’une réelle évaluation d’impact.

Néanmoins, il nous a révélé l’intérêt que l’AFD porte aux expériences aléatoires , mais la nécessité pour eux de se satisfaire surtout d’ évaluations décentralisées , auxquelles ils sont plus habitués et qui sont plus abordables financièrement.

Pour aller plus loin :

Déclaration de Paris
Les expériences aléatoires
Les évaluationss décentralisées
Une méthode, une représentation
Evaluer l'aide au développement : quelle méthode pour quelle aide ?