Comment Bank of England a repensé son data hub en open source

La banque centrale britannique a été très occupée à reconcevoir l’architecture de ses données pour se conformer aux nouvelles régulations et à ses besoins d’évolutivité. Bank of England a déjà évalué sur ces données certains risques liés à l’impact du Brexit.

Après un premier hub dont le déploiement n’a pas été concluant, Bank of England s’est associée avec Cloudera pour relancer une deuxième plateforme basée sur des technologies open source. (Crédit : Eluveitie / Wikipedia)

Au cours des dernières années, Bank of England a radicalement modifié sa façon de collecter et d’analyser ses données en adoptant des technologies open source d’entreprise pour moderniser son infrastructure. Lors du Dataworks Summit, la semaine dernière à Barcelone, Adrian Waddy, responsable technique de la plateforme big data de la banque, et Nick Vaughan, expert en data analytics et modélisation, ont expliqué comment ils ont conçu cette nouvelle plateforme de données et ce qu’ils en ont tiré.

Lorsque Mark Carney a pris ses fonctions de gouverneur de Bank of England en 2013, il a commandé une étude indépendante de l’entreprise qui, une fois publiée, a souligné le besoin de mieux utiliser les données en les centralisant dans une plateforme. Bank of England est en effet responsable de 485 Md£ d’actifs. Et grâce à sa fonction de règlement brut en temps réel, elle traite en moyenne 650 Md£ de transactions par jour. Les équipes techniques effectuent des « stress tests » réguliers pour évaluer si la banque pourrait résister à divers chocs financiers.

Plus de 50 millions de transactions avec l’EMIR

Avec l’introduction du règlement EMIR (European market infrastructure regulation) en 2012, le département informatique de la banque a dû collecter encore plus de données et automatiser le reporting quand c’était possible. Ce qui l’a conduit à repenser son architecture en partant de zéro. A l’époque, l’établissement financier exploitait 128 systèmes d’analyse de données différents et devait gérer parallèlement les coûts générés par leur exploitation.

« Les analystes de la banque s’appuyaient fortement sur le réseau interne pour trouver les données dont ils avaient besoin », a indiqué Adrian Waddy. « Mais même lorsqu’ils parvenaient à les trouver, il pouvait arriver que les données à combiner soient trop volumineuses pour être traitées sur leurs ordinateurs portables et ils n’avaient aucun endroit spécifique pour le faire. » Compte-tenu de la position de Londres, en tant que place financière, et du rôle de régulation de la banque centrale pour les établissements au sein du Royaume-Uni, Bank of England doit collecter environ 50 millions de transactions chaque jour (avec de pic à85 millions). « C’était un changement radical pour nous et nous avions besoin d’une architecture différente », a pointé de son côté Nick Vaughan.

Echec sur la première tentative

Dans la première architecture mise en place, les données provenant des référentiels d’échanges étaient décompressées en fichiers CSV et stockées dans une « zone brute » où un ensemble de schémas et structures uniques étaient appliquées. Elles étaient ensuite chargées dans des tables où elles étaient structurées afin d’être interrogeables via Apache Hive. Cette première itération d’architecture ne s’est pas déroulée sans accroc. « Nous avons eu des problèmes parce que nous n’avions pas les compétences nécessaires en interne à l’époque pour construire nos propres clusters », explique Nick Vaughan. « Et nous n’avions pas les moyens d’investir dans un énorme datalake. Et nous nous sommes vite rendus compte qu’il fallait être accompagné. » Le fournisseur choisi – que la banque ne nomme pas – devait construire et configurer l’infrastructure de stockage et installer un logiciel par-dessus. Mais, quelques semaines avant la date de mise en service prévue, le fournisseur a arrêté le produit. Nick Vaughan s’en désole : « Les défaitistes et autres s’en sont donné à cœur joie pour nous accuser d’avoir fait une erreur désastreuse. Et les communications autour de cela ont été difficiles à ce moment-là.

Après coup, nous nous sommes rendu compte que nous étions tout de même passés de rien à la mise à disposition de nos analystes d’un accès aux données EMEA », souligne l’expert en analytique. « Nous avons aussi énormément développé nos compétences en peu de temps, jusqu’à acquérir la confiance nécessaire pour construire notre deuxième data hub. Il sera cinq fois plus grand et fonctionnera dans plusieurs datacenters. Pour le moment, ça démarre doucement mais nous allons en tirer beaucoup de valeur. » Un exemple d’apport immédiat est que ce hub a permis aux chercheurs de la banque d’étudier l’impact que le Brexit pourrait avoir sur les marchés dérivés au Royaume-Uni. « Nous avons la responsabilité de signaler ce que nous considérons comme un risque pour le système financier », précise M. Vaughan. « Il y avait un risque qu’il y ait des contrats d’opérations sur des produits dérivés ouverts aux alentours de 41 000 milliards de livres sterling qui seraient incertains – à quelques mois de quitter l’Union européenne. Heureusement, parce que nous disposions de ces jeux de données et que nous avons rendu cette information publique, les personnes concernées par ce risque important ont pu le gérer et l’atténuer, de sorte que la situation s’est maintenant améliorée. »

Deuxième itération avec Cloudera

Bank of England se prépare donc aujourd’hui à lancer la deuxième itération de son data hub. Réalisé en étroite collaboration avec Cloudera – spécialiste d’Hadoop qui a désormais fusionné avec Hortonworks – ce concentrateur de données devrait être prêt l’année prochaine. « L’une des principales différences en termes d’environnement est que nous allons passer d’un seul cluster à trois clusters de production distincts » précise Adrian Waddy. « Cela reflète en grande partie l’offre cloud d’Azure et signifie que nous serons en mesure d’ajuster ces clusters à la charge de travail. » L’idée consiste à avoir le datalake, le cluster d’acquisition qui sera le moteur exécutant le travail, puis un cluster d’interrogation réglé pour disposer d’une faible latence et contenir des données très modernes et un cluster d’analyse composé des mêmes données auxquelles pourraient s’ajouter certaines données brutes, si les analystes le souhaitent. »

Pour la gouvernance, la banque utilisera Apache Atlas pour créer une plateforme d’audit des données. M. Vaughan a ajouté que cela aidera l’organisation à avoir une meilleure visibilité sur ce que font les employés, sur les données qu’ils utilisent et sur la façon dont ils en tirent des informations. La nouvelle architecture du hub de données fonctionne sur du matériel hyperconvergé de VMware (VxRack) avec du stockage EMC Isilon, offrant 320 To de stockage « utilisable » et environ 10 To de RAM.

Réduire les coûts

Bank of England a récemment été critiquée par un comité restreint pour ses dépenses informatiques coûteuses et inefficaces. Ces changements feraient-ils donc partie d’un effort plus large pour améliorer la situation ? Nick Vaughan a répondu à nos confrères de Computerworld que « l’examen stratégique de 2014 exigeait une utilisation plus efficace de la technologie, réduisant ses silos, de sorte que, à chaque fois que nous construisons un nouveau système, nous n’avons pas besoin d’une instance de test d’acceptation par les utilisateurs ou d’une instance avec sa propre infrastructure, sa propre gestion et ses frais généraux de licence. En fait, la technologie open source, sur laquelle nous pouvons mettre toutes nos données et les utiliser plus efficacement, nous permet de réduire les coûts et nous donne surtout la capacité d’exploiter de nouveaux ensembles de données. »