Développement du logiciel Cartes & Données : évolutions, fiabilité, ergonomie, performances

Jérôme Barthelemy, directeur technique et responsable R&D du Groupe Articque, revient sur les travaux de développement du logiciel Cartes & Données et sur les optimisations qui lui sont apportées pour améliorer ses performances.

Développement de Cartes & Données,
logiciel de cartographie décisionnelle et de Géomarketing

« Cartes & Données est un logiciel dont la conception remonte à plus de vingt années. Le premier prototype, sur ordinateur NeXT, date de 1991. Depuis cette date, Cartes & Données a évolué, et nous en sommes aujourd’hui à la version 6 du logiciel, avec la version 6.1 dont la sortie est prévue au 15 octobre 2012. Il n’y a donc pas que les logiciels Open Source qui soient pérennes !

Le sujet de cet article, et celui d’autres qui suivront, est dévolu à l’une des conditions de cette pérennité : l’activité de recherche et développement. Il ne sera donc pas question ici des autres conditions, économiques, commerciales et humaines qui sont tout aussi nécessaires. Cet article parle de l’activité de recherche et développement assurée par une équipe de développeurs de talent, qui mettent leur compétence et leur énergie à améliorer le logiciel, le faire évoluer, le corriger : le faire vivre.

Bien entendu, une grande partie de notre activité de développement est dévolue aux évolutions nécessaires de Cartes & Données, son adaptation aux nouvelles normes comme le HTML5, ou les standards de l’Open Geospatial Consortium, ou bien encore l’intégration de nouvelles méthodes statistiques ou de représentation. Mais une autre partie tout aussi importante de notre activité est un travail de fond visant à améliorer

Cartes & Données, du point de vue de sa fiabilité, de son ergonomie et de ses performances. Ce premier article porte plus précisément sur l’amélioration des performances, et en particulier sur l’exploitation des architectures multicœurs dites « architectures parallèles ».

Améliorer les performances : paralléliser

L’amélioration des performances des logiciels, depuis l’avènement de la micro-informatique, repose en premier lieu sur l’amélioration des performances du matériel : cadence des processeurs, capacité mémoire, temps d’accès aux ressources (mémoire vive et périphérique de stockage). On peut en première approximation dire que si la fréquence d’horloge double, et si les performances des autres périphériques s’améliorent dans les mêmes proportions, alors la vitesse d’exécution des logiciels doit doubler.

Toutefois, depuis un certain temps, les choses sont devenues plus compliquées. En effet, les fabricants de micro-processeurs n’arrivent plus à augmenter la fréquence d’horloge (en raison principalement de la chaleur dégagée qui devient trop importante).

Pour améliorer les performances, la nouvelle approche consiste à installer plusieurs unités d’exécution par processeur (on appelle cela les architectures multi-cœurs). Mais les gains en temps d’exécution ne sont plus automatiques. En effet, les logiciels qui n’ont pas été conçus pour tirer parti des ces architectures ne gagnent pas en vitesse. On pourra seulement exécuter plus de logiciels en même temps, mais aucun de ces logiciels ne gagnera en temps d’exécution s’il n’a pas été conçu de manière adéquate.

C’est le cas de Cartes & Données, du moins jusqu’à la version en cours de livraison: il ne tirait pas parti des nouvelles architectures, et l’exécution d’un Organigramme de C&D prend approximativement le même temps sur une machine mono-cœur ou multi-cœurs. En effet, Cartes & Données n’exploite réellement que l’un des processeurs disponibles, ce que l’on peut facilement vérifier à l’aide du « moniteur de ressources » de Windows. Cet utilitaire présente notamment un graphique montrant le pourcentage d’utilisation des processeurs. Voici donc une capture d’écran du moniteur de ressources prise durant l’exécution d’un Organigramme de Cartes & Données (version 6.0.2075, de juillet 2012), sur une machine à 8 cœurs :

Utilisation du processeur par Cartes & Données 6.0.2075

L’utilisation du processeur par Cartes & Données est ici mesurée par le trait orange (à peine au dessus de 10%). On constate que Cartes & Données n’utilise qu’une très faible partie des ressources disponibles – en fait, environ 12,5%, ce qui correspond à 1/8ème de la ressource de calcul disponible – 1 seul processeur sur les 8 disponibles ! Notre objectif est donc de mieux utiliser la puissance de calcul disponible, d’utiliser tous les processeurs. Pour cela, il convient tout d’abord de définir la stratégie adéquate.

Notre stratégie : optimiser les modules gourmands en temps de calcul

Plusieurs stratégies pourraient s’appliquer en première analyse : par exemple, dans le cas de Cartes & Données, on pourrait imaginer d’exécuter des branches particulières de l’Organigramme en parallèle, c’est à dire de lancer l’exécution de modules en parallèle lorsqu’ils sont indépendants l’un de l’autre. Toutefois, cette stratégie ne nous a pas paru adéquate : en effet, Cartes & Données est un logiciel très gourmand en temps d’exécution dans la mesure où certaines opérations, par exemple les opérations de discrétisation, de maillage, d’agrégation ou d’interpolation sont intrinsèquement gourmandes en temps de calcul. Il est donc peu probable que le gain en temps d’exécution de cette première stratégie soit significatif: en effet, si l’on exécute en parallèle deux modules dont le premier met 1/10ème de seconde à s’exécuter, et le second met 10 secondes, le gain attendu sera de 1/10ème de seconde (soit 10 secondes au lieu de 10, 1). Cette première approche n’est donc pas une bonne approche.

Nous avons donc choisi une seconde approche : celle de se baser sur la structure interne des modules eux mêmes, qui, la plupart du temps, effectuent des calculs répétitifs sur beaucoup d’entités, en boucle. L’approche va consister à répartir chaque itération de ces boucles sur les différents processeurs. Le résultat, en termes d’utilisation de la puissance de calcul, peut être illustré en utilisant à nouveau le « moniteur de ressources » de Windows.

Voici une capture d’écran prise durant l’exécution d’un Organigramme de Cartes & Données, version 6.1, (sortie en octobre 2012), sur un processeur 8 cœurs :

Utilisation du processeur par Cartes & Données 6.1

On constate, avec cette version, que l’utilisation de la puissance de calcul est passée de 12,5% à beaucoup plus de 50% (aux environs de 60 à 70%). Nous devons donc nous attendre à constater un gain en performances…

Les résultats

Nous avons donc mesuré les gains en performances. Pour cela, nous avons tout simplement exécuté deux versions du logiciel : la version 6.0.2075 de juillet 2012 (non parallélisée), et la version 6.1 d’octobre 2012 (parallélisée) sur la même machine et nous avons relevé les temps d’exécution de certains Organigrammes typiques, similaires à ceux que l’on trouve dans les exemples du logiciel : un exemple utilisant les modules grille et interpolation, et un autre exemple utilisant le module d’agrégation.

Nous avons mesuré le gain en performances sur une machine biprocesseurs

Nous avons aussi mesuré le gain en performances sur une machine disposant
d’un processeur quadricœurs

Ce que l’on constate ici, c’est donc généralement un gain en performances. Toutefois, on ne constate pas une division par 2 ou par 4 du temps d’exécution, en fonction du nombre de processeurs ! Ceci est dû principalement à deux facteurs : d’une part, tous les modules et toutes les opérations ne sont pas « parallélisés », mais seulement une partie et d’autre part les opérations permettant de répartir les calculs sur les différents processeurs utilisent elles mêmes de la puissance de calcul, ainsi que les opérations nécessaires pour arbitrer l’accès aux éléments partagés comme la mémoire.

Conclusion

Nous avons initié ces derniers mois un travail de fond sur l’optimisation du logiciel. Plusieurs chantiers ont été définis dans ce cadre, tout d’abord le chantier de la parallélisation, dont nous avons vu les premiers résultats. Le gain en performances est mesurable et il nous semble significatif. De plus, Cartes & Données bénéficiera à l’avenir de l’augmentation prévisible de la puissance de calcul des processeurs par la multiplication des cœurs.

Toutefois, le gain prévisible sera limité par la loi d’Amdahl, qui stipule que le gain de performances global est limité par la fraction de temps non concernée par l’amélioration : nous ne pourrons pas paralléliser intégralement le logiciel, et les parties non parallélisables limiteront le gain en performances.

Le constat effectué à l’issue de ce premier travail est double : d’une part, nous pouvons persévérer dans cette voie, car le gain est réel et mesurable. D’autre part, la portée est limitée. Pour poursuivre l’optimisation du logiciel, il y a d’autres pistes que nous mettons en œuvre et parmi celles-ci, celle de la mise en cache des résultats intermédiaires, dont nous reparlerons.

Durant ces derniers mois, d’autres problématiques ont aussi été abordées : celle tout d’abord de la fiabilité du logiciel. Nous avons corrigé au cours des derniers mois de nombreux bugs et défauts du logiciel, mais il reste à faire dans ce domaine ! »

Références

Loi de Amdahl

Gene Amdahl, « Validity of the Single Processor Approach to Achieving Large-Scale Computing Capabilities », AFIPS Conference Proceedings, (30), pp. 483-485, 1967.
>> Lire l’article correspondant sur Wikipedia

Historique du logiciel Cartes & Données

>> Le consulter sur le site d’Articque

Cookie	Durée	Description
AnalyticsSyncHistory	1 mois	Défini par Linkedin. Il est utilisé pour stocker des données sur le moment de la synchronisation avec le cookie lms_analytics pour les utilisateurs dans les pays désignés.
APISID	2 ans	Ce cookie est défini par Youtube. Il permet de lire les vidéos intégrées sur le site.
cookielawinfo-checkbox-audience	11 mois	Ce cookie est défini par le plugin GDRP Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Audience".
cookielawinfo-checkbox-necessary	11 mois	Ce cookie est défini par le plugin GDRP Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Fonctionnel".
cookielawinfo-checkbox-publicite	11 mois	Ce cookie est défini par le plugin GDRP Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Publicité".
c_user	3 mois	Ce cookie est défini par Facebook. Il contient l'ID utilisateur de l'utilisateur actuellement connecté.
HSID	2 ans	Ce cookie est défini par Youtube. Il permet de lire les vidéos intégrées sur le site.
JSESSIONID	session	Used by sites written in JSP. General purpose platform session cookies that are used to maintain users' state across page requests.
OGPC	2 mois	Ce cookie est défini par Google Maps. Il est utilisé pour conserver les préférences et les informations de l’utilisateur lorsqu’une page intégrant GoogleMaps est consultée.
PHPSESSID	Session	Ce cookie est défini par le langage web PHP. Il permet de stocker et identifier l'ID de session unique d'un utilisateur afin de gérer la session de l'utilisateur sur le site web.
SAPISID	2 ans	Ce cookie est défini par Youtube. Il permet de lire les vidéos intégrées sur le site.
SSID	2 ans	Ce cookie est défini par Youtube. Il permet de lire les vidéos intégrées sur le site.
test_cookie	24 heures	Ce cookie est défini par Google. Il permet de vérifier si le navigateur de l’utilisateur prend en charge les cookies.
viewed_cookie_policy	11 mois	Ce cookie est défini par le plugin GDRP Cookie Consent. Il est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies.
visit	1 day	Ce cookie est défini par Plezi. Il permet d'identifier les visiteurs du site.
visitor	1 mois	Ce cookie est défini par Plezi. Il permet d'identifier une visite associée à un visiteur sur le site.
VISITOR_INFO1_LIVE	5 mois	Ce cookie est défini par Youtube. Il permet de lire les vidéos intégrées sur le site.

Cookie	Durée	Description
bcookie	2 ans	Ce cookie est défini par LinkedIn. Il permet d'identifier de manière unique les appareils accédant à LinkedIn afin de détecter les abus sur la plateforme.
CONSENT	Variable	Ce cookie est défini par Google. Il permet de mémoriser vos préférences et d'autres informations tels que les recherches récentes et les interactions précédentes.
datr	2 ans	Ce cookie est défini par Facebook. Il permet d'identifier le navigateur web utilisé pour se connecter à Facebook, indépendamment de l'utilisateur connecté.
lang	Session	Ce cookie est défini par LinkedIn. Il permet de mémoriser le paramètre de langue d'un utilisateur afin de garantir que LinkedIn.com s'affiche dans la langue sélectionnée.
liap	1 an	Ce cookie est défini par LinkedIn. Utilisé par les sites autres que “www.domaines” pour indiquer le statut de connexion d’un membre.
lidc	1 jour	Ce cookie est défini par linkedIn. Il permet de faciliter la sélection des centres de données.
li_gc	2 years	No description
li_mc	2 ans	Ce cookie est défini par linkedIn. Il permet d'éviter les recherches du contenu du membre dans la base de données pour l’utilisation de cookies non essentiels, et il est utilisé pour obtenir des données de consentement de la part du client afin d’appliquer son consentement.
lms_analytics	1 mois	Ce cookie est défini par linkedIn. Il est utilisé pour identifier les membres de LinkedIn dans les pays désignés à des fins d’analyse.
OTZ	1 mois	Ce cookie est défini par Google Analytics. Il permet une analyse globale des visiteurs du site.
sb	2 ans	Ce cookie est défini par Facebook. Il permet d'identifier le navigateur web utilisé pour se connecter à Facebook, indépendamment de l'utilisateur connecté.
sib_cuid	6 mois	Ce cookie est défini par LinkedIn. Il permet de mesurer le comportement des internautes sur le site Internet, notamment les pages visitées par la plateforme Sendinblue.
uuid	6 mois	Ce cookie est défini par LinkedIn. Il permet de mesurer le comportement des internautes sur le site Internet, notamment les pages visitées par la plateforme Sendinblue.
YSC	Session	Ce cookie est défini par Youtube. Il permet de conserver des statistiques sur les vidéos que l'utilisateur a vues.
_ga	2 ans	Ce cookie est défini par Google Analytics. Ce cookie est utilisé pour calculer les données relatives aux visiteurs, aux sessions et aux campagnes et pour suivre l'utilisation du site pour le rapport d'analyse du site.
_gat_UA-8579915-3	1 minute	This is a pattern type cookie set by Google Analytics, where the pattern element on the name contains the unique identity number of the account or website it relates to. It appears to be a variation of the _gat cookie which is used to limit the amount of data recorded by Google on high traffic volume websites.
_gcl_au	3 mois	Ce cookie est défini par Google Adsense. Il permet de stocker et suivre les conversions des utilisateurs de leur service.
_gid	1 jour	Ce cookie est défini par Google Analytics. Ce cookie est utilisé pour calculer les données relatives aux visiteurs, aux sessions et aux campagnes et pour suivre l'utilisation du site pour le rapport d'analyse du site.
__insp_norec_sess	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_nv	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_pad	Session	Défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_slim	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_targlpt	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_targlpu	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_uid	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.
__insp_wid	Session	Ce cookie est défini par Inspectlet. Il permet de recueillir des informations sur la façon dont les visiteurs utilisent et naviguent sur le site.

Cookie	Durée	Description
1P_JAR	Variable	Ce cookie est défini par Google Analytics. Il permet d'afficher des publicités personnalisées en fonction des recherches récentes et des interactions précédentes.
bscookie	2 ans	Ce cookie est défini par LinkedIn. Il permet d'identifié un utilisateur pour le suivi des services intégrés.
fr	3 mois	Défini par Facebook. Il permet de mesurer et améliorer la pertinence des publicités.
fr	3 mois	Ce cookie est défini par Facebook. Il permet de mesurer, d'optimiser et de construire des audiences pour les campagnes publicitaires diffusées sur Facebook.
IDE	13 mois	Ce cookie est défini par Google. Il permet de présenter des annonces Google Ads aux utilisateurs.
lms_ads	1 mois	Ce cookie est défini par linkedIn. Il est utilisé pour identifier les membres de LinkedIn dans les pays désignés à des fins de publicité.
NID	6 mois	Ce cookie est défini par Google. Il permet de mémoriser vos préférences et d'autres informations tels que les recherches récentes et les interactions précédentes.
SID	2 ans	Ce cookie est défini par Google. Il permet d'afficher des publicités personnalisées en fonction des recherches récentes et des interactions précédentes.
SIDCC	3 mois	Ce cookie est défini par Google. Il permet d'afficher des publicités personnalisées en fonction des recherches récentes et des interactions précédentes.
spin	1 an	Ce cookie est défini par Facebook. Il permet de mesurer, d'optimiser et de construire des audiences pour les campagnes publicitaires diffusées sur Facebook.
UserMatchHistory	1 mois	Ce cookie est défini par linkedIn. Il permet de suivre les visiteurs sur plusieurs sites web afin de présenter des publicités pertinentes en fonction des préférences du visiteur.
xs	Variable	Ce cookie est défini par Facebook. Il permet de mesurer, d'optimiser et de construire des audiences pour les campagnes publicitaires diffusées sur Facebook.
_fbp	3 mois	Ce cookie est défini par Facebook Pixel. Il permet de diffuser de la publicité lorsque les internautes se trouvent sur Facebook.

Développement du logiciel Cartes & Données : évolutions, fiabilité, ergonomie, performances

Développement de Cartes & Données,
logiciel de cartographie décisionnelle et de Géomarketing

Améliorer les performances : paralléliser

Utilisation du processeur par Cartes & Données 6.0.2075

Notre stratégie : optimiser les modules gourmands en temps de calcul

Utilisation du processeur par Cartes & Données 6.1

Les résultats

Nous avons mesuré le gain en performances sur une machine biprocesseurs

Nous avons aussi mesuré le gain en performances sur une machine disposant
d’un processeur quadricœurs

Conclusion

Références

Loi de Amdahl

Historique du logiciel Cartes & Données

À propos d’Articque

Contenus récents

Développement du logiciel Cartes & Données : évolutions, fiabilité, ergonomie, performances

Développement de Cartes & Données, logiciel de cartographie décisionnelle et de Géomarketing

Améliorer les performances : paralléliser

Utilisation du processeur par Cartes & Données 6.0.2075

Notre stratégie : optimiser les modules gourmands en temps de calcul

Utilisation du processeur par Cartes & Données 6.1

Les résultats

Nous avons mesuré le gain en performances sur une machine biprocesseurs

Nous avons aussi mesuré le gain en performances sur une machine disposant d’un processeur quadricœurs

Conclusion

Références

Loi de Amdahl

Historique du logiciel Cartes & Données

À propos d’Articque

Contenus récents

Développement de Cartes & Données,
logiciel de cartographie décisionnelle et de Géomarketing

Nous avons aussi mesuré le gain en performances sur une machine disposant
d’un processeur quadricœurs