Dataviz : une variante à une publication du Monde.fr

Choix d’une bonne représentation de données

Il y a environ 4 semaines, les Décodeurs du Monde.fr ont réalisé un article sur la pollution de l’air qui sévit depuis plusieurs jours sur la France et plus spécifiquement sur Paris.

Ce journal, et notamment les articles des Décodeurs, sont une excellente source d’inspiration que je n’hésite pas à citer dans mes formations à la visualisation de données, dans la catégorie « exemples à suivre ».

Mais là, j’avoue ne pas avoir été convaincu par le choix d’une heatmap pour cartographier ces données issues d’Airparif :

heatmap lemonde.fr
Dataviz du Monde.fr

Certes, cette visualisation est interactive et on peut connaitre au jour le jour depuis le 1er janvier 2002, l’indice Atmo et les différents polluants présents dans l’air parisien. Mais à mon avis, cela a été mis en place au détriment d’une vue plus globale de l’évolution de ces paramètres au cours des 15 dernières années, vue globale qui nous permettrait de répondre à la question que l’on se pose tous : comment cette pollution évolue-t-elle dans le temps ?

Il y a de nombreuses manière de représenter des données…

D’où l’idée de vous proposer cette autre représentation :

(suite…)

Visualisation de données : Tableaux de bord avec Google Charts

Un des derniers projets que m’a confié le Smeag (Syndicat Mixte d’Etude et d’Aménagement de la Garonne) était relatif à L’observatoire Garonne, c’est à dire un site qui recense un nombre considérable de données sur l’écosystème de la Garonne et notamment sur les poissons migrateurs et le Plan de Gestion d’Etiage.

Les informations collectées depuis de nombreuses années se présentent sous la forme de données chiffrées et viennent enrichir une série d’indicateurs. Ces derniers devaient être représentés graphiquement de façon aisée par mon client. Ici, pas question de « parler Javascript ». En outre, les formes demandées étaient nombreuses : camemberts, courbes, barres (empilées ou non), aires (empilées ou non), représentation du temps, diagramme de Sankey, scatter plot, etc.

Tableaux de bord avec Google ChartsExtrait d’éléments du tableau de bord de l’Observatoire Garonne

Ma prestation de conseil en visualisation de données a donc débuté par la recherche d’un environnement souple, peu couteux (voire gratuit) qui pouvait répondre aux exigences de mon client.  Même si  plusieurs solutions pouvaient convenir, je me suis tourné vers la bibliothèque Google Charts, qui propose ces types de représentation avec la possibilité, via Google Drive, de disposer de sources de données aisées à mettre à jour . La difficulté a été d’écrire une interface qui masque le Javascript au client mais la mission a été accomplie puisque l’insertion et la modification des graphes et des sources de données est très simple dans le CMS de ma conception. (suite…)

Une dataviz sur le bruit des avions

Avec la mouvance Open Data, de nombreuses données sont disponibles sur le Net et parmi celles-ci, des informations sur la fréquence et le niveau de bruit des avions au voisinage des aéroports. J’avais d’ailleurs écrit un article il y  a quelques mois à partir des données d’un capteur de ma fabrication.

Ce qui suit est cette fois-ci relatif à un système plus professionnel, avec des mesures en décibels (dB) et une horloge précise (woir eans.net).

Ce système génère des graphiques et des tableaux comme celui-ci :

eans.net

Malgré la pertinence et la qualité de ces représentations, difficile de discerner à partir de ces affichages, les données importantes de celles qui ne le sont pas. En l’occurrence, ce qui peut être intéressant, ce n’est pas tant d’avoir connaissance qu’un avion soit passé, mais plutôt de savoir si son niveau de bruit est « acceptable » dans une tranche horaire déterminée.

C’est ce qui m’a conduit à construire la visualisation suivante. Elle ne mentionne que les aéronefs qui ont dépassé des seuils de bruit dans les tranches horaires suivantes :

  • 0H à 6H : 75 dB
  • 6H à 18H : 75 dB
  • 18H à 22H : 75 dB
  • 22H à 24H : 75 dB (suite…)

La dataviz au service de la gestion des territoires

Comment rendre compréhensibles des informations sur la gestion des prélèvements effectués sur le fleuve Garonne ? C’est la question que m’a posé un client toulousain qui travaille dans ce domaine.

Classiquement, pour connaitre les prélèvements effectués sur la Garonne, des responsables d’Unités de Gestion (UG) saisissent les volumes d’eaux prélevés dans des formulaires web et le résultat est ensuite compilé dans une immense feuille Excel. Beaucoup de chiffres donc (fort utiles) mais dont on ne peut rien extraire rapidement : quelles UG (au nombre de 8) sont les plus concernées par ces prélèvements ? Quels affluents sont les plus sollicités ? Comment sont répartis ces m3 d’eaux dans les départements ?…

Comprendre et analyser rapidement un phénomène, observer des tendances, aller à l’essentiel : tels sont les défis de la visualisation de données et en tant que consultant formateur sur des solutions de dataviz, j’ai maquetté un outil basé sur un diagramme de Sankey et la librairie D3.

Voici ce que cela donne (attention, il s’agit bien d’une maquette : les chiffres ne sont issus de la réalité) :

Diagramme de Sankey sur la Garonne - Toulouse

 

Avec ce type de diagramme, il devient aisé de comprendre les flux des prélèvements dans les UG et les départements, et d’apprécier les volumes prélevés dans les rivières et affluents de la Garonne.

J’ai également rendu cette visualisation interactive de sorte qu’au survol des nœuds et des liens de ce réseau, des aides visuelles et des éléments chiffrés apparaissent :

Détail 1

Détail 2

Détail 3

Détail 4

En production, cet outil interagira bien entendu avec la base de données liée aux formulaires de saisie, de sorte qu’à tout moment on pourra effectuer une analyse visuelle.

 

Petite expérience avec Gephi et les hashtags de Twitter

J’ai beaucoup travaillé avec le logiciel Gephi (d’ailleurs je propose désormais des formations sur cet outil ; voir ici : formation à Gephi) et je me suis livré à un petit exercice en relation avec les hashtags de Twitter (enfin, les « mots-dièse »…). Je me suis demandé s’il y avait des occurrences significatives lorsqu’au moins deux hashtags étaient inclus dans un même tweet. Bref, je souhaitais savoir si deux mots-dièse étaient souvent couplés.

Après avoir demandé une clé d’accès à Twitter, j’ai développé un petit script qui permet d’accéder à la base de tweets à partir d’une requête.

Mon premier test à consisté à scanner les 500 derniers tweets contenant « #mindmapping » et un autre (ou plusieurs autres) hashtag(s). Le résultat est visible ici :

hashtags-mindmapping

 

On constate que « km », « visual », « management », innovation », « edtech », « mindmap », « dashbord », « angers » et « humantalks » sont le plus souvent associés à ce terme.

J’ai relancé le processus avec cette fois le mot-dièse « dataviz » et en examinant 1000 tweets (j’ai éliminé ceux qui n’étaient que des RT pour ne pas fausser les résultats). « bigdata » et « opendata » sont arrivés en tête des associations (sans surprise pourrait-on dire). A ce niveau, le processus a été renouvelé une nouvelle fois avec ces deux termes. On obtient alors, après traitement dans Gephi, le graphe suivant :

hashtags-dataviz

 

Évidemment, on pourrait faire des itérations à l’infini sur « opengov », « cloud », « infographics »,  » sintransparencia », « ddj », etc., etc.

Le résultat de cette petite étude montre qu’assez peu de couples phares de mots-dièse apparaissent dans les tweets. Mais cette photographie devrait être prise à des moments différents (on obtiendrait alors un graphe dynamique) et sur des échantillons beaucoup plus importants.

Pour information, le site http://www.hashtags.org/ fourni d’autres éléments sur l’usage des hashtags.

Nouvelles formations en 2013 (au fait, bonne année !…)

Il est encore temps de souhaiter une bonne année 2013 puisque nous ne sommes pas encore à la fin du mois de janvier. Alors BONNE ANNEE A TOUS !

Bonne nouvelle année !

Cette année sera marquée pour Scénario Interactif par le développement du volet formation, notamment sur les thèmes du mind mapping et de la visualisation de données.

J’ai eu le privilège de former en décembre dernier, un service du Bureau International du Travail à Genève pendant 3 jours sur les cartes mentales. Cet enseignement a eu un bon retour et m’a conforté, s’il le fallait encore, sur les bénéfices que procure cet outil tant sur le plan personnel que professionnel. Comme à mon habitude, et parce que cela me semble essentiel pour bien comprendre les fondements des cartes heuristiques, la part qui a été donnée à la création manuelle des cartes était importante. La durée de trois jours est suffisamment confortable pour qu’une journée soit dédiée à l’usage des crayons de couleurs.
En outre, le dessin, la mémoire, « l’espace informationnel » de cet outil peuvent aussi faire l’objet de TP et d’échanges fructueux.

D’autres durées sont proposées ce premier semestre à Toulouse, pour découvrir ou être efficace rapidement dans l’usage du Mind Mapping.

L’autre thème, « la visualisation de données« , remporte un vif succès auprès des enseignants-chercheurs, doctorants et professionnels de l’information que je rencontre à l’Urfist de Toulouse. Cette session d’une journée présente quelques outils logiciels (il y en a tant !), de nombreux exemples, des cas d’études et propose aussi quelques travaux pratiques. Cette journée sera bientôt au programme de l’Urfist de Paris.

Désormais, cette « ouverture » à la visualisation des données est également proposées dans les locaux de Scénario Interactif à Toulouse.

A bientôt sur ces sujets passionnants !

Denis Parade