Petite expérience avec Gephi et les hashtags de Twitter

J’ai beaucoup travaillé avec le logiciel Gephi (d’ailleurs je propose désormais des formations sur cet outil ; voir ici : formation à Gephi) et je me suis livré à un petit exercice en relation avec les hashtags de Twitter (enfin, les “mots-dièse”…). Je me suis demandé s’il y avait des occurrences significatives lorsqu’au moins deux hashtags étaient inclus dans un même tweet. Bref, je souhaitais savoir si deux mots-dièse étaient souvent couplés.

Après avoir demandé une clé d’accès à Twitter, j’ai développé un petit script qui permet d’accéder à la base de tweets à partir d’une requête.

Mon premier test à consisté à scanner les 500 derniers tweets contenant “#mindmapping” et un autre (ou plusieurs autres) hashtag(s). Le résultat est visible ici :

hashtags-mindmapping

 

On constate que “km”, “visual”, “management”, innovation”, “edtech”, “mindmap”, “dashbord”, “angers” et “humantalks” sont le plus souvent associés à ce terme.

J’ai relancé le processus avec cette fois le mot-dièse “dataviz” et en examinant 1000 tweets (j’ai éliminé ceux qui n’étaient que des RT pour ne pas fausser les résultats). “bigdata” et “opendata” sont arrivés en tête des associations (sans surprise pourrait-on dire). A ce niveau, le processus a été renouvelé une nouvelle fois avec ces deux termes. On obtient alors, après traitement dans Gephi, le graphe suivant :

hashtags-dataviz

 

Évidemment, on pourrait faire des itérations à l’infini sur “opengov”, “cloud”, “infographics”, ” sintransparencia”, “ddj”, etc., etc.

Le résultat de cette petite étude montre qu’assez peu de couples phares de mots-dièse apparaissent dans les tweets. Mais cette photographie devrait être prise à des moments différents (on obtiendrait alors un graphe dynamique) et sur des échantillons beaucoup plus importants.

Pour information, le site http://www.hashtags.org/ fourni d’autres éléments sur l’usage des hashtags.