Petite expérience avec Gephi et les hashtags de Twitter

J’ai beaucoup travaillé avec le logiciel Gephi (d’ailleurs je propose désormais des formations sur cet outil ; voir ici : formation à Gephi) et je me suis livré à un petit exercice en relation avec les hashtags de Twitter (enfin, les « mots-dièse »…). Je me suis demandé s’il y avait des occurrences significatives lorsqu’au moins deux hashtags étaient inclus dans un même tweet. Bref, je souhaitais savoir si deux mots-dièse étaient souvent couplés.

Après avoir demandé une clé d’accès à Twitter, j’ai développé un petit script qui permet d’accéder à la base de tweets à partir d’une requête.

Mon premier test à consisté à scanner les 500 derniers tweets contenant « #mindmapping » et un autre (ou plusieurs autres) hashtag(s). Le résultat est visible ici :

hashtags-mindmapping

 

On constate que « km », « visual », « management », innovation », « edtech », « mindmap », « dashbord », « angers » et « humantalks » sont le plus souvent associés à ce terme.

J’ai relancé le processus avec cette fois le mot-dièse « dataviz » et en examinant 1000 tweets (j’ai éliminé ceux qui n’étaient que des RT pour ne pas fausser les résultats). « bigdata » et « opendata » sont arrivés en tête des associations (sans surprise pourrait-on dire). A ce niveau, le processus a été renouvelé une nouvelle fois avec ces deux termes. On obtient alors, après traitement dans Gephi, le graphe suivant :

hashtags-dataviz

 

Évidemment, on pourrait faire des itérations à l’infini sur « opengov », « cloud », « infographics »,  » sintransparencia », « ddj », etc., etc.

Le résultat de cette petite étude montre qu’assez peu de couples phares de mots-dièse apparaissent dans les tweets. Mais cette photographie devrait être prise à des moments différents (on obtiendrait alors un graphe dynamique) et sur des échantillons beaucoup plus importants.

Pour information, le site http://www.hashtags.org/ fourni d’autres éléments sur l’usage des hashtags.