Petite expérience avec Gephi et les hashtags de Twitter

J’ai beaucoup travaillé avec le logiciel Gephi (d’ailleurs je propose désormais des formations sur cet outil ; voir ici : formation à Gephi) et je me suis livré à un petit exercice en relation avec les hashtags de Twitter (enfin, les « mots-dièse »…). Je me suis demandé s’il y avait des occurrences significatives lorsqu’au moins deux hashtags étaient inclus dans un même tweet. Bref, je souhaitais savoir si deux mots-dièse étaient souvent couplés.

Après avoir demandé une clé d’accès à Twitter, j’ai développé un petit script qui permet d’accéder à la base de tweets à partir d’une requête.

Mon premier test à consisté à scanner les 500 derniers tweets contenant « #mindmapping » et un autre (ou plusieurs autres) hashtag(s). Le résultat est visible ici :

hashtags-mindmapping

 

On constate que « km », « visual », « management », innovation », « edtech », « mindmap », « dashbord », « angers » et « humantalks » sont le plus souvent associés à ce terme.

J’ai relancé le processus avec cette fois le mot-dièse « dataviz » et en examinant 1000 tweets (j’ai éliminé ceux qui n’étaient que des RT pour ne pas fausser les résultats). « bigdata » et « opendata » sont arrivés en tête des associations (sans surprise pourrait-on dire). A ce niveau, le processus a été renouvelé une nouvelle fois avec ces deux termes. On obtient alors, après traitement dans Gephi, le graphe suivant :

hashtags-dataviz

 

Évidemment, on pourrait faire des itérations à l’infini sur « opengov », « cloud », « infographics »,  » sintransparencia », « ddj », etc., etc.

Le résultat de cette petite étude montre qu’assez peu de couples phares de mots-dièse apparaissent dans les tweets. Mais cette photographie devrait être prise à des moments différents (on obtiendrait alors un graphe dynamique) et sur des échantillons beaucoup plus importants.

Pour information, le site http://www.hashtags.org/ fourni d’autres éléments sur l’usage des hashtags.

4 réponses à “Petite expérience avec Gephi et les hashtags de Twitter

  1. Tres interessant. Je suis etonne par ce decoupage si net, avec les 3 hashtags centraux.

    – le hashtag #dataviz devrait etre le plus central, s’il est mentionne dans tous les tweets par definition?

    – #bigdata et #opendata sont evidemment centraux… mais a ce point? Je me serai attendu a une difference moins nette en terme de frequence, vis a vis des autres hashtags. Intriguant!

    1. Merci de votre message et désolé de cette réponse tardive.
      Je me suis peut-être mal exprimé. Il faut plutôt regarder le premier graphe, celui sur #mindmapping. Lui seul est central puisqu’il est trouvé dans tous les tweets, objets de la requête. Ce graphe indique que seul un petit nombre de mots-dièse sont liés avec #mindmapping (km, visual, etc.). Les autres ne sont vus qu’une fois et on peut ainsi en déduire que le deuxième mot-dièse (quand il y en a un) appartient à une classe de termes peu qualifiants (passion, organize, book, html5, etc.) dans ce contexte bien sûr (sans #mindmapping, ils deviennent une catégorie très riche).
      Quand au deuxième exemple, si vous voyez 3 mots clés centraux, c’est parce qu’ils ont fait l’objet de 3 requêtes distincts. La base de données n’a pas été vidée entre chaque requête et elle contient donc la somme de tous les liens. Si j’avais lancé une autre requête sur #marketing (en haut à droite de #bigdata), il aurait lui aussi donné un nœud de taille très importante. Il faudrait sans doute itérer une bonne dizaine de fois pour voir « l’univers » de #dataviz. C’est aussi pour cela que j’ai intitulé ce billet « Petite » expérience…
      J’espère vous avoir éclairé. Merci.

  2. Bonjour merci pour ces exemples très intéressant.

    Est il possible d’avoir une mise à jour de la représentation Big data , Dataviz, Open Data ?
    Existe t il un moteur de rechercher de thématique sur internet basé sur ce principe ?

    Merci d’avance

    1. Bonjour et merci de votre commentaire.
      Cet exemple date (presque 4 ans…) mais il reste valable bien sûr. Pour une « mise à jour » de cette représentation, si j’ai bien compris la question, il faudrait relancer le processus complet, ce qui n’a rien d’impossible en théorie. On ne pourrait sans doute pas l’automatiser par contre, Gephi n’étant pas « scriptable » (il nécessite d’être lancé par un utilisateur, comme un programme lambda).
      Pour votre dernière question, je ne connais un tel moteur de recherche (ce qui ne veut pas dire qu’il n’existe pas).
      Bonne journée.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Anti-spam image