top of page
PYTHON & IRAMUTEQ

MÉTHODOLOGIE

PYTHON

Datasets

Nous disposons de multiples datasets, dans des formats JSON et CSV. Le format JSON possède l'avantage d'être ordonné structurer de la même manière que la plateforme elle-même. C'est la raison pour laquelle nous avons souhaité privilégier l'utilisation des fichiers JSON.

En rapport à notre questionnement, nous avons concentré notre travail sur le fichier articles.json qui contient :

  • Les sources des articles

  • Les arguments développés


Pour analyser la manière dont s'expriment les usagers sur la plateforme, nous avons rédiger un script Python pour extraire l'ensemble des informations concernant les sources et les arguments, avec à chaque fois l'article de référence, la date de publication, l'auteur et le contenu de la publication. Le script est disponible ici.

Rédaction du script
  • Créer une fonction pour manipuler du json et l'appel de fonciton (en bas du script)

  • Ouvrir un nouveau fichier dont l'extension sera csv

  • Lecture du json

  • Création de l'en-tête que l'on ajoute dans le fichier

  • Lecture des données au sein de la fonciton en respectant l'arborescence du dossier


Au final, nous obtenons un fichier csv contenant les colonnes : Article_id ; Updated_at ; Auteur ; Contenu
Attention, il faut veiller à ce que les informations puissent être cohérentes et comparables entre elles.

Le script est disponible ici.

IRAMUTEQ

Le fichier fournit par Julien au format CSV devait dans un premier temps être mis en forme pour Iramuteq. Pour cela nous avons :

  • Crée une première colonne avec "****" qui permet à Iramuteq d'identifier chaque ligne comme un texte à part.

  • Doublé les colonnes contenant les variables qui nous intéressaient. Dans la nouvelle colonne nous avons mis le nom de la variable à créer sous le format suivant : "*var_".

  • Avant la colonne contenant le texte à analyser, nous avons crée une colonne que nous avons laissé vide.

  • Sauvegardé nos données au format txt tab

  • Ouvert le document sous notepad ++

  • Nous avons alors recherché la tabulations doubles (correspondant à la colonne vide avant le texte) et nous avons remplacé cette double tabulation par un retour à la ligne.

  • Nous avons de la même manière supprimé les tabulations simples de façon à obtenir des variables au format "*var_data".

Le fichier txt était alors prêt à être analysé par Iramuteq.

Nous souhaitons obtenir une classification pour mettre en valeur différent type de discours voir différents modes d'énonciation. Nous nous dirigeons donc vers la méthode de Reinert.

Nos segments de textes comprennent 40 mots pleins, ces segments vont être réarrangés par Iramuteq (nous gardons le paramètre d'origine qui propose 10 tentatives de réarrangement) afin d'analyse les similitudes entre eux proposant une classification hiérarchique descendante.

bottom of page