MÉTHODOLOGIE

PYTHON & IRAMUTEQ

PYTHON

Datasets

Nous disposons de multiples datasets, dans des formats JSON et CSV. Le format JSON possède l'avantage d'être ordonné structurer de la même manière que la plateforme elle-même. C'est la raison pour laquelle nous avons souhaité privilégier l'utilisation des fichiers JSON.

En rapport à notre questionnement, nous avons concentré notre travail sur le fichier articles.json qui contient :

Les sources des articles
Les arguments développés

Pour analyser la manière dont s'expriment les usagers sur la plateforme, nous avons rédiger un script Python pour extraire l'ensemble des informations concernant les sources et les arguments, avec à chaque fois l'article de référence, la date de publication, l'auteur et le contenu de la publication. Le script est disponible ici.

Rédaction du script

Créer une fonction pour manipuler du json et l'appel de fonciton (en bas du script)
Ouvrir un nouveau fichier dont l'extension sera csv
Lecture du json
Création de l'en-tête que l'on ajoute dans le fichier
Lecture des données au sein de la fonciton en respectant l'arborescence du dossier

Au final, nous obtenons un fichier csv contenant les colonnes : Article_id ; Updated_at ; Auteur ; Contenu
Attention, il faut veiller à ce que les informations puissent être cohérentes et comparables entre elles.

Le script est disponible ici.

IRAMUTEQ

Le fichier fournit par Julien au format CSV devait dans un premier temps être mis en forme pour Iramuteq. Pour cela nous avons :

Crée une première colonne avec "****" qui permet à Iramuteq d'identifier chaque ligne comme un texte à part.
Doublé les colonnes contenant les variables qui nous intéressaient. Dans la nouvelle colonne nous avons mis le nom de la variable à créer sous le format suivant : "*var_".
Avant la colonne contenant le texte à analyser, nous avons crée une colonne que nous avons laissé vide.
Sauvegardé nos données au format txt tab
Ouvert le document sous notepad ++
Nous avons alors recherché la tabulations doubles (correspondant à la colonne vide avant le texte) et nous avons remplacé cette double tabulation par un retour à la ligne.
Nous avons de la même manière supprimé les tabulations simples de façon à obtenir des variables au format "*var_data".

Le fichier txt était alors prêt à être analysé par Iramuteq.

Nous souhaitons obtenir une classification pour mettre en valeur différent type de discours voir différents modes d'énonciation. Nous nous dirigeons donc vers la méthode de Reinert.

Nos segments de textes comprennent 40 mots pleins, ces segments vont être réarrangés par Iramuteq (nous gardons le paramètre d'origine qui propose 10 tentatives de réarrangement) afin d'analyse les similitudes entre eux proposant une classification hiérarchique descendante.