Ressources pour l'analyse de données textuelles

Cette page recense des ressources pour l’analyse de données textuelles, des informations sur le big data, des études menées en ce sens, sur des marques, des VIP ou des institutions.

Outils logiciels

R.TeMiS [R Text Mining Solution] est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes. Il a été conçu pour limiter les effets de « boîte noire », souvent inhérents aux logiciels de statistique lexicale, et favoriser la réflexivité dans l’usage sociologique des données textuelles. http://rtemis.hypotheses.org

Hyperbase [10.0-2015]
Hyperbase permet de réaliser des bases hypertextuelles et des traitements statistiques à partir des textes qui lui sont fournis – bruts, lemmatisés ou étiquetés : navigation plein texte, index sélectifs ou systématiques, dictionnaires fréquentiels, concordances, sélection de contextes élargis, calcul de spécificités, richesse lexicale, cooccurrences, distances intertextuelles, … http://logometrie.unice.fr/pages/logiciels/

Lexico3 est réalisé par l’équipe universitaire SYLED-CLA2T. Ce logiciel fait l’objet d’une diffusion commerciale. Si vous êtes un chercheur isolé, vous pouvez vous en servir momentanément, pour vos travaux personnels. Si par contre votre laboratoire, votre entreprise, peut acquérir ce logiciel, cela nous aidera à le développer. A votre demande, nous vous enverrons une facture émise par l’agent comptable de l’université Paris3, en commençant par une facture « pro forma » si vous le souhaitez (précisez à qui elle doit être adressée). Contacts : http://www.tal.univ-paris3.fr/lexico/  et salem@msh-paris.fr et téléchargement : http://www.tal.univ-paris3.fr/lexico/download.htm

Iramuteq est un ensemble logiciel d’analyse de corpus basé sur R et des librairies du langage Python. Il permet les analyses classiques de la lexicométrie et des tableaux individus / caractères. Le Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales est un laboratoire pluridisciplinaire de l’Université de Toulouse 3 – Paul Sabatier, créé en 1983 et équipe d’accueil depuis 1990 (EA 827). Il est dirigé par Pascal Marchand, Isabelle Bouchardy, et Pierre Molinierhttp://www.iramuteq.org/

Logiciel R est un logiciel de calculs statistiques et de fonctionnalités d’affichage graphique très puissant. Il est notamment alimenté par des modules d’analyse textuelle très intéressants.

NRC Emoticon Lexicon est un corpus de mots associés à huit sentiments « universels ». L’auteur propose une version française, bâtie sur la base d’une traduction réalisée avec Google Traduction. Un corpus à vérifier donc.

Adaptation R de Tidy Text (nettoyage des textes).

Articles, documents

Les Journées internationales d’Analyse statistique des Données Textuelles (JADT) réunissent tous les deux ans, depuis 1990, des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles. Elles permettent aux participants de présenter leurs résultats, de confronter leurs outils et leurs expériences. http://www.aftal.fr/jadt2014/?page_id=140

Revue Texto! est une revue de sémantique des textes tissant son contenu sur la toile depuis 1996. On y trouve plus de 500 articles scientifiques et plusieurs archives de revues de linguistiques éteintes. http://www.revue-texto.net

16 livres gratuits sur les Data Sciences
Recensés par William Chen, 16 livres sur différents sujets techniques liés à l’analyse de données : http://www.wzchen.com/data-science-books

Analyses textuelles

Analyse des tweets de campagne de Donald Trump via les outils proposés par R. Où il est démontré que Trump tweete sur son Samsung Android des messages emotionnels et négatifs et son staff tweete sur iPhone les messages conventionnels.

Newsletters

Share This