Ressources pour l’analyse de données textuelles

Cette page recense des ressources pour l’analyse de données textuelles, des informations sur le big data, des études menées en ce sens, sur des marques, des VIP ou des institutions.

Outils logiciels

R.TeMiS [R Text Mining Solution] est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes. Il a été conçu pour limiter les effets de « boîte noire », souvent inhérents aux logiciels de statistique lexicale, et favoriser la réflexivité dans l’usage sociologique des données textuelles. http://rtemis.hypotheses.org

Hyperbase [10.0-2015]
Hyperbase permet de réaliser des bases hypertextuelles et des traitements statistiques à partir des textes qui lui sont fournis – bruts, lemmatisés ou étiquetés : navigation plein texte, index sélectifs ou systématiques, dictionnaires fréquentiels, concordances, sélection de contextes élargis, calcul de spécificités, richesse lexicale, cooccurrences, distances intertextuelles, … http://logometrie.unice.fr/pages/logiciels/

Lexico3 est réalisé par l’équipe universitaire SYLED-CLA2T. Ce logiciel fait l’objet d’une diffusion commerciale. Si vous êtes un chercheur isolé, vous pouvez vous en servir momentanément, pour vos travaux personnels. Si par contre votre laboratoire, votre entreprise, peut acquérir ce logiciel, cela nous aidera à le développer. A votre demande, nous vous enverrons une facture émise par l’agent comptable de l’université Paris3, en commençant par une facture « pro forma » si vous le souhaitez (précisez à qui elle doit être adressée). Contacts : http://www.tal.univ-paris3.fr/lexico/ et salem@msh-paris.fr et téléchargement : http://www.tal.univ-paris3.fr/lexico/download.htm

Iramuteq est un ensemble logiciel d’analyse de corpus basé sur R et des librairies du langage Python. Il permet les analyses classiques de la lexicométrie et des tableaux individus / caractères. Le Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales est un laboratoire pluridisciplinaire de l’Université de Toulouse 3 – Paul Sabatier, créé en 1983 et équipe d’accueil depuis 1990 (EA 827). Il est dirigé par Pascal Marchand, Isabelle Bouchardy, et Pierre Molinier. http://www.iramuteq.org/

Logiciel R est un logiciel de calculs statistiques et de fonctionnalités d’affichage graphique très puissant. Il est notamment alimenté par des modules d’analyse textuelle très intéressants.

NRC Emoticon Lexicon est un corpus de mots associés à huit sentiments « universels ». L’auteur propose une version française, bâtie sur la base d’une traduction réalisée avec Google Traduction. Un corpus à vérifier donc.

Adaptation R de Tidy Text (nettoyage des textes).

UDPipe est un logiciel multiplateforme pour le traitement logiciel de la langue. Selon ce blog, il serait plus performant pour le français que Spacy.

Le projet Textométrie fédère les développements logiciels open-source du domaine pour mettre en place une plateforme modulaire appelée TXM. Il s’agit à la fois d’une opération patrimoniale au rayonnement international et du lancement d’une nouvelle génération de recherche textométrique, en synergie avec les technologies de corpus actuelles (Unicode, XML, TEI, outils de TAL, CQP, R). La plateforme TXM est diffusée gratuitement sous licence open-source. Le logiciel portail web de TXM permet de donner accès à des corpus en ligne par navigateurs web. Il permet des contrôles d’accès paramétrables par comptes utilisateurs.

Library python

Python est un excellent langage de programmation pour traiter les textes en langage naturel.

Spacy est un outil de traitement du langage naturel pour Python. Il tendrait à remplacer NLTK un peu vieillissant. Son usage est très ouvert et il peut aisément s’interfacer avec des outils plus spécifiques comme les machines learning.

SciKit-Learn : Librairie Python, massivement utilisée dans l’analyse de données.

Liste des projets Python NLP sur GitHub.

Articles, documents

Les Journées internationales d’Analyse statistique des Données Textuelles (JADT) réunissent tous les deux ans, depuis 1990, des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles. Elles permettent aux participants de présenter leurs résultats, de confronter leurs outils et leurs expériences. http://www.aftal.fr/jadt2014/?page_id=140

Revue Texto! est une revue de sémantique des textes tissant son contenu sur la toile depuis 1996. On y trouve plus de 500 articles scientifiques et plusieurs archives de revues de linguistiques éteintes. http://www.revue-texto.net

16 livres gratuits sur les Data Sciences
Recensés par William Chen, 16 livres sur différents sujets techniques liés à l’analyse de données : http://www.wzchen.com/data-science-books

Ressources du cours donné par l’université d’Oxford, département des sciences informatiques, sur le « Deep Natural Language Processing ». PDF, vidéos, et slides. https://github.com/oxford-cs-deepnlp-2017/lectures

Enseignement de Damien Nouvel à l’Inalco sur le TAL.

Analyses textuelles

Analyse des tweets de campagne de Donald Trump via les outils proposés par R. Où il est démontré que Trump tweete sur son Samsung Android des messages emotionnels et négatifs et son staff tweete sur iPhone les messages conventionnels.

Newsletters

Vidhya Analytics http://feedburner.google.com/fb/a/mailverify?uri=analyticsvidhya
Data Science Weekly http://www.datascienceweekly.org/newsletters
O’Reilly Data Newsletter http://www.oreilly.com/data/newsletter.html