Statistique qualitative avec R
Introduction pour les Sciences sociales

Atelier sur les statistiques qualitatives et le logiciel R pour les doctorant.e.s en Sciences sociales de P8

16-19 janvier (quatre jours), 9h30-12h30

Maison de la Recherche – 2 ème étage – Salle A2-204 (16 et 17 janvier)

Bâtiment G - rez-de-chaussée - salle G-2 (18 et 19 janvier)

Contact : Dylan Glynn, dsg.up8@gmail.com

Descriptif
La statistique est la clef de voûte de toute science empirique. Loin de l’image populaire, l'application de la statistique contemporaine n'est pas les listes de chiffres ou les camemberts. Ce n'est pas non plus la mathématique et les formules en grec. De la visualisation des interactions complexes et subtiles dans nos observations à la probabilité que nos généralisations sont représentatives du réalité, la science moderne ne pourrait pas exister sans la statistique. De plus, la modélisation statistique nous permet à faire les prédictions que l’on utilise pour tester nos hypothèses, mais aussi pour calculer l'exactitude de nos descriptions. 

Le logiciel R est devenu le standard dans les sciences sociales pour la statistique. Ce logiciel est entièrement "open source", multiplateforme (cross-platform) et bien probablement le logiciel les plus utilisé dans le monde scientifique. Aujourd'hui en Europe, cet outil est devenu quasi essentiel pour tout.e chercheur.se qui travaille avec les données empiriques.

Cet atelier est destiné aux jeunes chercheur.se.s en sciences sociales et sert comme initiation à la statistique qualitative et au logiciel R. Le contenue est entièrement pratique et aucune compétence en mathématique ou en informatique est attendue. 

Matériaux nécessaires
Ordinateur avec accès Internet

Programme
1. Introduction - Donnés qualitatives et R
a. Fondamentaux de la statistique
Population et échantillon - pourquoi nous ne pouvons pas utiliser les pourcentages
Signification et intervalle de confiance - comment tester et généraliser
Patterns et prédictions – pourquoi utiliser la statistique
b. R logiciel open source, cross platform et très sympa !
Données - propres et structurées
Statistique descriptive - les camemberts et plus
Chi-2 – un un avant-goût de signification et de prédiction

 

2- Analyse des correspondances - Identifier les paternes dans les données complexes

a. MCA – Trouver les interactions qui structurent le monde complexe et varié.

b. FA –  Distinguer les structures dans un monde complexe et varié

 

3- Analyse de clusters – Trier les observations à partir de leurs caractéristiques

a. HCA – Classification exploratoire : combien de clusters se voit dans les données

b. K-Means – Classification confirmatoire : Dans quelle mesure les clusters trient les données.

 

4. Régression logistique binaire

a. Régression logistique binaire - Tester les hypothèses et calculer l'importance des effets

b. Modèles linéaires généralisés - Au-delà d'une prédiction binaire


Slides

Slides 1 - Présupositions théoriques

Slides 2 - Examples de techniques étudiés


Liens - Commandes pour R - SVP, téléchargez les fichiers

R- Commandes - Fondamentaux !!! Nouvelle Version

R-Commandes - Analyse de correspondance

R-Commandes - Analyse de clusters

R-Commandes - Regression logistique


Liens - Données pour jouer

Le destin en anglais et russe

Le bonheur en anglais, czech, et polonais

Les femmes en Vogue, Cosmo et Closer

Les temps du futur - proche et distal

Exprimer l'avis - "croire" vs. "penser"


Logiciel

R: https://www.r-project.org/

Mac Only - BBEdit (free version) : https://www.barebones.com/products/bbedit/

Win Only - NotePad++ https://notepad-plus-plus.org/


Références

Baayen 2008 - Analyzing Linguistic Data. A practical introduction to statistics using R. CUP

Glynn & Robinson 2014 - Corpus Methods for Semantics. Quantitative studies in polysemy and synonymy. JBs.

Gries 2009 - Quantitative Corpus Linguistics with R. A practical introduction. Routledge.

Gries 2013 - Statistics for Linguistics with R. A practical introduction. Mouton.