Projet 4

NB: Les algorithmes pourront être mis en oeuvre sous Matlab ou sous R selon votre préférance.

Etude stratifiée d'une maladie par modèle hiérarchique

Le site ici contient de nombres de cas de sida répertorié tous les mois pour chaque région de l'état de Californie. On commencera par selectionner quelques régions et quelques moi et constituer un fichier contenant le nombre d'apparition pour chaque région et chaque mois choisi. Notons le nombre de cas pour le mois k et la région j par y_jk. Nous modélisons le nombre de cas par mois par une loi de Poisson. On voudrait comprendre les différences entre les régions étudiées, de sorte que l'on supposera que chaque région à son propre paramètre pour la loi de Poisson. On suppose que les λ_jsont eux même aléatoires et sont issus d'une loi \Gamma(α, 1). C'est ce qu'on appelle un modèle hierarchique. On met aussi une loi a priori assez vague pour le paramètre α, par exemple une loi exponentielle d'espérance 100.

On veut construire un estimateur pour les paramètres λj et α. Pour cela, on va construire un algorithme de type MCMC selon l'approche de Metropolis-Hastings et Gibbs.

Donner la loi jointe a posteriori des paramètres λj et α sachant les y_jk.
Donner la loi conditionnelle a posteriori de λj pour un j arbitraire, sachant tous les autres paramètres ainsi que les données y_jk. De quelle loi s'agit-il ? Pouvez vous la simuler ?
Donner la loi conditionnelle a posteriori de α, sachant tous les autres paramètres ainsi que les données y_jk. De quelle loi s'agit-il ? Pouvez vous la simuler ?
Lancer un algorithme de type Metropolis-Hastings pour estimer les paramètres λj et α.
Afficher les trajectoires de la chaine de Markov correspondant a vos simulations pour chaque parametre.
Afficher la fonction d'autocorrélation sur une fenêtre glissante pour chaque paramètre. Commenter.
Afficher un histogramme pour les lois marginales a posteriori des paramètres.
On va comparer les résultats avec ceux obtenus par une méthode MCMC de type Gibbs. L'algorithme de Gibbs procède de la façon suivante: on tire les paramètres chacun leur tour (cycliquement) selon leur la loi conditionnelle a posteriori, sachant tous les autres paramètres ainsi que les données y_jk. Contrairement à la méthode de Metropolis-Hastings, on n'a pas besoin de décider si on accepte ou non le pas proposé.
Recommencer les questions 5., 6. et 7. pour cette deuxième méthode et comparer avec les résultats obtenus pas Metropolis-Hastings.
Question subsidiaire: Aurait-il été possible ? pertinent ? de faire une estimation par maximum de vraisemblance ?

Ce projet fut initialement inspiré du homework 8 pour le cours "Bayesian Statistics" donné par Herbie Lee à l'Université de Californie Santa Cruz.