Séance du 14 septembre 2015

Séance organisée par Liliane Bel et Vincent Rivoirard.

Lieu : IHP, Amphithéâtre Darboux.

14h00 : Vincent Brault (AgroParisTech)

Titre : Une méthode rapide de segmentation bidimensionnelle pour des matrices de grandes tailles

Résumé :

Dans certains cas, comme pour les données Hi-C (Rao et al., 2014), l'objectif est de partitionner les lignes et les colonnes d'une matrice pour former un quadrillage de blocs homogènes sans effectuer de permutations. Toutefois, ce problème peut être compliqué pour plusieurs raisons~: les méthodes utilisées en segmentation unidimensionnelle comme l'algorithme de programmation dynamique ne s'appliquent pas dans ces cas là et la taille des données impose de proposer des algorithmes performants.

En réalité, nous montrons que ce problème peut être ramené à celui d'un modèle linéaire parcimonieux de grande dimension pour lequel nous proposons une méthode de sélection de variables rapide et efficace.

Dans cet exposé, nous montrerons comment notre méthode fournit un quadrillage pour des matrices de grandes tailles (5000 x 5000). Nous montrerons également comment la structure bidimensionnelle permet d'obtenir une bonne estimation du nombre et des emplacements des ruptures. Nous illustrerons nos résultats à l'aide de figures et de films et appliquerons nos méthodes sur des données simulées et réelles.

15h00: Camille Coron (Université Paris Sud)

Titre : Sciences participatives et estimations d'abondances d'espèces

Résumé : Nous disposons de deux jeux de données issus de programmes de sciences participatives: un jeu de données dites standardisées et un jeu de données dites opportunistes. Le premier présente un nombre plus faible de données, mais qui sont associées à un protocole d'observation et de récolte très précis, tandis que le deuxième fournit un très grand nombre de données

rapportées selon les souhaits et habitudes des observateurs. Grâce à ces données, nous cherchons à estimer les abondances relatives de plusieurs

espèces sur différentes régions de l'espace et/ou à différents moments. Nous modélisons la structure de ces données par un modèle probabiliste.

Nous prouvons dans un premier temps que la combinaison de ces deux types de jeux de données permet une estimation plus précise de ces abondances, que

l'utilisation des seules données standardisées. La prise en compte dans un deuxième temps des préférences respectives des observateurs et des observés

pour les différents types d'habitats présents sur l'espace considéré permet des estimations plus réalistes et applicables.

16h00: Stéphane Boucheron (Université Paris-Diderot)

Titre : Codage (presque) adaptatif en alphabet infini. Cas des enveloppes à variation régulière. (Almost) adaptive coding against finite alphabets. Regularly varying envelopes.

Résumé : We study the problem of lossless universal source coding for stationary memoryless sources on countably infinite alphabets. This task is generally not achievable without restricting the class of sources over which universality is desired. We propose natural families of sources characterized by a common dominating envelope. We particularly emphasize the notion of adaptivity, which is the ability to perform as well as an oracle knowing the envelope, without actually knowing it. This is closely related to the notion of hierarchical universal source coding, but with the important difference that families of envelope classes are not discretely indexed and not necessarily nested. We attempt and partially succeed in characterizing the classes of envelopes over which adaptive universal source coding is possible, namely by including (very) light-tailed ad max-stable (heavy-tailed) envelopes which are excellent models in many applications, such as natural language modeling. We derive a minimax lower bound on the redundancy of any code on such envelope classes, including an oracle that knows the envelope. We then propose a constructive code that does not use knowledge of the envelope. The code is computationally efficient and is structured to use an {E}xpanding {T}hreshold for {A}uto-{C}ensoring, and we therefore dub it the \textsc{ETAC}-code. We prove that the \textsc{ETAC}-code achieves the lower bound on the minimax redundancy within a factor logarithmic in the sequence length, and can be therefore qualified as a near-adaptive code over families of heavy-tailed envelopes. For finite and light-tailed envelopes the penalty is even less, and the same code follows closely previous results that explicitly made the light-tailed assumption. Our technical results are founded on methods from regular variation theory and concentration of measure.

Travail avec commun avec Anna Ben-Hamou Dominique Bontemps, Elisabeth Gassiat, Mesrob I. Ohannessian

Références : arXiv:1402.6305, arXiv:1412.8652, arXiv:1202.0258