Séminaires de l'année académique 2005-2006
- Jeudi 6 octobre 2005 à 11h00, Pierre Lavallé, Division des méthodes d'enquêtes sociales, Statistique Canada
Erreur d'observation des liens dans le sondage indirect : pistes de solution.
Jeudi 06 octobre 2005 à 11h00 Pierre Lavallé, Division des méthodes d'enquêtes sociales, Statistique Canada Pierre.Lavallee@statcan.ca
- Mardi 18 octobre 2005 à 11h00, Yves Tillé et Alina Matei, Université de Neuchâtel, Suisse
Présentation du package R «sampling»
Le langage R est un logiciel libre pour le calcul statistique et la création de graphique. Le logiciel de base est accompagné d'un ensemble de près de 600 packages complémentaires dans tous les domaines de la statistique. Alina Matei et Yves Tillé ont développé un module d'échantillonnage permettant de sélectionner des unités statistiques dans des populations au moyen de plans complexes : plans stratifiés, équilibrés, à deux degrés. Des procédures permettent aussi de construire des estimateurs calés en choisissant la fonction de calage et en imposant éventuellement des bornes sur les poids. Nous procéderons à une démonstration de ce package.
- Mardi 25 octobre 2005 à 11h00, Paul-André Salamin, Service de méthodes statistiques, OFS, Suisse
Sondage coordonné et transformations de permutations aléatoires
On propose un formalisme pour le tirage coordonné d'une suite d'échantillons stratifiés. Dans ce formalisme, un échantillon est représenté par un vecteur et les tirages sont effectués en utilisant une permutation aléatoire de loi uniforme. La notion de rangs par rapport à une stratification permet d'inclure le sondage stratifié dans ce cadre. On utilise ce formalisme pour donner une description unifiée de différents types d'algorithmes pour le tirage coordonné d'échantillons. Il s'agit de deux algorithmes de l'INSEE (un algorithme dû à Christian Hesse et Frank Cotton et un algorithme dû à Pascal Rivière) et d'un algorithme utilisé au Central Bureau of Statistics des Pays-Bas. Cette description des algorithmes amène à des démonstrations particulièrement claires de la validité des algorithmes et à l'identification de cas d'équivalence. Elle met aussi en évidence les différences de comportement des algorithmes dans le contrôle de l'intervalle de temps entre deux tirages consécutifs d'une même unité.
- Mardi 15 novembre 2005 à 11h00, Lennart Bondesson, Umeå, Sweden
Pareto Sampling versus Sampford and Conditional Poisson Sampling
Abstract. Pareto sampling was introduced by Rosén in the late 1990s. It is a simple method to get a fixed size \pi ps sample though with inclusion probabilities only approximately as desired. Sampford sampling, introduced by Sampford in 1967, gives the desired inclusion probabilities but it may take time to generate a sample. Using probability functions and Laplace approximations, we show that from a probabilistic point of view these two designs are very close to each other and asymptotically identical. A Sampford sample can rapidly be generated in all situations by letting a Pareto sample pass an acceptance-rejection filter. A new very efficient method to generate conditional Poisson samples appears as a by-product. Further, it is shown how the inclusion probabilities of all orders for the Pareto design can be calculated from those of the conditional Poisson design. A new explicit accurate approximation of the 2nd order inclusion probabilities, valid for several designs, is presented and applied to get variance estimates of the Horvitz-Thompson estimator of the single sum type.
Key words: acceptance-rejection, conditional Poisson sampling, Horvitz-Thompson estimator, inclusion probabilities, Laplace approximation, Pareto sampling, \pi ps sample, Sampford sampling, variance estimation
- Mardi 22 novembre 2005 à 11h00, Michel Lejeune, LabSAD, Université de Grenoble, France
Les redressements d'échantillons : efficacité et limites
Les praticiens des enquêtes par sondage effectuent des redressements d'échantillons par post-stratification. De façon intuitive ils considèrent que plus il y a de critères de stratification plus les estimations s'en trouvent améliorées. On donnera des résultats théoriques sur la précision des estimateurs de post-stratification et on étudiera leurs propriétés lorsque le nombre de critères s'accroît. Ceci sera illustré sur une situation réelle. On envisagera aussi le cas, fréquent en pratique, d'un redressement sur la base d'une enquête antérieure et on en mesurera l'effet.
- Mardi 06 décembre 2005 à 11h00, Monique Graf, Service de méthodes statistiques, OFS, Suisse.
Analyse de données compositionnelles dans une enquête complexe
Abstract. J. Aitchison (1986, 2001) présente une revue de la théorie mathématique des vecteurs de composition et définit plusieurs métriques dans le simplexe des compositions (coordonnées positives, de somme =1). Un point important est de pouvoir analyser aussi des sous compositions d'une manière cohérente. Pour se libérer des contraintes, on supprime une composante et on applique une transformation logarithmique au quotient des composantes soit par le "centre", soit par la composante supprimée. L'analyse se fait dans cet espace, et les domaines de confiance sont retransformés par la transformation inverse. La mesure de précision globale est donnée par une norme matricielle qui dépend de la dimension du vecteur de composition. Une modification de cette mesure est proposée ici pour permettre la comparaison de la précision globale de compositions de longueur différente.
L'application aux données d'enquête passe par la linéarisation du logarithme d'un quotient. La méthode est appliquée ici aux composantes du salaire brut, telles qu'elles sont calculées dans l'enquête suisse sur la structure des salaires (2002).
Références
Aitchison, J. (1986). The Statistical Analysis of Compositional Data . Chapman & Hall.
Aitchison, J. (2001). Simplicial Inference. Contemporary Mathematics 287, AMS.
- Mardi 14 février 2006 à 11h00, Laurent Donzé, Université de Fribourg
Evaluation de l'efficacité de la promotion de projets CTI: méthode et résultats
Résumé : La Commission pour la Technologie et l'Innovation (CTI) encourage les activités d'innovation de l'économie, en particulier celles des PME. Cette promotion s'effectue à travers divers biais, notamment par le financement de projets communs entre les Hautes Ecoles et les entreprises ou au travers divers programmes spéciaux. Sur mandat de l'Office fédéral de la formation professionnelle et de la technologie et en collaboration avec le Centre de recherches conjoncturelles de l'Ecole polytechnique fédérale de Zurich (KOF), nous avons eu pour tâches d'évaluer statistiquement l'efficacité de la promotion de projets CTI. Notamment, il s'agissait d'estimer si les activités de R & D des entreprises s'étaient accrues par rapport à un niveau hypothétique sans soutien. L'impact du soutien de la CTI a été évalué pour deux périodes, à savoir de 2000 à 2002 et de 1994 à 1996, et s'avère dans l'ensemble positif.
Pour en savoir plus: http://kof.ch/pdf/wp_103.pdf
- Mardi 21 février 2006 à 11h00, Sylvain Sardy, Institut de Mathématiques, EPFL, Lausanne
A la recherche du biais non nul par vraisemblance pénalisée Lp
Alors que certains cherchent à démontrer que leur estimateur est non-biaisé, d'autres, dont nous faisons partie, cherchent au contraire à biaiser leur estimateur, ou plus généralement à les régulariser. Aussi âgée que la régularisation dite par "Sélection de variable", cette pratique perdure avec des techniques employant des pénalités/priors L2 (ridge regression), L1 (Lasso), et maintenant Lp baptisée SLIC. Nous donnerons un panorama de ces méthodes avant de parler plus en détail de SLIC. Nous illustrerons nos méthodes à l'aide de données provenant de la médecine, de la finance, de l'astronomie et de la statistique officielle.
- Mardi 21 mars 2006 à 11h00, Olivier Renaud, FPSE, Université de Genève
Tests simultanés dans le plan temps-fréquence: le cas de signaux d'électro-encéphalogrammes dans la recherche en psychologie
Dans une expérience en psychologie ou en médecine basé sur des mesures par électro-encéphalogrammes (EEG), on mesure plusieurs fois plusieurs sujets dans plusieurs conditions. La pratique usuelle est de moyenner le signal pour obtenir ce qu'on appelle des potentiels évoqués (Event Related Potentials, ERP). L'analyse qui s'en suit est soit fréquentielle (Fourier) soit temporelle (détection de pic, analyse de la latence, etc.).
Dans cette présentation, nous présenterons une méthode pour tester des différences entre conditions simultanément sur toute la durée de l'ERP, c'est à dire en contrôlant l'erreur de type I de tous les tests. L'outil essentiel est la caractéristique d'Euler ou d'Hadwiger. Nous montrerons également comment généraliser au plan temps-fréquence de la transformée ondelette continue ou au plan temps-lissage de l'estimateur non-paramétrique de régression par kernel. Un point important est de savoir comment intégrer la structure d'autocovariance des signaux dans le calcul.
Ces techniques seront illustrées sur des mesures EEG provenant d'une expérience en psychologie où les sujets doivent détecter une cible dans une image. Nous évoquerons également d'autres applications comme la météorologie.
- Mardi 28 mars 2006 à 11h00, Nikole Kramer, TU Berlin - Institut für Quantitative Methoden, Germany
Boosting techniques with an application to functional data analysis
If we try to estimate a relationship X --> Y based on a finite set of examples, we have to decide on an appropriate fitting method, which is also called a learner. The coice of the learner is crucial, as too complex learners lead to overfitting whilst weak learners fail to capture the relevant structure of the data. The basic idea of Boosting is to combine weak learners in such a way that the composite learner performs better than the single weak learners. This can be done by iteratively applying a weak learner to the weighted sample. It can be shown that this approach is equivalent to a gradient descent technique. This relationship has lead to a wide range of new Boosting algorithms. The first part of the talk will focus on the theory and applications of Boosting.
Contrary to common belief, Boosting is not only a 'black box' that is only valuable for prediction. It is also capable to produce interpretable models. In the second part of the talk, we will discuss an application of Boosting in the field of functional data analysis. In a nutshell, we speak of functional data if the examples that we observe are curves. Using the
Boosting technique, it is possible to build regression models that detect relevant features of the curves.
- Mardi 4 avril 2006 à 11h00, Jean-Yves Dauxois, Université de Franche Comté, France
Quelques tests pour des événements récurrents et en concurrence
La modélisation des événements récurrents est un sujet d'intérêt dans de nombreux domaines comme la biostatistique, la fiabilité, la finance... Dans les études cliniques ou épidémiologiques, les patients peuvent être victimes de crises d'Épilepsie répétées, de l'apparition récurrente de tumeur cancéreuses. En fiabilité un matériel peut subire des pannes répétitives au cours du temps. En finance la récurrence des défauts de paiement dans le remboursement d'un crédit peuvent être un sujet de préoccupation pour les banques.
Dans cet exposé nous nous intéressons au cas ou plusieurs types d'événements récurrents sont en concurrence. L'exemple concret que nous considèrerons particulièrement est celui des infections nosocomiales successives de patients en service de réanimation : pneumonie, septicémie, infections urinaires ou herpes peuvent, chacune, avoir plusieurs occurrences dans le temps pour un seul patient. On s'intéressera alors à la construction de tests permettant de dire si un type d'événement est plus fréquent qu'un autre ou s'il a, par rapport à l'autre, un taux d'apparition croissant au cours du temps.
- Mardi 18 avril 2006 à 11h00, Prof. Werner Stahel, Seminar fuer Statistik ETH-Zentrum, Zurich
Linear mixing models: an overview with applications to air pollution
Many chemical compounds are emitted into the air by traffic, heating, solvents, and other sources. Their concentration is measured routinely by monitoring stations. It is of interest to find the contributions of the different sources to the imissions in order to plan environmental management measures.
This goal can be achieved by fitting a linear mixing model to the data. This model is based on the idea that there are a few (p) sources k, each of which releases the chemical compounds j in constant proportions Ck(j) giving rise to the source's "profile". The measurements Yi(j) for different time points i then consist, up to random errors Ei(j), of a mixture of these profiles,
Yi(j) =
where the mixing coefficients Si(k) characterize the source activities. This model is also called chemical mass balance model, mostly when the source profiles are known. It is possible to fit the model even without knowing the source profiles.
There are two avenues to achieve this. First, the fact that all quantities in the foregoing equation except for the error term must be non-negative, together with some ad-hoc techniques, allow for an identification of both source profiles and activities. Second, Wolbers and Stahel (2005) develop a model based on a multivariate lognormal distribution for the scores, which may be fitted by maximum likelihood.
In this talk, the basic ideas of the model and the possibilities to fit it to data will be explained on the basis of air pollution data, and several further applications of linear mixing models will be mentioned.
- Mardi 16 mai 2006 à 11h00, Sara van de Geer, ETH
High-dimensional generalized linear models and the LASSO
Mardi 16 mai 2006, à 11h. Abstract à télécharger (pdf)
- Mardi 23 mai 2006 à 11h00, Christian Preda, Université de Lille, France
Regression models for functional data by reproducing kernel Hilbert spaces methods
Non-parametric regression models are developed when the predictor is a function-valued random variable X=X(t) " t e T. Based on a representation of the regression function f(X) in a reproducing kernel Hilbert space such models generalize the classical setting used in statistical learning theory. Two applications corresponding to scalar and categorical response random variable are performed on stock-exchange and medical data. The results of different regression models are compared.
- Mardi 13 juin 2006 à 11h00, Christian Gatu, Université de Neuchâtel, Suisse
Branch-and-bound strategies for deriving the best-subset regression models
An efficient branch-and-bound algorithm for computing the best-subset regression models is described. The algorithm is based on a regression tree structure that generates all possible subset models. The computational burden is reduced by pruning the non-optimal subtrees. The criteria used in identifying the best subsets are based on functions of the residual sum of squares. Strategies and heuristics which improve the computational performance of the proposed algorithm are investigated. Computational results and experiments on random and real data are presented and analyzed.