Open Access
November 2016 Asymptotics and concentration bounds for bilinear forms of spectral projectors of sample covariance
Vladimir Koltchinskii, Karim Lounici
Ann. Inst. H. Poincaré Probab. Statist. 52(4): 1976-2013 (November 2016). DOI: 10.1214/15-AIHP705

Abstract

Let $X,X_{1},\ldots,X_{n}$ be i.i.d. Gaussian random variables with zero mean and covariance operator $\Sigma=\mathbb{E}(X\otimes X)$ taking values in a separable Hilbert space $\mathbb{H}$. Let

\[\mathbf{r}(\Sigma):=\frac{\operatorname{tr}(\Sigma)}{\|\Sigma\|_{\infty}}\] be the effective rank of $\Sigma$, $\operatorname{tr}(\Sigma)$ being the trace of $\Sigma $ and $\|\Sigma\|_{\infty}$ being its operator norm. Let

\[\hat{\Sigma}_{n}:=n^{-1}\sum_{j=1}^{n}(X_{j}\otimes X_{j})\] be the sample (empirical) covariance operator based on $(X_{1},\ldots,X_{n})$. The paper deals with a problem of estimation of spectral projectors of the covariance operator $\Sigma $ by their empirical counterparts, the spectral projectors of $\hat{\Sigma}_{n}$ (empirical spectral projectors). The focus is on the problems where both the sample size $n$ and the effective rank $\mathbf{r}(\Sigma)$ are large. This framework includes and generalizes well known high-dimensional spiked covariance models. Given a spectral projector $P_{r}$ corresponding to an eigenvalue $\mu_{r}$ of covariance operator $\Sigma $ and its empirical counterpart $\hat{P}_{r}$, we derive sharp concentration bounds for bilinear forms of empirical spectral projector $\hat{P}_{r}$ in terms of sample size $n$ and effective dimension $\mathbf{r}(\Sigma)$. Building upon these concentration bounds, we prove the asymptotic normality of bilinear forms of random operators $\hat{P}_{r}-\mathbb{E}\hat{P}_{r}$ under the assumptions that $n\to\infty $ and $\mathbf{r}(\Sigma)=o(n)$. In a special case of eigenvalues of multiplicity one, these results are rephrased as concentration bounds and asymptotic normality for linear forms of empirical eigenvectors. Other results include bounds on the bias $\mathbb{E}\hat{P}_{r}-P_{r}$ and a method of bias reduction as well as a discussion of possible applications to statistical inference in high-dimensional Principal Component Analysis.

Soient $X,X_{1},\ldots,X_{n}$ des vecteurs gaussiens à valeurs dans un espace de Hilbert séparable $\mathbb{H}$, i.i.d. et centrés. Nous définissons l’opérateur de covariance $\Sigma=\mathbb{E}(X\otimes X)$ et le rang effectif de $\Sigma $

\[\mathbf{r}(\Sigma):=\frac{\operatorname{tr}(\Sigma)}{\|\Sigma\|_{\infty}}\] où $\operatorname{tr}(\Sigma)$ est la trace of $\Sigma $ et $\|\Sigma\|_{\infty }$ est sa norme d’opérateur. Nous considérons

\[\hat{\Sigma}_{n}:=n^{-1}\sum_{j=1}^{n}(X_{j}\otimes X_{j})\] l’opérateur de covariance empirique construit à partir des observations $(X_{1},\ldots,X_{n})$. Ce papier considère le problème d’estimation des projecteurs spectraux de l’opérateur de covariance $\Sigma $ par les projecteurs spectraux empiriques, c’est-à-dire les projecteurs spectraux de $\hat{\Sigma}_{n}$. Nous nous concentrons sur les problèmes où le nombre d’observations $n$ et le rang effectif $\mathbf{r}(\Sigma)$ sont grands. Ce cadre inclut et généralise les modèles de spiked covariance en grande dimension. Soient $P_{r}$ un projecteur spectral correspondant à une valeur propre $\mu_{r}$ de l’opérateur de covariance $\Sigma $ et $\hat{P}_{r}$ sa version empirique. Nous établissons des bornes de concentrations fines sur les formes bilinéaires du projecteur empirique $\hat{P}_{r}$, qui dépendent du nombre d’observations $n$ et de la dimension effective $\mathbf{r}(\Sigma)$. Nous exploitons ensuite ces bornes de concentration pour établir la normalité asymptotique des formes bilinéaires des opérateurs aléatoires $\hat{P}_{r}-\mathbb{E}\hat{P}_{r}$ sous les hypothèses que $n\to\infty $ et $\mathbf{r}(\Sigma)=o(n)$. Dans le cas particulier des valeurs propres de multiplicité $1$, ces résultats sont reformulés en terme de bornes de concentration et de normalité asymptotique pour les formes linéaires des vecteurs propres empiriques. Nous prouvons aussi de nouveaux résultats sur le biais $\mathbb{E}\hat{P}_{r}-P_{r}$ incluant notamment une méthode de réduction du bias. Finalement, nous discutons des applications possibles de ces résultats à l’inférence statistique en grande dimension pour l’analyse en composantes principales.

Citation

Download Citation

Vladimir Koltchinskii. Karim Lounici. "Asymptotics and concentration bounds for bilinear forms of spectral projectors of sample covariance." Ann. Inst. H. Poincaré Probab. Statist. 52 (4) 1976 - 2013, November 2016. https://doi.org/10.1214/15-AIHP705

Information

Received: 29 August 2014; Revised: 5 July 2015; Accepted: 31 July 2015; Published: November 2016
First available in Project Euclid: 17 November 2016

zbMATH: 1353.62053
MathSciNet: MR3573302
Digital Object Identifier: 10.1214/15-AIHP705

Subjects:
Primary: 62H12

Keywords: asymptotic distribution , Concentration inequalities , Effective rank , Perturbation theory , Principal Component Analysis , Sample covariance , Spectral projectors

Rights: Copyright © 2016 Institut Henri Poincaré

Vol.52 • No. 4 • November 2016
Back to Top