Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Kullback-Leibler Divergence and Stein's Lemma So, last time in the previous video, previous lecture, what we saw was that the, we saw a new formulation which we was appelante the Neyman Pearson formulation, where was, where our but was to find a test, which minimise the probabilité of error of type 2, while the probabilité of error of type 1, the manqué detection, the manqué and the false alarm probabilité is conservé below some nominal epsilon.
Et ce que nous avons vu était, alors nous appelons cette probabilité minimum d'erreur de type 2, la probabilité minimale d'erreur de détection manquée, nous le dénote par cette beta epsilon W0, W1. Et nous avons vu un calcul très simple, très simple, mais en fait très utile et très puissant, qui montre que si vous avez un seuil tau, qui est une grande probabilité liée à la limite supérieure du rapport de vraisemblance de log W0 par W1 et une grande probabilité sous W0, alors un test de seuil avec ce seuil a une probabilité d'erreur de type 2 inférieur à 2 à la puissance moins tau.
En particulier, pour le cas où ces distributions étaient iid, ce que nous avons vu était que tau, la probabilité d'erreur de type 2 peut être faite pour aller à 0 très rapidement, aussi vite qu'environ 2 à la puissance moins n fois une quantité qui était une valeur attendue du rapport de vraisemblance du log. Ainsi, il peut être fait pour aller à 0 exponentiellement rapide, exponentiellement dans n et l'exposant a une formule très simple.
Donc cet exposant, que nous avons découvert la dernière fois est appelé la Divergence Kullback-Leibler. C'est une, c'est la, c'est une autre notion de distance entre les distributions, qui complétera une définition de la distance totale de variation. Et ce phénomène que la probabilité d'erreur peut aller à 0 exponentiellement rapidement est lié à un résultat très populaire appelé Stein'slemma. Donc, aujourd'hui dans cette conférence, ce que je ferai, c'est que je vais discuter de cette divergence Kullback-Leibler et je vais présenter le lemma de Stein. Le lemme de Stein est donc un résultat très important pour les tests d'hypothèses et la théorie de l'information. Donc, c'est la quantité que nous avons vu la dernière fois, nous avons vu que la valeur attendue de P de log, donc ici, par la façon, une petite confusion à propos de cette notation, je passe souvent à petite p et petite q. Fondamentalement, il s'agit de mon approximation des densités qui est juste PMF dans ce cas, donc pas de différence entre p, q et ce n'est pas beaucoup de différence, et t est la distribution. Donc, je passe à la petite quand je pense aux densités, mais je ne serai pas cohérent avec cette notation. Alors, veuillez rester actif et corriger cette notation dans votre tête tout le temps.
Donc, la quantité Ep, ce type ici, la valeur attendue du rapport de vraisemblance du log, sous p est appelée divergence Kullback-Leibler, D P Q I will denote this by D P Q. So, just like small D, P Q it was total variation distance. C'est la deuxième distance que nous allons regarder, nous allons juste l'appeler divergence pour le court, mais elle a été utilisée dans les statistiques par Kullback et Leibler et elle s'appelle la divergence Kullback-Leibler, la divergence KL pour le court.
Et je n'utilise pas une virgule ici, j'utilise cette partie ici, cette fonction ici, une pipe ici, principalement parce qu'un tuyau double ici, parce qu'il n'est pas symétrique dans P et Q, vous pouvez vérifier que cette définition n'est pas symétrique dans P et Q. Si vous développez cette valeur attendue, ce sera total, la divergence Kullback-Leibler ressemblera à ceci.
C'est la sommation sur y, p y log de p y par q y. Et c'est la contrepartie de la distance totale de variation, comme je l'ai dit, dans la formulation de Neyman Pearson, tout comme la variation totale, la distance gouverne la probabilité d'erreur dans la formulation bayésienne, au moins pour l'uniforme avant, cette divergence Kullback-Leibler contrôle la probabilité d'erreur dans la formulation de Neyman Pearson.
Ce que nous montrons la dernière fois, c'est que cette probabilité d'erreur peut être inférieure à 2 à la puissance moins n D P Q, c'est ce que nous avons montré la dernière fois. Eh bien, vous pouvez diviser par n et prendre une limite, cette limite est à peu près définie. Si vous connaissez une discussion sur la notion formelle de limites, nous devons être prudents dans la définition de cette limite. Mais je vous assure que cette limite existe et que cette limite existe. Et en fait, ce que nous avons montré, c'est que le petit inf, si vous savez ce que ça signifie est délimité par ce type, pas de problème. Mais nous pouvons juste penser que c'est une limite, c'est, je ne veux pas être aussi pédante dans cette partie.
Donc, comme n va à l'infini, ceci peut être fait à, donc ça va à 0 très rapide, exponentiellement rapide et l'exposant peut être fait plus grand que D P Q, il y a un signe moins ici. Par conséquent, il s'agit d'une borne supérieure sur bêta epsilon P et Q. Donc, c'est la déclaration suivante, c'est une poignée très mignonne sur l'exposant. Mais c'est tout ce qui est bon, c'est ça lié n'importe quel bien, nous sommes heureux que ceci soit exponentiellement en train de tomber il peut être fait pour tomber exponentiellement rapidement, mais pouvons-nous améliorer par rapport à ce D P Q.
Et c'est le contenu du lemme de Stein, qui dit non, vous ne pouvez pas améliorer. En fait, ce qu'il dit est pour la distribution iid, c'est exact ; le mieux que vous pouvez faire est D P Q, donc je n'ai pas montré ça, alors quand, je n'ai pas montré l'autre côté de cette inégalité. Une remarque rapide sur une preuve chaque fois que vous le voyez, chaque fois que vous voyez l'égalité comme celle-ci, vous devez imaginer deux inégalités cachées là, celle-ci et celle-ci, toutes deux tiennent et donc l'égalité tient, nous avons déjà montré un côté de lui, et c'est l'autre côté de lui.
En informatique et dans les domaines connexes, ces choses sont appelées "borne inférieure" et "borne supérieure". Un résultat d'impossibilité sera appelé une borne inférieure dans un schéma qui atteint quelque chose est appelé une borne supérieure en général. Mais comme vous pouvez le voir, dans cet exemple, cette notion de borne inférieure et de borne supérieure peut se retourner sur la base de l'application. Donc, ici, c'est un schéma qui donne une limite inférieure.
Donc, dans la théorie de l'information, nous appellerons ces choses comme réalisabilité et convertirons les résultats. Donc, ce que vous, alors réalisabilité n'est pas un vrai mot, mais il est utilisé assez couramment dans la théorie de l'information. Donc, nous avons montré qu'un programme peut vous obtenir ici et la deuxième partie que nous n'avons pas montrée plus tard dans le cours, c'est dire qu'aucun autre système ne peut faire mieux que cela. Donc, en effet, ce test de log de vraisemblance avec le seuil étant à peu près n fois le D P Q il y a eu un peu, il y a eu une correction c'est ce plus, je pense, plus ou moins (()) (06:41) souvenez-vous de cette partie, quelque chose comme ça, un peu de variance.
Et il y avait aussi une certaine indépendance, que nous avions de Chebyshev's 1 par epsilon, donc c'est correct. Donc, c'est à peu près ce que nous avons choisi le seuil. Et puis il vous donne D P Q, 2 à la puissance moins n D P Q est le taux auquel la probabilité d'erreur peut être faite pour aller à 0 pour ce choix de seuil. Et ce que nous montrons ici, c'est que rien ne peut battre cette performance. Nous prétendons, nous ne le montrons pas, il vous le montrera. Ainsi, le plus grand taux de décroissance exponentielle de la bêta-epsilon Pn, Qn est D P Q et il est atteint par un test de seuil.
Donc, ce D Q Q est une quantité très intéressante, cette distance totale de variation, elle a la même divergence, cette divergence Kullback-Leibler, elle a une interprétation similaire à la distance totale de variation. Donc, qu'est-ce que je veux dire par ça, si D P Q est petit, l'hypothèse P et Q sont difficiles à distinguer. Donc, on peut juste traiter, c'est une déclaration heuristique, je viens de le faire. Donc, si le D P Q est petit, l'hypothèse P et Q sont difficiles à distinguer. Tout comme nous avons pensé lorsque la distance totale de variation est faible, les hypothèses P et Q sont difficiles à distinguer.
De même, lorsque la divergence de Kullback-Leibler est faible, cette hypothèse est difficile à distinguer. Le lemme de Stein donne une justification asymptotique de ce fait. Le lemme de Stein nous montre que c'est en effet vrai parce que, asymptotiquement, la probabilité d'erreur est approximativement 2 à la puissance moins n D P Q n fois 2 à la puissance moins n fois la divergence Kullback-Leibler. Donc, une petite divergence Kullback-Leibler, disons qu'une divergence Kullback-Leibler est de l'ordre 1 par n signifie que vous ne pouvez pas avoir de faible probabilité d'erreur.
Mais plus tard, nous verrons une autre justification, qui va aussi instancier ce principe pour un n. Donc, mais je veux que vous vous souveniez de ce principe, la difficulté d'un problème de test d'hypothèse binaire est lié à la distance entre P et Q, cette distance peut être mesurée le plus formellement par la distance totale de variation, mais nous verrons d'autres versions plus tard, où vous pouvez également introduire d'autres notions de distances, qui ne sont pas vraiment des distances dans le vrai sens, comme la divergence Kullback-Leibler, que nous avons vu maintenant.
Donc, si P et Q sont proches d'une de ces distances, le problème des tests d'hypothèse est difficile à résoudre. Il faudra plus d'échantillons pour le résoudre, si vous pensez à des échantillons indépendants ou qu'il sera plus difficile à résoudre. Alors, prenons un exemple, revenons à notre exemple de toss et essayez de calculer D P Q. Donc, la variation totale, regardez ce choix particulier de P et Q, 1 où le P est Bernoulli la moitié et Q est Bernoulli moitié plus epsilon. Donc, pour ce cas particulier, la moitié plus epsilon par 2, pour ce cas particulier, la distance totale de variation est epsilon par 2. Mais la divergence Kullback-Leibler est la moitié du log 1 par 1 plus epsilon que vous pouvez vérifier plus la moitié du log 1 moins epsilon, donc il est à peu près la moitié du log 1 moins epsilon carré. En fait, vous pouvez le remplacer, remplacer ce log par le logarithme naturel par un facteur supplémentaire de ln 2, donc c'est, ce type ici.
Donc, prétendre, maintenant, nous faisons que ce ln de 1 moins epsilon carré est en fait plus grand que l'epsilon carré. Pouvez-vous le montrer, le moyen facile de montrer qu'il est de tracer le graphique et de le montrer. Donc, ce qui est ça, c'est l'équivalent de montrer que le log de 1 moins epsilon carré moins signe est ici, est inférieur à égal à moins epsilon carré. Donc, log 1 moins x, est inférieur à moins x, au moins pour les x non négatifs x, x entre 0 et 1.
Donc, quel est le log 1 moins x, comment pouvons-nous le montrer. Vous pouvez essayer de tracer les fonctions de, vous pouvez essayer de tracer ces fonctions, puis essayer de le montrer. Mais c'est une inégalité très importante, je ne le montre pas maintenant que je pars, je vous donnerai comme un exercice de devoirs pour montrer plusieurs de ces inégalités en fait, vous devriez être à l'aise de le montrer. Donc, voici quelque chose que vous devriez vous rappeler, ln 1 plus x est inférieur à x pour tous x qui sont supérieurs à moins 1.
Donc, c'est l'inégalité que nous avons utilisée ici. Mais la place de l'epsilon était à peu près la place de la distance totale. Ainsi, pour cet exemple, ce D P Q, la distance totale de variation, la divergence Kullback-Leibler est carrée de la distance totale de variation. Et en fait, ce genre de relation tient en général, nous le verrons plus tard.
Avant de poursuivre, j'aimerais, donc j'ai gardé la plus grande partie de ma discussion sur les distributions discraires, mais il est facile d'étendre toutes ces notions à la distribution continue, en particulier celles avec la densité. Par conséquent, supposons que P et Q aient des densités f et g lorsque vous pouvez définir D P Q, la divergence Kullback-Leibler comme la valeur attendue du log de rapport des densités, ceci, la théorie de la distribution discrète et continue peut être très différente.
Mais il y a un terrain commun pour les deux théories, vous pouvez au lieu de densités et PMF, vous pouvez travailler avec le ratio de PMF, et le rapport des densités, et le rapport des densités peut toujours remplacer le ratio de PMF pour arriver avec une telle théorie, c'est une description très haut de niveau de probabilité formelle. C'est ce que nous avons fait ici. Donc, c'est un log de rapport de densité, et c'est une attente mais il peut être écrit comme cette partie intégrante aussi parce que P a une densité f par rapport à cette (() () (12:40) mesure. Donc, cette distribution sert le même but que pour le cas discret, cette définition du total, la divergence Kullback-Leibler sert le même but.
Vous pouvez donc essayer de voir si vous pouvez récupérer certains de ces résultats pour un cas continu à l'aide de cette définition. En fait, cette définition de la divergence Kullback-Leibler et la version de distribution discrète peuvent toutes deux être récupéreuelles à partir d'une définition plus générale, ce que j'allume peut-être plus tard dans le cours.
Ainsi, le test de log de vraisemblance g tau peut maintenant être remplacé par ce type de test de rapport de vraisemblance logarithjour. Donc, c'est pour le cas iid, où il devient le rapport de vraisemblance logarithmière de Pn et Qn, donc si P a la densité f, ses copies iid ont des densités, f à la puissance n. Et celui-ci aura g à la puissance n, donc le rapport de vraisemblance du log est juste sommations log de f par g, de xi. Donc au lieu du rapport de PMF, c'est le rapport de densité est évalué à xi. Et on calcule ça et on les appelle parfois des fonctions de score. Donc, les rapports log de vraisemblance, ces rapports sont appelés fonction de score.
Donc, nous calculons ces deux fonctions de score et véritons si le score dépasse un certain seuil tau ou non. Et un bon choix de tau est n fois D P Q qui donne du lemme fois. Donc, dans cette partie, je vous ai rapidement montré comment cette définition de la divergence de Kullback-Leibler peut être étendue aux distributions avec des densités, comme les coûts dans les distributions, et comment même pour cette définition étendue, des résultats similaires vont tenir. Je viens d'y faire allusion, je vous ai donné le seuil, le test de seuil correspondant pour récupérer le lemme de Stein pour cette distribution avec des intensités. Mais pour la plupart de cela, pour la plupart de ce cours, je vais me concentrer sur les distributions discraires, mais je vais donner ce genre de remarques secondaires ici et là, pour que vous puissiez revenir et convertir tous les résultats en distributions avec des densités, ou peut-être même des distributions plus générales basées sur le degré de probabilité que vous savez. Mais pour une distribution discrète, vous devriez être en mesure de tout suivre dans la classe.
Propriétés de la divergence KL Dans la dernière vidéo de cette semaine, je voudrais présenter quelques propriétés de base de cette divergence Kullback-Leibler, une quantité que nous avons découverte dans la vidéo précédente, les deux vidéos précédentes en fait. Et c'est une quantité très importante, l'une des plus importantes de la théorie de l'information. Plus tard nous en verrons beaucoup, beaucoup d'autres quantités d'informations seront liées à la divergence de Kullback-Leibler, y compris notre entropie préférée.
Donc, dans cette courte vidéo je ne présenterai les propriétés sans preuve et plus tard nous irons, plus tard quand nous étudierons les propriétés des quantités d'informations, nous vous donnerons, je vais essayer, je vous donnerai toutes ces preuves. Ainsi, la première propriété de la divergence Kullback-Leibler est le traitement des données, est appelée inégalité de traitement des données. En fait, toute quantité qui promet de mesurer la distance entre les distributions doit satisfaire aux inégalités de traitement des données, c'est une attente raisonnable.
Donc, ce qui est l'inégalité de traitement des données, c'est très simple, c'est dit, les distances entre la distribution diminuent lorsque vous traitez davantage leurs échantillons. Donc, lorsque vous faites d'autres processus d'échantillonnage en appliquant n'importe quel mappage aléatoire vers les échantillons, en les passant au même canal, les distributions, les distributions sous-jacentes vont se rapprocher.
Ainsi, tout traitement en aval rendra le problème des tests d'hypothèse plus difficile parce que le (()) (01:47). Donc, qu'est-ce que cela signifie, cela semble un peu contre-intuitif parce que les ingénieurs de traitement des signaux traiteraient toujours le signal avant qu'ils n'appliquent un test à ce signal. Donc, le traitement ne fait que rendre ce problème plus difficile, en fait pas, le but du traitement du signal est autre chose. Le but du traitement du signal est de rechercher ces transformations qui réduisent au minimum les distances, tout en rendant le problème des tests d'hypothèse plus facile, c'est une raison heuristique que je donne pour le traitement du signal, c'est un champ plus large.
Mais cette heuristique est quelque peu surprenante, vous devriez donc prendre un peu de temps pour la digérer. Tout traitement des signaux qui est indépendant de la distribution sous-jacente rendra les distributions plus proches. Donc, ceci est d'accord avec notre heuristique que ces distances déterminent à quel point il est difficile de tester entre deux distributions, puisque nous avons appliqué le test pour traiter des échantillons. Alors, permettez-moi de formaliser cette inégalité de traitement des données.
Soit P et Q soient deux distributions sur Y, donc ce P et Q sont deux distributions sur le même alphabet Y. Et considérons ce canal W cela représente notre lien vers le bas, qui représente le traitement de sorte que W a l'aspect Y et produit quelque chose à partir de cet alphabet Z il s'agit d'un canal fixe représentant une opération de traitement de données.
Donc, ce traitement de données par exemple peut être que j'ajoute du bruit aléatoire à l'échantillon. Donc, s'il s'agit d'une observation continue, j'ajoute un peu de bruit gaussien. Donc, alors nous pouvons montrer que la distance totale de variation et la divergence Kullback-Leibler satisfont à cela, ces inégalités, ces inégalités sont appelées les inégalités de traitement des données, parfois le DPI pour le court.
La distance entre W de P la distribution de sortie lorsque P est passée par W et la distance entre W de Q qui est la distribution de sortie lorsque Q est transmis au canal. Donc cette W de P se souvient est une distribution sur Z, ceci est donné par sommation sur Y W de Z donné Y P Y qui est notre définition de W0 W de P. Donc, W de P et W de Q sont plus proches que D P Q. Vous pouvez le montrer par simple égalité triangulaire.
De même, sous Kullback-Leibler divergence aussi bien W de P et W de Q sont plus proches que D P Q, donc n'importe quel canal qui va ajouter, donc le canal peut être considéré comme un bruit. Ce canal ne dépend pas de P et Q, donc il ne vous aide pas à distinguer ces P et Q tout de suite et cela rendra ces choses plus proches. Sur le plan opérationnel aussi vous pouvez vérifier ces inégalités, nous avons déjà montré la signification opérationnelle de D P Q en termes d'expression pour P star. Donc, tout test bayésien, donc c'est la, la probabilité minimale d'erreur sur tous les tests bayésiens est liée à D P Q. Maintenant, pensez à ces tests où vous passez d'abord P à W et Q à W, puis utilisez le test optimal pour W de P versus W de Q. La probabilité d'erreur pour cette classe de test ne peut être que plus petite, ne peut être plus grande que la probabilité d'erreur si vous travaillez avec P et Q directement parce que cela permet plus de tests, elle ne vous force pas à passer par ce W. Et donc D, cette D ne peut être que plus petite que ça.
Mais il est très facile de se rappeler que ces inégalités donneront une justification à nouveau, ceci dit simplement que les distances diminuent lorsque vous traitez les données, elles sont appelées inégalités de traitement des données et le traitement des données ici fait référence à passer à travers le même canal W. Il s'agit de la première propriété.
La deuxième propriété qui est très utile est celle qui relie la divergence Kullback-Leibler à la distance totale de variation. Plus tôt dans un exemple de cas binaire, nous avons vu que D P Q est au moins 2 par la place de distance totale de ln 2. En fait, cette limite tient pour chaque distribution, donc cette borne est appelée l'inégalité de Pinsker, elle relie la distance totale de variation à la divergence de Kullback-Leibler et si vous ignorez les constantes de 2 l, 2 par ln2 que je fais des erreurs avec tout le temps, si vous ignorez cette constante ce que cela dit est que D P Q est plus que la distance totale de la distance.
Donc, D P Q vous pouvez en penser à peu près comme la superficie totale de la distance de variation. Donc, D P Q se comporte à peu près le même que le carré de la distance, donc il est à peu près comme une distance de racine carrée. Donc, ce qui est spécial sur le carré des distances est dans l'espace euclidien. Donc, voici la somme de la distance euclidienne sur i 1 à n xi moins yi carrés il s'agit d'une distance euclidienne entre deux points de n dimensions, peut-être que je devrais l'appeler d, de sorte que vous pensez aux points dimensionnels. C'est un carré de distance ; la distance euclidienne est la racine carrée de ceci.
Qu'est-ce qui est spécial sur le carré de la distance? Savons-nous ce qui est spécial à ce sujet, donc vous pouvez y penser. Il y a une chose, il y a beaucoup de choses telles qu'une chose spéciale à son sujet, mais cela est additif à travers les dimensions. Donc, si vous avez plusieurs dimensions, cela est additif. Et en fait, la divergence Kullback-Leibler a un comportement similaire, elle est additive pour les distributions de produits.
Donc, plus tôt nous avons vu que la distance totale de variation est sous-additive, mais la divergence Kullback-Leibler est additive, donc c'est une propriété très, très importante, c'est l'additivité de la divergence Kullback-Leibler pour la distribution des produits. Donc, P1 il s'agit de la distribution du produit P1 temps, temps P2, Pn toutes les coordonnées sont indépendantes et la distribution coordinatrice Pi, toutes les coordonnées sont indépendantes c'est la deuxième partie et la coordonnée a la distribution Qi. Qu'est-ce que la Kullback-Leibler diverge entre ces deux distributions de produits, eh bien c'est la somme de la coordonnée de la divergence Kullback-Leibler.
Donc, c'est l'activité de la divergence Kullback-Leibler. Ainsi, trois propriétés que nous avons vues, la divergence Kullback-Leibler ainsi que la distance totale de variation ont satisfait l'inégalité de traitement des données. Cette inégalité de Pinsker qui relie la divergence Kullback-Leibler à la distance totale de la distance. Ensuite, la divergence de Kullback-Leibler est additive, contrairement à la distance totale de variation qui était sous-additive. Donc, si vous combinez ces deux propriétés, il y a quelque chose d'intéressant qui sort. Plus tôt nous avons dit que Pn, Qn D la distance totale de variation entre Pn et Qn croît comme n, c'est ce que nous avons pu montrer.
Mais nous (()) (08:03) ce qui est lié est faible. En fait, si vous combinez l'inégalité de Pinsker avec l'additivité de la divergence Kullback-Leibler, vous pouvez montrer que la distance totale de variation de Pn et Qn croît à peu près comme la racine carrée n, vous pouvez essayer de le montrer, je le montrerai plus tard dans le cours. Et en gros, cette borne que nous avions plus tôt pour le problème des pièces de monnaie, combien de tosses de pièces sont nécessaires pour distinguer une pièce avec un demi-biais plus epsilon de moitié moins epsilon, cette limite peut être améliorée à environ 1 par ésilon carré en combinant l'inégalité de Pinsker et l'additivité de la distance totale de variation, l'additivité de la divergence Kullback-Leibler.
C'est la dernière chose que je voulais présenter cette semaine. Et au cours de la semaine prochaine, nous poursuivrons notre discussion sur le lien entre les statistiques et la théorie de l'information, nous allons, au cours de cette semaine, nous avons essentiellement défini différentes versions du problème des tests d'hypothèses, nous nous concentrons principalement sur les tests d'hypothèse, bien que nous définissons aussi le problème d'estimation.
Et pour la première version qui était Bayésien, nous avons découvert que la probabilité d'erreur se rapporte à cette quantité appelée distance totale de variation. Pour la seconde formulation de Neyman-Pearson, nous avons vu que la probabilité d'erreur est liée à cette quantité appelée divergence de Kullback-Leibler D, capital D P Q.
Et un principe que nous avons projeté était que la dureté d'un problème de test d'hypothèse, un problème de test d'hypothèse binaire est lié à la distance entre les deux distributions selon deux hypothèses et cette distance peut être Kullback-Leibler divergence pour une formulation ou une distance totale de variation pour une autre formulation. En fait, les deux sont liées par l'inégalité de Pinsker.