Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Le test de ratio log-vraisemblance Donc, jusqu'à maintenant, nous avons examiné l'hypothèse d'une estimation comme des exemples de génériques, comme des exemples génériques de problèmes d'inférence statistique d'estimation. Pour les tests d'hypothèse, ce que nous avons introduit est une formulation bayésienne, où nous avons une distribution antérieure avant que l'expérience ne commence sur l'inconnu. Donc, pour le cas binaire, nous savons que H0 se produit avec une certaine probabilité P, disons et H1 se produit avec la probabilité 1 moins P. Et ce que nous avons pu faire, c'est que, en utilisant un calcul simple, nous avons été en mesure de montrer que pour l'uniforme avant, quand vous n'avez aucune raison de préférer H0 sur H1 pour commencer, c'est à peu près ce que vous pouvez considérer comme un uniforme avant, pour l'uniforme avant cette probabilité optimale d'erreur que vous pouvez atteindre est 1 moins, la moitié en 1 moins la distance de variation totale entre la distribution sous H0 et une distribution sous H1. Donc, ce test, le test correspondant s'appelle le test Bayes Optimal. Et ce que vous pouvez voir c'est que, c'est cette forme simple ici, donc le test de Bayes Optimal déclare 0 quand la probabilité sous 0, H0, est plus que la probabilité inférieure à 1 et elle déclare 1, quand la probabilité inférieure à 0 est inférieure à la probabilité inférieure à 1. Il s'agit d'une forme alternative du test qui a atteint cet uniforme Pe star uniforme, (()) (01:48) a été la moitié en 1 moins la distance totale de variation entre W0, W1, atteinte par ce test. Maintenant, vous pouvez prendre un journal de ces deux rapports, ces rapports. Et si équivalence vous pouvez exprimer ce test comme, il déclarera 0 le taux de log de vraisemblance dépasse 0 et il déclarera 1 si le taux de log de vraisemblance est inférieur à 0. Donc, en général, ce formulaire suggère la forme suivante de tests très populaires dans la pratique, ces tests sont appelés test de rapport de vraisemblance logarithjour, test de rapport de vraisemblance du log de vraisemblance. Donc, ici, vous déclarez 0 si le rapport de vraisemblance de log de 0 contre 1 dépasse un certain seuil tau. Il s'agit d'un seuil tau, qui est une caractéristique du test dans le sens où vous devez le définir pour utiliser ce test. Et il déclarera 1, si le rapport de log de vraisemblance de 0 par 1 est inférieur à égal à tau. Donc, si vous préférez W0 sur W1, en ce sens de déclarer 0, et si vous préférez, si vous ne préférez pas W0 sur W1, alors vous déclarez 1. Donc, c'est une, c'est une classe de test importante qui est utilisée dans la pratique. Maintenant, comment a fait ce test ou s'il y a une garantie théorique pour ce test, c'est ce qui va apparaître maintenant. En fait, cette classe de test pour différents seuils est optimale pour ce qu'on appelle la formulation de Neyman Pearson. Permettez-moi de décrire cette formulation. Avant de le faire, voyons à quel point ces tests sont bien réalisés. Donc, nous allons dénoter ce test par g tau, où tau est le seuil. Donc, sous X 0, alors quand le, quand la distribution, donc c'est légèrement en utilisant, quand la vraie hypothèse inconnue est 0, il s'agit d'un test d'hypothèse binaire, alors en ce que la distribution de l'observation est W0, donc la probabilité d'erreur sous 0 est que d'abord 0 se produit et ensuite vous déclarez 1, donc vous déclarez 1. Et pour tout ce que vous déclarez 1, il s'agit d'une erreur. Donc, c'est une partie de la probabilité d'erreur. La seconde partie de la probabilité d'erreur était qu'en fait, la vraie hypothèse était 1, mais vous avez fini par déclarer 0. Donc, tous ces éléments, avec la probabilité mesurée sous 1, est la seconde partie de la probabilité d'erreur. Nous venons juste d'abréger ce PX 1 en tant que p, donc la probabilité d'erreur est de 1 moins p dans W0 de ce test déclarant 1, ceci, ceci afin de mesurer cette probabilité sous W0. Le temps plus p, p est la probabilité 1, sous W1 la probabilité que le test déclare 0. Donc, c'est votre probabilité d'erreur. En fait, ces deux probabilités d'erreurs ici sont de style différent. Donc, celui-ci où vous déclarez 1 sous 0 est généralement appelé erreur donnée, il s'agit de l'erreur donnée 0 qui est généralement appelée erreur de type 1. Et ceci est appelé erreur de type 2, il s'agit de deux erreurs différentes associées au test. Donc, une façon de penser à un problème de test d'hypothèse est qu'il s'agit d'un problème de prise de décision, mais la fonction de coût est cette paire, W0 verset virgule W1. Nous avons attendu cela avec ce p pour trouver une fonction de coût unique, mais la fonction de coût réel est une paire. Ainsi, au fur et à mesure que le tau augmente, vous pouvez vérifier, à mesure que le seuil augmente, une erreur de type 1 augmente, mais l'erreur de type 2 diminue. Ainsi, lorsque le seuil augmente, vous diminuez le nombre de points, y compris 0, mais vous augmentez le nombre de points, y compris 1. Donc, vous pouvez vérifier que, ce qui se passe est une erreur de type 1 augmente, mais l'erreur de type 2 diminue. Donc, ce que Neyman Pearson, Neyman et Pearson ont fait, ils ont considéré une formulation légèrement différente qu'ils (()) (05:27) ont considéré un critère légèrement différent pour l'optimalité pour un test, jusqu'à présent nous regardons en moyenne la probabilité d'erreur, la formulation bayésienne que nous avons étudiée, a une probabilité moyenne d'erreur. Mais voici une autre façon d'utiliser cette paire pour définir une fonction de coût. Donc, nous recherchons le test, nous recherchons le test pour lequel l'erreur de type 1 est inférieure à epsilon, l'erreur de type 1 est inférieure à epsilon. Donc, c'est l'attente raisonnable de la série vectorielle. Peu importe ce que l'erreur de type 1 doit être inférieure à epsilon. Sous cette contrainte, nous recherchons le meilleur test. Alors, quel est le meilleur test une fois que vous avez imposé cette contrainte, vous voulez trouver un test qui minimise l'erreur de type 2, donc il minimise l'erreur de type 2. Sous réserve de la contrainte, l'erreur de type 1 est inférieure à l'epsilon. C'est le test optimal. Donc, on appelle cette quantité beta, epsilon W0, W1, donc beta epsilon W0, W1. Maintenant pourquoi bêta, en général, dans les tests d'hypothèse, 1 moins epsilon est appelé alpha, il est parfois appelé puissance du test, s'appelle il est appelé la taille du test, c'est la puissance du test. Donc, on appelle juste en béta, c'est juste une convention. Donc, beta d'epsilon W0, W1 est la probabilité minimale d'erreur de type 2, c'est la probabilité d'erreur de type 2. Étant donné que la probabilité d'erreur de type 1 est inférieure à epsilon, c'est ce que nous recherchons, c'est ce beta epsilon W0, W1. Alors, pourquoi cette formulation, pourquoi cette formulation est-elle logique, pour de nombreuses raisons. Mais voici une raison heuristique très simple. Donc, pensez à une application où H0 est une opération normale et H1 est une situation alarmante. Par exemple, H0 peut être absent d'une maladie et H1 peut être la présence d'une maladie. Donc ici, la terreur de type 1 dit que c'était en fait la maladie n'était pas présente, mais vous déclarez que la maladie est présente. Il s'agit donc d'une fausse alerte ; il s'agit d'une erreur moins grave, de sorte que vous ne voulez pas déclarer de fausses alarmes. Cependant, l'erreur de type 2 est une détection manquée, la maladie était présente, mais vous ne l'avez pas trouvé, il s'agit d'une erreur très grave. Par conséquent, il est logique de demander une garantie nominale d'une petite fausse alerte, tout en réduisant au minimum le problème de détection manqué, c'est ce que fait Neyman Pearson. Par conséquent, évaluons un test de seuil, le seuil de test de seuil que nous avons défini précédemment, le test de seuil sur le rapport de vraisemblance du log pour ce paramètre. Donc, quelle est la probabilité d'une fausse alerte, elle est donnée par ceci. Donc, si vous remplacez gt y comme test de rapport de vraisemblance logarithmière, alors il déclarera 1 si ce rapport de vraisemblance est petit. Donc, probabilité d'erreur de type 1, la probabilité de faux alarme est la probabilité sous W0 de ceux y pour lesquels le log de W0 par W1 est inférieur à égal à tau. De même, la probabilité de détection manquée est W1 de y, de ces y ’ s pour lesquels W0 par W1, log de ce qui est supérieur à tau. De la manière que nous pouvons, essayons de dériver une borne pour cette probabilité de détection manquée. Donc, voici ce que nous pouvons faire, nous pouvons exprimer ce W1 comme W1 par W0 en W0. Donc, ceci est parfois appelé un argument de changement de mesure, la mesure de probabilité en vertu de laquelle vous vouiez mesurer les choses était W1, mais vous l'avez déplacée vers W0. Et il ya un facteur de correction que vous avez besoin de W1 par W0 ici. Alors, comment ça vous aide, cette condition ici vous dit que W0 par W1 est plus que tau, pour tout ce que nous sommes seulement en sommant les y. Donc, au-dessus de tous ces y, en fait, vous pouvez voir que ce ratio, qui est juste 2 à la puissance moins log de W0 par W1, ce ratio ici est inférieur à égal, est inférieur à tau, vous pouvez voir ça. Donc, c'est plus grand que le tau, donc moins de ça c'est moins que le tau. Par conséquent, cette probabilité est inférieure à la sommation sur y, 2 à la puissance moins tau fois W0 de y. Donc, nous avons fait un argument de changement de mesure, nous avons d'abord mesuré la probabilité de l'ensemble sous W1, nous l'avons déplacé à une probabilité W0 à ce coût de ce facteur additionnel 2 à la puissance moins t. En fait, cette soumission est sur le même ensemble, elle est sur le même ensemble. Cependant, si nous supprimons cette restriction, cela ne fera qu'augmenter la probabilité, donc je peux supprimer cette restriction. Et donc, ce n'est pas l'égalité, c'est seulement une limite supérieure. Mais qu'est-ce que vous pouvez dire à propos de la soumission par y, W0 de y, c'est-à-dire 1 qui est au plus 1. C'est exactement égal à 1, puisque W0 est une mesure de probabilité qu'il s'agit d'une distribution de probabilité, c'est un CMR. Et donc, la borne supérieure que vous obtenez pour la probabilité de détection manquée pour ce test de seuil avec le seuil tau est juste 2 à la puissance moins tau, très simple. Donc, pour ce test de seuil, la probabilité de détection manquée n'est pas supérieure à 2 pour la puissance moins tau. Donc, ce que nous avons montré, nous avons obtenu une borne pour l'epsilon bêta. Ce que nous avons montré c'est que, supposons que vous puissiez trouver une lambda qui satisfait cette propriété. Donc c'est comme le théorème du code source que nous avons vu plus tôt, cette lambda ce qu'elle satisfait que sous W0, la probabilité de log de vraisemblance du log W0 par W1 excédant le tau est au moins 1 moins epsilon, ceci va s'assurer que la probabilité d'erreur de type 1 est, donc c'est une probabilité d'erreur de type 1, nous voulons que ceci soit moins qu'epsilon. Donc, 1 moins cela, le complément de cet événement est là où c'est plus grand que le tau. Et nous voulons que même les proBabilité supérieure à 1 moins epsilon. Donc c'est la condition que nous imposons ici, supposons que cette condition se tienne, puis la probabilité de détection manquée est inférieure à 2 à la puissance moins tau. Et donc, beta epsilon, qui est la plus petite probabilité de type 2, étant donné que le test satisfaisant cette contrainte doit être inférieur à ceci, c'est la plus petite probabilité et vous donner un test, qui satisfait cette probabilité de garantie d'erreur, donc le plus petit ne peut être que plus petit. Donc, nous l'avons montré, c'est vous pouvez réfléchir à la manière dont je viens de passer, comment nous l'avons montré. Alors, quel est notre test à nouveau, le test de seuil. Mais nous supposons en outre quelque chose sur les distributions, donc nous supposons que ce tau que nous avons choisi d'une façon très spécifique, nous supposons que ce tau est une grande probabilité, c'est ma grande probabilité plus faible liée sur le rapport de vraisemblance du log, rapport de vraisemblance du log. Donc, cette chose est appelée le rapport de vraisemblance logarithmique, sa probabilité est ce type, c'est le rapport de vraisemblance et c'est le log de ça, donc le ratio de vraisemblance logarithmique, le LLR parfois. Et donc nous avons vu cette formulation très simple. Donc, nous avons un manche sur beta epsilon W0, W1 et il est au plus 2 à la puissance moins tau. Alors, regardons maintenant le cas de l'iid, c'est le résultat général, regardons le cas des observations iid. Donc, quand les observations iid sont là, donc nous pouvons trouver une telle estimation, tout ce que nous avons à trouver est une estimation pour ce tau pour obtenir cette limite supérieure. Donc, si W0 et W1 sont des répétitions iid, comme c'était un exemple dans un exemple de pièce de monnaie, W0 sera cette distribution de produit et W1 sera une autre distribution de produit sous q, peut-être que je ne devrais pas utiliser de petit q ici, j'ai utilisé du capital. J'ai utilisé les immobilisations P et Q. Donc, P this, P this et Q this. Donc, le ratio W0 par W1 est le produit ces deux, ils montrent ces deux produits. Et il y a un log, donc le log produit des sommes de produits, donc de nouveau faire du capital P et Q. Donc, ce qui est une bonne estimation pour ce type, nous pouvons utiliser l'inégalité de Chebyshev ’, le bien, une bonne estimation pour ce type est la valeur attendue de cette quantité plus quelques racines carrées n fois la variance de cette quantité. Donc, n fois la valeur attendue plus la variance. C'est juste l'inégalité de Chebyshev ’, puisque ces types sont indépendants, cette variance est juste la somme des variances. C'est un bien important que nous avons vu plus tôt. C'est ce que nous avons fait jusqu'à présent. Nous avons trouvé des estimations de log de 1 par, souvenez-vous de cette partie, nous avons trouvé des estimations de log de 1 par P Xn, des variables aléatoires iid. C'est un calcul similaire. C'est ainsi que nous avons trouvé l'entropie. Donc, ce que ce calcul suggère, c'est qu'il y a quelque chose de spécial à propos de cette attente, tout comme nous avons découvert l'entropie comme l'attente de log de 1 par P. Now, ce log de, l'attente du rapport log de vraisemblance, par la façon, cette attente est sous P et c'est très important parce que nous mesurions cette probabilité sous W0 et W0 était sous, dans le numérateur ici. Donc, cette attente est sous P. Donc, cette quantité vous donne essentiellement une limite supérieure sur beta epsilon W0, W1 parce que nous avons une estimation pour cette grande probabilité de limite supérieure du taux de log de vraisemblance. Donc, pour le cas iid, la borne supérieure que nous avons est 2 à la puissance moins n. Valeur attendue sous W0 du journal de W0 y. Laissez-moi faire un peu d'espace pour moi. Donc, la valeur attendue sous W0 de log de W0 y, cette y a la distribution W0 y, W1 y et n fois ceci. Donc, cette probabilité d'erreur va à 0 très rapide dans, c'est exponentiellement alors et l'exposant est ce type. Et ce gars a un nom, ce type est appelé la divergence Kullback-Leibler. Et le fait que cette probabilité d'erreur peut aller à 0 très rapidement, a beaucoup d'intérêt.