Carlos Alberola López
X1 X
X 2
3 X
Y
4
X
5
X X
6
7
X8
PROBABILIDAD, VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS Una introducción orientada a las Telecomunicaciones
fY(y|H )
fY(y|H )
0
1
Y m0
t*
m1
Universidad de Valladolid
PROBABILIDAD, VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS
Una introducción orientada a las Telecomunicaciones
Serie: INGENIERÍA, nº 12
ALBEROLA LOPÉZ, Carlos Probabilidad, variables aleatorias y procesos estocásticos : una introducción orientada a las Telecomunicaciones / Carlos Alberola López. – Valladolid : Universidad de Valladolid, Secretariado de Publicaciones e Intercambio Editorial, 2004 260 p.; 24 cm. – (Ingeniería ; 12) ISBN 978-84-8448-307-6 1. Telecomunicaciones – Procesos estocásticos – Variables aleatorias – Probabilidades I. Alberola López, Carlos, aut. II. Universidad de Valladolid, Secretariado de Publicaciones e Intercambio Editorial, ed. III. Serie 519.21:621.39
CARLOS ALBEROLA LÓPEZ
PROBABILIDAD, VARIABLES ALEATORIAS Y PROCESOS ESTOCÁSTICOS
Una introducción orientada a las Telecomunicaciones
Universidad de Valladolid Secretariado de Publicaciones e Intercambio Editorial
No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, ni su préstamo, alquiler o cualquier otra forma de cesión de uso del ejemplar, sin el permiso previo y por escrito de los titulares del Copyright.
© CARLOS ALBEROLA LÓPEZ, VALLADOLID, 2004 SECRETARIADO DE PUBLICACIONES E INTERCAMBIO EDITORIAL UNIVERSIDAD DE VALLADOLID Primera edición: 2004 Segunda reimpresión: 2011 Diseño de cubierta: Miguel Ángel de la Iglesia Álvaro Tapias García ISBN: 978-84-8448-307-6 Dep. Legal: SE-3851-2004 Composición del autor Imprime: Publidisa
A quien fue, a quien es, a quien no pudo ser y a quienes ser´ an.
Pr´ ologo Este libro es el resultado de los diez a˜ nos de docencia en la materia de Teor´ıa de la Probabilidad y Se˜ nales Aleatorias que, en el momento de redacci´on de este pr´ologo, el autor del mismo ha impartido en la Escuela T´ecnica Superior de Ingenieros de Telecomunicaci´on de la Universidad de Valladolid. Pretende ser, como objetivo prioritario, un manual que incluya los conocimientos probabil´ısticos b´ asicos que se precisan para abordar el an´ alisis y dise˜ no de los Sistemas de Comunicaci´on. En el Plan de Estudios de la titulaci´ on de Ingeniero de Telecomunicaci´on, tanto el que tuvo esta Escuela en su origen, como en el que actualmente est´a en vigor, la materia arriba mencionada se concentra fundamentalmente en una asignatura, a saber, Se˜ nales y Sistemas de Transmisi´ on I en el plan antiguo, y Se˜ nales Aleatorias en Ruido (SAR, en adelante), en el plan actual. El resto de asignaturas que hacen uso de estos temas (fundamentalmente Teor´ıa de la Comunicaci´ on, Teletr´afico, Tratamiento Digital de la Se˜ nal y optativas afines as´ı como alguna Telem´atica) construyen sobre los pilares de ´esta. Por tanto, es SAR el soporte te´orico sobre el que otras asignaturas se basan para impartir sus conocimientos espec´ıficos. Este libro est´a dise˜ nado para constituir el material docente, a impartir en un u ´nico cuatrimestre, de la u ´nica asignatura que proporciona formaci´ on en temas de probabilidad para los alumnos de este Plan de Estudios. Para el autor tal afirmaci´ on supone un reto; no es f´ acil sintetizar una materia tan amplia en un u ´nico cuatrimestre, partiendo adem´as de un desconocimiento por parte de los alumnos pr´ acticamente total de conceptos probabil´ısticos (la experiencia dice que es el caso). Se debe por tanto hacer una selecci´on minuciosa de los temas a tratar, as´ı como del grado de profundidad en su tratamiento, para conseguir transmitir esta materia persiguiendo, asimismo, que el alumno pueda llegar a verla como una poderosa herramienta que le sea u ´til para abordar problemas futuros. Dado que la materia es cl´asica, es evidente que existe una enorme bibliograf´ıa al respecto. Sin embargo el autor (que es ingeniero del ramo) ha pretendido escribir un libro para ingenieros y para aspirantes a ello. Por ello las fuentes bibliogr´ aficas que se han tenido presentes (v´ease la secci´on de Bibliograf´ıa, ep´ıgrafe “B´asica”) responden a este perfil de probabilidad aplicada a las se˜ nales y comunicaciones. De tales fuentes bibliogr´ aficas destaca, en el campo de la Ingenier´ıa de Telecomunicaci´on y, en concreto, en el a´rea de conocimiento de Teor´ıa de la Se˜ nal, la obra de Athanasios Papoulis, recientemente fallecido. Sin exageraci´on ninguna, esta obra es referente mundial y cubre, con creces, los contenidos de la asignatura a que va dirigi-
10
C. Alberola L´ opez
do este libro. Sin embargo, como se dijo antes, el autor dispone de un u ´ nico cuatrimestre para realizar su funci´ on. En tan poco tiempo esta obra resulta exhaustiva en exceso de forma que, si bien se tendr´a presente a lo largo de todo el tratado, se debe realizar un trabajo de s´ıntesis importante, s´ıntesis que, a juicio de su autor, consigue el libro que ahora comienza. Se podr´ıa argumentar que existen otra obras tambi´en sint´eticas; tal es el caso, por ejemplo, de la obra de Peebles, tambi´en referenciada en el ep´ıgrafe anteriormente indicado. No obstante, esta obra tal vez adolece de simplificaci´on excesiva en determinados momentos, carencia que aqu´ı hemos tratado de evitar. Este libro no es un libro de estad´ıstica— hemos incluido, no obstante alguna referencia bibliogr´ afica al respecto —, si entendemos por tal el conjunto de procedimientos a llevar a cabo para extraer conclusiones acerca de una poblaci´ on a partir de observaciones de una muestra. Por tanto, en el libro no se encontrar´ a una sola menci´ on, por ejemplo, del concepto de intervalo de confianza, ni de la estimaci´on de m´ axima verosimilitud, ni se hablar´ a de funciones como la t de Student o la F de Snedecor. Sin embargo, s´ı que se proporciona una base probabil´ıstica que permita al alumno, si resultase interesado en estos temas, avanzar en esa direcci´on. Excepci´on a lo dicho, esto es, descripci´on de un procedimiento estad´ıstico, es el caso de la estimaci´on de m´ınimo error cuadr´ atico medio que se incluye al final del cap´ıtulo tercero. El objetivo de la impartici´ on de tal concepto es proporcionar al alumno una peque˜ na base sobre la que construir, en otras asignaturas, procedimientos o´ptimos de filtrado de se˜ nales. Estar´ıamos hablando, concretamente, de proporcionar las bases para la comprensi´on del filtro de Wiener y, adicionalmente, del filtro de Kalman. Tampoco se describe formalmente el concepto de test de hip´otesis (se hace una menci´on indirecta en el primer cap´ıtulo para ilustrar la trascendencia del Teorema de Bayes) ni se deducen las soluciones ´optimas en sentido bayesiano ni en sentido Neyman-Pearson. Sin embargo, a lo largo del texto se plantean ejemplos de ´estos y el alumno puede observar que, en un momento dado, dispone de las herramientas que le permiten calcular, pongamos, umbrales para conseguir un determinado requisito. Por tanto, este libro tiene como objetivo adicional proporcionar una base para poder profundizar, si es deseo del alumno, en temas de tratamiento estad´ıstico de se˜ nales (estimaci´on y detecci´on) y reconocimiento de patrones, para lo cual hemos incluido en la bibliograf´ıa varias referencias enormemente conocidas. El libro se ha estructurado en cinco cap´ıtulos, de los cuales los cuatro primeros formar´ıan una unidad conceptual (probabilidad y variables aleato-
11
rias) y el quinto, segunda unidad conceptual, constituir´ıa una introducci´ on a los procesos estoc´asticos. El primer cap´ıtulo es una introducci´ on a la Probabilidad, y el segundo describe el concepto de variable aleatoria. El tercero ampl´ıa el marco a dos variables aleatorias (haciendo especial hincapi´e en el concepto de comportamiento conjunto) y el cuarto extiende (con respecto a dos) el n´ umero de variables a considerar de forma conjunta. Los tres primeros cap´ıtulos contienen varios ejemplos de aplicaci´on de los conceptos expuestos, y los cap´ıtulos cuatro y cinco finalizan con una secci´on de ejercicios ilustrativos, recopilatorios de los conceptos y procedimientos impartidos en las dos unidades conceptuales consideradas en el libro. Los ejercicios, que proceden fundamentalmente de ex´amenes de antiguas convocatorias de las asignaturas mencionadas arriba, se han resuelto en su totalidad y, algo que el autor considera de utilidad, contienen numerosos punteros a las secciones y ecuaciones que se requieren en cada momento. El autor entiende pues que, a pesar del n´ umero reducido de ejercicios incluidos, ´estos abarcan un porcentaje muy elevado de los conceptos expuestos en el libro. Asimismo, los problemas del quinto cap´ıtulo introducen al lector en el mundo de las comunicaciones, tanto anal´ogicas como digitales, con ejemplos de algunas modulaciones. De forma complementaria, algunos de los ejercicios del cap´ıtulo cuatro analizan el comportamiento de detectores, tanto de sistemas radar como de sistemas de comunicaci´on. Esto u ´ltimo hace que este libro no est´e dirigido s´olo a estudiantes de la titulaci´ on de Ingeniero de Telecomunicaci´on, sino a todos los alumnos de las diversas titulaciones que se imparten actualmente en la Escuela de Telecomunicaci´on de la Universidad de Valladolid. Todos ellos (ingenieros t´ecnicos e ingenieros, de Telecomunicaci´on o Electr´ onica) debe conocer los conceptos fundamentales de los Sistemas de Comunicaci´on, y este libro proporciona una recopilaci´ on de los fundamentos probabil´ısticos en los que se basan. Para estos otros alumnos, igualmente, los problemas incluidos al final constituyen —a juicio del autor— una herramienta de inter´es te´oricopr´ actico. Finalmente, se debe hacer menci´on expresa de que este libro ha sido escrito bajo el supuesto de que el lector dispone de unos conocimientos b´ asicos de Teor´ıa de la Se˜ nal, en particular, de Sistemas Lineales. Se asume pues que el lector conoce fundamentos de se˜ nales, sistemas lineales e invariantes, la operaci´ on de convoluci´ on, se˜ nales b´asicas empleadas como soporte (nos referimos a funciones escal´on y delta) y Transformada de Fourier. En el texto, por lo tanto, no se hace hincapi´e en tales cuestiones, sino que, simplemente, se emplean. No obstante, la necesidad de tales concep-
12
C. Alberola L´ opez
tos se produce de forma paulatina, de forma que si el lector de este pr´ologo no conoce los conceptos que se acaban de mencionar, pero planea leer este libro conjuntamente con otro de Sistemas Lineales, no deber´ıa tener mayor problema en tal simultaneidad.
Cap´ıtulo 1
Teor´ıa de la Probabilidad 1.1
Introducci´ on
La mayor parte de los fen´omenos en la naturaleza tienen un car´ acter aleatorio si bien, en numerosos casos, se simplifican la situaciones con el fin de hacerlas abarcables y as´ı se tratan de cerrar los experimentos en f´ormulas determin´ısticas. Por ejemplo, si dejamos caer un objeto desde una cierta altura, asumimos que conocemos con qu´e aceleraci´on se produce la ca´ıda y, asimismo, damos por supuesto que la posici´on de parada del objeto se producir´ a en la proyecci´on vertical del mismo sobre el suelo. Tal aproximaci´on deja de ser v´ alida si se introducen otros factores que hacen del problema algo m´as complejo como, por ejemplo, la existencia de fuerzas descontroladas (digamos, la acci´on del viento). Asimismo, si medimos el tiempo de ca´ıda del objeto en varias ocasiones raramente conseguiremos dos medidas exactamente iguales. No es dif´ıcil por tanto aceptar que la realidad se puede aproximar mediante un modelo matem´atico, m´as un t´ermino de ambig¨ uedad (al que t´ıpicamente se denomina ruido). Podemos pensar en experimentos impl´ıcitamente aleatorios. Pi´ensese, por ejemplo, el tiempo que se invierte en llegar de un punto a otro en una ciudad mediante tr´ afico rodado. Claramente, este tiempo ser´a uno u otro en funci´ on de las condiciones del tr´afico, las cuales no son completamente predecibles. Los sistemas de comunicaci´on no son ajenos a estos escenarios de incertidumbre. En primer lugar, las se˜ nales que se manejan transportan informaci´ on, de forma que no son caracterizables con exactitud mediante un conjunto finito de par´ ametros. Es decir, si una se˜ nal transporta informaci´on, no podremos predecir sin error— en general —el valor que toma 13
14
C. Alberola L´ opez
dicha se˜ nal en un cierto instante conocido el valor que ha tomado en instantes pasados. Tan s´olo podremos hacer una caracterizaci´on parcial de la misma y as´ı poder extraer conclusiones del tipo, por ejemplo, qu´e valores t´ıpicamente toma la se˜ nal, con qu´e velocidad var´ıa etc ..., esto es, caracter´ısticas promedio o caracter´ısticas globales, ante nuestra incapacidad de hacer una caracterizaci´on m´ as pormenorizada.
Asimismo, inherentes a los sistemas de comunicaci´on son las se˜ nales aleatorias perturbadoras, superpuestas a las se˜ nales de inter´es. Las primeras, completamente inevitables en los sistemas de comunicaci´on, deben ser estudiadas, con el fin de ser caracterizadas y as´ı poder dise˜ nar sistemas que sean inmunes, o que, cuanto menos, consigan minimizar el efecto de tales perturbaciones sobre las se˜ nales deseadas y, por ende, sobre la informaci´ on que se trata de enviar de un punto a otro.
Tambi´en en el dise˜ no de sistemas de comunicaci´on nos encontramos casos en los que se deben tomar decisiones de dimensionamiento en ambientes de incertidumbre. Por ejemplo, si pretendemos proporcionar un servicio telef´ onico en un edificio, una posibilidad de dise˜ no ser´ıa colocar tantas l´ıneas como individuos est´en presentes en dicho edificio. De esta manera, al descolgar un tel´efono, el usuario tendr´ıa seguridad de disponer de l´ınea telef´ onica para hacer la llamada. No obstante, esta soluci´on es claramente ineficiente, como dicta el sentido com´ un. Parece mucho m´as razonable estudiar c´omo es el tr´afico que t´ıpicamente se generar´a en dicho edificio (en base, por ejemplo, a mediciones de tr´ afico solicitado en otros edificios de caracter´ısticas similares) y dise˜ nar el sistema de modo que la probabilidad de disponer de l´ınea telef´ onica al descolgar el tel´efono sea lo suficientemente elevada como para que el usuario, en general, disponga de la posibilidad de comunicarse, si bien en algunos— y poco frecuentes —casos esta persona tendr´ a que colgar y esperar unos instantes. De esta manera se consigue un uso de los recursos mucho m´as ajustado a la necesidad real.
Todos estos ejemplos ponen de manifiesto que debe haber un cuerpo de doctrina que, en base a datos recogidos de situaciones similares, nos permita caracterizar, aunque sea parcialmente, el comportamiento de un sistema que se vea sujeto a incertidumbre. Tal cuerpo doctrinal es la Teor´ıa de la Probabilidad, objeto de este primer tema.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
1.2
15
´ Algebra de conjuntos
Como se pondr´ a de manifiesto en posteriores secciones, la teor´ıa de la probabilidad1 se asienta sobre el ´algebra de conjuntos, de forma que es conveniente repasar, aunque sea de manera sucinta, los conceptos b´asicos en relaci´on con la teor´ıa de conjuntos. El lector interesado en un tratamiento m´as riguroso del que aqu´ı se va a hacer puede consultar [2].
1.2.1
Definiciones, terminolog´ıa y notaci´ on
Un conjunto se define gen´ericamente como una colecci´on de elementos. T´ıpicamente los elementos que forman parte de un conjunto tienen alg´ un tipo de propiedad en com´ un que les haga susceptibles de pertenecer al conjunto, pero tal requisito es meramente anecd´otico. El conjunto se suele representar con una letra may´ uscula, tipo A, B, C, etc. . . , y los elementos del mismo se representan con una letra min´ uscula (a,b,c, etc). Sobre los conjuntos se define una relaci´on de pertenencia, la cual se denota con el s´ımbolo ∈. As´ı pues, si el elemento a pertenece al conjunto A, este hecho se formaliza mediante la expresi´on a ∈ A. En el caso en que b no pertenezca a A se escribe b ∈ / A. Respecto a la forma de descripci´on del conjunto, ´esta se puede realizar de manera enumerativa, A = {a1 , a2 , . . . , an }, o bien, mediante la ley de formaci´on a la que antes hac´ıamos referencia A =‘los diez primeros n´ umeros naturales’. Tal definici´ on, como puede imaginarse, es equivalente a escribir de forma enumerativa A = {1, 2, 3, . . . , 10}. Se define el cardinal de un conjunto como el n´ umero de elementos que forman parte de dicho conjunto. Si dicho cardinal es un n´ umero finito, el conjunto se denominar´a finito. Caso contrario ser´a infinito. Dentro de estos u ´ltimos, debemos distinguir los de cardinal numerable, que ser´an aquellos cuyos elementos se pueden poner en relaci´on 1:1 con los n´ umeros enteros (por ejemplo, el conjunto de los n´ umeros pares); por otra parte nos encontraremos conjuntos de cardinal no numerable, como, por ejemplo, el conjunto de los n´ umeros reales comprendidos entre dos n´ umeros a y b. La relaci´on de inclusi´ on se deriva de la relaci´on de pertenencia; un conjunto B se dice que est´a incluido dentro de un conjunto A si todos los elementos de B est´an en A. Si tal es el caso, podemos expresar de forma abreviada que B ⊂ A, o bien que A ⊃ B. Si se verifica que B ⊂ A y que A ⊂ B de forma simult´ anea, entonces es que los dos conjuntos son iguales. 1
Veremos en la secci´ on 1.3.3 que esta teor´ıa se define a partir de tres axiomas, de forma que, en sentido estricto, deber´ıamos denominarla teor´ıa axiom´ atica de la probabilidad.
16
C. Alberola L´ opez
Dos conjuntos de dice que son disjuntos si no tienen ning´ un elemento en com´ un. A estos conjuntos se les denomina tambi´en mutuamente excluyentes. Dado un problema, el conjunto universal, denotado por S, ser´a el conjunto formado por todos los elementos del problema. De forma complementaria, el conjunto vac´ıo, denotado por ∅ ser´a un conjunto sin ning´ un elemento. Como es natural, los conjuntos S y ∅ son mutuamente excluyentes.
1.2.2
Operaciones con conjuntos
Para operar con conjuntos, una representaci´on muy u ´til e intuitiva son los diagramas de Venn. Tales diagramas consisten, simplemente, en contornos cerrados en los que los elementos se representan como puntos. En base a tales diagramas la pertenencia de un elemento a un conjunto, la inclusi´on de un conjunto en otro, as´ı como las operaciones que vamos a ver a continuaci´ on, se representan de forma natural y muy gr´ afica. Un ejemplo de diagrama de Venn puede verse en la figura 1.1. A a
b
c
d
Figura 1.1: Ejemplo de diagrama de Venn.
Igualdad de conjuntos y conjunto diferencia Como se ha indicado, dos conjuntos son iguales si el primero incluye al segundo, y viceversa. En tal caso se puede expresar que A = B. Por otra parte, el conjunto diferencia de dos conjuntos A y B ser´a el conjunto formado por aquellos elementos del primero que no est´an en el segundo, es decir si C = A − B entonces C = {∀a ∈ A, t.q. a ∈ B}. La figura 1.2 ilustra mediante diagramas de Venn este concepto.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
17
A B
C=A-B
Figura 1.2: Conjunto diferencia. N´otese que esta operaci´on no es conmutativa, es decir A − B = B − A. Uni´ on e intersecci´ on de conjuntos Dados dos conjuntos A y B, el conjunto uni´ on de ´estos, denotado como A∪B, es el conjunto formado por los elementos que pertenecen a cualquiera de los dos. De forma complementaria, el conjunto intersecci´on, denotado por A∩B, es el conjunto formado por los elementos que pertenecen a ambos conjuntos simult´ aneamente. N´otese pues que (A ∪ B) ⊃ A y (A ∪ B) ⊃ B mientras que (A ∩ B) ⊂ A y (A ∩ B) ⊂ B. A
A UB B
A
U
A
B B
Figura 1.3: Uni´ on e intersecci´on de conjuntos. En el caso en que se aplique esta operaci´on de forma m´ ultiple, la manera de escribirlo de forma compacta es la siguiente A1 ∪ A2 ∪ . . . ∪ AN
=
N i=1
Ai
(1.1)
18
C. Alberola L´ opez
A1 ∩ A2 ∩ . . . ∩ AN
=
N
Ai
(1.2)
i=1
Por razones que se ver´an posteriormente, es habitual en c´alculo probabil´ıstico escribir A∪B = A+B
(1.3)
A ∩ B = AB
(1.4)
y, extendido al caso de operaciones m´ ultiples, A1 ∪ A2 ∪ . . . ∪ AN A1 ∩ A2 ∩ . . . ∩ AN
= =
N i=1 N
Ai
(1.5)
Ai
(1.6)
i=1
Debe repararse que estos signos no tienen el significado algebraico de suma y multiplicaci´ on sino, como hemos dicho, de uni´on e intersecci´on respectivamente. Es interesante, por su utilidad, recordar que estas dos operaciones cumplen las propiedades conmutativa, asociativa y distributiva. Esta u ´ltima hace referencia al uso combinado de las mismas, mientras que las dos primeras se refieren a cada una de las operaciones por separado. Concretamente, la conmutatividad implica que A∪B = B∪A
(1.7)
A∩B = B∩A
(1.8)
Con respecto a la propiedad asociativa A ∪ (B ∪ C) = (A ∪ B) ∪ C
(1.9)
A ∩ (B ∩ C) = (A ∩ B) ∩ C
(1.10)
Finalmente la propiedad distributiva permite escribir A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
(1.11)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
(1.12)
Complemento de un conjunto El conjunto complemento (o complementario) de un conjunto A (v´ease figura 1.4) es el conjunto diferencia entre el conjunto universal S y el conjunto A. Formalmente podemos escribirlo como A = S − A. Es f´acil ver que A ∪ A = S as´ı como que A ∩ A = ∅.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
19
S
A A
Figura 1.4: Conjunto A y su complementario A. Leyes de Morgan. Principio de dualidad Las leyes de Morgan constituyen una relaci´on entre las operaciones de uni´ on e intersecci´on y la operaci´on de complementaci´on. Concretamente son: A∪B = A∩B
(1.13)
A∩B = A∪B
(1.14)
Ambas expresiones pueden comprobarse con facilidad mediante diagramas de Venn. Las expresiones anteriores, aplicadas de forma repetida, llevan a la afirmaci´on: si en una expresi´ on de igualdad de conjuntos se reemplazan todas las uniones por intersecciones, las intersecciones por uniones y los conjuntos por sus complementarios, la igualdad se mantiene. Por ejemplo, el principio anterior llevar´ıa a afirmar que, en vista de la igualdad (1.12), podemos escribir A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
(1.15)
Finalmente, el principio de dualidad dice que si en una igualdad de conjuntos se reemplazan todas las uniones por intersecciones, todas las intersecciones por uniones, el conjunto S por ∅ y viceversa, la igualdad se mantiene. Un ejemplo de ello ser´ıan las expresiones (1.11) y (1.12).
1.3
Definici´ on de probabilidad
Se trata ahora de definir de forma precisa el concepto de probabilidad que vamos a manejar a lo largo de la asignatura. Dicho concepto, si bien lo tenemos todos asumido de alguna manera (pi´ensese, por ejemplo, en los apreciaciones que se hacen cuando se juega a las quinielas o a la ruleta) est´a basado en la intuici´ on y no en un cuerpo matem´atico riguroso. Trataremos, por tanto, de conectar sentido com´ un con rigor para crear un todo u ´nico.
20
C. Alberola L´ opez
Para ello, propondremos en primer lugar las definiciones m´ as o menos intuitivas de la probabilidad, para luego integrarlas en un marco formal m´as ambicioso. En lo que sigue haremos uso del concepto experimento aleatorio. Si bien ´este puede definirse de forma rigurosa, entenderemos por tal aquel experimento cuyo resultado no es completamente predecible. Encajan en esta definici´ on el lanzamiento de una moneda, el lanzamiento de un dado, el juego de la ruleta o, m´as cercano a las telecomunicaciones, la detecci´on de un s´ımbolo dentro de un alfabeto finito en un entorno ruidoso.
1.3.1
Probabilidad como frecuencia relativa
La probabilidad entendida como una frecuencia relativa se basa en la experimentaci´ on, y asocia a un determinado resultado de un experimento aleatorio una medida de posibilidad de aparici´ on de dicho resultado mediante: NA fr (A) = lim (1.16) N →∞ N on del resultado A, donde fr (A) representa la frecuencia relativa de aparici´ NA el n´ umero de veces que se ha obtenido como resultado precisamente el A y N representa el n´ umero de ejecuciones del experimento. Si bien es cierto que este planteamiento de la probabilidad encaja perfectamente con la intuici´ on (y, de hecho, como se ver´a, la Ley de los Grandes N´ umeros— secci´on 4.5.3 —asegura la convergencia de este par´ ametro a la probabilidad axiom´ atica del resultado) emplearlo como base para la creaci´on de una teor´ıa matem´atica que nos permita calcular una probabilidades a partir de otras es bastante pobre, habida cuenta que estamos obligados a experimentar para conseguir obtener el valor deseado. No hay pues posibilidad de anticipar la probabilidad de resultados de un experimento en base al conocimiento de las probabilidades de otros experimentos relacionados.
1.3.2
Definici´ on cl´ asica
La definici´ on cl´ asica de la probabilidad se basa, a diferencia de la anterior, en un an´ alisis del problema en vez de en la experimentaci´ on. Concretamente, dado un experimento aleatorio, la probabilidad asociada a un resultado A se define como NA (1.17) Pc (A) = N asica asociada a donde, en este caso, Pc (A) representa la probabilidad cl´ dicho resultado, NA representa el n´ umero de casos favorables a dicho resul-
Cap´ıtulo 1. Teor´ıa de la Probabilidad
21
tado y N el n´ umero total de casos posibles. Rep´arese que se han empleado la misma notaci´on para ambas definiciones, pero los conceptos subyacentes son completamente distintos. Un ejemplo aclarar´a todav´ıa m´as esta idea: si se pretende hallar la probabilidad de que salga el resultado uno ante el lanzamiento de un dado, para la definici´ on cl´asica NA = 1 y N = 6. Sin embargo, para la definici´ on basada en frecuencia relativa es necesario experimentar. Si suponemos que se lanza el dado mil veces y que sale el otese resultado 1 doscientas veces, entonces NA = 200 y N = 1000. N´ por tanto que la definici´ on cl´asica proporciona un valor u ´nico para la probabilidad del resultado deseado, mientras que el planteamiento basado en frecuencia relativa proporciona un resultado distinto (en general) cada vez que se realice el experimento. A priori, pues, parece m´as interesante la definici´on de la probabilidad en su versi´ on cl´asica, b´asicamente porque los resultados son siempre los mismos y, a su vez, porque no estamos obligados a experimentar. Sin embargo, debemos notar que esta definici´ on no est´a exenta de inconvenientes. Concretamente: 1. Esta definici´ on lleva impl´ıcito un concepto de equiprobabilidad en los resultados. ¿Qu´e suceder´ıa en el ejemplo del dado si ´este fuese un dado sesgado, es decir, si alg´ un resultado tendiese a observarse de forma m´as habitual que otros? N´ otese que el planteamiento cl´asico de la probabilidad no ser´ıa capaz de modelar correctamente esta situaci´on, si bien a trav´es del planteamiento basado en frecuencia relativa este sesgo s´ı que se har´ıa patente. 2. ¿Qu´e suceder´ıa si el n´ umero de casos posibles fuese infinito? En esta situaci´on todas las probabilidades ser´ıan cero, si bien la realidad puede ser muy otra. A pesar de sus inconvenientes, el planteamiento cl´asico es algo intuitivo y razonable, y funciona en un elevado n´ umero de casos. No obstante, tiene que plantearse algo m´as amplio tal que, englobando a los anteriores, no se quede atrapado en deficiencias como las comentadas.
1.3.3
Definici´ on axiom´ atica de la probabilidad
El planteamiento axiom´ atico de la probabilidad hace uso del ´algebra de conjuntos vista anteriormente; necesitamos, no obstante, alguna precisi´ on terminol´ ogica antes de introducir la definici´ on axiom´atica:
22
C. Alberola L´ opez
1. El conjunto universal que hemos denotado por S, recibir´ a ahora el nombre de espacio muestral o, alternativamente, y en base al segundo de los axiomas que definimos a continuaci´ on, suceso seguro. Complementariamente, el conjunto vac´ıo recibe el nombre de suceso imposible. 2. Cada subconjunto del espacio muestral recibir´ a ahora el nombre de suceso. En particular, cada elemento del espacio muestral se denominar´ a suceso elemental. Con estos t´erminos, el planteamiento de la probabilidad es el siguiente: dado un experimento con un espacio muestral S asociado, la probabilidad es una funci´ on que asocia a cada suceso del espacio muestral un n´ umero real, y que cumple los siguientes tres axiomas: 1. P (A) ≥ 0 2. P (S) = 1 3. P (A ∪ B) = P (A) + P (B)
si
A∩B =∅
N´otese que de estos axiomas se pueden extraer conclusiones muy u ´ tiles, sin m´as que aplicar operaciones sobre conjuntos. Entre ellas • P (A) = 1 − P (A). Esto es debido a que S = A ∪ A. Aplicando los axiomas 3 y 2 el resultado es directo. • P (∅) = 0. N´ otese que esto es un caso particular del anterior, para cuando A = S. • P (A∪B) = P (A)+P (B)−P (A∩B), si A∪B = ∅. Esta consecuencia generaliza el axioma 3 y se deducir´ıa de la forma siguiente:
A ∪ B = A ∪ (B − A) = A ∪ C B = C ∪ (A ∩ B) P (A ∪ B) = P (A ∪ C) = P (A) + P (C) P (B) = P (C) + P (A ∩ B) Uniendo las dos u ´ltimas ecuaciones obtenemos el resultado anticipado.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
23
• Si A ⊂ B entonces P (A) ≤ P (B). Esta consecuencia se debe a que si A est´a incluida en B entonces podemos escribir B = A ∪ (B − A) y esta uni´ on est´a formada por conjuntos disjuntos. Entonces, seg´ un el axioma tercero, P (B) = P (A) + P (B − A), y acorde con el axioma 1, P (B − A) ≥ 0. Debe hacerse notar, por lo tanto, que la probabilidad de todo suceso es un n´ umero entre 0 y 1 (rep´ arese que ∅ ⊂ A ⊂ S). Finalmente, demostremos que la probabilidad cl´asica est´a dentro de este planteamiento axiom´ atico. Para ello, veamos que la definici´ on proporcionada anteriormente cumple los axiomas. As´ı pues: • Pc (A) = NNA ≥ 0, dado que es el cociente entre dos magnitudes no negativas. • Pc (S) = tral.
N N
= 1, pues todos los casos son favorables al espacio mues-
• Suponiendo que los resultados A y B no puedan darse de forma simult´ anea, es decir, que NA∪B = NA + NB , entonces Pc (A ∪ B) =
NA∪B NA + NB NA NB = = + = Pc (A) + Pc (B) N N N N
Por ello, el planteamiento cl´ asico forma parte del planteamiento axiom´atico. Finalmente, podr´ıamos hacer algo similar con respecto a la frecuencia relativa. No obstante, debemos esperar hasta el estudio de los teoremas asint´oticos para demostrar que esto es as´ı (en concreto, la ya indicada Ley de los Grandes N´ umeros, descrita en la secci´on 4.5.3). Por ahora, pidamos al lector un poco de fe. Ejercicio: Se desea validar un sistema autom´atico de medici´ on de alturas de edificaciones. Con el objetivo de reducir costes en el proceso de validaci´on se descarta la medici´on directa de los edificios para contrastar con la autom´atica, de forma que se recurre a la medici´on por parte de n expertos, los cuales emplean sus propios sistemas de medida— y que, naturalmente, no est´an exentos de errores—. El sistema a validar se considerar´ a apto para su uso si la medici´on que proporciona no se encuentra en ninguno de los dos extremos, esto es, no es ni la mayor ni la menor de las n + 1 mediciones. Bajo la hip´ otesis de
24
C. Alberola L´ opez
que los n + 1 equipos de medida proporcionen medidas similares (es decir, que todos funcionen correctamente, afectados por errores similares), obtenga la probabilidad de que el sistema sea validado. Soluci´ on: Si las medidas son similares, el hecho de que la medida de un determinado equipo sea la mayor, o la menor, o caiga en cualquier otra posici´on con respecto a las dem´as, se debe exclusivamente al azar y no hay raz´on para pensar que exista tendencia por parte de ninguna medida a situarse en una determinada posici´on. Por ello, si se ordenan las medidas de manera creciente (o decreciente) cualquiera de las n + 1 medidas puede caer en cualquiera de las n + 1 posiciones de forma equiprobable. Consideremos la posici´on 1 como la asociada a la medida m´ as peque˜ na y la posici´ on n + 1 a la m´as grande. Sean los sucesos Ai = “La medida autom´ atica cae en la posici´on i”, i = {1, . . . , n + 1} y B = “el sistema autom´atico es validado”. Entonces podemos escribir P (B) = 1 − P (B)
= 1 − P (A1 An+1 ) = 1 − (P (A1 ) + P (An+1 )) 1 1 2 n−1 = 1− − =1− = (1.18) n+1 n+1 n+1 n+1 ♣ Espacio de Probabilidad Un experimento aleatorio se formalizar´ a mediante la terna < S, F, P >. El primer elemento de la terna es el espacio muestral; el segundo es la clase de sucesos que podemos extraer del espacio muestral y el tercero es la ley de asignaci´ on de probabilidades. Al respecto de la clase de sucesos debemos mencionar que si el espacio muestral tiene cardinal finito igual a N , la clase de sucesos tendr´a un n´ umero de subconjuntos igual a 2N . No obstante, si el cardinal del espacio muestral es infinito, el n´ umero de subconjuntos tambi´en lo ser´a, de forma que podr´ıamos pensar en uniones e intersecciones de infinitos sucesos. Para que el espacio de probabilidad est´e bien definido la clase de sucesos a considerar debe tener estructura de campo de Borel2 , esto es, la clase debe ser cerrada frente a una cantidad numerable de aplicaciones de las operaciones 2
Tambi´en denominado σ-algebra [3].
Cap´ıtulo 1. Teor´ıa de la Probabilidad
25
de complemento, uni´ on e intersecci´on entre los sucesos de la clase [2]. No obstante, no nos preocuparemos de estos detalles, y consideraremos que, a todos los efectos pr´ acticos, esto ser´a siempre as´ı. Finalmente, debemos repetir que el objetivo de la axiom´atica de la probabilidad es permitir calcular las probabilidades de unos sucesos en funci´on de las probabilidades de otros que se asumen conocidas o que ser´an proporcionadas como datos del problema. De ah´ı que sea necesario, para definir completamente un experimento aleatorio, una ley de asignaci´on de proba´ bilidades. Este es el significado del tercer elemento de la terna. Respecto a dicho elemento, si el espacio muestral es finito, o si es infinito numerable, nos deben proporcionar la probabilidades de cada elemento del espacio muestral3 . A tales probabilidades se les denominar´ a probabilidades elementales. Si, por contra, el espacio muestral es infinito no numerable, deberemos ser informados de una ley continua de asignaci´on de probabilidades. Esta ley ser´a, seg´ un veremos en cap´ıtulos posteriores, una funci´ on de densidad de probabilidad o, dualmente, una funci´ on de distribuci´ on. Ejemplo: Supongamos que un experimento aleatorio consiste en lanzar dos dados. Nos dicen que ambos dados son sim´etricos y que no existe interrelaci´on entre los dados, esto es, que el lanzamiento del primero no afecta en nada al segundo, y viceversa. Con esta informaci´ on, el experimento aleatorio queda completamente definido. Veamos que es as´ı: 1o¯ \ 2o¯ 1 2 3 4 5 6
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
1. El espacio muestral S viene dado por el conjunto de todos los posibles resultados, los cuales se muestran en la tabla adjunta. Como puede verse, consta de 36 elementos. 2. La clase de sucesos consta de todos los posibles subconjuntos que puedan extraerse de S. Sabemos de antemano que el n´ umero total de ´estos es de 2N = 236 . 3
Estrictamente hablando, bastar´ıa con que nos proporcionasen todas las probabilidades menos una, ya que la suma de todas ellas debe ser igual a la unidad.
26
C. Alberola L´ opez
3. Finalmente, no nos dicen de forma expl´ıcita la ley de asignaci´on de probabilidades. Sin embargo, nos dicen que los datos son sim´etricos (luego no hay por qu´e pensar que los resultados no son equiprobables) y que adem´ as no existe influencia entre ellos (luego los resultados conjuntos mantienen esa equiprobabilidad). As´ı pues, la probabilidad de cada resultado elemental, digamos aij , con 1 ≤ i, j ≤ 6 1 ser´a igual a 36 (consideremos que el ´ındice i direcciona las filas de la tabla, y el j las columnas). En la secci´on 1.7 se discute una posible asignaci´ on de probabilidades en la que hay equiprobabilidad de cada dado por separado, pero no de ambos de manera conjunta. Con ello podemos calcular la probabilidad de cualquier suceso que sea de inter´es. Por ejemplo, podemos calcular la probabilidad del suceso B=“la suma de las componentes es igual a 7”. Para ello, si denominamos Aij = {aij } entonces P (B) = P (A61 ∪ A52 ∪ A43 ∪ A34 ∪ A25 ∪ A16 ) = P (A61 ∪ (A52 ∪ A43 ∪ A34 ∪ A25 ∪ A16 )) = P (A61 ) + P (A52 ∪ A43 ∪ A34 ∪ A25 ∪ A16 ) .. . = P (A61 ) + P (A52 ) + P (A43 ) + P (A34 ) + P (A25 ) + P (A16 ) 1 1 = 6 = 36 6 El paso de la primera l´ınea a la segunda se ha realizado aplicando la propiedad asociativa de la uni´ on (expresi´ on 1.9). Ello, junto con el tercer axioma de la probabilidad, permite pasar a la tercera l´ınea. La repetici´ on de este proceso lleva a la pen´ ultima igualdad y, finalmente, a su valor num´erico.
1.4
Probabilidad condicionada
La probabilidad condicionada es una definici´ on que se une a los axiomas para formar los pilares de la teor´ıa de la probabilidad. Esta modalidad de probabilidad, la cual se denota por P (A|B), mide c´omo cambia nuestro conocimiento probabil´ıstico de un suceso A cuando conocemos que otro suceso (digamos, B) se ha verificado.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
27
El hecho de conocer que el suceso B se ha verificado implica que el experimento aleatorio con el que trabajamos ha cambiado. La situaci´on puede expresarse como B
< S, F, P >=⇒ B < SB , FB , PB >
(1.19)
esto es, partimos del experimento y la verificaci´on de B nos hace pasar a un experimento B en el que las tres entidades involucradas (espacio muestral, clase de sucesos y ley de asignaci´on de probabilidades) han cambiado. Es precisamente esta u ´ltima la probabilidad condicionada. La probabilidad condicionada puede calcularse en el experimento B pero es pr´ actica habitual calcularse directamente en el experimento original. Para ello se establece, por definici´on, que:
P (A|B) =
P (A ∩ B) P (B)
(1.20)
definici´ on en la que se asume que el suceso condicionante B tienen probabilidad no nula, esto es, P (B) = 0. En lo que sigue, aunque no hagamos menci´on expresa de esta asunci´on, debemos tenerla en mente siempre que manejemos probabilidades condicionadas (de forma inmediata en las secciones 1.5.1 y 1.6, y a lo largo de los diferentes cap´ıtulos). Esta nueva definici´ on debe ser coherente con los axiomas de la probabilidad. Veamos que, en efecto, as´ı es: ≥ 0, pues es el cociente de dos probabilidades 1. P (A|B) = P P(A∩B) (B) axiom´aticas y, por ello, el cociente de dos magnitudes no negativas. 2. P (S|B) =
P (S∩B) P (B)
=
P (B) P (B)
=1
3. Si A ∩ C = ∅ entonces P (A ∪ C|B) debe ser igual a P (A|B) + P (C|B). En efecto, P (A ∪ C|B) = = =
P ((A ∪ C) ∩ B) P (B) P ((A ∩ B) ∪ (C ∩ B)) P (B) P (A ∩ B) P (C ∩ B) + = P (A|B) + P (C|B) P (B) P (B)
puesto que si A y C son sucesos disjuntos, lo son tambi´en cualesquiera otros sucesos extra´ıdos de ´estos.
28
C. Alberola L´ opez
Ejemplo: Retomemos el ejemplo de los dos dados y pensemos que nos informan de que se ha verificado un suceso, llam´emoslo B, consistente en que “ha salido al menos un seis en las tiradas”. Se pide que calculemos, en estas nuevas condiciones, la probabilidad del suceso A =“la suma de las componentes es igual a 7”. Podemos calcular dicha probabilidad en ambos experimentos: a for1. En experimento B : el espacio muestral SB ahora est´ mado por la u ´ltima fila y la u ´ltima columna de la tabla de resultados vista anteriormente, es decir aij ∈ SB si i = 6 ´o j = 6. Por tanto Card(SB ) = 11, y habida cuenta de que los dados son f´ısicamente los mismos, todos los resultados de este espacio muestral son equiprobables. Por 1 ∀aij ∈ SB . En estas condiciones: tanto P (aij |B) = 11 P (A|B) = P (A16 ∪ A61 |B) = P (A16 |B) + P (A61 |B) 1 1 2 + = 11 11 11 2. En experimento : aplicando la definici´ on de probabilidad condicionada (ecuaci´on 1.20) P (A|B) = =
1.5 1.5.1
P (A ∩ B) P (A16 ∪ A61 ) = P (B) P (B) P (A16 ∪ A61 ) = P ( i=6 ´o j=6 Aij )
2 36 11 36
=
2 11
Independencia de sucesos Independencia de pares de sucesos
Sean dos sucesos A y B con probabilidades distintas de 0. Se dice que los sucesos A y B son independientes entre s´ı si se verifica que P (A|B) = P (A)
(1.21)
es decir, si la probabilidad de A condicionada a la verificaci´ on del suceso B coincide con la probabilidad incondicional de A. Esto significa que el hecho de que se haya verificado B no afecta, en absoluto, al suceso A, es decir,
Cap´ıtulo 1. Teor´ıa de la Probabilidad
29
A no es ni m´as probable ni m´as improbable cuando sabemos que B se ha verificado con respecto a cuando no lo sab´ıamos. N´otese que si un primer suceso es independiente de un segundo, el segundo, como es natural, lo es del primero. Esto puede observarse de forma inmediata sin m´ as que operar con la expresi´on anterior y con la definici´ on de la probabilidad condicionada: P (A|B) =
P (A ∩ B) P (B|A)P (A) = P (B) P (B)
(1.22)
Si la condici´ on anterior se cumple, entonces P (A|B) = P (A) =
P (B|A)P (A) P (B|A) →1= P (B) P (B)
(1.23)
por ello, obtenemos la expresi´on de la condici´ on de independencia con el suceso condicionante cambiado. Una conclusi´ on operativa de la independencia de sucesos es el hecho de que la probabilidad de la intersecci´ on de sucesos independientes se puede escribir como el producto de las probabilidades de cada uno de ellos. Esto se obtiene de forma directa dado que, para el caso que nos ocupa, P (A|B) =
P (A ∩ B) = P (A) P (B)
entonces, a partir de la segunda igualdad, despejamos la probabilidad de la intersecci´on de los sucesos, y se deduce que P (A ∩ B) = P (A)P (B)
(1.24)
Esta expresi´on podemos tomarla como definici´ on alternativa a la indicada en la expresi´on (1.21), la cual, asimismo, nos permite abordar de forma c´omoda el caso de sucesos de probabilidad nula. En particular, a la vista de ´esta podemos afirmar que si al menos uno de los dos sucesos involucrados tienen probabilidad nula entonces los sucesos son independientes. En efecto, supuesto que P (A) = 0, dado que A ∩ B ⊂ A entonces, recordando la cuarta consecuencia de los axiomas (p´ agina 23), podemos afirmar que P (A∩ B) ≤ P (A) = 0. Por tanto P (A ∩ B) = 0 = P (A)P (B) y, por ello, los sucesos son independientes. Por otra parte, n´otese que si dos sucesos de probabilidad no nula son disjuntos no pueden ser independientes; esto viene dado porque en la expresi´ on anterior la probabilidad de la intersecci´ on ser´ıa cero (dado que lo sucesos son disjuntos), lo cual ser´ıa distinto del producto
30
C. Alberola L´ opez
de la probabilidades de cada uno de ellos. Un razonamiento alternativo se basa en la intuici´ on: si dos sucesos son disjuntos, no pueden verificarse de forma simult´ anea. Si es as´ı, y se verifica uno de ellos, la verificaci´ on de ´este impide la verificaci´ on del otro, lo cual est´ a muy alejado del concepto de la independencia. Es por este motivo por el que los sucesos disjuntos reciben tambi´en el nombre de mutuamente excluyentes.
Ejemplo: Supongamos una baraja espa˜ nola de la que extraemos una carta. Calculemos las probabilidades siguientes: a) P (“as”|“rey”) y b) P (“as”|“oros”). a) P (“as”|“rey”) =
P (“as”∩“rey”) . P (“rey”)
Es obvio que si la carta
que tenemos en la mano es un rey (como dice el condicionante) esa carta no puede ser un as. Por tanto, el suceso del numerador es el conjunto vac´ıo y por tanto, la probabilidad que nos piden es nula. Estamos hablando pues de sucesos disjuntos y, por ello, no independientes. ∩“oros”) . Si tenemos una carta b) P (“as”|“oros”) = P (“as” P (“oros”) en la mano que es un oro, la probabilidad que dicha carta sea un as es 1 de 10 (1/10). En efecto, la probabilidad del numerador es la probabilidad de extraer el as de oros, esto es, 1 de 40, y la probabilidad del denominador es la de extraer un oro, la cual, habiendo diez oros en la baraja, es de 10 de 40.
Por otra parte, n´ otese que la probabilidad de extraer un as, dado que hay cuatro ases en la baraja, es 4 de 40, es decir, 1 de 10. Por tanto, P (“as”|“oros”) = P (“as”), y podemos concluir que ambos sucesos son independientes. La interpretaci´ on parece clara: dado que en cada palo hay un as, el hecho de que salga un palo en particular no hace variar la probabilidad de que salga un as con respecto al hecho de no saber qu´e palo ha salido. N´ otese que si en una hipot´etica baraja hubiese asimetr´ıa en alg´ un palo, por ejemplo, hubiese un palo con m´ as de un as, o hubiese un palo con m´as de diez cartas, tales sucesos ya no ser´ıan independientes.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
1.5.2
31
Independencia de m´ ultiple sucesos
La extensi´on del concepto de independencia al caso de N sucesos, digamos, A1 , A2 , . . . , AN , es m´as o menos inmediata. Sin embargo, conviene hacer la precisi´ on de que la independencia de N sucesos requiere el cumplimiento de forma simult´ anea de la independencia entre todos los subconjuntos (de al menos dos sucesos) que podamos extraer de tales sucesos. Por tanto, para que N sucesos sean independientes se requiere que se verifiquen las siguientes condiciones: • Independencia de pares: P (Ai ∩ Aj ) = P (Ai )P (Aj ) ∀i = j • Independencia de tr´ıos: P (Ai ∩ Aj ∩ Ak ) = P (Ai )P (Aj )P (Ak ) ∀i = j, k; ∀j = k .. .
• Independencia global: P
N
Ai
N
=
i=1
p(Ai )
i=1
Caso de que los sucesos no sean independientes, podamos hacer uso de la definici´ on de probabilidad condicionada para expresar la probabilidad de la intersecci´on m´ ultiple de formas alternativas. Por ejemplo
P
N
Ai
= P
i=1
AN |
= P
AN |
= P
AN |
P
N −1 i=1 N −1
Ai P
Ai P
i=1 N −1
Ai i=1 N −3
AN −2 |
N −1
Ai
i=1
AN −1 |
P
AN −1 |
N −2 i=1 N −2
Ai P
N −2
Ai
i=1
Ai ×
i=1
Ai · · · P (A2 |A1 )P (A1 )
(1.25)
i=1
Esta forma de plantear la probabilidad global parece ser, a priori, m´ as compleja que la inicial. Sin embargo, en muchas ocasiones se pueden hacer simplificaciones. Por ejemplo, en el caso en que los sucesos Ai estuviesen ordenados temporalmente, parece razonable pensar que la dependencia entre sucesos sea tanto menos intensa cuanto m´as alejados est´en temporalmente.
32
C. Alberola L´ opez
De hecho, existir´ an muchas situaciones en que la expresi´on de arriba pueda simplificarse para dar lugar a:
P
N
Ai
∼ P (AN |AN −1 )P (AN −1 |AN −2 ) ×
i=1
P (AN −2 |AN −3 ) · · · P (A2 |A1 )P (A1 )
(1.26)
En tal caso, es decir, si lo anterior es razonablemente v´alido, el c´alculo de la probabilidad de la intersecci´ on m´ ultiple se simplifica notablemente.
1.6
Teoremas de la Probabilidad total y de Bayes
En esta secci´on presentaremos dos teoremas de enorme importancia en la Teor´ıa de la Probabilidad. Para tal fin, introduciremos en primer lugar el concepto de partici´ on del espacio muestral.
1.6.1
Concepto de partici´ on
Una partici´ on del espacio muestral consiste en un conjunto de sucesos Ai , i = 1, . . . , N , que cumplen las dos condiciones siguientes: 1. Ai ∩ Aj = ∅, ∀i = j; 2. S =
N
Ai
i=1
Por tanto, una partici´ on es un conjunto de sucesos disjuntos, tales que todos ellos unidos dan lugar al espacio muestral. N´ otese que los elementos de la partici´ on ser´ıan como las teselas de un mosaico. Rep´ arese en que hemos hablado de una partici´ on del espacio muestral tratando as´ı de enfatizar el hecho de que sobre un espacio muestral se puede definir, en general, un n´ umero arbitrario de particiones. Un caso particular de tal ser´ıa el conjunto de sucesos A1 = A y A2 = A, esto es, un suceso cualquiera y su complementario.
1.6.2
Teorema de la Probabilidad Total
Este teorema consiste en escribir la probabilidad de un suceso como una superposici´ on de probabilidades de dicho suceso, condicionadas a cada uno de los elementos de una partici´ on del espacio muestral. Concretamente, si B es un suceso del cual queremos hallar su probabilidad y Ai , i = 1, . . . , N
Cap´ıtulo 1. Teor´ıa de la Probabilidad
33
es una partici´ on del espacio muestral, podemos escribir dicho suceso como una superposici´ on de las partes del suceso que caen sobre cada elemento de la partici´ on, es decir, B=
N
(B ∩ Ai )
(1.27)
i=1
Por tanto, podemos escribir P (B) haciendo uso de la anterior igualdad
P (B) = P
N
(B ∩ Ai )
i=1
=
N
P (B ∩ Ai )
(1.28)
i=1
dado que si los elementos de la partici´ on son disjuntos, tambi´en lo ser´an on de los sucesos B ∩ Ai , i = 1, . . . , N . As´ı pues, recordando la definici´ probabilidad condicionada, podemos escribir P (B) =
N
P (B|Ai )P (Ai )
(1.29)
i=1
que es la expresi´on del teorema. Ejemplo: Podemos plantear el ejemplo propuesto en el apartado 1.4 mediante el teorema que acabamos de ver. Concretamente: P (A) = P (A|B)P (B) + P (A|B)P (B) 2 11 4 25 = + 11 36 25 36 2 4 6 1 = + = = 36 36 36 6
1.6.3
Teorema de Bayes
Consecuencia de lo anterior, pero con un enorme trasfondo probabil´ıstico que en este momento es dif´ıcil vislumbrar, es el teorema de Bayes. En este caso, tratamos de calcular la probabilidad de cada elemento de la partici´ on supuesto que el suceso B se ha verificado. As´ı pues, podemos escribir P (Ai |B) =
P (Ai ∩ B) P (B|Ai )P (Ai ) = P (B) P (B)
(1.30)
y en virtud del teorema de la probabilidad total P (Ai |B) =
P (B|Ai )P (Ai ) N
j=1
P (B|Aj )P (Aj )
(1.31)
34
C. Alberola L´ opez
1.6.4
Sobre el teorema de Bayes y los sistemas de comunicaciones
El teorema de Bayes tiene un enorme inter´es para el planteamiento y resoluci´on de muchos problemas de sistemas de comunicaciones y, como es natural, de otras muchas disciplinas. En lo que sigue, trataremos de hacer ver la importancia conceptual del mismo. Pensemos que un sistema de comunicaciones puede enviar, en cada instante, uno de dos posibles s´ımbolos. Al env´ıo del primero, digamos, el s´ımbolo l´ ogico 0, le asociaremos el suceso H0 . Al env´ıo del segundo s´ımbolo, l´ease, el s´ımbolo l´ ogico 1, le asociaremos el suceso H1 . Tales sucesos4 llevan unas probabilidades asociadas, digamos, P (H0 ) = p0 y P (H1 ) = p1 . Naturalmente p0 +p1 = 1. Estas probabilidades miden nuestro conocimiento previo de c´ omo de probable es el env´ıo de cada uno de los dos s´ımbolos. Por esta raz´on, es costumbre denominar a estas probabilidades probabilidades a priori, pues miden, en ausencia de observaci´on ninguna, nuestro estado de conocimiento del problema. Supongamos que a cada s´ımbolo le asociamos una determinada se˜ nal f´ısica; por ejemplo, la hip´ otesis H0 llevar´ a asociada una se˜ nal de amplitud A0 voltios, con una duraci´ on de T segundos. La hip´ otesis H1 tendr´ a asociada una se˜ nal de amplitud A1 voltios, con una duraci´ on de T segundos. En un momento dado se env´ıa uno de los dos s´ımbolos, es decir, el transmisor env´ıa una de las dos se˜ nales que se acaban de proponer. Como es natural, el receptor desconoce qu´e s´ımbolo se ha enviado (si lo conociese no habr´ıa comunicaci´on) y su misi´on es, en base a la observaci´on obtenida, tomar una decisi´ on sobre cu´ al de las dos se˜ nales se ha recibido y, por tanto, cu´al de los dos s´ımbolos se ha enviado. Todo esto no ser´ıa problema si las se˜ nales recibidas fuesen exactamente iguales a las se˜ nales enviadas. En tal caso, dado que las se˜ nales en origen son distintas, las se˜ nales en destino tambi´en lo ser´ıan. Lamentablemente, la realidad es muy otra y las se˜ nales, conforme atraviesan el medio de transmisi´ on, sufren distorsiones varias (recortes en banda, superposici´on de interferencias, adici´ on de ruido etc. . . ). Supongamos que la se˜ nal recibida tiene una amplitud de X voltios; el problema procede del hecho de que la amplitud X puede recibirse tanto si se env´ıa un s´ımbolo como si se env´ıa el otro debido a los efectos de canal comentados. Ahora bien, debe haber algo que nos permita pronunciarnos— de forma no arbitraria—por un s´ımbolo u otro a pesar de que los dos s´ımbolos puedan, en un momento dado, dar 4
La letra hache corresponde a la inicial de hip´ otesis.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
35
lugar a la misma amplitud X. Supongamos que tenemos la capacidad de calcular P (X|H0 ) y P (X|H1 ). Esto podr´ıa hacerse siempre que conoci´esemos qu´e tipo de distorsi´ on sufre la se˜ nal. Para los modelos de canal t´ıpicamente empleados en la pr´actica, esto es perfectamente posible (de hecho, en buena medida el contenido de este tratado est´a encaminado a tal fin). A estas probabilidades se les denomina, generalmente, probabilidades de transici´ on. La cuesti´on es pues: recibidos X voltios, ¿a qu´e s´ımbolo corresponde? Podemos proporcionar varias respuestas al problema, cada una haciendo uso de diferentes grados de informaci´on: 1. Soluci´ on independiente de la observaci´ on: con independencia de la observaci´on X recibida, el detector decide siempre que el s´ımbolo enviado es el m´as probable a priori. Por tanto, el detector escoge el s´ımbolo i de la forma siguiente: Escoger Hi si P (Hi ) > P (Hj ), i = j; i, j = {0, 1}
(1.32)
Como el lector puede imaginar, este tipo de decisi´on es muy pobre. El despreciar el valor num´erico de la informaci´on recibida es un lujo que no es sensato permitirse. No obstante, si las probabilidades a priori son muy asim´etricas (es decir, si una hip´ otesis es mucho m´as probable que otra) este detector no se equivocar´a con demasiada frecuencia. 2. Soluci´ on basada en maximizar la probabilidad de la observaci´ on: en este caso, el detector escoger´ıa como correcta aquella hip´ otesis que tiene asociada una mayor probabilidad de observar la tensi´ on recibida; es decir, si se verifica P (X|H0 ) > P (X|H1 )
(1.33)
escoger´ıa la hip´ otesis H0 y, si por el contrario, se verifica que P (X|H0 ) < P (X|H1 )
(1.34)
el detector escoger´ıa como cierta la hip´ otesis H1 . Obviamente, este criterio parece m´as razonable que el anterior puesto que la observaci´on recibida aglutina mucha informaci´ on y, adem´as, no siempre tomaremos la misma decisi´on (como sucede en el caso anterior) sino que ahora la decisi´ on de qu´e s´ımbolo se ha enviado puede cambiar s´ımbolo a s´ımbolo en funci´ on de los datos concretos recibidos.
36
C. Alberola L´ opez
No obstante, si bien este modo de decisi´on parece m´as acertado, rep´ arese que estamos despreciando una informaci´ on muy valiosa, a saber, c´omo de probable (o improbable) es, a priori, cada s´ımbolo. Cabe pues pensar en una tercera filosof´ıa de decisi´ on: 3. Escoger la hip´ otesis m´as probable dada la observaci´ on: en este caso el detector escoger´ıa la hip´ otesis H0 si se verificase que P (H0 |X) > P (H1 |X)
(1.35)
y escoger´ıa H1 si, por el contrario, P (H0 |X) < P (H1 |X)
(1.36)
Estas probabilidades reciben el nombre de probabilidades a posteriori, es decir, probabilidades una vez obtenida la observaci´ on. No obstante, estas probabilidades no son conocidas. ¿O s´ı? Pues s´ı que lo son, dado que el teorema de Bayes nos permite escribir P (H0 |X) =
P (X|H0 )P (H0 ) P (X|H1 )P (H1 ) < P (H1 |X) = (1.37) P (X) P (X)
Podemos ver que como nos interesa la comparaci´on entre ambas, la probabilidad P (X) no hay por qu´e calcularla. No obstante, si se desea conocer su valor, podemos hacerlo sin m´as que hacer uso del teorema de la probabilidad total. Esta tercera filosof´ıa es una filosof´ıa bayesiana. Rep´ arese que estamos actualizando la probabilidad a priori de cada hip´ otesis sobre la base de la informaci´ on proporcionada por la observaci´ on recibida. Es decir, tenemos un conocimiento inicial del problema— P (H0 ) y P (H1 ) — pero la observaci´ on nos hace cambiar dicho conocimiento— P (H0 |X) y P (H1 |X) —a partir del cual tomamos una decisi´ on. Por todo ello, y a modo de resumen, el teorema de Bayes nos permite pasar de probabilidades a priori a probabilidades a posteriori, en base al conocimiento de las probabilidades de transici´ on. En las secciones 2.4.1 y 2.4.2 incluimos un ejemplo num´erico basado en esta filosof´ıa.
Cap´ıtulo 1. Teor´ıa de la Probabilidad
1.7
37
Experimentos compuestos. Composici´ on de ensayos de Bernoulli
Un experimento compuesto, como indica su nombre, consiste en la composici´ on de experimentos simples, a los que, en este entorno, podemos llamar subexperimentos. As´ı pues, dados (al menos) dos experimentos aleatorios 1 < S1 , F1 , P1 > y 2 < S2 , F2 , P2 >, podemos definir un experimento compuesto en base a la composici´on de ´estos, el cual, asimismo, tendr´a las tres componentes necesarias c < Sc , Fc , Pc >. Veamos cada una de ellas: a dado por el producto cartesiano de 1. Sc : El espacio muestral Sc vendr´ los espacios muestrales S1 y S2 , es decir Sc = S1 × S2 . Consecuentemente, los sucesos elementales del espacio Sc consisten en los pares ordenados (a, b), donde a ∈ F1 y b ∈ F2 . En el ejemplo del lanzamiento de los dos dados que ve´ıamos en la secci´on 1.3 dicho producto cartesiano dio lugar a una tabla de 36 elementos, la cual escribimos en su momento de forma natural. Otro ejemplo consistir´ıa en que los espacios muestrales S1 y S2 fuesen la recta real. En tal caso S1 × S2 ser´ıa el plano R2 . 2. Fc : Denotemos por A × B el suceso formado por los pares ordenados (a, b), donde a ∈ A ∈ F1 y b ∈ B ∈ F2 . La clase de sucesos estar´a formada por sucesos de la forma A × B, as´ı como por sus uniones e intersecciones. Ejemplos de tales sucesos, de nuevo con el experimento de los dos dados, son que la suma de las componentes sea igual a 4, o que aparezca al menos un seis en las tiradas. Si los sucesos A y B fuesen sucesos definidos sobre la recta real, por ejemplo, A = {x1 < x ≤ x2 } y B = {y1 < y ≤ y2 }, entonces el suceso A × B ser´ıa el rect´angulo {x1 < x ≤ x2 , y1 < y ≤ y2 }. Rep´ arese que los sucesos A × S2 y B × S1 pertenecen a la clase Fc , y que el suceso A×B puede escribirse como A×B = (A×S2 )∩(B ×S1 ). Por otra parte, n´ otese que el suceso A × S2 se verifica siempre que en el primer experimento se verifique A, con independencia de lo que suceda en el segundo, ya que S2 es el suceso seguro en el segundo experimento. De forma complementaria el suceso B × S1 se verifica siempre que en el experimento segundo se verifique B. 3. Ley de generaci´on de probabilidades Pc : al contrario que los anteriores conceptos, la ley de asignaci´on de probabilidades compuestas, en general, no viene un´ıvocamente caracterizada por el u ´ nico conocimiento de las probabilidades P1 y P2 de cada subexperimento; esto
38
C. Alberola L´ opez
trae como consecuencia pensar que la composici´on de experimentos es una entidad formada por tres subentidades: el primer subexperimento, el segundo, y la forma de llevar a cabo la propia composici´ on. Si no nos informan de alguno de los tres, no es posible, en general, conocer la ley de asignaci´on de probabilidades del experimento compuesto. Un caso particular de esto es la composici´on de experimentos independientes. Dos experimentos ser´an independientes si el resultado de uno no afecta al resultado del otro. Formalmente los experimentos ser´an independientes si se verifica que los sucesos A × S2 y B × S1 lo son. Rep´ arese que ambos sucesos pertenecen a la clase Fc y, por tanto, podemos definir su independencia sobre la base de la expresi´ on (1.24). Por ello, en caso de independencia de tales sucesos, podr´ıamos escribir Pc (A × B) = Pc ((A × S2 ) ∩ (B × S1 )) = Pc (A × S2 )Pc (B × S1 ) = P1 (A)P2 (B)
(1.38)
donde la u ´ltima igualdad procede del hecho de que Pc (A×S2 ) = P (A) y Pc (B × S1 ) = P (B). N´ otese que en caso de independencia, por lo tanto, s´ı que es posible conocer Pc a partir del conocimiento de P1 y P2 . La igualdad que acabamos de obtener justifica la notaci´ on que habitualmente emplearemos en la composici´on de experimentos. Dado que en el caso de experimentos independientes se verifica (1.38), expresi´ on similar a la igualdad (1.24), escribiremos, aun resultando un abuso en la notaci´ on, A ∩ B en vez de A × B. Esto debe entenderse como una simplificaci´ on operativa, puesto que la operaci´ on de intersecci´on debe realizarse entre sucesos pertenecientes a la misma clase F, lo cual, naturalmente, no es el caso. Esta notaci´ on, sin embargo, siempre que se tenga en mente la relaci´on de orden en la composici´on de los experimentos, resulta muy c´omoda para manejar casos m´ as complejos (como es el propuesto en la secci´on 1.7.1). Finalmente, ilustremos con un ejemplo que, en funci´ on de c´omo sea la composici´on de experimentos, la ley de asignaci´ on de probabilidades puede ser, o no, determinada a partir de las leyes individuales de cada subexperimento: • Consideremos el ejemplo del lanzamiento de dos dados. Asumamos que los dados son sim´etricos e independientes. Definamos
Cap´ıtulo 1. Teor´ıa de la Probabilidad
39
el suceso Ai como “ha salido la cara i-´esima en el primer dado”, y el suceso Bj como “ha salido la cara j-´esima en el segundo dado”, donde, naturalmente, tanto i como j var´ıan en el rango 1, . . . , 6. Con esta informaci´ on, si definimos el suceso Cij como “ha salido la cara i-´esima en el primer dado, y la cara j-´esima en el segundo”, podemos escribir que P (Cij ) = P (Ai ∩ Bj ) = P (Ai )P (Bj ) =
11 1 = 66 36
(1.39)
En la expresi´ on anterior la probabilidad P (Cij ) ser´ıa una probabilidad calculada en el experimento compuesto, mientras que las probabilidades P (Ai ) y P (Bj ) (con los ´ındices i y j variando en los intervalos oportunos) proceder´ıan de cada uno de los subexperimentos. • Imaginemos ahora que simulamos mediante ordenador el experimento de lanzamiento de dos dados, ambos sim´etricos. Esto ser´ıa sencillo, sin m´as que generar aleatoriamente dos n´ umeros naturales entre 1 y 6. Supongamos, no obstante, que en nuestro programa incluimos una sentencia que diga si en el primer dado sale un cinco, en el segundo no puede salir un tres y si en el primer dado sale un tres, en el segundo no puede salir un cinco. Con este programa, escogiendo oportunamente las probabilidades de los sucesos elementales compuestos, ser´ıa perfectamente posible que las caras de cada dado (por separado) fuesen equiprobables. En estas condiciones, el u ´ nico conocimiento de la equiprobabilidad de las caras de cada dado no ser´ıa suficiente para conocer la ley de asignaci´on de probabilidades del experimento compuesto. Ejercicio: Haciendo uso del teorema de la probabilidad total, podemos escribir la probabilidad de cada cara de cada dado de la forma siguiente:
P (Ai ) =
6 j=1
P (Ai |Bj )P (Bj ) =
6
P (Ai ∩ Bj )
j=1
(1.40)
40
C. Alberola L´ opez
P (Bj ) =
6 i=1
P (Bj |Ai )P (Ai ) =
6
P (Ai ∩ Bj )
i=1
(1.41) 1 6
i, j = {1, . . . , 6} Con la restricci´on P (Ai ) = P (Bj ) = construya una tabla con los valores P (Ai ∩Bj ) que cumplan, adem´as, el condicionante de que las caras 3 y 5 no se pueden dar conjuntamente. Soluci´ on: Las expresiones anteriores— ecuaciones (1.40) y (1.41) —significan que la probabilidad de cada cara se obtendr´ıa sumando por filas las probabilidades de cada resultado elemental del experimento compuesto para el primer dado y por columnas para el segundo. As´ı pues, una posible tabla ser´ıa Ai \ Bj 1 2 3 4 5 6 1 x x x x x x 2 x x x x x x 3 x x 2x x 0 x 4 x x x x x x 5 x x 0 x 2x x 6 x x x x x x 1 donde x = 36 . N´ otese que nos hemos limitado a paliar el efecto de la probabilidad cero en los resultados (3, 5) y (5, 3) forzando probabilidad doble en los resultados (3, 3) y (5, 5), sin necesidad de afectar a los dem´as elementos de la tabla.
1.7.1
Composici´ on de ensayos de Bernoulli
Un caso particular de enorme inter´es en la pr´ actica es la composici´on de ensayos de Bernoulli independientes. Veremos que tal tipo de composici´on es enormemente frecuente y, adicionalmente, es la base para la introducci´on de la ley de los grandes n´ umeros. En primer lugar definamos y propongamos la notaci´ on a emplear en los ensayos de Bernoulli. Un experimento aleatorio es un ensayo de Bernoulli si los resultados se engloban en dos (y s´olo dos) sucesos. Tales sucesos los denotaremos por A y A, y les asignaremos las probabilidades p y q = 1 − p respectivamente. N´otese que, como es natural, tales sucesos forman una partici´ on del espacio muestral, de forma que son disjuntos y sus probabilidades suman la unidad. N´ otese, asimismo, que no estamos hablando de
Cap´ıtulo 1. Teor´ıa de la Probabilidad
41
que el n´ umero de resultados del experimento sea s´olo dos, sino que estamos dividiendo las soluciones en dos subconjuntos. As´ı pues, el lanzamiento de un dado y la observaci´ on del resultado obtenido puede considerarse un ensayo de Bernoulli sin m´as que dividir los resultados en, por ejemplo, A=“ha salido un valor superior a tres”, y su complementario. En este apartado nos interesa analizar la composici´ on de tales ensayos. Supongamos que llevamos a cabo varias ejecuciones de un ensayo de Bernoulli de forma independiente entre ellas (recu´erdese que esta asunci´on permite emplear el resultado de la expresi´on 1.38). Pensemos que el n´ umero de veces que realizamos el experimento es N . En estas condiciones, la cuesti´on a resolver es ¿cu´al es la probabilidad de que el resultado A haya salido k veces (de N posibles)? Si denominamos Bk al suceso cuya probabilidad buscamos conocer, el proceso para el c´alculo de la misma ser´a, b´ asicamente, escribir dicho suceso Bk como funci´ on de sucesos cuya probabilidad sea conocida. Como, por ahora, s´olo conocemos la probabilidad de cada resultado elemental, tendremos que escribir dicho suceso como funci´on de los resultados elementales en cada uno de los ensayos. Denominando Bkj a cada una de las posibles formas de darse el suceso Bk , y denotando por Ai al suceso “ha salido el resultado A en el ensayo i-´esimo”, podremos escribir5 : Bk1 = A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ak+1 . . . AN Bk2
(1.42)
= A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ak+1 ∩ Ak+2 ∩ . . . AN −1 ∩ AN (1.43) ···
BkM
= A1 ∩ A2 ∩ . . . ∩ AN −k ∩ AN −k+1 ∩ . . . AN
(1.44)
En este momento ya se encuentra los sucesos escritos en funci´on de la intersecci´on de sucesos cuyas probabilidades conocemos. Obs´ervese que, si suponemos conocido el n´ umero de formas M en que puede darse el suceso Bk entonces podr´ıamos escribir Bk =
M
Bkj
(1.45)
j=1
No obstante, quedan cuestiones importantes por resolver: 5 En lo que sigue emplearemos la notaci´ on simplificada que acabamos de proponer para la composici´ on de experimentos. En sentido estricto, y para el caso del suceso Bk1 — por ejemplo —el suceso A1 deber´ıa escribirse A1 × S2 × · · · × SN .
42
C. Alberola L´ opez
1. ¿Son los sucesos Bkj disjuntos? 2. ¿Podemos calcular las probabilidades de cada Bkj en funci´ on de p, q, N y k? 3. ¿Tenemos que ser exhaustivos en la tabla anterior, es decir, debemos escribir todas las formas en que puede darse el suceso Bk ? 4. ¿Cu´ anto vale M ? Tendremos que ir resolviendo cada pregunta: 1. Los sucesos son disjuntos. Obs´ervese que cada suceso representa una forma de darse el resultado Bk , por ello, o se da de una forma, o se da de otra, pero no puede hacerlo de dos maneras a la vez. Esto puede verse de forma rigurosa escogiendo dos sucesos cualesquiera. Por ejemplo, escogiendo Bk1 y Bk2 , si realizamos la operaci´on Bk1 ∩ Bk2 = (A1 ∩ A1 ) ∩ · · · ∩ (AN ∩ AN ) N´otese que, con independencia del resto de las intersecciones, la primera es el conjunto vac´ıo, de forma que la intersecci´on global tambi´en lo es y por ello los sucesos son disjuntos. As´ı pues podremos escribir
P (Bk ) = P
M
Bkj
=
j=1
M
P (Bkj )
(1.46)
j=1
2. Para calcular la probabilidad de cada Bkj escojamos de forma gen´erica uno de ellos, por ejemplo, el suceso Bk1 . N´ otese que hablamos de una probabilidad de una intersecci´ on m´ ultiple, concretamente de
P
k
Ai
i=1
N
Aj .
j=k+1
Dado que la composici´ on de experimentos se ha hecho de forma independiente, los sucesos Ai son independientes entre s´ı, de forma que la probabilidad de la intersecci´ on se puede escribir como el producto de las probabilidades, es decir,
P (Bk1 ) = P
k i=1
Ai
N j=k+1
Aj =
k i=1
P (Ai )
N
P (Aj ) = pk q N −k
j=k
(1.47)
Cap´ıtulo 1. Teor´ıa de la Probabilidad
43
3. La respuesta a la segunda pregunta proporciona tambi´en respuesta a la tercera. La ecuaci´on anterior indica que la probabilidad de cada suceso Bkj s´olo es funci´ on de cu´antos resultados A aparecen y no de su posici´on dentro de los N posibles posiciones. Por tanto, la probabilidad anterior es com´ un para Bkj ∀j = 1, . . . , M de forma que la probabilidad (1.46) podremos escribirla P (Bk ) = M pk q N −k
(1.48)
y el problema queda reducido a la determinaci´ on del par´ ametro M . 4. ¿Cu´ anto vale M ? Para responder a esta pregunta podemos acudir a varios planteamientos. Uno de ellos es el siguiente: El n´ umero buscado M se puede encontrar de la forma siguiente: disponemos de N posiciones donde introducir k veces el resultado A. En las N − k restantes tendremos que introducir el resultado A. Tomemos como referencia las ejecuciones del experimento de la ecuaci´on (1.42) y siguientes. En el primer caso, introducimos el resultado A en las k primeras posiciones. As´ı pues, podemos extraer el subconjunto de ´ındices {1, 2, . . . , k} donde hemos introducido el resultado A. En la segunda, dicho subconjunto de ´ındices ser´a {2, 3, . . . , k, k + 1}. Por tanto, si extraemos todos los subconjuntos de k ´ındices donde podemos introducir el resultado A habremos extra´ıdo todas las formas de presentarse el resultado A k veces. Y, ¿cu´antos subconjuntos de k elementos podemos extraer de un conjunto de N elementos? La respuesta a esta pregunta son las combinaciones de N elementos tomados de k en k y dicho n´ umero resulta ser M = Nk . As´ı pues, la expresi´ on de la probabilidad que estamos buscando es
P (Bk ) =
N k N −k p q k
(1.49)
Ejercicio: Un sistema de control de calidad de productos qu´ımicos decide, para cada producto que inspecciona, si ´este cumple los requisitos normativos para su aceptaci´on. Supongamos que el protocolo de inspecci´on rechaza los productos con on es tal que peruna probabilidad pr y el proceso de fabricaci´ mite aceptar independencia entre productos. Se pide: a) Si se dispone de N productos, probabilidad de que una fracci´ on no superior al 10% de ellos sea rechazada.
44
C. Alberola L´ opez
b) Probabilidad de que k productos sean rechazados antes de aceptar un n´ umero s de ´estos. Soluci´ on: a) Denominemos kr al primer n´ umero entero menor que 0.1N (kr = floor(0.1N )). Dado que los experimentos son independientes entre s´ı y el resultado de cada experimento es rechazar el producto (suceso A, con probabilidad p(A) = pr ) o aceptarlo (suceso A, con probabilidad qr = 1 − pr ), estamos ante una composici´on de ensayos de Bernoulli independientes. En este caso el suceso (digamos) B cuya probabilidad se pide se puede escribir, siguiendo la definici´ on de los sucesos Bk dada por la ecuaci´on (1.45), de la forma B=
kr
Bk
k=0
Por otra parte los sucesos Bk , (0 ≤ k ≤ N ), son disjuntos (si se verifica Bk es que se rechazan exactamente k productos y se aceptan N − k, luego no puede verificarse ning´ un otro Bj con j = k). Por ello:
P (B) = P
kr
Bk =
k=0
kr
P (Bk ) =
k=0
kr
N k N −k p q k r r
k=0
donde la u ´ltima igualdad procede de la expresi´ on (1.49). b) La situaci´ on que se plantea ahora consiste en tener, por una parte, (s − 1) + k productos, de los cuales se deben aceptar s − 1 y rechazar k y, a continuaci´ on, aceptar el siguiente producto. Con ello se habr´ an rechazado k productos antes de aceptar s. Definiendo el suceso As+k como “el producto es aceptado en la inspecci´on s + k-´esima” y denominando C al suceso cuya probabilidad se pide en este apartado, entonces podemos escribir (t´engase en mente que ahora N = s + k − 1 para usar la terminolog´ıa de la secci´on 1.7.1): C = Bk
As+k
P (C) = P Bk
=
As+k = P (Bk ) P As+k
s + k − 1 k (s+k−1)−k pr q r qr = k
s+k−1 k s pr q r k
Cap´ıtulo 1. Teor´ıa de la Probabilidad
45
♣ Aproximaciones de la probabilidad P (Bk ) La expresi´ on de la probabilidad deducida en la ecuaci´ on (1.49) se puede aproximar por expresiones alternativas, las cuales, en algunos casos, pueden suponer una mayor comodidad en el c´alculo de las probabilidades asociadas a composiciones de ensayos de Bernoulli. Dos de estas aproximaciones son las siguientes: 1. Aproximaci´ on de Poisson: esta primera aproximaci´ on es de validez cuando N >> 1, p << 1 y el producto N p = a < 5. En estas condiciones se verifica que
P (Bk ) =
N k N −k ak p q ≈ e−a k! k
(1.50)
N´otese que esta aproximaci´on hace que s´olo tengamos que calcular un factorial (en vez de los tres que corresponden al n´ umero combinatorio de la ecuaci´ on (1.49). Asimismo, cuando las probabilidades son peque˜ nas, el elevar un n´ umero peque˜ no (p ´o q) a una potencia grande puede traer consigo una p´erdida de precisi´on en la operaci´on. Con esta aproximaci´ on tales operaciones son asimismo obviadas. 0.12
0.1
0.08
0.06
0.04
0.02
0
0
5
10
15
20
25
30
Figura 1.5: Ajuste de P (Bk ) mediante una curva dada por la expresi´ on (1.51). 2. Aproximaci´ on de DeMoivre-Laplace: La figura 1.5 muestra en asteriscos el aspecto que presenta la expresi´on de la ecuaci´on (1.49) para
46
C. Alberola L´ opez
p = 0.1 y N = 150. Asimismo, hemos superpuesto una aproximaci´ on de tales valores mediante la expresi´on (x−a)2 1 √ e 2b2 b 2π
(1.51)
donde el par´ ametro a = N p √ es el par´ ametro de simetr´ıa de la curva anterior y el par´ ametro b = N pq es tal que cuanto mayor sea este valor m´ as ancho es el l´obulo de la curva. Como puede verse, las probabilidades P (Bk ) se ajustan de manera bastante aproximada a la curva anterior para valores de k pr´ oximos al centro de simetr´ıa de la curva. De hecho, esta aproximaci´ on es√v´alida cuando N pq √ >> 1 y para valores de k en el intervalo N p − 3 N pq ≤ k ≤ N p + 3 N pq. Cuando el objetivo sea calcular la probabilidad de la uni´ on de varios Bk (es el caso del apartado a) del ejercicio anterior) debemos acudir al a´rea bajo esta curva. Concretamente:
P
k0
Bk ∼ =
k=0
k0
−∞
(x−a)2 1 k0 − N p √ e 2b2 dx = G √ N pq b 2π
(1.52)
donde la funci´ on G(·) representa el ´area bajo la curva (1.51), y se encuentra tabulada (ella, u otras similares, v´ease pie de la p´agina 62) en cualquier texto de Teor´ıa de la Probabilidad (por ejemplo, [1, 2]). En el caso en que el sumatorio no comience en cero, la expresi´on anterior debe transformarse de la manera que se indica:
P
k1 k=k0
Bk ∼ =G
k1 − N p √ N pq
(k0 − 1) − N p √ −G N pq
(1.53)
El motivo por el que esto es as´ı, si bien en este momento no es evidente, lo ser´a en cap´ıtulos posteriores (v´ease secci´on 4.5.2).
Cap´ıtulo 2
Variable aleatoria unidimensional 2.1
Concepto de variable aleatoria
En numerosos experimentos pr´ acticos en que existan fen´ omenos aleatorios no disponemos de acceso directo a los resultados del experimento aleatorio, sino que, simplemente, observamos n´ umeros que fluct´ uan. Por ejemplo, si medimos la tensi´on de salida de una antena–sobre una determinada carga– en diferentes situaciones, observaremos niveles de tensi´on fluctuantes. Tales fluctuaciones depender´ an de numerosos factores, muchos de ellos completamente incontrolables por nosotros (condiciones atmosf´ericas, ambiente radioel´ectrico local etc ...). En tales situaciones es necesario disponer de una herramienta que permita caracterizar probabil´ısticamente las mediciones que pueden obtenerse, de forma que, por ejemplo, podamos obtener un valor en torno al cual fluctuar´ an las medidas, un indicativo de la mayor o menor fluctuaci´ on esperable, intervalos de valores de mayor o menor probabilidad de aparici´ on etc . . . Esta herramienta est´a constituida por las variables aleatorias. Visto el concepto intuitivo, tratemos de formalizar el concepto de variable aleatoria (VA, en adelante). Una VA se puede definir como una aplicaci´on del espacio muestral en el cuerpo de los n´ umeros complejos de orden N , que asocia a cada elemento del espacio muestral a ∈ S (por ende, para cada posible resultado del experimento aleatorio) un vector de N n´ umeros complejos Z = [Z1 . . . ZN ] Z : S → CN 47
48
C. Alberola L´ opez
a ∈ S → Z(a) = [Z1 (a) . . . ZN (a)]
(2.1)
Un posible ejemplo de tal variable (compleja de orden N ) ser´ıa la medici´on simult´ anea de N impedancias complejas de un circuito con el objetivo de analizar el comportamiento de las mismas con el paso del tiempo. Los elementos a ∈ S ser´ıan los resultados de un experimento aleatorio de caracter´ısticas desconocidas (envejecimiento de las impedancias) y lo u ´ nico que se observar´ıa del experimento ser´ıa el valor de las VAs (impedancias). Otro ejemplo lo constituir´ıa la medici´on de la tensi´ on a la salida de una antena. Imaginemos que se env´ıa repetidamente una se˜ nal patr´ on; en tal caso, la medida de tensi´on a la salida de la antena deber´ıa reflejar fielmente esa repetici´on y as´ı lo har´ a, pero con fluctuaciones superpuestas respecto del valor que se espera. En tal caso no sabr´ıamos cu´al es el resultado del experimento aleatorio que se est´a produciendo (de hecho, no sabemos qu´e experimento aleatorio es) sino que simplemente tendr´ıamos acceso a las mediciones de tensi´on, las cuales son n´ umeros reales. Para poder analizar las cosas en un orden natural, consideremos en este tema el caso m´as sencillo, l´ease, el caso en que N = 1, y que el cuerpo sobre el que se define la aplicaci´on sea el cuerpo de los n´ umeros reales R en vez del cuerpo de los n´ umeros complejos C. El resultado de esta simplificaci´ on ser´a una VA unidimensional (real), a la cual nos referiremos con letras may´ usculas del tipo (X, Y, Z . . .). En sentido estricto las VAs deber´ıan reflejar la dependencia con respecto al resultado del experimento aleatorio a ∈ S, es decir, deber´ıamos escribir X(a). Sin embargo, tal dependencia ser´a dada por supuesto para no sobrecargar la notaci´ on. Para terminar la formalizaci´ on del concepto de VA debemos indicar que para que ´esta sea tal, la aplicaci´on anterior debe cumplir dos condiciones. Concretamente1 : • {X ≤ x} ∈ F, es decir, debe ser un suceso, de forma que sobre ´el puedan definirse probabilidades. • P (X = −∞) = P (X = ∞) = 0, de forma que aunque las variables puedan tomar valores arbitrariamente elevados, la probabilidad en el l´ımite ser´a nula. Es interesante hacer una clasificaci´ on de las variables aleatorias en base al conjunto de valores que ´estas pueden tomar. Esta clasificaci´on ser´a u ´til 1
En lo que sigue, y acorde con numerosos tratados [1, 2, 3] igualaremos los valores de las VAs a ±∞ y evaluaremos las funciones que definen su comportamiento probabil´ıstico en esos mismos valores. Tal igualdades debe entenderse, naturalmente, como comportamientos en el l´ımite.
Cap´ıtulo 2. Variable aleatoria unidimensional
49
durante el resto de la asignatura. Concretamente, si la VA puede tomar valores dentro de un conjunto discreto, esto es, dentro de un conjunto —a lo sumo— numerable, diremos que la VA es discreta. Un ejemplo t´ıpico es una variable que s´ olo pueda tomar los valores 0 y 1, o los valores [a, b, c], o cualquier valor entero etc. . . Rep´arese que no se est´a exigiendo que el conjunto de valores que la VA puede tomar sea finito sino —a lo sumo— numerable, es decir, que se pueda hacer una correspondencia uno a uno entre el conjunto de valores que puede tomar la VA y el conjunto de los n´ umeros enteros. Por contra, una variable continua tomar´a valores dentro de un conjunto no numerable, por ejemplo, cualquier valor del intervalo [−1, 1] o, incluso cualquier valor real. Finalmente, hablaremos de variables mixtas, que son las que presentan un comportamiento intermedio entre el comportamiento de las continuas y el de las discretas. Para hablar m´as en detalle de estas u ´ltimas necesitamos, no obstante, introducir conceptos de caracterizaci´on probabil´ıstica de las variables, lo cual es nuestro siguiente paso.
2.2
Caracterizaci´ on de las variables aleatorias: funciones de distribuci´ on y densidad
Caracterizar una VA consiste, simplemente, en asociar un comportamiento probabil´ıstico a los valores que puede tomar una VA. De nada nos valdr´ıa decir que una variable puede tomar cualquier valor entre −∞ y +∞. Si as´ı fuese, no estar´ıamos haciendo m´ as que expresar nuestra ignorancia. Otra cosa ser´ıa decir que una variable puede tomar valores en ese rango, pero que toma con mucha mayor probabilidad los valores cercanos al cero, que los alejados de ´este. Este tipo de informaci´ on es, precisamente, extra´ıble de las funciones que caracterizan a las VAs. La caracterizaci´on de las VAs puede verse (por comodidad) de forma distinta para variables continuas y para discretas. Decimos por comodidad pues, como veremos posteriormente, existen herramientas matem´aticas que posibilitan que la caracterizaci´on de ambos tipos de variables se haga de una forma u ´nica. No obstante, como indicamos a continuaci´ on, es notablemente m´as sencillo considerarlas como casos distintos. Empecemos por el caso de las variables discretas: una variable discreta X queda completamente caracterizada si conocemos los valores que puede tomar (digamos, si conocemos los valores xi , i ∈ Z) y las probabilidades pi = P (X = xi ), i ∈ Z, con las que la variable toma cada uno de tales valores. Conociendo esto conocemos todo lo conocible con respecto a esta
50
C. Alberola L´ opez
variable X. Pongamos un ejemplo para ver que es as´ı: imaginemos que queremos conocer la probabilidad de que una variable X, de la cual nos informan que puede tomar cualquier valor entero i ∈ Z, tome valores entre −2 y 2. Para poder hacer este c´alculo, supongamos conocidos los pi , con i ∈ Z. La probabilidad deseada puede calcularse si conseguimos hacer uso del ´algebra de sucesos que conocemos hasta ahora. En efecto P (−2 ≤ X ≤ 2) = P ({X = −2} ∪ {X = −1} ∪ {X = 0} ∪ {X = 1} ∪ {X = 2}) = P (X = −2) + P (X = −1) + P (X = 0) + P (X = 1) + P (X = 2) = p−2 + p−1 + p−0 + p1 + p2 =
2
pi
(2.2)
i=−2
Rep´ arese que el paso de la primera l´ınea a la segunda se ha hecho en base a la extensi´on a N sucesos del tercer axioma de la probabilidad ya que, simult´ aneamente, la variable no puede tomar dos valores distintos, de forma que todos los sucesos involucrados son disjuntos. El caso de las VAs continuas es un poco m´as complejo. El motivo no es otro que, para tales VAs, debemos proporcionar una funci´ on, tambi´en de variable continua, que caracterice probabil´ısticamente a todos y cada uno de los valores de ´estas. Tales funciones son fundamentalmente dos, a saber, la funci´ on de distribuci´ on y la funci´ on de densidad de probabilidad. Empecemos por la primera, para pasar a continuaci´ on a describir la segunda.
2.2.1
Funci´ on de distribuci´ on
La funci´ on de distribuci´ on de una VA X se denota por FX (x) y se define mediante (2.3) FX (x) = P (X ≤ x) Rep´ arese que X representa la VA y x ∈ R es la abscisa donde se eval´ ua la funci´ on FX (x). Esta funci´ on, por tanto, es una funci´ on real de variable real y, como puede verse, esta funci´ on indica cu´ al es la probabilidad de que la VA X tome valores menores o iguales que un determinado punto de abscisa x. Rep´arese por ello que es imprescindible que {X ≤ x} ∈ F, como antes hemos exigido, de forma que tenga sentido definir probabilidades sobre esta entidad. Pues bien, esta funci´ on nos permite hacer cualquier
Cap´ıtulo 2. Variable aleatoria unidimensional
51
c´alculo probabil´ıstico en relaci´on con los valores que puede tomar la VA X. Asimismo, esta funci´ on, dado que mide probabilidades, no puede ser una funci´ on arbitraria, sino que debe cumplir un conjunto de condiciones. Veamos esto paso por paso (v´ease figura 2.1 y recu´erdese la nota en el pie de la p´ agina 48): F (x) X
1
0
x
Figura 2.1: Un ejemplo de funci´ on de distribuci´ on. • FX (−∞) = 0, esto es, esta funci´on presenta una as´ıntota horizontal de cota nula. En efecto, hemos dicho que para que una VA sea tal, P (X = −∞) = 0. Esto trae consigo que FX (−∞) = P (X ≤ −∞) = P (X = −∞) = 0 • FX (∞) = 1, esto es, esta funci´on presenta una segunda as´ıntota horizontal, en este caso, de cota unidad. En efecto, el suceso {X ≤ ∞} = S, es decir, es el suceso seguro. • 0 ≤ FX (x) ≤ 1, lo cual es consecuencia inmediata de los axiomas de la probabilidad (rep´ arese que los valores de una funci´ on de distribuci´on son probabilidades). • La funci´ on es no decreciente, es decir, si x1 < x2 entonces se verifica que FX (x1 ) ≤ FX (x2 ). Esto se debe a que estamos trabajando con sucesos, y, como es obvio, se verifica que {X ≤ x1 } ⊂ {X ≤ x2 } si x1 ≤ x2 . Por ello, tambi´en es cierto que P (X ≤ x1 ) ≤ P (X ≤ x2 ). Por esta raz´on a esta funci´ on de le denomina tambi´en funci´ on de probabilidad acumulada, ya que, conforme crece la abscisa donde evaluamos la funci´ on, crece el intervalo de la recta real considerado en el c´alculo de la probabilidad, y crece, de forma acorde, la probabilidad asociada.
52
C. Alberola L´ opez
• Lo anterior nos permite realizar un c´ alculo probabil´ıstico con la funci´on de distribuci´ on. Pensemos que necesitamos conocer P (x1 < X ≤ x2 ). Esto se puede realizar de manera sencilla haciendo uso del a´lgebra de sucesos que conocemos hasta ahora. Concretamente, {X ≤ x2 } = {X ≤ x1 } ∪ {x1 < X ≤ x2 } → FX (x2 ) = P (X ≤ x2 ) = P ((X ≤ x1 ) ∪ (x1 < X ≤ x2 )) = = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 )
(2.4)
Despejando de arriba es inmediato ver que P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ),
(2.5)
es decir, la probabilidad de que la VA tome valores en un intervalo es igual a la diferencia de los valores de la funci´ on de distribuci´ on en dicho intervalo. • Podemos calcular la probabilidad del suceso complementario {X > x}. En efecto, podemos escribir el suceso seguro como S = {X ≤ x} ∪ {X > x} Tomando probabilidades y aplicando el hecho de que los sucesos del segundo miembro de la igualdad anterior son disjuntos, concluimos que P (X > x) = 1 − FX (x). Caso de las variables discretas Al principio de esta secci´on hemos hablado de la funci´ on de distribuci´ on de una VA, sin especificar si ´esta ten´ıa que ser continua o discreta. Y, en efecto, es as´ı: la funci´ on de distribuci´ on se define para VAs con independencia del tipo de variables que se est´e manejando. No obstante, s´olo es informativa en el caso de variables continuas, pues, para el caso de variables discretas, como hemos dicho antes, basta conocer los valores que puede tomar la variable, y las probabilidades con las que toma dichos valores. Veamos que esto efectivamente es as´ı mediante un ejemplo. Consideremos una VA discreta X que pueda tomar los valores (a, b, c) con probabilidades respectivas (pa , pb , pc ). Veremos que con estos datos podemos construir la funci´ on de distribuci´ on de la variable X y as´ı queda patente que la funci´ on de distribuci´ on no a˜ nade nada que no sepamos a partir de los
Cap´ıtulo 2. Variable aleatoria unidimensional
53
F (x)
F (x) p a +p b +p c
X
X
1
1
pc p a +p b
px
pb
0
pa 0
x a
b
a)
c
0
x x0
b)
Figura 2.2: a) FX (x) para una VA discreta que toma tres valores. b) FX (x) para una VA mixta que toma el valor x0 con probabilidad px0 . datos iniciales. Construir la funci´ on de distribuci´ on FX (x) no es otra cosa que calcular la probabilidad del suceso involucrado para todos los valores de x (rep´ arese que x es la variable independiente de la funci´on FX (x) de forma que nada tiene que ver con los valores a, b y c que toma la variable X). Para tal fin, distingamos diversos intervalos en la recta real en funci´ on de los valores (a, b, c). Concretamente: un valor en esta 1. x < a; FX (x) = 0, dado que X no puede tomar ning´ zona de la recta real. 2. a ≤ x < b; FX (x) = P (X ≤ x) = P (X = a) = pa , pues para valores de x en el intervalo indicado, la variable aleatoria X s´olo puede ser menor o igual que el valor a, lo cual sucede con probabilidad pa . 3. b ≤ x < c; FX (x) = P (X ≤ x) = P ((X = a) ∪ (X = b)) = pa + pb 4. x ≥ c; FX (x) = P ((X = a) ∪ (X = b) ∪ (X = c)) = 1, dado que es el suceso seguro (repare que se est´a calculando la probabilidad de que la VA X sea menor igual que un valor de x que es, a su vez, mayor que c. Dado que el valor m´aximo que puede tomar X es c, el suceso cuya probabilidad buscamos es el suceso seguro, de forma que su probabilidad es la unidad). La forma de la funci´ on de distribuci´ on puede verse en la figura 2.2(a). Como se aprecia de la figura, la funci´on es constante a intervalos, con comportamiento asint´otico por la izquierda igual a cero y por la derecha igual a uno. Los puntos de discontinuidad de la funci´ on se encuentran en los puntos donde la variable discreta toma valores, y la altura de cada discontinuidad coincide con la probabilidad de que la variable X tome el
54
C. Alberola L´ opez
valor de que se trate. Por ello, la expresi´ on de la funci´ on de distribuci´ on se puede escribir en base a los datos del ejemplo, de la forma FX (x) = pa u(x − a) + pb u(x − b) + pc u(x − c) con u(x) la funci´ on escal´on. Generalizando a una variable que tome los valores xi , i = {1, . . . , N }, con probabilidades respectivas pi , podemos escribir FX (x) =
N
pi u(x − xi )
(2.6)
i=1
Comentario adicional: Observe que, para que el comportamiento asint´ otico por la derecha de esta funci´ on sea el esperado, es condici´on ne
cesaria que pi = 1. i
Variables mixtas Las funciones de distribuci´ on correspondientes a VAs continuas son funciones suaves, continuas, y derivables —con continuidad— salvo en una cantidad, a lo sumo, numerable de puntos. No obstante, las funciones de distribuci´ on correspondientes a variables discretas hemos visto que consisten en superposiciones de funciones escal´on desplazadas a los puntos donde la VA toma valores. El tercer tipo de variable aleatoria, del cual hasta ahora s´olo hemos dado el nombre, es un caso intermedio entre ambas. Tales variables —las variables mixtas— presentan funciones de distribuci´ on suaves y continuas pero presentan al menos un punto donde la funci´ on de distribuci´on es discontinua. Un ejemplo de funci´ on de distribuci´ on correspondiente a una variable mixta puede verse en la figura 2.2(b) La funci´ on de distribuci´ on en discontinuidades Las discontinuidades en las funciones de distribuci´ on s´olo aparecen en las variables discretas o mixtas. En tal caso, el manejo de probabilidades es m´as sencillo de realizar en t´erminos de ´algebra de sucesos que en t´erminos de la funci´ on de distribuci´ on. No obstante, por completitud, maticemos el comportamiento de esta funci´ on, lo cual reviste s´olo inter´es en el caso de discontinuidades2 : 2
En lo que sigue interpretemos FX (x+ ) = lim→0 FX (x + ) y FX (x− ) = lim→0 FX (x − ), con ∈ R+ .
Cap´ıtulo 2. Variable aleatoria unidimensional
55
• FX (x) = FX (x+ ), es decir, el valor que la funci´ on de distribuci´ on toma en un punto es el que esta funci´on toma inmediatamente a la derecha de ese punto. un hemos • P (X = x) = FX (x+ ) − FX (x− ) = FX (x) − FX (x− ), seg´ visto en el ejemplo. Rep´arese que esto indica que la probabilidad de que una variable continua tome exactamente el valor x es nula. Para variables continuas la probabilidad debe considerarse en t´erminos de intervalos, aunque ´estos sean, como veremos a continuaci´on, de longitud infinitesimal. • P (x1 ≤ X ≤ x2 ) = FX (x2 ) − FX (x− 1 ), dado que si se incluye el valor x1 en el suceso cuya probabilidad se desea calcular tenemos que evaluar la funci´ on de distribuci´ on a la izquierda de dicho punto. Esta propiedad se extiende a los otros dos casos que nos faltan de la forma P (x1 < X < x2 ) = FX (x− 2 ) − FX (x1 )
− P (x1 ≤ X < x2 ) = FX (x− 2 ) − FX (x1 )
De nuevo es interesante apuntar que para variables continuas estas propiedades no revisten ning´ un inter´es, ya que la funci´ on de distribuci´ on es continua, de forma que los comportamientos por la izquierda y por la derecha de cada punto que se considere coinciden.
2.2.2
Funci´ on de densidad de probabilidad
La funci´ on de densidad de probabilidad de una VA X se denota por fX (x) y se define a partir de la funci´ on de distribuci´ on mediante fX (x) =
dFX (x) dx
(2.7)
de forma que tambi´en es una funci´ on real de variable real. Esta funci´ on tiene exactamente la misma informaci´on que la funci´ on de distribuci´ on. De hecho, si, como hemos visto, de la primera podemos pasar a la segunda, podemos hacer el paso inverso, esto es, de la segunda pasar a la primera. Basta resolver la ecuaci´on diferencial resultante de la definici´ on integral anterior:
dFX (x) = fX (x)dx
x
−∞
dFX (τ ) =
x
−∞
fX (τ )dτ
56
C. Alberola L´ opez
FX (x) − FX (−∞) = FX (x) =
x
−∞ x
−∞
fX (τ )dτ fX (τ )dτ
(2.8)
donde la u ´ltima igualdad procede del comportamiento asint´ otico por el lazo izquierdo de la funci´ on de distribuci´ on. Dado que la funci´ on de distribuci´ on tiene un comportamiento marcado por el conjunto de caracter´ısticas analizadas en la secci´on 2.2.1, la funci´ on de densidad de probabilidad no puede tener formas arbitrarias, sino que debe ser coherente con las propiedades de la funci´ on de distribuci´ on. En particular: on de distribuci´ on es una funci´ on no decre• fX (x) ≥ 0, pues la funci´ ciente. • El a´rea bajo una funci´ on de densidad de probabilidad es siempre unitaria. Esto procede de la expresi´ on (2.8), si evaluamos en x = ∞ (recu´erdese que la funci´ on de distribuci´ on en dicho punto vale uno).
• P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = xx12 fX (x)dx, lo cual puede obtenerse mediante el mismo procedimiento empleado para obtener la expresi´ on (2.8), integrando entre x1 y x2 . Por lo tanto, rep´ arese que si bien la funci´ on de distribuci´ on es igual a una probabilidad, la funci´ on de densidad es una funci´ on que, integrada en un cierto intervalo, proporciona el valor de que la VA tome valores dentro de dicho intervalo. De aqu´ı podemos deducir el motivo por el que dicha funci´ on recibe el nombre densidad de probabilidad. Concretamente, si consideramos el intervalo (x, x + ∆x), la probabilidad de que la variable tome valores en dicho intervalo es, seg´ un conocemos P (x < X ≤ x + ∆x) = FX (x + ∆x) − FX (x) Dado que la funci´ on de densidad es una derivada, podemos plantearla como el l´ımite de un cociente incremental fX (x) = lim
∆x→∞
FX (x + ∆x) − FX (x) P (x < X ≤ x + ∆x) = lim ∆x→∞ ∆x ∆x
lo cual nos permite ver que la funci´ on de densidad mide la probabilidad de un intervalo infinitesimal alrededor del punto donde ´esta se eval´ ua, dividido por la longitud de dicho intervalo. Es pues un probabilidad por unidad de longitud, de forma que es, en efecto, una densidad de probabilidad.
Cap´ıtulo 2. Variable aleatoria unidimensional
57
Variables discretas y mixtas Seg´ un hemos visto, la definici´ on de la funci´ on de densidad se lleva a cabo mediante una derivada de la funci´ on de distribuci´ on. Cuando la variable bajo estudio sea continua, la funci´ on de distribuci´ on lo es tambi´en, y ser´a en general derivable salvo, tal vez, en puntos aislados. En esos puntos, la funci´ on de densidad es discontinua. Tal es el caso, por ejemplo, de las variables uniformes que veremos a continuaci´on (secci´on 2.3.1). Sin embargo, cuando la funci´ on de distribuci´ on presenta el aspecto dado por la ecuaci´on (2.6), las cosas se complican ya que la funci´on de distribuci´on es discontinua en varios puntos (tantos como valores tome la variable discreta en cuesti´on). Para tales casos debemos acudir a las funciones Delta de Dirac, pues se verifica3 δ(x) =
du(x) dx
(2.9)
Esta funci´ on es nula para todo punto de abscisa distinto de cero y, en ese punto, presenta una singularidad (su valor es infinito)de forma tal que el ∞ δ(x)dx = 1. ´area encerrada bajo esta funci´ on es unitaria, es decir, −∞ Haciendo uso de esta funci´ on, as´ı como de la linealidad del operador derivaci´on, es obvio que la funci´ on de densidad de una variable discreta (y de una mixta en los puntos de discontinuidad de la funci´ on de distribuci´ on) puede escribirse fX (x) =
N
pi δ(x − xi )
(2.10)
i=1
es decir, consiste en un tren de deltas, colocadas ´estas en cada uno de los puntos donde la variable toma valores y con peso igual a la probabilidad con que la variable toma el valor en cuesti´on. Recuerde, no obstante, que raramente se acudir´a al empleo de la funci´ on (2.10) pues todo c´alculo probabil´ıstico se puede hacer en t´erminos de las probabilidades pi . Tan s´olo cuando se necesite expl´ıcitamente calcular la expresi´ on de la funci´ on de densidad de tales variables ser´a necesario acudir a este tipo de formulaci´on. 3
La expresi´ on (2.9) debe tomarse con las oportunas reservas. La funci´ on escal´ on no es derivable en el cero, de forma que la funci´ on δ(x) no se podr´ıa definir de esta manera, sino a trav´es del l´ımite de la derivada de una funci´ on continua por intervalos, cuyo valor 1 . El l´ımite se calcular´ıa con ∆ tendiendo a cero, esto es, la en el intervalo (0, ∆) ser´ıa ∆ pendiente tendiendo a infinito con x → 0. Los detalles puede consultarlos en [15]. En x cualquier caso, lo que s´ı es escrictamente cierto es que u(x) = −∞ δ(t)dt de forma que el paso de (2.10) a (2.6) a trav´es de una integraci´ on es claro.
58
C. Alberola L´ opez
2.3
Algunas variables aleatorias frecuentes
En este apartado describiremos algunos tipos de VAs que aparecen con frecuencia en la pr´ actica. Para el caso de las variables continuas plantearemos la funci´ on de densidad, obtendremos la funci´ on de distribuci´ on y comentaremos aspectos caracter´ısticos de las variables. Para el caso de las discretas indicaremos, como ya hemos visto que es necesario, qu´e valores pueden tomar las diferentes variables y con qu´e probabilidad toman dichos valores. Existen otros muchos tipos de VAs que los que aqu´ı expondremos, pero el manejo de las funciones de densidad y distribuci´ on ser´ a similar metodol´ ogicamente al que aqu´ı hagamos, si bien, como es natural, los c´ alculos anal´ıticos precisos depender´an de cada caso.
2.3.1
Continuas
Uniforme Una VA X es una variable uniforme en el intervalo definido por los puntos4 a y b si su funci´ on de densidad es constante (y no nula) en el interior de dicho intervalo, y es nula fuera del mismo. Denotaremos tal tipo de variable de la forma X ∼ U (a, b). El valor de la constante asociada a esta funci´ on de densidad no puede ser arbitrario dado que, como hemos visto, el a´rea bajo cualquier funci´ on de densidad es siempre unitaria. Aplicando esta restricci´on tendremos
∞
−∞
fX (x)dx =
b
a b
=
fX (x)dx kdx
a
b
= k a
dx = k(b − a) = 1 (2.11)
Por tanto los par´ ametros a y b determinan el valor de la constante k y ´este resulta ser igual al inverso de la longitud del intervalo, es decir, igual a 1/(b − a). Con respecto a la funci´ on de distribuci´ on tendremos que calcular
FX (x) = 4
x
−∞
fX (τ )dτ
Todos los par´ ametros involucrados en las funciones de densidad y distribuci´ on ser´ an par´ ametros reales, dado que estas funciones lo son.
Cap´ıtulo 2. Variable aleatoria unidimensional
59
integral que, en funci´ on de donde se encuentre x, tomar´ a una forma u otra. As´ı pues, distinguimos
x
FX (x) =
a≤x
FX (x) =
x≥b
x
−∞ x a x
FX (x) =
a
0dτ = 0
1 x−a dτ = b−a b−a
fX (τ )dτ =
b
1 dτ = 1 b−a
a
(2.12) Puede observarse, por tanto, que FX (x) tiene los comportamientos asint´oticos esperados (cero, por lado izquierdo, y uno por lado derecho) y que crece linealmente en el interior del intervalo (a, b). Asimismo, dado que X es una VA continua, FX (x) es una funci´ on continua. Es interesante realizar unos comentarios adicionales: • La variable uniforme s´olo puede tomar valores en el interior del intervalo (a, b). En efecto, si calculamos la probabilidad P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) =
x2
x1
fX (x)dx
(2.13)
es f´ acil ver que esta integral s´olo es distinta de cero si los intervaon los (x1 , x2 ) y (a, b) tienen intersecci´on no vac´ıa, dado que la funci´ subintegral es no nula en el interior del segundo intervalo. • Lo anterior se generaliza a cualquier tipo de variable: aquellos valores de abscisa x para los que la funci´ on de densidad presenta un valor nulo, son valores que la VA X no puede tomar. • Retomando la ecuaci´on (2.13) es directo comprobar que un intervalo tiene probabilidad nula cuando los valores de la funci´ on de distribuci´on en los extremos del intervalo coinciden. Por lo tanto, intervalos de constancia en la funci´ on de distribuci´ on son intervalos de probabilidad nula para la VA. Este resultado, que es general, se concreta en el caso de una VA X ∼ U (a, b) viendo que la funci´ on de distribuci´ on para valores x < a y x > b es constante. Como hemos dicho, en estos intervalos la VA no puede tomar valores. • Centr´emonos ahora en los valores de probabilidad. Para ello, consideremos cuatro puntos de abscisa xi (i={1,. . . ,4}), tales que cumplan
60
C. Alberola L´ opez
a ≤ x1 < x2 < x3 < x4 ≤ b, y, asimismo, que se verifique que ∆ = x2 − x1 = x4 − x3 , esto es, que los intervalos (x1 , x2 ) y (x3 , x4 ) tengan la misma longitud. Calculemos las probabilidades respectivas de que la VA X tome valores en cada uno de los intervalos P (x1 < X ≤ x2 ) = = P (x3 < X ≤ x4 ) = =
x2
x1
fX (x)dx =
∆ x2 − x1 = b−a b−a
x4
x3
x1
fX (x)dx =
x3 − x4 ∆ = b−a b−a
x2
x4
x3
1 dx b−a
1 dx b−a
Como puede apreciarse, las dos probabilidades coinciden. Por tanto, ´ ambos intervalos son equiprobables. Esta es una caracter´ıstica general de las variables uniformes: en el interior del intervalo donde la variable toma valores no existe ning´ un intervalo privilegiado, sino que todos los intervalos son equiprobables. Si hacemos que el intervalo en cuesti´ on sea de anchura infinitesimal podemos concluir que todos los valores que la variable uniforme puede tomar son equiprobables. • Rep´ arese que no se ha dicho de forma expl´ıcita si el intervalo (a,b) es abierto o cerrado. De hecho, a efectos de c´alculo de probabilidades es irrelevante. Como hemos visto ya, la contribuci´ on a la probabilidad total de puntos aislados es nula, de forma que s´ olo toman sentido bajo el signo integral, esto es, dentro de intervalos no puntuales. Cuando se trabaje con variables discretas, sin embargo, puntos aislados s´ı son relevantes, pues ´estos llevan asociados probabilidades no nulas. Gaussiana Una VA X se dice que es gaussiana, de par´ ametros a y b si su funci´ on de densidad tiene la expresi´on (x−a)2 1 fX (x) = √ e− 2b2 b 2π
(2.14)
donde a es cualquier n´ umero real, b > 0 y la expresi´on es v´alida ∀x. Denotaremos a este tipo de variable de la forma X ∼ N (a, b). El motivo de emplear la letra N es que a este tipo de variables se les denomina tambi´en
Cap´ıtulo 2. Variable aleatoria unidimensional
61
variables normales puesto que es el tipo de variables normalmente asumido para el modelado y resoluci´ on de numerosos problemas pr´ acticos (hay razones para ello, como veremos en la secci´on 4.5.1). 0.35
0.3
0.25 b1 b2 > b1 0.2
b2 0.15
0.1
0.05
0
0
1
2
3
4
5 a=5
6
7
8
9
10
Figura 2.3: Ejemplos de funci´ on de densidad gaussiana para dos valores de b. La figura 2.3 muestra la forma de la expresi´ on (2.14) para dos valores distintos de b; puede observarse que los par´ametros a y b tienen un claro significado gr´ afico: el par´ametro a es el punto de simetr´ıa de la curva (as´ı como el punto de abscisa del m´aximo) y el par´ ametro b controla la anchura y altura de la curva. Rep´ arese que cuanto m´as grande sea b m´as tarda en decrecer la exponencial cuando nos separamos del punto de abscisa x = a, de forma que m´as ancha es la curva. Si esto es as´ı, dado que el a´rea bajo esta funci´ on ha de ser unitaria, una campana m´as ancha implica una menor altura con el fin de que se cumpla este requisito. Estos par´ ametros reciben nombre propios. Posponemos la presentaci´on de tales nombres hasta la secci´on 2.5.4. Respecto de la funci´on de distribuci´ on, ´esta se calcular´ıa mediante la expresi´on
FX (x) =
x
−∞
fX (τ )dτ =
x
−∞
(τ −a)2 1 √ e− 2b2 dτ b 2π
(2.15)
Sin embargo, no existe primitiva conocida para esta integral, de forma que no existe una expresi´ on cerrada para la funci´ on de distribuci´ on de una variable gaussiana. Si no existe expresi´ on para la funci´ on de distribuci´ on cabe preguntarse si es posible calcular probabilidades asociadas a este tipo de variables. La
62
C. Alberola L´ opez
respuesta, naturalmente, es afirmativa. Para tal fin, la integral anterior se calcula num´ericamente, y existen tablas sobre los valores de esta funci´ on para numerosos valores de abscisa x. Alg´ un comentario en relaci´on con esto, no obstante: • Rep´ arese que esta funci´ on es biparam´etrica, de forma que, aparentemente, se requerir´ıa tabular la funci´ on para cada par (a, b). Tales par´ ametros son n´ umeros reales, de forma que existe una cantidad no numerable de combinaciones (a, b); debe existir, naturalmente, alguna manera de evitar semejante complicaci´on. • Aunque existen tablas publicadas de esta funci´ on para valores de abscisa tanto positivos como negativos [11], es m´as frecuente [1] que s´olo se proporcione el valor de esta funci´ on en abscisa no negativas (x ≥ 0). Los dos problemas mencionados pueden resolverse oportunamente. Veamos c´omo: • En primer lugar, denominemos variable normal est´ andar a una VA X ∼ N (a = 0, b = 1). La funci´ on que t´ıpicamente se encuentra tabulada5 x (τ )2 1 √ e− 2 dτ G(x) = (2.16) 2π −∞ Sin embargo, esta funci´ on puede amoldarse al caso de variables no est´andar. Para ello, basta que hagamos el cambio de variable α = τ −a en la expresi´on (2.15). Por tanto, para una VA X ∼ N (a, b) b tendremos
FX (x) =
x
−∞ x
fX (τ )dτ =
(τ −a)2 1 √ e− 2b2 dτ −∞ b 2π x−a α2 b 1 √ e− 2 bdα = −∞ b 2π
=
5
En [2] la funci´ on tabulada es la funci´ on erf (x), la cual se define como erf (x) = −τ 2 e dτ . En Teor´ ıa de la Comunicaci´ on [13, 14] es habitual hablar de la funci´ on 0 Q(x), la cual es el complemento a uno de G(x), y de la funci´ on erf c(x), la cual se define ∞ 2 acilmente como erf c(x) = √2π x e−τ dτ . Las funciones erf (x) y erf c(x) se relacionan f´ con las funciones G(x) y Q(x). √2 π
x
Cap´ıtulo 2. Variable aleatoria unidimensional
63
x−a b
α2 1 √ e− 2 dα 2π −∞ x−a = G b
=
(2.17)
Por tanto, basta con que conozcamos la funci´on de distribuci´ on para una normal est´ andar (funci´ on G(x), ecuaci´on (2.16)) para poder encontrar la probabilidad de cualquier VA gaussiana, est´ andar o no. • Centr´emonos ahora en la funci´ on G(x). Esta funci´ on es igual al a´rea bajo la funci´ on de densidad de una VA normal est´ andar. Hemos visto que, para tal VA, el par´ ametro a = 0, de forma que la funci´ on de densidad es sim´etrica respecto a x = 0, es decir, es una funci´ on par. Por tanto, se ha de verificar que
−x
−∞
τ2 1 √ e− 2 dτ = 2π
∞
x
τ2 1 √ e− 2 dτ 2π
dado que la funci´ on subintegral es par, y los intervalos de integraci´ on son sim´etricos respecto a x = 0. Demos un significado probabil´ıstico a estas integrales, lo cual nos va a permitir relacionarlas con la funci´ on G(x). La integral de la izquierda no es otra cosa que P (X ≤ −x) = FX (−x) = G(−x). La segunda integral, por su parte, es igual a P (X > x). Sabemos que P (X > x) = 1 − P (X ≤ x) = 1 − FX (x) = 1 − G(x). Como ambas cosas son iguales, concluimos que G(−x) = 1 − G(x) y, por tanto, es claro que es suficiente conocer el ´area bajo la curva s´olo en la parte derecha de la recta real. Finalmente, debemos comentar una diferencia de importancia de esta variable, y en general, de todas las variables, con respecto a la uniforme: la no equiprobabilidad de intervalos de anchura constante de valores de la variable. En el caso de la VA uniforme cualquier intervalo de valores de anchura ∆ (que se encuentre dentro del intervalo (a, b)) es equiprobable. Sin embargo, en el caso de las variables gaussianas, son mucho m´as probables los intervalos de la misma cercanos al punto de abscisa x = a que los alejados de este punto. En efecto, seg´ un muestra la figura 2.4 y aceptando que la base de los dos rect´angulos dibujados mide ∆x, el ´area encerrada por el rect´angulo situado en torno a x = a es muy superior al ´area del segundo rect´angulo. Como el a´rea encerrada bajo la curva en el intervalo de que se trate es igual a la probabilidad de que la variable tome valores en dicho intervalo, es obvio qu´e valores de la variable gaussiana son m´as probables.
64
C. Alberola L´ opez
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0 40
45
50
55
60
65
70
75
80
Figura 2.4: Comparaci´ on de probabilidades de valores en una gaussiana. Exponencial 0.4
0.3
0.2
0.1
0 −5
0
5
10
0
5
10
1 0.8 0.6 0.4 0.2 0 −5
Figura 2.5: fX (x) (superior) y FX (x) (inferior) de una VA exponencial de par´ ametro λ = 0.4. Una VA X se dice que es exponencial de par´ ametro λ, y se denota por X ∼ exp(λ), si su funci´ on de densidad tiene la expresi´ on fX (x) = λe−λx u(x)
(2.18)
donde λ > 0 y u(x) es la funci´ on escal´on. En base a ello puede observarse que una VA exponencial puede tomar s´olo valores no negativos y que
Cap´ıtulo 2. Variable aleatoria unidimensional
65
la probabilidad de intervalos de anchura constante es tanto m´as peque˜ na cuanto m´ as alejados se encuentren del cero (v´ease figura 2.5). Asimismo: • fX (x) ≥ 0 •
∞
−∞ λe
∀x
−λx u(x)dx
=
∞ 0
λe−λx dx = (−e−λx )∞ 0 = 1.
Finalmente, la funci´ on de distribuci´ on se obtiene f´acilmente; por una on de densidad es nula parte es claro que FX (x) = 0 si x < 0 pues la funci´ en esta zona. Integrando en la zona en que la funci´ on de densidad es no nula, podemos escribir
FX (x) = = = = por lo que
x
−∞ x
0
fX (τ )dτ
e−λτ dτ
−e−λτ
x
0 −λx
1−e
, x≥0
FX (x) = 1 − e−λx u(x)
2.3.2
(2.19)
Discretas
Bernoulli Una VA X discreta se dice que es de Bernoulli, de par´ametro p (p ≥ 0), si s´olo puede tomar los valores x = 0 y x = 1 con probabilidades respectivas P (X = 0) = 1 − p = q y P (X = 1) = p. Tales variables pueden asociarse de manera inmediata a un ensayo de Bernoulli. Basta para ello llevar a cabo la igualdad A = {X = 1} A = {X = 0} Binomial Una VA X discreta se dice que es Binomial, de par´ametros N y p (N ∈ Z + y p ≥ 0), si puede tomar los valores x = k con k = {0, 1, 2, . . . , N }, con
66
C. Alberola L´ opez
probabilidades
P (X = k) =
N k N −k p q k
(2.20)
donde q = 1 − p. En tal caso la variable se denota X ∼ B(N, k). Puede observarse que esta variable se asocia f´acilmente a la composici´on de ensayos (independientes) de Bernoulli, sin m´as que hacer la igualdad Bk = {X = k}, con k = {0, . . . , N } y Bk el suceso definido en la secci´on 1.7.1. Poisson Una VA X discreta se dice que es de Poisson, de par´ametro a (a > 0), si puede tomar los valores enteros x = k con k ≥ 0, con probabilidades P (X = k) = e−a
ak k!
(2.21)
Obs´ervese que los valores que puede tomar esta variable no est´a acotados superiormente. Geom´ etrica Una VA X discreta se dice que es geom´etrica, de par´ ametro p (p ≥ 0), si puede tomar los valores enteros x = k con k ≥ 0, con probabilidades P (X = k) = q k p
(2.22)
donde q = 1 − p. Esta variable se emplea, por ejemplo, para calcular la probabilidad del n´ umero de repeticiones (independientes) de un ensayo de Bernoulli que se deben llevar a cabo hasta obtener el resultado A (supuesto que la probabilidad de obtener A sea igual a p). En efecto, si el n´ umero de repeticiones6 es k es porque en los k − 1 intentos anteriores se ha verificado el resultado A y en el k − ´esimo experimento el resultado A. Denominando Ai al resultado del ensayo i − ´esimo, procedamos con k creciente P (X = 0) = P (A1 = A) = p P (X = 1) = P ((A1 = A) ∩ (A2 = A)) = qp 6
La palabra repetici´ on est´ a aqu´ı empleada en el m´ as puro sentido acad´emico: si se repite un experimento (por ejemplo, cursar una asignatura) una vez es porque se ejecuta dos veces (el alumno se ha matriculado dos veces) y en la primera ejecuci´ on el resultado no ha sido el deseado (esto es, no se ha aprobado en primera matr´ıcula). En este sentido repetir cero veces implica aprobar en primera matr´ıcula.
Cap´ıtulo 2. Variable aleatoria unidimensional
67
P (X = 2) = P ((A1 = A) ∩ (A2 = A) ∩ (A3 = A)) = q 2 p .. .. . .
P (X = k) = P
=
k
(Ai = A)
i=1 k
P Ai = A
(Ak+1 = A)
P (Ak+1 = A)
i=1 k
= q p
(2.23)
Ejercicio: Compru´ebese que, para las variables discretas
definidas, se verifica la igualdad pi = 1, donde el recorrido i
del ´ındice i depende de la definici´ on de cada VA.
2.4
Funciones condicionadas
De igual manera que se definieron probabilidades condicionadas en el tema anterior, podemos hablar de funciones de distribuci´ on y densidad de probabilidad condicionadas. El condicionante ser´ a un suceso relacionado con la VA X y tal suceso nos proporcionar´ a m´as informaci´ on sobre el comportamiento probabil´ıstico de la variable. Considerando pues que el suceso B es el suceso condicionante (P (B) > 0) la funci´ on de distribuci´ on condicionada se define como FX (x|B) = P (X ≤ x|B) =
P (X ≤ x, B) P (B)
(2.24)
El suceso intersecci´on estar´a formado, como es sabido, por todos los a ∈ S para los que, simult´ aneamente se verifica que a ∈ B y a ∈ {X ≤ x}. A partir de la funci´ on de distribuci´ on condicionada se define la funci´ on de densidad condicionada mediante el operador derivada, de forma similar a como se hizo en la expresi´on (2.7) fX (x|B) =
dFX (x|B) dx
(2.25)
Consideremos dos casos particulares de suceso condicionante B, y, para caso caso, obtengamos las funciones de distribuci´ on y densidad condicionadas como funci´ on de las funciones incondicionales:
68
C. Alberola L´ opez
• B = {X ≤ a}, con a ∈ R. Procediendo seg´ un la definici´ on: x≤a
FX (x|B) =
x>a
FX (x|B) = P (X ≤ x|B) = P (X≤x) P (B)
=
FX (x) FX (a)
FX (x|B) = P (X ≤ x|B) = P (B) P (B)
P (X≤x,B) P (B)
=
P (X≤x,B) P (B)
=
=1 (2.26)
por lo que la funci´ on de densidad condicionada ser´ıa: fX (x|B) =
x≤a
fX (x|B) =
x>a
fX (x|B) = 0
fX (x) FX (x)
= a
fX (x) fX (x)dx
(2.27)
−∞
Como puede observarse, dado que el condicionante informa de que la variable X ha tomado valores menores o iguales que el valor de abscisa a, es obvio que la variable no puede tomar valores a la izquierda de dicho punto, de forma que la funci´ on de distribuci´ on condicionada es constante para valores x > a, o, de forma equivalente, la funci´ on de densidad condicionada es nula en dicho intervalo. Por lo tanto, las funciones condicionadas, como ya hemos dicho, actualizan nuestro conocimiento probabil´ıstico sobre la variable en cuesti´on a partir de la informaci´ on proporcionada por el condicionante. • B = {a < X ≤ b}. Distingamos ahora tres zonas: (∅) xb FX (x|B) = P (X≤x,B) = PP (B) P (B) (B) = 1
(2.28) Derivando la expresi´ on anterior obtenemos la funci´ on de densidad condicionada: x
fX (x|B) =
fX (x|B) = 0 fX (x) a ≤ x ≤ b fX (x|B) = FX (b)−F = b fX (x) X (a)
x>b
fX (x|B) = 0
a
fX (x)dx
(2.29) • Sup´ ongase ahora que X es discreta y que puede tomar valores en el conjunto {x1 , x2 , x3 } con probabilidades respectivas P (X = xi ) = pi ,
Cap´ıtulo 2. Variable aleatoria unidimensional
69
i = {1, 2, 3}. Denominemos B = {X ≤ a}, donde x2 < a < x3 . Entonces se verifica que: FX (x|B) =
pi|B u(x − xi )
i
con pi|B = P (X = xi |B), i = {1, 2, 3}. En particular p1|B = p2|B = p3|B =
2.4.1
P (X = x1 ) p1 P (X = x1 , X ≤ a) = = P (X ≤ a) P (X = x1 X = x2 ) p1 + p2 P (X = x2 , X ≤ a) P (X = x2 ) p2 = = P (X ≤ a) P (X = x1 X = x2 ) p1 + p2 P (X = x3 , X ≤ a) 0 = =0 P (X ≤ a) P (X = x1 X = x2 )
Teoremas de la Probabilidad Total y de Bayes
Los Teoremas de la Probabilidad Total y de Bayes vistos en el tema anterior (v´ease secci´on 1.6) se pueden aplicar de forma inmediata a las funciones de distribuci´ on y densidad condicionadas. En efecto, si consideramos que on del espacio los sucesos Ai , i = {1, 2, . . . , N }, constituyen una partici´ muestral S, podemos identificar el suceso B empleado en la secci´on 1.6 con el suceso {X ≤ x} e, identificando t´ermino a t´ermino, P (X ≤ x) = FX (x) =
N i=1 N
P (X ≤ x|Ai )P (Ai ) =⇒ FX (x|Ai )P (Ai )
(2.30)
i=1
y, derivando con respecto a la variable x, fX (x) =
N
fX (x|Ai )P (Ai )
(2.31)
i=1
Estas expresiones indican que se puede construir una funci´ on de densidad en base a la superposici´on de funciones de densidad condicionadas, cada una de ellas multiplicada por un peso relativo igual a la probabilidad del elemento de la partici´ on a que est´a condicionada. A una funci´ on de densidad as´ı constituida se le denomina mezcla de funciones de densidad.
70
C. Alberola L´ opez
Ejemplo: Continuando con lo expuesto en la secci´on 1.6.4 en relaci´on con los sistemas de comunicaci´on, pensemos que las observaciones asociadas al env´ıo del s´ımbolo l´ ogico 0 son muestras de una VA X ∼ N (a0 , b0 ), mientras que las observaciones asociadas al s´ımbolo l´ ogico 1 son muestras de X ∼ N (a1 , b1 ). Manteniendo la terminolog´ıa de dicha secci´on, la funci´ on de densidad fX (x) de la observaci´on podr´ıa escribirse fX (x) =
1 √
−
b0 2π
e
(x−a0 )2 2b2 o
P (H0 ) +
1 √
b1 2π
−
e
(x−a1 )2 2b2 1
P (H1 )
La figura 2.6 muestra el aspecto de dicha gr´ afica para los valores (a0 = −3, b0 = 1.5), (a1 = 3, b1 = 1.5), P (H0 ) = 1/3, P (H1 ) = 1 − 1/3. Como puede observar, los m´aximos de las curvas son distintos, dado que cada una de ellas se encuentra multiplicada por un peso P (Hi ) (i = 0, 1) diferente. Por otra parte existe un grado de solapamiento importante entre las dos curvas, lo cual puede llevar a error al decisor del s´ımbolo enviado instalado en el receptor. En efecto, si consideramos un determinado valor dentro de la zona de solapamiento, digamos, x = 0.5, si bien es m´as probable que haya sido generado por la distribuci´ on fX (x|H1 ), tambi´en puede haber sido generado por la distribuci´ on fX (x|H0 ) y con una probabilidad razonablemente elevada (esa probabilidad ser´ a tanto mayor cuanto mayor sea la funci´ on de densidad condicionada en dicho punto). Ello, por lo tanto, induce a confusi´ on en el receptor. Cuantificaremos estas afirmaciones en el ejemplo de la secci´on 2.4.2. El Teorema de Bayes se obtiene sin m´as que intercambiar los condicionantes en las expresiones anteriores P (Ai |X ≤ x) =
FX (x|Ai )P (Ai ) FX (x|Ai )P (Ai ) = N
FX (x) FX (x|Aj )P (Aj )
(2.32)
j=1
2.4.2
Teoremas de la Probabilidad Total y de Bayes mediante partici´ on continua
Nada impide considerar como partici´ on cada uno de los elementos de la recta real R. En tal caso, no podremos indexar los elementos de la partici´ on mediante un ´ındice entero, pues la partici´ on ser´a no numerable, de
Cap´ıtulo 2. Variable aleatoria unidimensional
71
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0 −10
−8
−6
−4
−2
0
2
4
6
8
10
Figura 2.6: Funci´ on de densidad mezcla de dos gaussianas. forma que los operadores de suma pasar´an a ser sumas continuas, esto es, integrales. Sin embargo, conceptualmente, no existe diferencia alguna. Para ver c´omo podemos hacer esto, consideremos el suceso condicionante B = {x1 < X ≤ x2 }. Acorde con ´el, podemos escribir P (x1 < X ≤ x2 |A) P (x1 < X ≤ x2 ) FX (x2 |A) − FX (x1 |A) P (A) FX (x2 ) − FX (x1 )
P (A|B) = P (A|x1 < X ≤ x2 ) = =
(2.33)
El objetivo es hacer que el suceso B tienda a contener s´olo un elemento. no sea ∆x Para ello, hagamos que x1 = x y x2 = x+∆x. Cuanto m´as peque˜ m´as estrecho ser´a el intervalo que manejemos y, en el l´ımite, contendr´a s´olo a X = x. Por ello: lim P (A|x < X ≤ x + ∆x) =
∆x→0
FX (x + ∆x|A) − FX (x|A) P (A) FX (x + ∆x) − FX (x)
=
FX (x+∆x|A)−FX (x|A) ∆x FX (x+∆x)−FX (x) ∆x
=
fX (x|A) P (A) = P (A|X = x) fX (x)
P (A)
(2.34) La probabilidad P (A|X = x) debe entenderse como una forma compacta de escribir la expresi´ on del primer miembro de la igualdad en la ecuaci´ on
72
C. Alberola L´ opez
anterior (primera l´ınea de la ecuaci´on 2.34). V´ease que, de no entenderlo de esta manera sino en t´ermino estrictos, estar´ıamos hablando de una probabilidad condicionada en la que el condicionante ser´ıa un suceso de probabilidad nula. Recu´erdese (secci´on 1.4) que la asunci´ on de partida es la no nulidad en la probabilidad del suceso condicionante. Qued´ andonos con la igualdad de la u ´ltima l´ınea de (2.34) podemos escribir P (A)fX (x|A) = P (A|X = x)fX (x) (2.35) Integrando ambos miembros en toda la recta real, y recordando que el a´rea bajo una funci´ on de densidad es unitaria, obtenemos
P (A) =
∞
−∞ ∞
=
−∞
P (A)fX (x|A)dx P (A|X = x)fX (x)dx
(2.36)
lo cual no es otra cosa que el Teorema de la Probabilidad Total, empleando como partici´ on cada uno de los elementos de la recta real. Por otra parte, despejando de (2.34) la funci´ on de densidad condicionada, podemos escribir fX (x|A) = =
P (A|X = x)fX (x) P (A) P (A|X = x)fX (x) ∞ −∞ P (A|X = x)fX (x)dx
(2.37)
expresi´on que constituye el Teorema de Bayes en forma continua, es decir, la probabilidad de cada elemento de la partici´ on (X = x) condicionada al suceso A que se ha verificado. Estrictamente hablando, en este caso tendr´ıamos densidades de probabilidad en vez de probabilidades. No obstante, como es sabido, bastar´ıa multiplicar a ambos lados de la igualdad por una longitud elemental de intervalo (digamos, dx) para convertir esta igualdad en igualdad de probabilidades, de ah´ı que manejemos indistintamente uno u otro t´ermino. Ejemplo: Podemos reescribir la ecuaci´on (2.35) de la forma P (A|X = x) =
fX (x|A)P (A) fX (x)
(2.38)
y, volviendo al ejemplo del sistema de comunicaciones digitales, calcular esa probabilidad para cada uno de los s´ımbolos cuando
Cap´ıtulo 2. Variable aleatoria unidimensional
73
el valor de se˜ nal observado sea x = 0.5. Si realizamos los c´alculos para la selecci´on de valores indicada anteriormente (valores para la construcci´ on de la figura 2.6), tendr´ıamos P (H0 |X = 0.5) = P (H1 |X = 0.5) =
fX (x = 0.5|H0 )P (H0 ) = 0.1165 fX (x = 0.5) fX (x = 0.5|H1 )P (H1 ) = 0.8835 fX (x = 0.5)
En efecto, el sistema actualiza su grado de conocimiento probabil´ıstico sobre cada una de las hip´otesis en base a la observaci´on realizada. Anteriormente, P (H1 ) = 2/3 ≈ 0.67. Ahora, la creencia en que el s´ımbolo enviado haya sido el correspondiente a H1 se refuerza (pasa a ser 0.8835) en base a la observaci´on obtenida {X = 0.5}, de forma que el sistema decidir´a que el s´ımbolo enviado ha sido, efectivamente, el s´ımbolo l´ ogico 1 ya que P (H1 |X = 0.5) > P (H0 |X = 0.5). Sin embargo, el hecho de que P (H0 |X = 0.5) = 0 hace que, si bien esta hip´ otesis es m´as improbable, que no sea imposible. De hecho, de cada 100 observaciones del valor {X = 0.5}, aproximadamente 12 proceder´an del env´ıo del s´ımbolo l´ ogico 0. Esto hace que el sistema no sea infalible. ♣
2.5
Caracterizaci´ on parcial de una variable aleatoria.
La caracterizaci´on probabil´ıstica de una VA viene dada, hasta donde conocemos, por dos funciones, bien la funci´ on de distribuci´ on, bien la de densidad de probabilidad. Sin embargo, en numerosos problemas basta conocer algunos par´ ametros que caracterizan— aunque sea de forma parcial —a la variable. En esta secci´on nos centraremos en los par´ ametros m´as habituales de caracterizaci´on parcial de las variables, y analizaremos c´omo podemos obtener ´estos para algunos de los tipos de variables vistos en la secci´on 2.3.
2.5.1
Media
Consideremos que disponemos de M observaciones de una variable (por ejemplo, medimos la altura de M personas). Aceptemos que medimos
74
C. Alberola L´ opez
con una precisi´ on de 5 cent´ımetros, de forma que nuestras medidas son 1.60m, 1.65m etc. . . . Denotemos por hj los valores de estas medidas, con j = 1, . . . , N . Pensemos, finalmente, que kj personas, de las M posibles,
han resultado tener una altura igual a hj . Es obvio pues que j kj = M . Con estas premisas, el valor medio de las alturas medidas se obtendr´ıa, de una forma natural, de la forma h=
N kj hj j=1
=
M
N
kj
N
i=1 ki
j=1
hj =
N
rj h j
(2.39)
j=1
es decir, el valor medio ser´ıa la media ponderada de todas las alturas hj , donde el coeficiente de ponderaci´ on rj indica la importancia relativa de la altura hj con respecto a las otras alturas, y esa importancia relativa no es otra cosa que la fracci´ on de observaciones, con respecto al total, cuya altura es hj . Para el caso particular en que todas las alturas aparezcan por igual en el registro de datos (rj = 1/N ), entonces la media ponderada pasa a ser la media aritm´etica tradicional h=
N
rj hj =
j=1
N 1 hj N j=1
(2.40)
Consideremos ahora una VA X y definamos su valor medio (al cual denotaremos por ηX ). Centr´emonos, inicialmente, en las VAs discretas. El valor medio de una VA X discreta se define como la media ponderada de los valores que puede tomar la variable. Si esta variable puede tomar los valores xi con probabilidades respectivas pi = P (X = xi ), i = {1, 2, . . . , N }, la media se obtiene mediante ηX =
N
xi P (X = xi ) =
i=1
N
xi pi
(2.41)
i=1
Como puede comprobarse, esta definici´ on es una generalizaci´ on de la ecuaci´on (2.39), donde los coeficientes de ponderaci´ on ri (los cuales ser´ıan funci´on de los datos particulares de que se dispusiese) pasan a ser aqu´ı las probabilidades pi de cada uno de los valores de la variable. Huelga decir que si la VA discreta tiene cardinal infinito, el sumatorio se escribir´ıa en ese mismo rango. Para el caso general de variables continuas, la definici´ on (2.41) se generaliza de la forma siguiente:
ηX = E{X} =
∞
−∞
xfX (x)dx
(2.42)
Cap´ıtulo 2. Variable aleatoria unidimensional
75
donde E{·} denota el operador esperanza matem´ atica, operador que consiste en multiplicar su argumento por la funci´ on de densidad de la VA involucrada e integrar ese producto en todo el recorrido de la variable. Obs´ervese que esta definici´on es la extensi´on continua de la ecuaci´ on (2.41), pues el operador sumatorio se ha sustituido por su extensi´on continua (integral), y las probabilidades pi se han sustituido por su equivalente continuo, P (x < X ≤ x + dx) = fX (x)dx. Asimismo, podemos comprobar de manera sencilla que la definici´ on continua se convierte en la discreta cuando la funci´ on de densidad que se emplee venga dada por la ecuaci´on (2.10). En efecto, si la VA X es discreta, su funci´ on de densidad vendr´ a dada por la expresi´on
fX (x) =
pi δ(x − xi )
(2.43)
i
de forma que el valor medio
ηX = E{X} = =
−∞
i
=
∞
x
pi
pi δ(x − xi ) dx
i=1 ∞
xδ(x − xi )dx
−∞ ∞
pi xi
i
=
−∞
δ(x − xi )dx
pi xi
(2.44)
i
como se indic´ o previamente.
2.5.2
Otras medidas de tendencia central
La media de una VA X es un par´ ametro de tendencia central pues, como hemos dicho, indica un valor en torno al cual se distribuyen los valores de la variable. Este valor, sin duda alguna, es el m´ as empleado, si bien no es el u ´nico. Otras medidas de tendencia central son las siguientes: • Moda: La moda de una VA X es el valor de dicha variable para el cual la funci´ on de densidad es m´axima. Formalmente, si denotamos a la moda por xM ODA , podemos escribir xM ODA = arg max fX (x) x
(2.45)
76
C. Alberola L´ opez
El significado de la moda es el valor de la VA de mayor probabilidad. Por tanto, para el caso discreto, la moda se define como aquel valor xi cuya probabilidad pi es m´axima. • Mediana: el valor mediano, o mediana de una distribuci´ on, es el valor de abscisa para el cual la probabilidad de que la VA tome valores menores o iguales que dicho valor de abscisa coincide con la probabilidad de que la VA tome valores superiores a ´este. Puede tambi´en definirse como el valor de la VA para el cual la probabilidad acumulada a su izquierda es igual a 0.5. En cualquier caso, denotando a la mediana por xM E , entonces
P (X ≤ xM E ) = P (X > xM E ) xM E
−∞
fX (x)dx =
∞
xM E
fX (x)dx
(2.46)
N´otese que para el caso de VAs discretas este valor en general no coincidir´ a con ning´ un valor, digamos xi , que la VA X discreta pueda tomar. En tal caso si el valor xp de la misma es tal que P (X ≤ xp ) < 0.5 y P (X ≤ xp+1 ) > 0.5 entonces podemos definir el valor mediano x +x como xM E = p 2 p+1 . Tanto la moda como el valor mediano tiene interesantes aplicaciones pr´ acticas dentro del ´ambito de Teor´ıa de la Se˜ nal; algunos ejemplos son el an´ alisis de imagen mediante estimaci´on bayesiana [4] o el filtrado de ruido impulsivo (en este u ´ltimo caso, el filtro de mediana [16, 17]). A pesar de ello no les prestaremos mayor atenci´ on en el resto de este tratado.
2.5.3
Varianza
La varianza de una VA X es un valor de dispersi´ on con respecto al valor 2 , y se define medio ηX . Concretamente, se denota por σX 2 σX = E{(X − ηX )2 } =
∞
−∞
(x − ηX )2 fX (x)dx
(2.47)
A partir de la definici´ on dada en la ecuaci´on (2.42) se puede deducir que la varianza de una VA X es la media de las desviaciones cuadr´aticas de los valores de la VA con respecto a su valor medio. on t´ıpica de la variable El par´ ametro σX (σX > 0) se denomina desviaci´ X. El significado de este par´ ametro es el mismo que el de la varianza, s´olo que en la misma unidad de medida que la media (repare que la varianza es una magnitud cuadr´ atica con respecto a la de la media).
Cap´ıtulo 2. Variable aleatoria unidimensional
77
Si desarrollamos el cuadrado dentro de la funci´ on subintegral anterior 2 σX
2
= E{(X − ηX ) } =
=
∞
−∞
2
x fX (x)dx +
∞
−∞ 2 ηX
2 (x2 + ηX − 2xηX )fX (x)dx
∞
−∞
fX (x)dx − 2ηX
2 2 2 − 2ηX = E{X2 } − ηX = E{X2 } + ηX
∞
−∞
xfX (x)dx (2.48)
donde al par´ ametro E{X2 } se le denomina valor cuadr´ atico medio (VCM, en adelante) de la VA X puesto que es igual a la media de los valores de la variable elevados al cuadrado. Este resultado muestra varios conceptos de inter´es: 1. El operador esperanza matem´ atica, dado que est´a definido mediante un operador integral, es un operador lineal. Podr´ıamos haber obtenido el resultado de la ecuaci´on (2.48) operando directamente sobre el operador esperanza, de la forma 2 2 = E{(X − ηX )2 } = E{X2 − ηX − 2ηX X} σX 2 − 2E{ηX X} = E{X2 } + ηX
2 − 2ηX E{X} = E{X2 } + ηX 2 = E{X2 } − ηX
(2.49)
dado que la esperanza de una constante es esa misma constante, y la esperanza de una constante multiplicada por una VA es igual a la constante multiplicada por la esperanza de la VA. 2. La varianza, seg´ un se desprende de su definici´ on en la ecuaci´on (2.47), es igual al valor medio de las desviaciones cuadr´ aticas de los valores on de la VA con respecto a su media ηX . Por tanto, una VA cuya funci´ de densidad est´e muy concentrada alrededor de la media tendr´ a un valor peque˜ no de varianza, y suceder´ a la contrario con funciones de densidad muy poco concentradas respecto a dicho valor medio. 3. La varianza puede calcularse de, al menos, dos maneras. La primera ser´ıa aplicando la definici´ on dada en (2.47). La segunda ser´ıa calcuun indica lando previamente E{X2 } y ηX , para luego combinarlos seg´ la ecuaci´on (2.48). Son dos procedimientos distintos, hasta el punto de que, en funci´ on de las circunstancias, uno de ellos puede ser notablemente m´as sencillo que el otro.
78
C. Alberola L´ opez
Para el caso de VAs discretas, es f´acil comprobar, sin m´ as que sustituir la expresi´ on gen´erica de la funci´ on de densidad por la particularizaci´ on de la ecuaci´on (2.10), que la expresi´ on de la varianza pasa a ser 2 σX =
(xi − ηX )2 pi
i 2 = E{X2 } − ηX
=
x2i pi −
i
2
xi pi
(2.50)
i
La primera l´ınea de la ecuaci´on mostrar´ıa el c´alculo directo, equivalente discreto de la ecuaci´on (2.47), mientras que la tercera l´ınea ser´ıa el equivalente discreto de (2.48). Finalmente, es interesante mencionar que la varianza de una constante es igual a cero. Insistimos que la varianza mide dispersi´ on con respecto a la media. Por ello, si hablamos de una constante, hablamos de una magnitud que no tiene variabilidad ninguna, lo cual debe ser coherente con varianza nula. En efecto, una constante es modelable como una VA discreta que s´olo puede tomar un valor, digamos, valor a, con probabilidad pa = 1. Por ello, su funci´ on de densidad ser´ıa (llam´emosla X) fX (x) = δ(x − a). Haciendo uso de las definiciones vistas anteriormente: • E{X} =
• E{X2 } =
i pi xi
=a·1=a
2 i pi xi
= a2 · 1 = a2
2 = E{X2 } − E 2 {X} = a2 − a2 = 0 • σX
2.5.4
Ejemplos para varias distribuciones
Uniforme Consideremos X ∼ U (a, b). Los c´alculos en este caso son particularmente sencillos dada la simplicidad de la funci´ on de densidad • Media:
E{X} =
∞
∞ b
xfX (x)dx
=
x a
a+b 1 dx = b−a 2
(2.51)
Cap´ıtulo 2. Variable aleatoria unidimensional
• VCM
2
E{X } =
∞
∞ b
= a
79
x2 fX (x)dx
1 1 x dx = b−a 3 2
b3 − a3 b−a
(2.52)
• Varianza: la integral es igualmente sencilla, pero requiere de un poco m´as de ´algebra. Se puede comprobar que el resultado es: 2 σX =
∞
(x − ηX )2 fX (x)dx
−∞ b
= a
a+b x− 2
2
1 (b − a)2 dx = b−a 12
(2.53)
Puede verse por lo tanto que la media de una VA uniforme es igual al punto medio del intervalo donde la variable toma valores, y la varianza es funci´ on cuadr´ atica de la longitud del intervalo. En efecto, cuanto mayor sea el intervalo, dado que todos los valores de la variable son equiprobables, mayor es la dispersi´on de los valores con respecto de la media. Gaussiana Consideremos ahora que X ∼ N (a, b). El c´ alculo de media y varianza de la distribuci´ on se har´ıa como sigue: • Media: debemos resolver la integral
E{X} = ηX = =
∞
−∞ ∞
xfX dx
(x−a)2 1 x √ e− 2b2 dx −∞ b 2π
(2.54)
Para resolver esta integral parece razonable, dado que la exponencial presenta como punto de simetr´ıa el punto x = a, bien desplazar la exponencial a x = 0, bien desplazar la funci´ on f (x) = x al punto x = a. Lo segundo se hace de manera sencilla sin m´as que sumar y restar la constante a, obteniendo
E{X} = ηX =
∞
(x−a)2 1 (x − a + a) √ e− 2b2 dx b 2π −∞
80
C. Alberola L´ opez
∞
(x−a)2 1 (x − a) √ e− 2b2 dx + b 2π −∞ ∞ (x−a)2 1 a √ e− 2b2 dx −∞ b 2π
=
(2.55)
La segunda integral es igual a a, dado que es el c´alculo del a´rea bajo una funci´ on de densidad, multiplicada por a. Al respecto de la primera, rep´ arese que la funci´ on subintegral es el producto de la funci´ on f (x) = x−a, la cual es impar con respecto al punto x = a, por una exponencial con exponente al cuadrado, la cual es una funci´ on par con respecto al punto x = a. El producto por tanto es impar, e integrado en toda la recta real, dado que la integral existe, el resultado debe ser nulo. Por ello, podemos afirmar que E{X} = ηX = a
(2.56)
• Varianza: debemos resolver la integral 2 σX =
=
∞
−∞ ∞
(x − ηX )2 fX dx
(x−a)2 1 (x − a)2 √ e− 2b2 dx b 2π −∞
(2.57)
En este caso no podemos explotar la paridad/imparidad de las funciones, puesto que todas las funciones involucradas son cuadr´ aticas. El c´alculo directo de la integral parece tambi´en complicado. Sin embargo, s´ı que existen soluciones sencillas para resolver este problema. Una forma de resolverlo ser´ıa explotar el conocimiento previo de que disponemos. Concretamente, sabemos que
1 =
∞
−∞ ∞
b =
−∞
(x−a)2 1 √ e− 2b2 dx ⇒ b 2π (x−a)2 1 √ e− 2b2 dx 2π
(2.58)
La primera l´ınea procede del hecho de que el ´area bajo una funci´ on de densidad es igual a uno. La segunda igualdad se ha puesto por conveniencia y se obtiene de multiplicar a ambos miembros de la igualdad por el par´ ametro b. Si consideramos ahora esta igualdad como una funci´ on del par´ ametro b (por lo tanto, el par´ ametro pasa a ser una variable), nada impide que hagamos transformaciones sobre
Cap´ıtulo 2. Variable aleatoria unidimensional
81
esa funci´ on, en particular, que derivemos. ¿Qu´e ganamos con esto? Si comparamos las ecuaciones (2.57) y (2.58) veremos que para pasar de la segunda a la primera necesitamos que el t´ermino (x − a)2 aparezca multiplicando a la exponencial. Esto podemos conseguirlo derivando la igualdad (2.58), considerada ´esta como funci´on de b, ya que la regla de la cadena dice que def (b) = ef (b) f (b) db
(2.59)
y es obvio que al derivar la funci´ on del exponente con respecto a b, el ua como constante a efectos de b, pasar´ aa t´ermino (x−a)2 , el cual act´ multiplicar a la exponencial, como necesitamos. Procediendo de esta manera
(x−a)2 1 (x − a)2 √ e− 2b2 1 = − 2 2π −∞ ∞ 2 (x−a) 1 b2 = (x − a)2 √ e− 2b2 b 2π −∞
∞
(−2)
1 dx b3 (2.60)
2 = b2 . de forma que, seg´ un dice la expresi´on (2.57), σX
Seg´ un los resultados obtenidos, el primer par´ ametro de la gaussiana (a) es la media y el segundo par´ ametro (b) es la desviaci´on t´ıpica. Por ello, es pr´actica habitual denotar las variables gaussianas mediante X ∼ N (ηX , σX ). Ejercicio: Obtenga los valores de xM ODA y xM E para X ∼ N (ηX , σX ). Soluci´ on: El primer par´ ametro de la curva es el punto de simetr´ıa, que coincide con el m´aximo. Por ello, xM ODA = ηX . Asimismo y, de nuevo, debido a la simetr´ıa de la curva con respecto a x = ηX , el ´area bajo la curva en el intervalo (−∞, ηX ) coincide con el ´area en el intervalo (ηX , ∞). Por ello, xM E = ηX . ♣ Exponencial Consideremos ahora que X ∼ exp(λ). El c´alculo de media y varianza de la distribuci´ on se har´ıa como sigue:
82
C. Alberola L´ opez
• Media: debemos resolver la integral E{X} = ηX =
∞
0∞
=
0
xfX dx xλeλx dx
(2.61)
• VCM: en este caso, debemos resolver E{X2 } = ηX =
∞
0
=
∞
0
x2 fX dx x2 λeλx dx
(2.62)
Ambas integrales son de corte similar, y pueden resolverse sin m´as que aplicar integraci´ on por partes, con la consiguiente dosis de paciencia. No obstante, existen resultados conocidos, los cuales pueden servir de base para obtener los par´ ametros que nos piden de forma m´as r´apida y elegante. Concretamente, hablamos de la funci´ on gamma, o factorial generalizado, la cual se define
Γ(p) =
∞
0
xp−1 e−x dx = k p
0
∞
xp−1 e−kx dx
(2.63)
donde se ha de verificar que k > 0 y p > 0. Esta funci´ on verifica la ley de recurrencia Γ(p + 1) = pΓ(p), lo cual particulariza al caso de p ∈ Z + en Γ(p + 1) = p!. As´ı pues no tenemos m´as que identificar t´erminos en media y VCM con respecto a la funci´ on Γ. Por tanto • E{X} =
∞
• E{X2 } =
0
xλeλx dx = λ1 Γ(2) =
∞ 0
1 Γ(3) λ2
x2 λeλx dx =
2 = E{X2 } − E 2 {X} = • σX
1 λ
2 λ2
−
1 λ2
= =
2 λ2 1 λ2
Bernoulli Este caso es particularmente sencillo, pues los sumatorios se extienden a s´olo dos valores. Por tanto • Media: E{X} = ηX = • VCM: E{X2 } =
N
N
i=1 xi pi
2 i=1 xi pi
=0·q+1·p=p
= 02 · q + 12 · p = p
2 = E{X2 } − E 2 {X} = p − p2 = p(1 − p) = pq • Varianza: σX
Cap´ıtulo 2. Variable aleatoria unidimensional
83
Binomial Para el caso en que X ∼ B(N, p) tenemos: • Media:
N
E{X} = ηX =
N N
xi pi =
i=0
• VCM: 2
E{X } =
N
i=0
x2i pi
=
i=0
i pi q N −i
i
N N
i2 pi q N −i
i
i=0
(2.64)
(2.65)
El c´ omo llevar a cabo estos sumatorios de forma directa no parece obvio, pero s´ı que es abordable en base a un resultado conocido, que no es otro que el desarrollo de un binomio de Newton: N
(p + q)
=
N N
pi q N −i
i
i=0
Necesitamos que el ´ındice del sumatorio i multiplique a las probabilidades, tanto linealmente— para el caso de la media —como cuadr´aticamente, para el caso del VCM. Esto lo podemos conseguir sin m´as que considerar la expresi´ on anterior como una funci´ on f de la variable p, y derivar con respecto a ella. En efecto:
N N N N df (p) ipi−1 q N −i = ipi−1 q N −i = N (p + q)N −1 = dp i i i=1 i=0
donde la u ´ltima igualdad procede de que el t´ermino en i = 0 es nulo. Basta ahora que multipliquemos ambos miembros por p para que la u ´ltima expresi´on coincida con la expresi´on (2.64). Por ello, E{X} = ηX = p
N N i=0
i
ipi−1 q N −i |p+q=1
= pN (p + q)N −1 |p+q=1 = Np
(2.66)
Con respecto al VCM, partimos de la expresi´on N −1
pN (p + q)
=
N N i=0
i
ipi q N −i
84
C. Alberola L´ opez
y derivando con respecto a p, obtenemos: N −1
N (p + q)
N −2
+ pN (N − 1)(p + q)
N N
=
i=1 N
=
i=0
i
i2 pi−1 q N −i
N 2 i−1 N −i i p q i
de forma que multiplicando por p e igualando p + q = 1 obtenemos N p + p2 N (N − 1) =
N N i=0
i
i2 pi q N −i
por lo que E{X2 } = N p(1 + p(N − 1)). Estos resultados nos permiten obtener la varianza 2 σX = E{X2 } − E 2 {X} = N p + p2 N (N − 1) − (N p)2 = N p − N p2
= N p(1 − p) = N pq. En vista de estos resultados, rep´ arese que la aproximaci´ on de DeMoivreLaplace (introducida en la secci´on 1.7.1 y que veremos m´as detalladamente en la secci´on 4.5) no es otra cosa que aproximar una variable B(N, p) por una gaussiana, donde esta u ´ltima tiene media y varianza iguales a las de la variable binomial. Poisson Si X es una VA de Poisson de par´ ametro a, es f´acil obtener que: • Media: ηX = a • VCM: E{X2 } = a2 + a 2 =a • Varianza: σX
Ejercicio: Sabiendo que el desarrollo en serie de Taylor de la funci´ on exponencial es: S(a) = ea =
∞ ak k=0
k!
obt´enganse los valores de la media, VCM y varianza de una variable exponencial de par´ ametro a.
Cap´ıtulo 2. Variable aleatoria unidimensional
85
Geom´ etrica Si X es una VA geom´etrica de par´ ametro p (q = 1 − p), es f´ acil obtener que: • Media: ηX =
q p
• VCM: E{X2 } = 2 = • Varianza: σX
q (1 p2
+ q)
q p2
Ejercicio: Sabiendo que la suma de los t´erminos de una progresi´ on geom´etrica es: S(p) =
∞ p qk p = 1 − q k=0
obt´enganse los valores de la media, VCM y varianza de una variable geom´etrica de par´ametro p.
2.5.5
Desigualdad de Tchebycheff
La desigualdad de Tchebycheff proporciona una cota a la probabilidad de un determinado suceso de la VA X, cota que es de utilidad en aquellas situaciones en las que se desconozca la funci´on de densidad de la variable en cuesti´on. En efecto, como es sabido, el c´alculo de cualquier probabilidad en relaci´on con los valores de una VA requiere del conocimiento de, bien la funci´ on de distribuci´ on, bien la funci´ on de densidad. Sin embargo, cuando ´esta no sea conocida pero se conozcan la media y la varianza de la VA, si bien no es posible calcular de forma exacta probabilidad alguna, s´ı que se puede proporcionar una cota. R
η - ε X
η
X
η +ε X
Figura 2.7: Ilustraci´ on de la regi´ on R para la cual P (|X − ηX | ≥ ). Rep´ arese que por cota, entendemos cota no trivial. Es obvio que cualquier probabilidad se encuentra entre cero y uno, de forma que est´a intr´ınsecamente acotada. Esta desigualdad pretende proporcionar un valor que
86
C. Alberola L´ opez
sirva de gu´ıa en aquellas situaciones en las que se disponga s´olo de conocimiento parcial de la situaci´ on. Dicho esto, indiquemos cu´al es la cota. Se puede escribir como sigue: P (|X − ηX | ≥ ) ≤
2 σX 2
(2.67)
El significado f´ısico de la desigualdad parece inmediato: la probabilidad de que una VA tome valores alejados de su media un determinado radio es tanto mayor cuanto mayor sea la dispersi´on de los valores de la misma con respecto al valor medio, es decir, es tanto mayor cuanto mayor sea la varianza (y tanto menor cuanto mayor sea el radio ). Es ilustrativo ver por qu´e esto es as´ı. Si planteamos el c´alculo estricto de la probabilidad contemplada en la desigualdad, debemos escribir P (|X − ηX | ≥ ) =
ηX −
−∞
fX (x)dx +
= R
∞
ηX +
fX (x)dx
fX (x)dx
(2.68)
donde, por brevedad, se ha denominado regi´ on R a la regi´ on (−∞, ηX − ) ∪ (ηX + , ∞) (v´ease la ilustraci´ on de la figura 2.7). Si recordamos ahora la definici´ on de la varianza y explotamos el hecho de que en la regi´ on R se verifica que (x − ηX )2 ≥ 2 , podemos escribir 2 σX
= ≥ ≥
∞
−∞
R
(x − ηX )2 fX (x)dx
(x − ηX )2 fX (x)dx 2 fX (x)dx
R
= 2
R
fX (x)dx = 2 P (|X − ηX | ≥ )
(2.69)
entonces, si m´as que pasar 2 al primer miembro de la desigualdad, obtenemos el resultado deseado. Esta desigualdad, si bien es una herramienta de enorme aplicabilidad pues s´olo necesita del conocimiento de la media y la varianza de la VA, paga un precio debido a su generalidad: el valor de la cota es bastante conservador. Esto lo podemos comprobar escogiendo un caso en el que conozcamos la caracterizaci´on completa de la VA, de tal forma que podamos comparar el valor exacto de la probabilidad del intervalo pedido con el valor
Cap´ıtulo 2. Variable aleatoria unidimensional
87
de la cota previsto en la desigualdad. Consideremos, por ejemplo, que X ∼ N (η, σ) y pensemos que estamos interesados en hallar la probabilidad indicada en la ecuaci´on (2.67) para el caso en que = 3σ. Escogiendo un valor del radio del intervalo proporcional a la desviaci´ on t´ıpica de la variable podremos, como se ver´a, obtener un valor num´erico de la probabilidad sin necesidad de seleccionar valores num´ericos para los par´ ametros η y σ. En estas condiciones comparemos valor exacto con valor de la cota: • Valor exacto: P (|X − η| ≥ ) = P (X ≤ η − ) + P (X ≥ η + ) η−−η η+−η = G( ) + (1 − G( )) σ σ −3σ 3σ + 1−G = G σ σ 3σ = 2 1−G = 0.0027 (2.70) σ • Valor previsto por la cota P (|X − η| ≥ ) ≤
σ2 1 σ2 = = = 0.11 2 2 9σ 9
(2.71)
N´otese pues que, si bien la cota no es trivial, la diferencia entre el valor real y el previsto por la cota es de dos ´ordenes de magnitud. Es por tanto muy conservadora, como hemos indicado. Ejercicio: Existen versiones derivadas del teorema. Una de ellas es la siguiente: considere que X es una VA que s´olo puede tomar valores no negativos. Se pide que demuestre que P (X ≥ δ) ≤
E{X} δ
con δ > 0.
2.6
Transformaci´ on de variable aleatoria
Supongamos que a partir de un experimento aleatorio < S, F, P > se define la VA X. Aceptemos que conocemos la funci´on de densidad de probabilidad fX (x) de esta variable.
88
C. Alberola L´ opez
En esta secci´on consideraremos que definimos una funci´ on y = g(x) sobre los valores de la VA X de forma que para todo valor x de ´esta existe una (y s´olo una) imagen en la funci´ on g(x). La situaci´ on puede por tanto formalizarse de la manera X:S → R a ∈ S → X(a)
(2.72)
y g:R → R x ∈ R → y = g(x) ∈ R
(2.73)
Nada impide componer ambas operaciones para dar lugar a X
g
S→R→R
(2.74)
de forma que, considerando los extremos de la composici´ on, podemos resumir g(X) : S → R a ∈ S → Y(X(a)) ∈ R
(2.75)
Vemos por lo tanto que los valores reales que toma la funci´ on g son funci´ on del resultado obtenido en el experimento aleatorio < S, F, P >. Cabe pues considerar que la colecci´on de resultados, Y, constituye una VA, generada a partir de la transformaci´ on de X mediante la funci´ on g(x). Pues, en efecto, as´ı ser´a siempre que, como hemos visto en la secci´on 2.1, se cumplan unas determinadas condiciones, a saber7 : 1. Que el dominio en que g(x) est´a definida contenga a todos los valores de X. Caso contrario, podr´ıan existir valores a ∈ S sin imagen en la variable Y. 2. {Y ≤ y} = {∀x ∈ R t.q. g(x) ≤ y} ∈ F, es decir, debe ser un suceso, de forma que sobre ´el puedan definirse probabilidades. 3. P (Y = −∞) = P (Y = ∞) = 0, de forma que aunque las variables puedan tomar ambos valores, que lo hagan con probabilidad nula. 7
Recu´erdese el tratamiento que hacemos de los valores infinitos (v´ease secci´ on 2.1).
Cap´ıtulo 2. Variable aleatoria unidimensional
89
Aceptando que se cumplen estas condiciones Y ser´ıa una variable aleatoria ´ y, por ello, susceptible de ser caracterizada probabil´ısticamente. Este es el objetivo a partir de este momento: conociendo la caracterizaci´on de la variable X, origen de la transformaci´on, y conociendo la propia funci´ on de transformaci´ on g(x), hallar la caracterizaci´on probabil´ıstica de la VA Y = g(X).
2.6.1
Caso de X discreta
Supongamos que la VA X puede tomar los valores xi , con probabilidades P (X = xi ) = pi , con i ´ındice entero, variando en un cierto rango. Supongamos que se define una funci´ on de transformaci´ on Y = g(X). En estas condiciones es obvio que la VA Y tambi´en ser´a discreta, de forma que su caracterizaci´on se har´a hallando los valores que puede tomar, as´ı como las probabilidades con las que los toma. Veamos: y=g(x)
y4
y3 x2
x3
x5
x
x4
x1
y2 y1
Figura 2.8: Transformaci´ on de una VA discreta 1. Valores yj : Los valores que puede tomar Y son los valores transformados directamente de g(xi ). Si la transformaci´ on es inyectiva, es decir, si ∀xi = xj → g(xi ) = g(xj ) la variable Y tomar´a tantos valores distintos como la variable X y estos valores ser´an yj = g(xi ). Si la funci´ on no es inyectiva hay que ver qu´e valores origen xi se transforman en la misma imagen y. En este caso, la variable Y tomar´ a un n´ umero menor de valores distintos que la VA X.
90
C. Alberola L´ opez
2. Probabilidades P (Y = yi ): • Si g(x) inyectiva e yj = g(xi ) entonces pi = P (X = xi ) = P (Y = yj ), con (i, j) variando en los rangos oportunos.. • Si g(x) no es inyectiva: considerando la situaci´ on representada en la figura 2.8, en la cual la VA X toma cinco posibles valores (x1 , . . . , x5 ), de ellos tres (x1 , x4 , x5 ) se transforman en distintas im´agenes, pero existen dos puntos (x2 y x3 ) cuyas im´agenes coinciden. As´ı pues, analizando cada caso individual, podemos escribir P (Y = y1 ) = P (X = x5 ) = p5 P (Y = y2 ) = P ((X = x2 ) ∪ (X = x3 )) = P (X = x2 ) + P (X = x3 ) = p2 + p3 P (Y = y3 ) = P (X = x4 ) = p4 P (Y = y4 ) = P (X = x1 ) = p1 (2.76) Esta metodolog´ıa es com´ un y de aplicabilidad general para cualquier VA discreta y cualquier transformaci´ on.
2.6.2
Caso general. Obtenci´ on de la funci´ on de distribuci´ on
El c´alculo de la funci´ on de distribuci´ on se lleva a cabo de manera constructiva. Recordando que la funci´ on de distribuci´ on se define FY (y) = P (Y ≤ y), el procedimiento consiste en ir barriendo el eje de ordenadas en los diferentes valores de y e ir escribiendo el suceso {Y ≤ y} como funci´ on de los sucesos correspondientes de la VA X, variable cuya caracterizaci´on probabil´ıstica tenemos. Para ilustrar este procedimiento, haciendo uso de la figura 2.9, analicemos los diferentes casos que pueden presentarse: 1. Si consideramos valores y < ymin , se verifica que P (Y ≤ y) = 0. Esto es debido a que ning´ un valor de la VA X se transforma en valores de la VA Y menores que ymin . Por ello, la funci´ on de distribuci´ on es nula en el intervalo (−∞, ymin ). 2. Centr´emonos ahora en la parte superior de la transformaci´ on, es decir, en y > ymax . La probabilidad P (Y ≤ y) = 1 pues, como se deduce de la gr´ afica, todos los valores de X se transforman en valores
Cap´ıtulo 2. Variable aleatoria unidimensional
91
y=g(x) ymax
y2
x11
x12
x13
x
x2
y1
ymin
Figura 2.9: C´ alculo de la funci´ on FY (y). on de de Y menores o iguales que ymax . De esta manera, la funci´ distribuci´ on toma el valor 1 en el intervalo (ymax , ∞). 3. Debemos ahora ir recorriendo el rango no explorado todav´ıa, es decir, el intervalo y ∈ (ymin , ymax ). Un punto perteneciente a este intervalo es y2 . Para este punto, podemos escribir FY (y2 ) = P (Y ≤ y2 ) = P (X > x2 ) = 1 − P (X ≤ x2 ) = 1 − FX (x2 ) (2.77) 4. Consideremos ahora el punto Y = y1 . Para este caso podemos escribir FY (y1 ) = P (Y ≤ y1 ) = P ((x11 ≤ X ≤ x12 ) ∪ (X ≥ x13 )) = P (x11 ≤ X ≤ x12 ) + P (X ≥ x13 )
− = (FX (x12 ) − FX (x− 11 )) + (1 − FX (x13 ))
(2.78) Si la VA X es continua, naturalmente, la expresi´on (2.78) se puede reescribir FY (y1 ) = FX (x12 ) − FX (x11 ) + (1 − FX (x13 ) (v´ease secci´on 2.2.1). Ejercicio: Considerando que X ∼ U (−1/2, 1/2) y que Y = on de g(X) = X2 , obtenga mediante el m´etodo expuesto la funci´ distribuci´ on FY (y).
92
C. Alberola L´ opez
0√ 2 y FY (y) =
Soluci´ on:
1
y≤0 0 14
1 4
♣ Algunos casos particulares a tener en cuenta El procedimiento anterior es v´ alido para cualquier situaci´ on. No obstante, es interesante resaltar algunas situaciones particulares en las que, a primera vista, pueden surgir dificultades de interpretaci´ on. y=g(x)
y=g(x) y3
y2
y1
x2
x1
x
x x2
x1
y1
a)
b) y=g(x)
y2
y1 x x0
c) Figura 2.10: a) Transformaci´ on con intervalo de constancia. b) Transformaci´on en escalera. c) Transformaci´on con discontinuidad.
1. Si la transformaci´ on es constante en un intervalo de valores de la VA X y esta VA es continua, entonces la VA resultante Y ser´a mixta
Cap´ıtulo 2. Variable aleatoria unidimensional
93
(figura 2.10a). Rep´ arese que en la figura existe un rango continuo de valores de la VA X que se transforma en el punto Y = y1 , en vez de, como suced´ıa en el caso general, un n´ umero discreto de puntos transform´ andose en cualquier imagen. Por ello, el suceso {Y = y1 } presenta una probabilidad P (Y = y1 ) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = py1
(2.79)
y eso trae consigo que la funci´ on FY (y) presente una discontinuidad de altura py1 en el punto de abscisa y = y1 . Una posible forma de funci´ on de distribuci´ on resultante para este caso es la que se muestra en la figura 2.11a). F (y)
F (y)
Y
Y
1
1
P(Y =y1 )
y y1
y y1
a)
y2
b)
Figura 2.11: a) FY (y) resultante de transformaci´on con intervalo de constancia. b) FY (y) resultante de transformaci´on con discontinuidad. 2. Lo anterior generaliza a una transformaci´ on en escalera (v´ease figura 2.10b). Para una transformaci´ on como la de esta figura sabemos de antemano que la VA Y ser´a discreta y que s´olo tomar´a los valores (y1 , y2 , y3 ) con probabilidades respectivas: P (Y = y1 ) = P (X ≤ x1 ) = FX (x1 ) P (Y = y2 ) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) P (Y = y3 ) = P (X > x2 ) = 1 − FX (x2 )
(2.80)
3. La funci´ on g(x) presenta una discontinuidad en el punto x0 , donde − g(x0 ) = y1 y g(x+ 0 ) = y2 (figura 2.10c). En tal caso, dado que la VA Y no puede tomar valores en el intervalo (y1 , y2 ) (dado que no existen valores de la VA X que se transformen en dicho intervalo) la funci´ on de distribuci´ on presentar´ a un intervalo de constancia en el intervalo (y1 , y2 ), es decir, FY (y2 ) = FY (y1 ). Un posible forma para esta funci´ on se muestra en la figura 2.11b).
94
2.6.3
C. Alberola L´ opez
Caso general. Obtenci´ on de la funci´ on de densidad: Teorema Fundamental y=g(x)
x2 + dx 2 x1 + dx 1
x1
x3 + dx 3
x2
x x3
y+dy y
Figura 2.12: C´ alculo de la funci´ on fY (y). Hemos visto que para el c´alculo de la funci´ on de distribuci´ on FY (y) no existe un procedimiento cerrado sino que el proceso es enteramente constructivo. Sin embargo, para el c´alculo de la funci´ on de densidad s´ı que podemos hacer uso de una expresi´on cerrada que nos d´e soluci´on al problema. Tal expresi´ on cerrada se conoce bajo el nombre Teorema fundamental y ´este ser´a nuestro foco de atenci´on en el resto de la secci´on. Consideremos la situaci´ on representada en la figura 2.12. Para hacer el c´alculo de la funci´ on de densidad, consideremos un punto de la VA Y y analicemos la probabilidad de que esta variable tome valores en un intervalo infinitesimal en torno a dicho punto. El objetivo es expresar esa probabilidad en funci´ on de sucesos equivalentes de la VA X. En virtud de la gr´ afica, podemos escribir P (y < Y ≤ y + dy) = P (x1 + dx1 < X ≤ x1 ) + P (x2 < X ≤ x2 + dx2 ) + P (x3 + dx3 < X ≤ x3 ) fY (y)dy = fX (x1 )|dx1 | + fX (x2 )|dx2 | + fX (x3 )|dx3 | (2.81) La primera igualdad de la expresi´ on anterior procede de la lectura directa de la gr´ afica. Como puede verse, en la gr´afica hay zonas donde la pendiente es negativa (zonas de puntos x1 y x3 ) de forma que los diferenciales dx1 y dx3 se han tomado con signos negativos. En la segunda l´ınea se ha igualado
Cap´ıtulo 2. Variable aleatoria unidimensional
95
la probabilidad de un intervalo diferencial al producto de la funci´ on de densidad por la longitud del intervalo elemental. Los diferenciales se han tomado en valor absoluto para que las contribuciones de cada punto de la VA X a la probabilidad completa sean todas ellas positivas. Suponiendo un caso general en el que N abscisas se transformen en la ordenada y, podr´ıamos escribir N (y)
fY (y)dy =
fX (xi )|dxi |
i=1 N (y)
fY (y) =
i=1
fX (xi )
N (y) fX (xi ) |dxi | = dy dy i=1
fX (x) |g (x)|
dxi
N (y)
fY (y) =
i=1
(2.82) x=xi
constituyendo la u ´ltima l´ınea la expresi´on del Teorema Fundamental. Rep´ arese que este teorema plantea una expresi´on cerrada para encontrar la funci´ on de densidad. Sin embargo, el an´ alisis que debe hacerse para obtener tal funci´ on es paralelo al realizado en el caso de la secci´on 2.6.2. El motivo es que, seg´ un dice la ecuaci´on (2.82), el valor de la funci´ on fY (y), para cada punto y, procede de la superposici´on de N (y) contribuciones de la VA X, siendo cada una de esas contribuciones las procedentes de los N (y) puntos de soluci´on de la ecuaci´on y=g(x), o si se prefiere, de los N (y) puntos de corte de la recta horizontal de ordenada y con la funci´ on y = g(x). No obstante, es cierto que este teorema proporciona una expresi´on muy u ´til y c´ omoda, la cual, de hecho, se emplear´a enormemente en la pr´ actica. Debemos, no obstante, recalcar que debe aplicarse pensando en qu´e punto se est´a aplicando. Advi´ertase, por u ´ltimo, que este teorema proporciona la manera de llegar a una expresi´ on anal´ıtica de la funci´ on de densidad. No obstante, la aplicaci´on de la misma requiere dos pasos adicionales: 1. Escribir la expresi´ on directamente en funci´ on de la variable y. Por tanto, debe invertirse la funci´ on y = g(x), teniendo que obtenerse una expresi´on— funci´ on de y —para cada xi involucrado. 2. Deben indicarse expl´ıcitamente los rangos de validez, en los valores de y, de la expresi´ on/expresiones resultantes de la aplicaci´ on de este teorema.
96
C. Alberola L´ opez
Los ejemplos siguientes ilustran c´omo llevar a cabo la operativa completa. Ejemplo 1: Considerando que X ∼ U (−1/2, 1/2) y que Y = g(X) = X2 , obtenga mediante el Teorema fundamental la expresi´ on de fY (y). Soluci´ on: La funci´ on de transformaci´ on y = g(x) = x2 es una funci´ on par, tal que ∀y > 0 existen dos puntos del dominio origen que se transforman en un mismo punto destino. Para el caso y = 0 esto no es cierto, pero, como se sabe, la contribuci´ on de un punto aislado de una VA continua a la probabilidad es irrelevante, de forma que no prestaremos atenci´ on a este caso. Por otra parte, el valor m´ aximo que puede tomar la VA Y es igual a 1/4, valor que procede de la transformaci´ on de los extremos del intervalo −1/2 ≤ x ≤ 1/2 en que la VA X toma valores. Por tanto, las conclusiones que obtengamos en relaci´ on con la VA Y ser´an v´ alidas dentro del intervalo (0, 1/4). Fuera de este intervalo sabemos, por simple inspecci´on, que la funci´ on de densidad fY (y) es nula. Por ello, podemos escribir
fX (x) fX (x) + fY (y) = |g (x)| x=x1 |g (x)| x=x2 La funci´ on de densidad fX (x) es constante y de valor igual a la unidad en el intervalo (−1/2, 1/2). Asimismo, dado que g(x) = x2 entonces g (x) = 2x. Entonces
1 1 fY (y) = + |2x| x=x1 |2x| x=x2 Para escribir las expresi´on anterior en funci´ on de la variable y, como dicta el primer miembro de la igualdad, basta ver que √ y = x2 → x = ± y. Las dos soluciones de las que habl´ abamos antes, son precisamente, las correspondientes a cada uno de los signos de la ra´ız. Como, seg´ un vemos en la expresi´ on anterior, la funci´ on del denominador va acompa˜ nada de un valor absoluto, podemos escribir fY (y) =
1 1 2 1 √ + √ = √ =√ | − 2 y| |2 y| 2 y y
Cap´ıtulo 2. Variable aleatoria unidimensional
97
As´ı pues, concluimos que √1 y
fY (y) =
0
0
1 4
♣ Ejemplo 2: Considerando que X ∼ U (−π, π) y que Y = g(X) = a sin(X+θ), con a, θ ∈ R, obtenga mediante el Teorema fundamental la expresi´ on de fY (y). Soluci´ on: En este caso, la funci´ on de transformaci´ on y = g(x) = a sin(x + θ) es una sinusoide con fase inicial θ. El n´ umero de puntos de corte entre una recta horizontal de ordenada y y esta funci´ on ser´ıa infinito si la expresi´ on se analizase ∀x. Sin embargo, como s´olo nos interesa el intervalo donde la VA X toma valores, y este intervalo es de anchura 2π, el n´ umero de puntos de corte queda reducido a 2 (salvo en alg´ un punto aislado, por ejemplo, en los puntos de m´ınimo y m´aximo de esta curva). Por otra parte, los valores m´ aximo y m´ınimo de la transformaci´ on son ±a, de forma que sabemos de antemano que la funci´ on de densidad fuera del intervalo (−a, a) es nula. Centr´andonos en el interior del intervalo, podemos escribir
fX (x) fX (x) + fY (y) = |g (x)| x=x1 |g (x)| x=x2 La derivada de la funci´ on de transformaci´ on es g (x) = a cos(x+ θ). Por ello, la expresi´ on anterior se particulariza fY (y) =
1 2π
|a cos(x1 + θ)|
+
1 2π
|a cos(x2 + θ)|
Para escribir la expresi´ on en funci´ on de y tenemos que hacer uso de la funci´ on inversa. En este caso y = a sin(x + θ) y = sin(x + θ) a y −θ x = arcsin a
(2.83)
98
C. Alberola L´ opez
de forma que
y fY (y) = |a cos(arcsin )| 1 2π
a
y + |a cos(arcsin )| 1 2π
x=x1
a
x=x2
Rep´ arese, no obstante, que lo que realmente necesitamos saber es c´omo escribir a cos(x + θ) en funci´ on de y, para cada una de las dos soluciones x1 y x2 . Por el camino que hemos empleado hasta ahora las cosas no son obvias y no parece obvio tampoco c´omo obtener de forma expl´ıcita las dos soluciones que hemos anticipado que existen. Debe haber otros caminos, los cuales, en general, suelen encontrarse haciendo uso combinado de la funci´ on g(x) y de su derivada. En efecto, y = g(x) = a sin(x + θ)
!
g (x) = a cos(x + θ) = ±a 1 − sin2 (x + θ) !
= ± a2 − (a sin(x + θ))2 !
g (x) = ± a2 − y 2
(2.84)
por lo que, 1
fY (y) =
|−
1 1 " 2π + = " 2 2 2 2 2 a −y | | a −y | π a − y2
" 2π
de modo que, finalmente, fY (y) =
π
0
√1
a2 −y 2
|y| ≤ a resto ♣
Sobre los casos particulares En la secci´on 2.6.2 hemos visto varios casos particulares a tener en cuenta. Tales casos particulares se reflejan de manera directa en las funciones de densidad, de forma que aqu´ı tambi´en tenemos que prestar atenci´on a tales situaciones. Estos casos son: • Si la transformaci´ on es la mostrada en la figura 2.10a), se aplicar´ a el on teorema fundamental en las regiones x ≤ x1 y x > x2 . A continuaci´ se a˜ nadir´ a a la funci´ on fY (y) el t´ermino py1 δ(y − y1 ) (v´ease secci´on 2.6.2).
Cap´ıtulo 2. Variable aleatoria unidimensional
99
• Si la transformaci´ on es la mostrada en la figura 2.10b) no se aplicar´ a el teorema, pues sabemos, por simple inspecci´on, que fY (y) = p1 δ(y − y1 ) + p2 δ(y − y2 ) + p3 δ(y − y3 ) con los valores pi que se calcularon en la secci´on 2.6.2. • Si la transformaci´ on es la mostrada en la figura 2.10c) se aplicar´ a el teorema fundamental, y se obtendr´ an resultados para y ≤ y1 e y > y2 . En el interior del intervalo (y1 , y2 ) la funci´ on fY (y) es nula. • Si X es discreta, Y tambi´en lo ser´a, luego no ha lugar aplicar el teorema fundamental, sino que se seguir´a el m´etodo propuesto en la secci´on 2.6.1. • Si la transformaci´ on es no derivable en un n´ umero discreto de puntos, tales puntos ser´an ignorados. Como es sabido, puntos aislados en una VA continua no tienen relevancia alguna en cuanto a c´alculo de probabilidades. Tal ser´ıa el caso, por ejemplo, de la transformaci´ on g(x) = |x|. Esta funci´ on es no derivable en x = 0, pero puede aplicarse el teorema ∀x = 0.
2.7
Caracterizaci´ on parcial de una funci´ on de variable aleatoria
En la secci´on anterior se ha visto el procedimiento mediante el cual se puede obtener la caracterizaci´on probabil´ıstica de una funci´ on de VA, conocida la funci´ on de transformaci´ on as´ı como la funci´ on de densidad de la variable origen de la transformaci´ on. Sin embargo, en m´ ultiples ocasiones puede que no sea necesario conocer la caracterizaci´on probabil´ıstica (digamos, total) de la VA destino de la transformaci´ on, sino que baste con conocer algunos par´ametros de la distribuci´ on de dicha variable. Nos referimos, t´ıpicamente, a la media, la varianza y/o el VCM. Tales par´ ametros, y otros similares, se conocen de forma gen´erica como caracterizaci´ on parcial de la VA, en contraposici´ on a la caracterizaci´on total, o conocimiento de la funci´ on de densidad. En resumen, el objetivo de esta secci´on se puede enunciar como sigue: dada X, con funci´ on de densidad conocida fX (x), y dada una funci´ on de transformaci´ on Y = g(X), obt´enganse par´ ametros de caracterizaci´on parcial de la VA Y sin llevar a cabo el c´alculo expl´ıcito de la funci´ on de densidad fY (y).
100
C. Alberola L´ opez
Planteemos la operativa para el caso de la media. Si varios valores xi de la VA X se transforman en el valor y de la Y, podemos escribir:
P (y < Y ≤ y + dy) =
P (xi < X ≤ xi + dxi )
i
fY (y)dy =
fX (xi )dxi
(2.85)
i
donde xi denota las diferentes particularizaciones de la abscisa x. En este caso, en contraposici´on a la operativa propuesta en la secci´on 2.6.3, tomamos los diferenciales directamente en sentido creciente de ambas variables, dado que no vamos a hacer uso de la derivada de la funci´ on g(x), la cual relaciona ambos diferenciales. Para obtener la expresi´ on de la media de Y debemos premultiplicar en (2.85) por los valores de y:
yfY (y)dy =
g(xi )fX (xi )dxi
(2.86)
i
Si ahora integramos ambos miembros, cada uno en su respectivas variables, vamos recorriendo el eje de los valores de la variable y y, como consecuencia, vamos recorriendo, por grupos de valores, el eje de la variable x. El resultado neto finalmente es:
E{Y} =
∞
−∞
yfY (y)dy =
∞
−∞
g(x)fX (x)dx = E{g(X)}
(2.87)
N´otese pues que si bien para realizar la primera de las integrales necesitamos conocer la funci´ on de densidad de la VA Y, para realizar la segunda basta con conocer la funci´ on de transformaci´ on y la funci´ on de densidad de la VA X, informaci´ on conocida seg´ un hemos asumido desde el principio. Este resultado generaliza a cualquier funci´ on de la VA Y sin m´as que escribirla como una funci´ on de la variable X. Por ejemplo, si se desea conocer la esperanza de una variable Z = h(Y), y s´olo se dispone de informaci´on probabil´ıstica de la variable X, variable origen de la transformaci´ on Y = g(X), escribiremos:
E{Z} = E{h(Y)} =
∞
−∞
= E{h(g(X))} =
h(y)fY (y)dy ∞
−∞
h(g(x))fX (x)dx
Algunas consecuencias inmediatas de lo dicho, son las siguientes:
(2.88)
Cap´ıtulo 2. Variable aleatoria unidimensional
• VCM de Y: E{Y2 } =
101
∞
−∞
y 2 fY (y)dy
= E{g 2 (X)}
= • Varianza 2 σY
=
∞
−∞
∞
−∞
g 2 (x)fX (x)dx
(2.89)
(y − ηY )2 fY (y)dy
= E{(g(X) − E{g(X)})2 }
=
∞
−∞
(g(x) − E{g(X})2 fX (x)dx
(2.90)
• Linealidad del operador esperanza: Si Y = aX + b, entonces
E{Y} = E{aX + b} =
= a
∞
−∞
∞
−∞
(ax + b)fX (x)dx
xfX (x)dx + b
∞
−∞
fX (x)dx
= aE{X} + b
(2.91)
• La varianza de una VA no aumenta si se a˜ nade a ´esta una constante, y var´ıa con el cuadrado del coeficiente que multiplica a la variable. En efecto, si consideramos que Y = aX + b, entonces, haciendo uso de la media calculada anteriormente, podemos escribir 2 σY
=
∞
−∞ ∞
=
−∞
= a2
(g(x) − E{g(X})2 fX (x)dx (ax + b − (aE{X} + b))2 fX (x)dx ∞
−∞
(x − E{X})2 fX (x)dx
2 = a2 σX
2.7.1
(2.92)
Momentos de una variable aleatoria
Los momentos de una VA son una generalizaci´on de algunos de los par´ ametros que hemos visto hasta ahora. Concretamente, consideremos una VA X con funci´ on de densidad fX (x). Se definen:
102
C. Alberola L´ opez
• Momento no central de orden n ∈ Z + : mn = E{X } =
n
∞
−∞
xn fX (x)dx
Naturalmente m1 = E{X} y m2 = E{X2 }. Los momentos mn son por tanto una generalizaci´ on de la media y del VCM. El caso trivial es m0 = 1, pues coincide con el ´area bajo una funci´ on de densidad. • Momento central de orden n ∈ Z + : µn = E{(X − ηX ) } =
n
∞
−∞
(x − ηX )n fX (x)dx
2 . Tales momentos son por tanto En este caso es f´acil ver que µ2 = σX una generalizaci´ on de la varianza. Asimismo, puede comprobarse que µ0 = 1 y µ1 = 0.
Para el caso de las VAs discretas las expresiones anteriores pasar´ıan a ser sumatorios como ya sucedi´o en el caso de las expresiones (2.41) y (2.50). En particular, por ejemplo, el momento central anteriormente definido se escribir´ıa µn = E{(X − ηX )n } =
(xi − ηX )n P (X = xi )
(2.93)
i
Es interesante mencionar dos ideas adicionales: 1. Existen distribuciones que se caracterizan por determinadas propiedades en los momentos. Hablamos, en particular, de la VA gaussiana. Puede comprobarse que los momentos centrales de orden impar n = 2m + 1, m ≥ 0, para esta distribuci´ on son todos nulos. Pi´ensese en ello. 2. Existen relaciones entre momentos centrales y no centrales. Concretamente, haciendo uso del desarrollo de un binomio de Newton, podemos escribir: µn = f (m0 , m1 , . . . , mn ) = E{(X − m1 )n } = E
n k=0
=
n k=0
n Xk (−m1 )(n−k) k
#
$ % n E Xk (−m1 )(n−k) k
Cap´ıtulo 2. Variable aleatoria unidimensional
103 n
=
$ % n (−m1 )(n−k) E Xk k
k=0 n
=
k=0
2.8
n (−m1 )(n−k) mk k
(2.94)
Funciones que generan momentos
Bajo el t´ermino funciones que generan momentos se agrupan un conjunto de funciones a partir de las cuales, y mediante operaciones relativamente sencillas, se pueden obtener los momentos de la VA bajo an´alisis. Comenzamos nuestra exposici´on con la funci´ on caracter´ıstica, para pasar luego a funciones m´as generales.
2.8.1
Funci´ on caracter´ıstica
La funci´ on caracter´ıstica de una VA X se define como la transformada de 8 Fourier de la funci´ on de densidad fX (x) de la variable. As´ı pues, podemos escribir ∞ fX (x)ejωx dx (2.95) φX (ω) = E{ejωX } = −∞
de forma que esta funci´ on puede interpretarse en los t´erminos indicados, o bien como la esperanza de una funci´on exponencial compleja definida sobre la VA X. Naturalmente, a partir de la funci´ on caracter´ıstica φX (ω) podemos obtener la funci´ on de densidad sin m´as que llevar a cabo la transformaci´ on inversa 1 ∞ fX (x) = φX (ω)e−jωx dω (2.96) 2π −∞ Como hemos dicho antes, esta funci´ on se engloba dentro de las funciones que generan momentos, pues ´estos se obtienen a partir de la funci´on de manera sencilla. Concretamente si derivamos de forma n-´esima la funci´ on caracter´ıstica
φX (ω) = = dφX (ω) dω 8
=
∞
−∞ ∞
−∞
ejωx fX (x)dx
(jx)ejωx fX (x)dx
La proyecci´ on sobre la exponencial compleja ejωx ´ o e−jωx no altera el sentido de la transformada. S´ olo produce un cambio de signo.
104
C. Alberola L´ opez
∞ d2 φX (ω) = (jx)2 ejωx fX (x)dx dω 2 −∞ .. . ∞ dn φX (ω) = (jx)n ejωx fX (x)dx dω n −∞
(2.97)
Evaluando las anteriores expresiones en ω = 0, tenemos (0)
φX (ω)|ω=0 = φX (ω)|ω=0 = 1 = j 0 m0 dφX (ω) (1) = φX (ω)|ω=0 = jm1 dω ω=0
d2 φX (ω) (1) = φX (ω)|ω=0 = j 2 m2 dω 2 ω=0 .. . dn φX (ω) (n) = φX (ω)|ω=0 = j n mn dω n ω=0
(2.98)
La u ´ltima l´ınea indica pues la relaci´ on gen´erica que existen entre la derivada n-´esima de la funci´ on caracter´ıstica y el momento no central de orden n de la VA en cuesti´on. Por ello, en efecto, la funci´ on caracter´ıstica φX (ω) es una funci´ on que genera momentos. Por otra parte, recordando el desarrollo en serie de Taylor de una funci´on anal´ıtica, vemos que los momentos nos permiten sintetizar la funci´ on caracter´ıstica φX (ω) en cualquier punto ω, dado que podemos escribir (n) ∞ φX (ω) φX (ω) = n! n=0
ωn = ω=0
∞ (jω)n n=0
n!
mn
(2.99)
Finalmente, la funci´ on caracter´ıstica puede ser un u ´til instrumento para hacer el c´alculo de la funci´ on de densidad de una VA Y = g(X) a partir de la funci´ on de densidad fX (x) sin hacer uso expreso del Teorema fundamental. El siguiente ejercicio ilustra el procedimiento. Ejercicio 1: Considere que X es una VA con funci´ on de densidad fX (x) conocida. A partir de esta VA se genera una segunda VA mediante la transformaci´ on Y = g(X). Se pide que, mediante funciones caracter´ısticas, desarrolle una metodolog´ıa para la obtenci´ on de la funci´ on de densidad fY (y). Particularice para el caso en que X ∼ N (0, σ) y g(x) = ax2 .
Cap´ıtulo 2. Variable aleatoria unidimensional
105
Soluci´ on: La funci´ on caracter´ıstica de la VA Y se define: φY (ω) = E{ejωY } =
∞
−∞
= E{ejωg(X) } =
fY (y)ejωy dy ∞
−∞
fX (x)ejωg(x) dx
Por tanto, a partir de la segunda expresi´ on, la cual es conocida, si podemos hacer cambios sobre ella para dar lugar a la primera, es decir, para llegar a una expresi´ on del tipo
φY (ω) =
∞
−∞
h(y)ejωy dy
(2.100)
entonces podremos concluir que h(y) = fY (y). Si concretamos para el caso que se plantea, es decir Y = g(X), es obvio que Y va a tomar s´olo valores no negativos, de forma que su funci´ on de densidad ser´a nula ∀y < 0. Por ello, podemos escribir
φY (ω) = = =
0
∞
fY (y)ejωy dy
∞
−∞ ∞ −∞
fX (x)ejωg(x) dx ejωax
2
x2 1 √ e− 2σ2 dx σ 2π
(2.101) Para poder transformar la u ´ltima ecuaci´on en la primera debemos, en primer lugar, hacer que los intervalos de integraci´ on coincidan. Para ello podemos explotar el hecho de que la funci´on subintegral es par, y el intervalo de integraci´on es sim´etrico. Por ello, podemos escribir 2 φY (ω) = √ σ 2π
0
∞
2
x2
ejωax e− 2σ2 dx
Si ahora hacemos el cambio y = ax2
√ dy = 2axdx = 2 aydx
(2.102)
106
C. Alberola L´ opez
entonces
∞ y dy 2 √ ejωy e− 2aσ2 √ 2 ay σ 2π 0 ∞ y 1 √ ejωy e− 2aσ2 dy σ 2πay 0
φY (ω) = =
(2.103)
de forma que podemos concluir que y 1 fY (y) = h(y) = √ e− 2aσ2 u(y) σ 2πay
(2.104) ♣
Ejercicio 2: Rep´ıtase el ejercicio anterior para el caso en que X ∼ U (−π, π) y Y = g(X) = a sin(X). Soluci´ on: En este caso Y tomar´ a valores en el intervalo (−a, a), pues ´ese es el recorrido de la funci´ on de transformaci´ on g(x). Por tanto, podemos escribir jωY
φY (ω) = E{e
}=
jωg(X)
= E{e
=
π
−π
a
−a
}=
fY (y)ejωy dy π
−π
fX (x)ejωg(x) dx
1 jωa sin(x) dx e 2π
Dado que y = g(x) = a sin(x)
!
dy = a cos(x)dx = ± a2 − (a sin(x))2 dx !
dy = ± a2 − y 2 dx
(2.105)
La cuesti´on es que, en funci´ on de la zona de la curva donde nos encontremos, tendremos que emplear el signo de dy adecuado. La figura 2.13 ilustra el proceso: conforme avanzamos por el eje x desde −π hasta π atravesamos: • Una primera zona (zona I) donde la variable y var´ıa en el intervalo (0,-a), en este sentido, y donde los diferenciales
Cap´ıtulo 2. Variable aleatoria unidimensional
107
Y =g(X ) a III
IV
−π
π X
II I -a
Figura 2.13: Funci´ on Y = sin(X) con X ∼ U (π, π). tienen signos contrarios (cuando x crece, y decrece). En esta zona, por tanto, la integral anterior pasa a ser
−a
1 jωy 1 −" 2 e 2π a − y2
0
dy
• La zona II, donde y var´ıa en el intervalo (−a, 0) y los diferenciales tienen el mismo signo. Por ello
0
−a
1 jωy e 2π
1 " 2 a − y2
dy
• La zona III, donde podemos escribir, siguiendo la gr´ afica
a
0
1 jωy e 2π
1 " 2 a − y2
dy
• Y, por u ´ltimo, la zona IV, donde, de nuevo, los diferenciales tienen signos contrarios.
0
1 jωy 1 −" 2 e 2π a − y2
a
dy
La soluci´on que buscamos es por tanto la suma de las cuatro contribuciones, lo cual podemos escribir φY (ω) =
1 2π 0
a
0
−a
jωy
e
1 dy + 2 a − y2
jωy "
e
1 −" 2 a − y2
0
jωy
e a
dy +
0
1 ejωy " 2 dy+ a − y2 −a
1 −" 2 a − y2
dy
108
C. Alberola L´ opez
=
=
e
1 dy + 2 a − y2
e
a
−a
π
1 dy + 2 a − y2
jωy "
jωy "
1 2 2π
0
−a
a
0
=
1 2π
0
0
−a
1
a2
−
y2
ejωy "
1 dy+ − y2
a2
1 dy 2 a − y2
jωy "
e
1 " ejωy dy + 2 2 a − y2
−a
"
a
0
a
0
1 " ejωy dy 2 a − y2
ejωy dy (2.106)
de forma que, identificando esta u ´ltima expresi´ on con la ecuaci´on (2.95) podemos concluir que π
fY (y) =
√1
a2 −y 2
0
|y| ≤ a resto
resultado que coincide con el obtenido en el ejemplo 2 de la secci´on 2.6.3. Como puede verse, en el caso en que la transformaci´on no sea inyectiva en el intervalo de integraci´ on empleado en la variable x para el c´alculo de la funci´ on caracter´ıstica, el empleo del m´etodo expuesto para el c´alculo de fY (y) resulta m´as laborioso. ♣ Como comentario final debemos decir que si la VA X es una VA discreta, la funci´ on caracter´ıstica se define de forma similar al caso continuo, es decir, mediante la esperanza de una funci´ on de VA, de la forma φY (Ω) = E{ejΩX } =
pi ejΩxi
(2.107)
i
En el caso particular en que xi = i, i ∈ Z entonces esta funci´on se obtendr´ a mediante la transformada de Fourier de la secuencia y[i] = pi φY (Ω) = E{ejΩX } =
pi ejΩi
(2.108)
i
transformaci´ on invertible, como es conocido, mediante la expresi´ on pi =
1 2π
<2π>
φY (Ω)e−jΩi dΩ
(2.109)
Cap´ıtulo 2. Variable aleatoria unidimensional
109
donde el intervalo de integraci´on en la expresi´on anterior es un intervalo cualquiera de longitud 2π, dado que la expresi´ on (2.108) es peri´odica, de periodo 2π.
2.8.2
Funci´ on generadora de momentos
La funci´ on m´ as general es la as´ı llamada funci´ on generadora de momentos, la cual se define como la Transformada de Laplace de la funci´ on de densidad, es decir, MX (s) = E{esX } =
∞
−∞
esx fX (x)dx
(2.110)
A partir de esta funci´ on es f´ acil comprobar que
dn MX (s) mn = dsn s=0
(2.111)
A partir de ´esta se define una segunda funci´ on ΨX (s) = lnMX (s), cuyas derivadas dan lugar a los cumulantes de orden n
λn =
dn ΨX (s) dsn s=0
(2.112)
λ1 = ηX 2 λ2 = σX
(2.113)
Es f´ acil comprobar que
Sobre los cumulantes de orden n se construye la teor´ıa de estad´ısticos de orden superior la cual ha tenido un moderado ´exito en la comunidad cient´ıfica para el manejo de se˜ nales no gaussianas.
Cap´ıtulo 3
Variable aleatoria bidimensional 3.1
Introducci´ on
Para introducir el concepto de VA bidimensional, acudiremos a un ejemplo consistente en el juego del lanzamiento de dardos sobre una diana (v´ease figura 3.1). En este juego, como es bien sabido, se pretende que los dardos caigan tan cerca como sea posible del centro y que, adem´as, ´estos caigan en los sectores circulares marcados con una puntuaci´ on m´as alta. Si consideramos el origen de coordenadas localizado en el centro de la diana, las desviaciones con respecto a este punto pueden considerarse, en coordenadas cartesianas, mediante el par (x, y), con x la desviaci´on horizontal e y la desviaci´on vertical. Cada lanzamiento puede considerarse la ejecuci´on de un experimento aleatorio pues, naturalmente, el lanzador no sabe en qu´e posici´on va a caer el dado (por eso el juego tiene inter´es). Si consideramos un u ´nico lanzador y aceptamos que todos los lanzamientos son probabil´ısticamente id´enticos, los diferentes lanzamientos pueden considerarse los diferentes valores que puede tomar el par (X, Y). A priori, y cara a este ejemplo, posiblemente sea razonable pensar que los errores en el eje horizontal no tienen relaci´ on con los errores en el eje vertical. Pero esto no necesariamente tiene por qu´e ser as´ı: los movimientos de hombro, codo y mu˜ neca de un determinado individuo pueden relacionar los errores en una coordenada y en la otra. Asimismo, y considerando la estrategia en el juego, un jugador puede deliberadamente alejarse del centro de la diana en sentido horizontal si desea tener mayor tolerancia vertical para caer en el sector angular que desee. En tal caso estar´ıa acoplando deliberadamente 111
112
C. Alberola L´ opez
los errores en ambas dimensiones. En este ejemplo, un jugador se considerar´ıa mejor que otro si el primero, habitualmente, alcanzase mejores puntuaciones que el segundo. Esto es equivalente a afirmar, por ejemplo, que la probabilidad de que el primer jugador consiga mayor puntuaci´ on que el segundo es elevada. Tal afirmaci´on se podr´a cuantificar si se dispone de las herramientas y de la informaci´on probabil´ıstica oportunas. Ambas entidades son, precisamente, el cometido de este cap´ıtulo. k=2 -sin( ω 0 t) y
y
k=1 k=3 k=0 x
x
cos(ω 0 t)
k=4
k=7
k=5 k=6
a)
b)
Figura 3.1: a) Lanzamientos de dardos sobre una diana. Pueden considerarse realizaciones de la VA bidimensional “errores con respecto a (0, 0)”. b) Modulaci´ on digital en fase, con nubes de puntos alrededor de uno de los valores esperados. Este ejemplo puede resultar ingenuo pero no est´a lejos de las Tecnolog´ıas de la Informaci´ on. Concretamente, una determinada modulaci´ on digital consiste en el env´ıo, recepci´on y discriminaci´ on de se˜ nales de la forma sk (t) = Acos(ω0 t + φk (t))
(3.1)
donde la informaci´ on de qu´e s´ımbolo digital se est´a enviando recae, precisamente, en la fase φk (t). Si consideramos que durante un determinado tiempo de s´ımbolo 0 ≤ t ≤ T se env´ıa una de las M posibles fases φk (t) =
2πk M
0≤k ≤M −1
Cap´ıtulo 3. Variable aleatoria bidimensional
113
los posibles s´ımbolos a recibir ser´ıan los indicados en la figura 3.1b)1 . Un modelo m´as real de se˜ nal recibida ser´ıa x(t) = sk (t) + n(t), con n(t) una se˜ nal de ruido superpuesta que distorsiona las fases de los s´ımbolos recibidos, de forma que, seg´ un se indica en la figura 3.1b) para el s´ımbolo de ´ındice k = 4, los s´ımbolos recibidos fluctuar´ıan respecto a los s´ımbolos esperados. As´ı pues se hace necesario establecer protocolos de decisi´on que minimicen la probabilidad de error, definida ´esta como la probabilidad de decidir que se ha enviado un s´ımbolo cuando en realidad se ha enviado otro. Tales protocolos se traducen en regiones de decisi´on asociadas a cada s´ımbolo esperado y, para el modelo de ruido t´ıpicamente empleado en comunicaciones, tales regiones coinciden con el modelo de sectores circulares del juego de la diana (v´ease en la figura 3.1b que a cada s´ımbolo esperado se le ha asociado una regi´on, marcada por l´ıneas continuas, de forma que se decide como s´ımbolo enviado aquel s´ımbolo esperado en cuya regi´ on asociada ha ca´ıdo la observaci´on). Adem´as, debe disponerse de una herramienta que permita el c´alculo exacto de la probabilidad de error o, dicho de otra manera, el c´alculo de la separaci´ on necesaria entre los s´ımbolos (lo cual ser´a controlado por la amplitud A de la sinusoide de la ecuaci´on 3.1) de forma que la calidad de las comunicaciones pueda ser garantizada por el dise˜ nador. Tal c´alculo, como el lector puede imaginar, requiere del an´ alisis conjunto de dos VAs (los errores en cada una de las direcciones de la figura), metodolog´ıa que se analizar´a en este cap´ıtulo. Dicho esto, debemos decir pues qu´e es una VA bidimensional. Pues bien, tal VA no es otra cosa que el par (X, Y), lo cual constituye una entidad formada por tres subentidades, a saber, la VA X, la VA Y, y su comportamiento conjunto, esto es, su interacci´on. La primera variable procede del experimento aleatorio 1 < S1 , F1 , P1 >; la VA Y proceder´a de un segundo experimento 2 < S2 , F2 , P2 >; el comportamiento conjunto constituye el experimento compuesto c (v´ease secci´on 1.7), con espacio muestral Sc = S1 × S2 , clase de sucesos Fc , funci´ on de F1 y F2 , pero con ley de asignaci´on de probabilidades Pc no anticipable en base al conocimiento exclusivo de P1 y P2 . Esto refuerza la idea de la tercera entidad presente en una VA bidimensional: la propia composici´on de las dos VAs unidimensionales. Habr´ a casos en los que el comportamiento conjunto sea 1
La se˜ nal s(t) = Acos(ω0 t + φ(t)) puede expresarse de forma equivalente mediante s(t) = A cos(ω0 t) cos(φ(t)) − A sin(ω0 t) sin(φ(t)). Escogiendo oportunamente el valor deT ω0 para un T dado, las funciones cos(ω0 t) y − sin(ω0 t) son ortogonales, es decir, cos(ω0 t) sin(ω0 t)dt = 0, por lo que tales funciones pueden constituir un par de ejes 0 coordenados cartesianos sobre los que representar los s´ımbolos (A cos(φ(t)), A sin(φ(t))) a enviar.
114
C. Alberola L´ opez
inexistente, de forma que la VA bidimensional se reducir´ a a dos VA unidimensionales. Pero en general no ser´a as´ı, de forma que, como hemos dicho, ser´an tres las entidades a considerar en nuestro an´ alisis.
3.2 3.2.1
Caracterizaci´ on de variable aleatoria bidimensional Funci´ on de distribuci´ on conjunta
De forma an´ aloga al caso de la VA unidimensional, la VA bidimensional debe caracterizarse completamente para poder hacer cualquier c´alculo probabil´ıstico sobre ella. Tal caracterizaci´on viene dada por la extensi´ on bidimensional de las funciones que conocemos hasta ahora. Comenzaremos, en primer lugar, con la funci´ on de distribuci´ on conjunta o bidimensional. Tal funci´ on se define, como en el cap´ıtulo anterior, a trav´es de una probabilidad. Lo que ahora cambia es el suceso sobre el que ´esta se define. Concretamente: FXY (x, y) = P (X ≤ x ∩ Y ≤ y) (3.2) es decir, esta funci´ on mide la probabilidad de que, simult´ aneamente, la
y (x,y)
x
Figura 3.2: Suceso {X ≤ x} ∩ {Y ≤ y}. primera componente de la VA bidimensional sea menor o igual que un
Cap´ıtulo 3. Variable aleatoria bidimensional
115
punto de abscisa x, y la segunda lo sea de un punto de ordenada y. Tal suceso2 se ha representado en la figura 3.2. Esta funci´ on, por medir una probabilidad, no puede tener una forma de variaci´ on arbitraria. Mostramos a continuaci´ on algunas propiedades y formas de uso de la misma; antes de ello indicaremos, a nivel de notaci´on, que por simplicidad en la escritura la definici´ on (3.2) se escribir´a habitualmente de la forma FXY (x, y) = P (X ≤ x, Y ≤ y). Propiedades y uso de la funci´ on de distribuci´ on 1. Comportamientos en x = −∞ e y = −∞ Podemos escribir que3 : FXY (−∞, y) = FXY (x, −∞) = FXY (−∞, −∞) = 0 Esto es debido a que los sucesos {X = −∞} e {Y = −∞} son sucesos de probabilidad nula, de forma que la probabilidad de la intersecci´ on de ellos con cualquier otro suceso es, asimismo, nula. 2. Comportamiento en (x, y) = (∞, ∞). En este caso: FXY (∞, ∞) = 1 puesto que se est´a calculando la probabilidad del suceso seguro. 3. La funci´ on de distribuci´ on conjunta es una funci´ on de probabilidad acumulada y, por ello, es no decreciente. En efecto, si consideramos que A = {X ≤ x0 , Y ≤ y0 }, B = {X ≤ x1 , Y ≤ y1 }, y que x0 ≤ x1 e y0 ≤ y1 , podemos escribir acorde con la figura 3.3a) B = A ∪ C, A ∩ C = ∅ → P (B) = P (A ∪ C) = P (A) + P (C) FXY (x1 , y1 ) = FXY (x0 , y0 ) + P (C) FXY (x1 , y1 ) ≥ FXY (x0 , y0 )
(3.3)
pues, seg´ un el axioma primero de la probabilidad (p´ agina 22), P (C) ≥ 0. 2
Recu´erdese que, en sentido estricto, el suceso mencionado deber´ıa escribirse ({X ≤ x} × S2 ) ∩ (S1 × {Y ≤ y}), con S1 y S2 los espacios muestrales de los respectivos subexperimentos. Haremos uso, no obstante, de la notaci´ on simplificada indicada en la expresi´ on 3.2. 3 Una vez m´ as, recu´erdese el tratamiento que hacemos de los valores infinitos (v´ease secci´ on 2.1).
116
C. Alberola L´ opez
y
y y
(x 1 ,y1 ) C
(x 0 ,y0 ) D
x
x
B A
x1
a)
x2
b) y
y L
y2
D
y1
y2 D
y1
x
x
c)
x x1
x2
d)
Figura 3.3: Casos de uso de la funci´ on FXY (x, y). 4. La funci´ on de distribuci´ on permite calcular probabilidades de regiones con topolog´ıa sencilla, concretamente, regiones con fronteras paralelas a los ejes coordenados. Si consideramos, en primer lugar, la situaci´on representada en la figura 3.3b) podemos escribir {X ≤ x2 , Y ≤ y} = D ∪ {X ≤ x1 , Y ≤ y} P (X ≤ x2 , Y ≤ y) = P (D ∪ {X ≤ x1 , Y ≤ y}) = P (D) + P (X ≤ x1 , Y ≤ y) P (D) = P (X ≤ x2 , Y ≤ y) − P (X ≤ x1 , Y ≤ y)
Cap´ıtulo 3. Variable aleatoria bidimensional
= FXY (x2 , y) − FXY (x1 , y)
117
(3.4)
Por ello, la probabilidad asociada a una franja vertical limitada por los puntos (x1 , y) y (x2 , y) es igual a la diferencia de la funci´ on de distribuci´ on en dichos puntos. 5. Se puede repetir el razonamiento anterior para una franja horizontal. A partir de la situaci´ on representada en la figura 3.3c) podemos escribir {X ≤ x, Y ≤ y2 } = D ∪ {X ≤ x, Y ≤ y1 } P (X ≤ x, Y ≤ y2 ) = P (D ∪ {X ≤ x, Y ≤ y1 }) = P (D) + P (X ≤ x, Y ≤ y1 ) P (D) = P (X ≤ x, Y ≤ y2 ) − P (X ≤ x, Y ≤ y1 ) = FXY (x, y2 ) − FXY (x, y1 )
(3.5)
resultado an´ alogo al obtenido anteriormente. 6. Esta funci´ on tambi´en permite hallar la probabilidad almacenada en el rect´angulo representado en la figura 3.3d). Para ello, podemos escribir {X ≤ x2 , Y ≤ y2 } = D ∪ {X ≤ x2 , Y ≤ y1 } ∪ L P (X ≤ x2 , Y ≤ y2 ) = P (D ∪ {X ≤ x2 , Y ≤ y1 } ∪ L) = P (D) + P (X ≤ x2 , Y ≤ y1 ) + P (L) P (D) = P (X ≤ x2 , Y ≤ y2 ) − P (X ≤ x2 , Y ≤ y1 ) − P (L) = FXY (x2 , y2 ) − FXY (x2 , y1 ) − (FXY (x1 , y2 ) − FXY (x1 , y1 )) = FXY (x2 , y2 ) − FXY (x2 , y1 ) − FXY (x1 , y2 ) + FXY (x1 , y1 )
(3.6)
As´ı pues, la probabilidad asociada a un rect´ angulo es igual a la suma algebraica de los valores de la funci´ on de distribuci´on en las cuatro esquinas del mismo, con los signos dependiendo de la esquina de que se trate.
3.2.2
Funci´ on de densidad de probabilidad conjunta
La funci´ on de densidad de probabilidad conjunta fXY (x, y) se define, de manera an´ aloga al caso unidimensional, a partir de la derivada de la funci´ on
118
C. Alberola L´ opez
de distribuci´ on FXY (x, y). En este caso la derivada debe ser con respecto a las dos variables, de forma que ∂ 2 FXY (x, y) ∂x∂y
fXY (x, y) =
(3.7)
La relaci´on inversa, naturalmente, es integral, con la expresi´ on
FXY (x, y) =
x
y
−∞ −∞
fXY (α, β)dαdβ
(3.8)
La ecuaci´on (3.8) es equivalente al l´ımite de un cociente incremental. Concretamente: FXY (x + ∆x, y + ∆y) − FXY (x, y + ∆y) fXY (x, y) = lim ∆x→0∆y→0 ∆x∆y −FXY (x + ∆x, y) + FXY (x, y) + ∆x∆y P (x < X ≤ x + ∆x, y < Y ≤ y + ∆y) (3.9) = lim ∆x→0∆y→0 ∆x∆y donde la segunda igualdad se ha escrito haciendo uso de la expresi´ on (3.6). Puede verse, por tanto, que la funci´ on de densidad es equivalente a la probabilidad de que la VA bidimensional tome valores dentro de un rect´ angulo de lados diferenciales, situado en el punto (x, y), dividido por el a´rea de dicho rect´angulo elemental. Es, consecuentemente, una probabilidad por unidad de a´rea, de ah´ı su nombre de densidad de probabilidad. Asimismo, dado que cualquier regi´ on D en el plano R2 puede aproximarse mediante una concatenaci´on de rect´ angulos diferenciales, sea cual sea la forma de la frontera de dicha regi´ on, la probabilidad de que la VA (X, Y) tome valores en el interior de D es igual al volumen encerrado por la funci´ on de densidad en esta regi´ on, esto es,
P (D) = D
fXY (x, y)dxdy
(3.10)
Puede por ello apreciarse que la funci´ on de densidad es notablemente m´as vers´atil que la funci´ on de distribuci´ on, de forma que es ´esta la funci´ on habitualmente empleada en la pr´ actica. Finalmente, debe hacerse dos comentarios adicionales: on de 1. La funci´ on de densidad fXY (x, y) es la derivada de una funci´ distribuci´ on, la cual, por ser una funci´ on de probabilidad acumulada, es no decreciente (entendi´endose esto en los t´erminos de la expresi´on 3.3); as´ı pues, la funci´ on de densidad es no negativa, es decir, fXY (x, y) ≥ 0 ∀(x, y) ∈ R2 .
Cap´ıtulo 3. Variable aleatoria bidimensional
119
2. El volumen encerrado bajo una funci´ on de densidad fXY (x, y) es igual a uno. Esto es debido a que si evaluamos la expresi´on (3.8) en el punto (∞, ∞), lo que evaluamos es la funci´ on de distribuci´ on en dicho punto, y sabemos que el valor de esta funci´on en tal punto es unitario. Con ello se extiende a dos dimensiones el requisito equivalente que vimos para las funciones de densidad unidimensionales.
3.2.3
Funciones marginales
Las funciones vistas hasta ahora (FXY (x, y) y fXY (x, y)) son funciones de caracterizaci´on probabil´ıstica total de la VA bidimensional (X, Y). Por ello, estas funciones tienen toda la informaci´ on necesaria para poder realizar cualquier c´alculo probabil´ıstico en relaci´on con sucesos definidos sobre dicha variable. Ello implica que tales funciones tengan tambi´en toda la informaci´ on probabil´ıstica sobre cada una de las dos componentes da la VA bidimensional, pues ´estas, junto con la interacci´on entre ellas, configuran las tres entidades que componen la VA bidimensional. Por ello, a partir de las funciones conjuntas podremos hallar las funciones de caracterizaci´on de cada una de las VAs unidimensionales aisladas. A estas funciones, que son las vistas en el cap´ıtulo anterior, se les denomina en este ´ambito funciones de distribuci´ on/densidad marginales. N´otese que el rec´ıproco no es, en general, cierto. Es decir, salvo excepciones, a partir del comportamiento individual (marginal) de las VAs unidimensionales no podremos conocer el comportamiento conjunto. La raz´on no es otra que lo dicho en el p´arrafo anterior: dado que la VA conjunta est´a formada por tres subentidades, y dado que las funciones marginales codifican el comportamiento de cada una de las VAs unidimensionales por separado, el comportamiento mutuo entre las VAs se ha perdido, y por ello no es posible restablecerlo a partir exclusivamente de la informaci´ on marginal. Hablaremos de las excepciones a esta regla general en apartados posteriores. El objetivo es, pues, obtener las funciones marginales a partir de las funciones conjuntas. Empecemos con las funciones de distribuci´ on. Para construir FX (x) tenemos que hallar FX (x) = P (X ≤ x) probabilidad de un suceso que podemos escribir, de forma equivalente, {X ≤ x} = {X ≤ x} ∩ {Y ≤ ∞}
120
C. Alberola L´ opez
pues el segundo suceso del segundo miembro es el suceso seguro. Por ello, podemos concluir que FX (x) = P (X ≤ x, Y ≤ ∞) = FXY (x, ∞) De la misma manera FY (y) = P (X ≤ ∞, Y ≤ y) = FXY (∞, y) Rep´ arese, por tanto, que la funci´ on de distribuci´ on es igual a la unidad cuando ambas VAs est´an evaluadas en el infinito. Si s´ olo evaluamos una de ellas en tal punto lo que hacemos es eliminar la restricci´on que impone dicha VA, de forma que estamos calculando la funci´ on de distribuci´ on marginal de la otra VA. Con respecto a las funciones de densidad, hagamos el c´alculo empleando el resultado anterior como puente entre FXY (x, y) y fXY (x, y). Para ello fX (x) = = =
dFX (x) dx dFXY (x, ∞) dx ∞ d x dα fXY (α, y)dy dx −∞ −∞
(3.11)
Para realizar esta operaci´ on debemos derivar bajo el signo integral. Esto se puede realizar en base a la Regla de Leibnitz, la cual se formula dϕ(u) du
=
d du
µs (u)
µi (u)
G(τ, u)dτ
= G(µs (u), u)
dµs (u) dµi (u) − G(µi (u), u) + du du
µs (u)
µi (u)
∂G(τ, u) dτ ∂u (3.12)
En nuestro caso la dependencia con la variable exterior de derivaci´ on es s´olo a trav´es del extremo superior de la integral en variable α. Por ello, si reescribimos la expresi´on como fX (x) = con φ(α) =
∞
−∞ fXY (α, y)dy
d dx
x
−∞
φ(α)dα
entonces
fX (x) = φ(x)
dx = φ(x) dx
Cap´ıtulo 3. Variable aleatoria bidimensional
y por ello
fX (x) = De forma similar
∞
−∞
fY (y) =
121
fXY (x, y)dy
(3.13)
fXY (x, y)dx
(3.14)
∞
−∞
Por tanto, como hemos visto, la obtenci´ on de las funciones marginales de una VA a partir de la conjunta se reduce a eliminar la dependencia con respecto a la otra VA. Para tal fin, si hablamos de la funci´ on de distribuci´ on, ´esta debe ser evaluada en el infinito de la otra VA. Si es la funci´ on de densidad, la conjunta debe ser integrada con respecto a la VA a eliminar. Ejercicio: Sup´ ongase una funci´ on de densidad fXY (x, y) no nula en el interior de un recinto como el sombreado de la figura 3.8a). Se pide que obtenga el valor de la funci´ on fX (x) para los puntos x0 y x1 . Soluci´ on: Aplicamos la expresi´on (3.13), particularizada a esta situaci´ on. Por ello, los intervalos de integraci´ on se extienden s´olo a la zona en la que la funci´ on fXY (x, y) es no nula. Por ello
fX (x0 ) = fX (x1 ) =
∞
−∞ ∞ −∞
fXY (x0 , y)dy = fXY (x1 , y)dy =
y2
y 1y4 y3
fXY (x0 , y)dy fXY (x1 , y)dy
N´otese por ello que, si bien gen´ericamente las expresiones (3.13) y (3.14) presentan intervalos de integraci´ on independientes de la otra VA (de x e y, respectivamente) en el caso frecuente en que la funci´ on de densidad sea no nula s´olo en una cierta regi´ on 2 del plano R los l´ımites de integraci´on ser´an funci´ on del punto x e y donde se eval´ uan, respectivamente, fX (x) y fY (y). ♣
Ejercicio: Se desea conocer si P (X > x, Y > y) = 1 − P (X ≤ x, Y ≤ y) = 1 − FXY (x, y) por analog´ıa a su equivalente unidimensional P (X > x) = 1 − P (X ≤ x) = 1 − FX (x).
122
C. Alberola L´ opez
y { X >x, Y >y } (x,y) x
Figura 3.4: Suceso {X > x} ∩ {Y > y}. Soluci´ on: La igualdad anterior no es correcta. Seg´ un puede verse en la figura 3.4 el suceso complementario del suceso {X > x} ∩ {Y > y} es el suceso {X ≤ x} ∪ {Y ≤ y}. Por ello. P (X > x, Y > y) = 1 − P ({X ≤ x} ∪ {Y ≤ y}) = 1 − (P (X ≤ x) + P (Y ≤ y) − P (X ≤ x, Y ≤ y)) = 1 − (FX (x) + FY (y) − FXY (x, y)) = 1 − (FXY (x, ∞) + FXY (∞, y) − FXY (x, y)) (3.15) ♣
3.2.4
Casos particulares
Si bien lo dicho hasta ahora ha sido completamente general, es interesante tener en cuenta un conjunto de casos particulares de aparici´ on relativamente ´ frecuente en la pr´ actica. Estos son los siguientes: X e Y discretas En tal caso, la VA bidimensional (X, Y) no toma valores en todo el plano, o en partes del plano de forma continua, sino que s´ olo toma valores en un
Cap´ıtulo 3. Variable aleatoria bidimensional
123
y (x,y)
y y y y
3 2
x x1
1
x2
x3
x x1
x2
x3
a)
b)
Figura 3.5: a) X e Y discretas b) X discreta e Y continua. En ambos casos X toma s´olo tres posibles valores. conjunto discreto de puntos, esto es, en una rejilla de puntos. Un ejemplo de tal VA puede verse en la figura 3.5a). En tal caso, de igual manera a su equivalente unidimensional, la VA viene caracterizada a partir del conjunto de valores (xi , yj ) que puede tomar, junto con las probabilidades pij = P (X = xi , Y = yj ) con las que los toma. Los ´ındices i y j variar´ an, en cada caso, en los intervalos adecuados. A partir de estas probabilidades, podemos hacer cualquier c´alculo probabil´ıstico que nos interese. Por ejemplo, escogiendo un valor de x en el intervalo x2 < x < x3 (figura 3.5a), podemos escribir P (X ≤ x) = P ({X = x1 } ∪ {X = x2 }) = P (X = x1 ) + P (X = x2 ) y dado que {X = x1 } = {X = x1 , Y = y1 } {X = x2 } = {X = x2 , Y = y1 } ∪ {X = x2 , Y = y2 } entonces P (X = x1 ) = P (X = x1 , Y = y1 ) = p11 P (X = x2 ) = P (X = x2 , Y = y1 ) + P (X = x2 , Y = y2 ) = p21 + p22
124
C. Alberola L´ opez
de forma que P (X ≤ x) = p11 + p21 + p22 si x2 < x < x3 . X discreta e Y continua En el caso en que las VAs sean discreta y continua, la VA bidimensional tomar´ a valores s´olo sobre rectas horizontales o verticales en funci´on de qui´en de las VAs sea discreta. Para la selecci´on hecha en el t´ıtulo del apartado, las rectas ser´an verticales, situadas en los valores de abscisa que tome la VA X (v´ease figura 3.5b). Para poder analizar una situaci´ on como ´esta basta con que recordemos algunas expresiones introducidas en el cap´ıtulo anterior (v´ease secci´on 2.4). Tomando como base la figura 3.5b), calculemos P (X ≤ x, Y ≤ y) para los valores de x e y seleccionados en la figura. As´ı pues P (X ≤ x, Y ≤ y) = P (({X = x1 } ∪ {X = x2 }) ∩ {Y ≤ y}) = P (({X = x1 } ∩ {Y ≤ y}) ∪ ({X = x2 } ∩ {Y ≤ y})) = P (X = x1 , Y ≤ y) + P (X = x2 , Y ≤ y) Las expresiones anteriores son probabilidades de intersecci´on de sucesos, de forma que nada nos impide escribirlas en t´erminos de probabilidades condicionadas. Por ello P (X ≤ x, Y ≤ y) = P (X = x1 , Y ≤ y) + P (X = x2 , Y ≤ y) = P (Y ≤ y|X = x1 )P (X = x1 ) + P (Y ≤ y|X = x2 )P (X = x2 ) Recordando ahora que (expresi´ on 2.31) fY (y) =
N
fY (y|Ai )P (Ai )
i=1
podemos considerar como elementos de la partici´on Ai cada uno de los valores xi que puede tomar la VA X. Por ello, y denominando, por brevedad P (X = xi ) = pi y fY (y|X = xi ) = fY (y|xi ), podemos escribir P (X ≤ x, Y ≤ y) = P (Y ≤ y|X = x1 )P (X = x1 ) + P (Y ≤ y|X = x2 )P (X = x2 )
= p1
y
−∞
fY (τ |x1 )dτ + p2
y
−∞
fY (τ |x2 )dτ (3.16)
Cap´ıtulo 3. Variable aleatoria bidimensional
125
Como puede verse, por lo tanto, para abordar el caso que nos ocupa, la informaci´ on que debemos tener de la VA bidimensional se reduce a 1. Los valores X = xi y las probabilidades P (X = xi ) = pi ∀i. 2. Las funciones de densidad fY (y|xi ) para los valores de xi de la VA X. ya que esta informaci´ on nos ha permitido obtener (3.16), funci´ on de distribuci´ on de la VA (X, Y), es decir, la caracterizaci´on probabil´ıstica total de la VA bidimensional. Ejercicio: Para la situaci´ on descrita en la figura 3.5b) y suponiendo conocida la informaci´ on involucrada en la expresi´ on (3.16), calcule P (X = xi |Y = y). Soluci´ on: Recordando que P (A|X = x) =
fX (x|A)P (A) fX (x)
(expresiones 2.34 y 2.38), y haciendo que A = {X = xi } y que la VA sea ahora Y, podemos escribir P (X = xi |Y = y) = P (X = xi |y) =
fY (y|xi )pi 3
j=1
fY (y|xj )pj ♣
Componentes relacionadas mediante la funci´ on Y = g(X) Supongamos que las componentes X e Y de una VA bidimensional est´an relacionadas mediante la funci´ on Y = g(X). En tal caso la VA bidimensional s´olo toma valores sobre la curva de transformaci´ on, y no en todo el plano; ´este es un caso particular en el que se puede construir la funci´ on de distribuci´ on conjunta FXY (x, y) en base a las marginales. En efecto, tomando como base la funci´ on dada en la figura 3.6a) podemos escribir y > g(x)
FXY (x, y) = P (X ≤ x, Y ≤ y) = P (X ≤ x) = FX (x)
y ≤ g(x) FXY (x, y) = P (X ≤ x, Y ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)) Ejemplo: Sup´ ongase que Y = g(X) = 2X. Se pide que calcule:
126
C. Alberola L´ opez
y=g(x)=2x y=g(x)
y
y (1,5)
(4,5)
yg(x)
x (x,0)
x
-1
(g (y),0)
(1,0) a)
(5/2,0)
(4,0)
b)
Figura 3.6: a) Componentes relacionadas mediante la funci´ on Y = g(X) b) Y = g(X) = 2X. 1. FXY (x, y) 2. P (1 < X ≤ 4, 0 < Y ≤ 5) Soluci´ on: A partir de la figura 3.6b) es f´ acil ver que: 1. y > 2x y ≤ 2x
FXY (x, y) = FX (x)
FXY (x, y) = FX (g −1 (y)) = FX (y/2)
2. P (1 < X ≤ 4, 0 < Y ≤ 5) = FXY (4, 5) − FXY (4, 0) − FXY (1, 5) + FXY (1, 0) = FX (5/2) − FX (0/2) − FX (1) + FX (0/2) = FX (5/2) − FX (1)
(3.17)
resultado que se podr´ıa haber anticipado viendo los l´ımites de variaci´ on de la VA X dentro de la regi´ on {1 < X ≤ 4, 0 < Y ≤ 5}. ♣
Cap´ıtulo 3. Variable aleatoria bidimensional
3.3
127
Funciones condicionadas
De igual manera que se vio en la secci´on 2.4 para el caso de la VA unidimensional, podemos considerar funciones de caracterizaci´on probabil´ıstica de una VA bidimensional cuando se sabe que un determinado suceso, digamos M , se ha verificado. Tales funciones, las cuales ser´an denominadas funciones condicionadas, indican c´ omo se actualiza nuestro conocimiento probabil´ıstico sobre los valores que puede tomar la VA bidimensional, en las condiciones indicadas, esto es, cuando el suceso M se ha verificado. Las funciones se definen P (X ≤ x, Y ≤ y, M ) P (M ) 2 ∂ FXY (x, y|M ) ∂x∂y
FXY (x, y|M ) = fXY (x, y|M ) =
(3.18) (3.19)
La figura 3.7 muestra la situaci´ on planteada en la ecuaci´on (3.18). El nuy
y M
y
y
y
y
y
x
x
x
x
y
1
x
a)
2
b)
x
c)
Figura 3.7: a) Esquema de definici´ on de la funci´ on de distribuci´ on condicionada. b) Suceso {Y ≤ y}. c) Suceso {y1 < Y ≤ y2 }. merador de dicha expresi´ on mide la probabilidad de que, simult´ aneamente, se verifique el suceso a partir del cual se define la funci´ on de distribuci´on conjunta y el suceso M . El denominador es la normalizaci´ on con respecto a la probabilidad del suceso que condiciona, por definici´ on de la probabilidad condicionada (ecuaci´on 1.20). La segunda ecuaci´on indica que la funci´ on de densidad condicionada se obtiene, como ya conocemos, derivando la correspondiente funci´on de distribuci´ on.
128
C. Alberola L´ opez
3.3.1
Funciones marginales, condicionadas y conjuntas
La definici´ on de funciones condicionadas nos permite encontrar interesantes relaciones entre funciones marginales condicionadas, funciones conjuntas, y funciones marginales incondicionales. Para ello, simplemente, debemos elegir oportunamente el suceso condicionante. Retomemos la funciones unidimensionales condicionadas y elijamos un condicionante funci´ on de la segunda variable. Concretamente: 1. M = {Y ≤ y}: El suceso corresponde a la zona sombreada de la figura 3.7b). A partir de ´el podemos escribir: FX (x|M ) = FX (x|Y ≤ y) =
P (X ≤ x, Y ≤ y) FXY (x, y) = P (Y ≤ y) FY (y)
de forma que despejando a favor de la funci´ on conjunta obtenemos FXY (x, y) = FX (x|Y ≤ y)FY (y)
(3.20)
Naturalmente, si hubi´esemos hecho el razonamiento condicionando con la VA X habr´ıamos obtenido FXY (x, y) = FY (y|X ≤ x)FX (x)
(3.21)
Estas expresiones indican qu´e informaci´ on se requiere para poder construir una funci´ on de distribuci´ on conjunta, esto es, para poder caracterizar probabil´ısticamente de forma total a una VA bidimensional. Tal informaci´ on es el comportamiento aislado (marginal) de una de las dos variables, lo cual se encuentra codificado en la funci´ on de distribuci´ on marginal, as´ı como el comportamiento de la segunda VA en relaci´on con la primera, lo cual se encuentra en la funci´ on condicionada. Una lectura alternativa a esta expresi´ on es que, en general, el conocimiento exclusivo de las dos funciones marginales no es suficiente para construir una funci´ on conjunta ya que tales funciones no tienen informaci´ on alguna sobre la relaci´ on entre ambas. Tal informaci´ on se encuentra en la funci´ on condicionada. 2. Podemos encontrar una segunda relaci´ on, en este caso entre funciones de densidad, escogiendo como suceso condicionante el suceso M = {y1 < Y ≤ y2 } (v´ease la figura 3.7c). Con esta elecci´on podemos escribir P (X ≤ x, y1 < Y ≤ y2 ) FX (x|M ) = FX (x|y1 < Y ≤ y2 ) = = P (y1 < Y ≤ y2 ) FXY (x, y2 ) − FXY (x, y1 ) = FY (y2 ) − FY (y1 )
Cap´ıtulo 3. Variable aleatoria bidimensional
129
El numerador de la anterior expresi´ on procede de la probabilidad recogida en una l´ amina horizontal (expresi´ on 3.5). El objetivo ahora es obtener una relaci´ on entre funciones de densidad, de forma que necesitaremos derivadas tanto con respecto a la variable x como con respecto a la variable y. Para derivar con respecto a y, rep´arese que en la expresi´on anterior tenemos el cociente entre dos incrementos de una funci´ on de y. Conseguir´ıamos derivadas construyendo un cociente de cocientes incrementales (esto es, dividiendo a ambos incrementos de funci´ on entre los correspondientes incrementos de la variable independiente). Para hacer esto renombremos los puntos y1 = y e y2 = y + ∆y y hagamos que ∆y tienda a ser cada vez m´as peque˜ no, esto es, que la l´amina de probabilidad con la que estamos trabajando tienda a contener s´olo al punto y. Seg´ un lo dicho FX (x|y < Y ≤ y + ∆y) = =
lim FX (x|y < Y ≤ y + ∆y) =
∆y→0
FXY (x, y + ∆y) − FXY (x, y) FY (y + ∆y) − FY (y) FXY (x,y+∆y)−FXY (x,y) ∆y FY (y+∆y)−FY (y) ∆y ∂FXY (x,y) ∂y FX (x|Y = y) = dF (y) Y dy
(3.22) Con respecto a la u ´ltima l´ınea de la ecuaci´on anterior debemos hace el mismo comentario que hicimos al respecto de la u ´ ltima l´ınea de la ecuaci´on (2.34): FX (x|Y = y) debe entenderse como una forma compacta de escribir una expresi´on definida mediante un l´ımite. Derivando ahora con respecto a x llegamos a la expresi´on fX (x|Y = y) =
∂ 2 FXY (x,y) ∂x∂y dFY (y) dy
=
fXY (x, y) fY (y)
(3.23)
Razonando con respecto a la variable x se obtendr´ıa un resultado equivalente con los papeles de las variables intercambiados. As´ı pues, si despejamos a favor de la funci´ on de distribuci´ on conjunta (y escribiendo, por brevedad, fX (x|Y = y) = fX (x|y) y su equivalente en la otra variable), obtenemos fXY (x, y) = fX (x|y)fY (y)
(3.24)
= fY (y|x)fX (x)
(3.25)
130
C. Alberola L´ opez
expresiones muy similares a las obtenidas para el caso de funciones de distribuci´ on, y cuya interpretaci´ on es exactamente la misma que para tales funciones. Comentarios adicionales: on de densidad unidimensional como • La funci´ on fY (y|x) es una funci´ las manejadas en el cap´ıtulo anterior. La u ´nica novedad es que en ella existe la influencia de la otra variable, bien en la expresi´ on funcional de la misma, bien en el intervalo de valores donde est´a definida. Por ejemplo, una posible concreci´on de esta funci´ on ser´ıa (y−η(x)) − 1 2 2σx √ e fY (y|x) = σ(x) 2π
2
(3.26)
lo cual se interpretar´ıa como que la VA Y, cuando la VA X ha tomado el valor x, se comporta como una gaussiana de par´ ametros η(x) y σ(x). Rep´ arese que con esta afirmaci´on s´ olo conocemos c´omo se distribuye la VA Y cuando X ha tomado una determinado valor, es decir, no conocemos c´omo se comporta Y aisladamente de X. Para conocer esto, como veremos a continuaci´on, necesitamos conocer la funci´ on de densidad de X (expresi´ on 3.27). • La expresi´on (3.25) nos permite construir, mediante ordenador, muestras de VAs bidimensionales que tengan una determinada funci´ on de densidad conjunta. En efecto, esta expresi´ on dice qu´e distribuci´ on tiene que tener la VA X y qu´e distribuci´ on tiene que tener la VA Y para cada uno de los valores que pueda tomar la VA X, si queremos que la VA bidimensional (X, Y) tenga la funci´ on de densidad fXY (x, y). Por ello, podemos construir muestras de tal VA bidimensional con el siguiente procedimiento: 1. Construir muestras de la VA X distribuidas acorde con fX (x). 2. Para cada valor x generado de la VA X, constr´ uyanse muestras de la VA Y con funci´ on de densidad condicionada a X fY (y|x). Si, por ejemplo, tal funci´ on fuese la planteada anteriormente (ecuaci´on 3.26), bastar´ıa con que construy´esemos VAs con distribuci´ on N (η(x), σ(x)).
Cap´ıtulo 3. Variable aleatoria bidimensional
3.3.2
131
Teoremas de la Probabilidad Total y de Bayes para partici´ on continua
Las expresiones (3.24) y (3.25) nos permiten hacer una interpretaci´ on de las funciones marginales en t´erminos del Teorema de la Probabilidad Total. En efecto, igualando (3.24) y (3.25) podemos escribir fX (x|y)fY (y) = fY (y|x)fX (x) Si ahora integramos con respecto, por ejemplo, a la variable x, obtendremos
∞
−∞
fX (x|y)fY (y)dx =
fY (y)
∞
−∞
fX (x|y)dx = fY (y) =
∞
−∞ ∞ −∞ ∞
−∞
fY (y|x)fX (x)dx fY (y|x)fX (x)dx fY (y|x)fX (x)dx
(3.27)
pues el ´area bajo toda funci´ on de densidad (condicionada o incondicional) es igual a la unidad. Si tomamos esta expresi´ on y multiplicamos por dy en ambos miembros de la igualdad (con el u ´nico objetivo de convertir las funciones densidad de probabilidad en probabilidades), tenemos
fY (y)dy = P (y < Y ≤ y + dy) =
∞
−∞ ∞ −∞
fY (y|x)dyfX (x)dx P (y < Y ≤ y + dy|X = x)P (x < X ≤ x + dx) (3.28)
lo cual es el equivalente continuo de la expresi´on P (B) =
N
P (B|Ai )P (Ai )
i=1
donde se est´a empleando como elemento de la partici´on cada uno de los valores que puede tomar la VA X. Si hablamos del Teorema de la Probilidad Total, podemos hablar del Teorema de Bayes sin m´as que intercambiar los condicionantes. Para ello, recordemos que P (Ai |B) =
P (B|Ai )P (Ai ) P (B|Ai )P (Ai ) = N
P (B) P (B|Aj )P (Aj ) j=1
132
C. Alberola L´ opez
Haciendo uso, una vez m´ as, de las igualdades (3.24) y (3.25) llegamos a la conclusi´on de que: fX (x|y) =
fY (y|x)fX (x) fY (y|x)fX (x) = ∞ fY (y) −∞ fY (y|α)fX (α)dα
Finalmente, recordando las igualdades (3.13) y (3.14), y haciendo uso de las identidades (3.24) y (3.25) podemos escribir
fX (x) = fY (y) =
∞
−∞ ∞
−∞
fXY (x, y)dy = fXY (x, y)dx =
∞
−∞ ∞
−∞
fX (x|y)fY (y)dy fY (y|x)fX (x)dx
de forma que es claro que el Teorema de la Probabilidad Total para dos VAs es una forma alternativa de obtenci´ on de las funciones de densidad marginales a partir, en su caso, de una funci´ on marginal condicionada y una marginal incondicional.
3.4
Independencia
En la introducci´ on a este cap´ıtulo dijimos que la VA bidimensional (X, Y) se construye a partir de un experimento compuesto, c < Sc , Fc , Pc >, el cual es el resultado de la composici´on de dos subexperimentos, a saber, 1 < S1 , F1 , P1 > y 2 < S2 , F2 , P2 >. All´ı se dijo que la ley para asignaci´ on de probabilidades no es, en general, determinable a partir de las leyes P1 y P2 de cada uno de los subexperimentos, sino que interviene una tercera entidad para la creaci´on de tal ley, la cual es, precisamente, la propia composici´on de los experimentos. Sin embargo, esto no es siempre as´ı. Consideremos que los sucesos AX ∈ F1 y BY ∈ F2 . Si se verifica que4 P (AX ∩ BY ) = P (AX )P (BY ) entonces las VAs X e Y se dice que son independientes. En tal caso, la ley Pc s´ı puede obtenerse como funci´ on exclusiva de las leyes P1 y P2 . Rep´arese que, de hecho, cuando existe independencia entre variables la composici´on de los experimentos es meramente nominal, esto es, los experimentos se 4
De forma coherente con la notaci´ on de la secci´ on 1.7, la escritura estricta del suceso compuesto ser´ıa (AX × S2 ) ∩ (S1 × BY ).
Cap´ıtulo 3. Variable aleatoria bidimensional
133
est´an considerando simult´ aneamente, pero en realidad no existe influencia alguna de uno sobre otro. A nivel operativo, podemos comprobar la independencia entre variables verificando el comportamiento de las funciones de distribuci´ on o densidad conjunta y marginales. Para ello basta con elegir los sucesos AX y BY de forma oportuna. Escogiendo AX = {X ≤ x} y BY = {Y ≤ y} podemos afirmar que 2 VAs son independientes si P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y) FXY (x, y) = FX (x)FY (y)
(3.29)
pues, al ser la funci´ on de distribuci´ on una funci´ on de caracterizaci´on probabil´ıstica total de la VA (X, Y), la definici´ on de independencia dada antes para sucesos gen´ericos AX y BY se concreta en la expresi´on (3.29) con validez general. Derivando esta expresi´ on con respecto a ambas variables, tendremos un criterio equivalente de comprobaci´ on de independencia en t´erminos de funciones de densidad. En efecto, dos VAs ser´an independientes si fXY (x, y) = fX (x)fY (y)
(3.30)
Es interesante contrastar la expresi´on obtenida con la vista en el caso general (ecuaciones 3.24 y 3.25). Para que las dos expresiones coincidan es necesario que las funciones marginales condicionadas coincidan con las incondicionales, es decir, fX (x) = fX (x|y) y lo propio con respecto a la VA Y. Pero esto, como vimos ya en el cap´ıtulo primero, es algo asociado a la independencia: los condicionantes no condicionan. Si es as´ı, es decir, si las variables son independientes, el hecho de que la VA Y haya tomado alg´ un valor en particular no afecta en absoluto al comportamiento probabil´ıstico de la VA X. Comentarios adicionales • Lo dicho tiene validez general. No obstante, si la VA bidimensional es discreta, esto es, si cada componente de la misma es discreta, el criterio de independencia se particulariza en la factorizaci´ on de la probabilidad de cada uno de los puntos del plano donde la variable toma valores. Concretamente, si la variable (X, Y) puede tomar los valores (xi , yj ) con i y j variando en los recorridos oportunos, y con probabilidades P (X = xi , Y = yj ) = pij , la VA
134
C. Alberola L´ opez
est´a formada por componentes independientes si se verifica que P (X = xi , Y = yj ) = pij = pxi pyj = P (X = xi )P (Y = yj ) (3.31) • La comprobaci´on de la independencia entre dos VAs exige comprobar cualquiera de las dos condiciones vistas (expresiones 3.29 y 3.30) para todos los valores de x e y. Sin embargo, la comprobaci´ on de la no independencia es m´as sencilla e intuitiva. Por ejemplo, si la funci´ on de densidad conjunta es no nula en el interior de la regi´on sombreada de la figura 3.8a), el simple hecho de que la regi´on R no presente lados paralelos a los ejes coordenados indica que las variables no son independientes. En efecto, si la variable X toma el valor x0 la figura indica que la VA Y puede tomar valores en el intervalo (y1 , y2 ). Sin embargo, si X toma el valor x1 entonces Y puede tomar valores en el intervalo (y3 , y4 ), intervalo distinto al anterior. Por tanto, el hecho de que X tome un valor u otro afecta notablemente a los valores que puede tomar Y, de forma que las variables no son independientes. y
y y y y
4 2
y
0
3
y
1
x
x
0
a)
x
x
1
x 0
b)
Figura 3.8: Dos casos de VAs no independientes. • Similares comentarios pueden hacerse en relaci´on con la figura 3.8b (sup´ ongase no nula en el interior de la zona sombreada). En este caso, a pesar de que el dominio donde la VA bidimensional est´ a definida presenta lado paralelos
Cap´ıtulo 3. Variable aleatoria bidimensional
135
a los ejes coordenados, es claro que la VA (X, Y) no puede tomar el valor (x0 , y0 ), pero que cada una de las componentes, de forma aislada, s´ı que pueden tomarlo; decimos esto porque la figura muestra que fXY (x0 , y0 ) = 0, pero, sin embargo, fX (x0 ) = 0 y fY (y0 ) = 0. Ejercicio: Justifique por qu´e fX (x0 ) = 0 y fY (y0 ) = 0 en el caso representado en la figura 3.8b). ♣
3.5
Transformaci´ on de variable aleatoria bidimensional
Abordamos en este punto la extensi´on bidimensional de la transformaci´ on de VA vista en el cap´ıtulo anterior (secci´on 2.6). En este caso abordaremos en primer lugar el problema de una u ´nica transformaci´on de dos VAs, digamos, Z = g(X, Y). Un segundo paso ser´ a abordar, mediante el mismo m´etodo que en el primero, el problema de dos funciones de dos VAs, es decir, Z = g(X, Y) y W = h(X, Y). Sin embargo, para este segundo caso es m´as sencillo el uso del Teorema Fundamental, extendido a dos variables, el cual ya introdujimos, para el caso unidimensional, en el cap´ıtulo anterior. Las ventajas de tal teorema ser´an obvias tan pronto como se haga uso del mismo. Por ello, en el u ´ ltimo punto, veremos c´omo poder emplear el Teorema Fundamental para el caso de un u ´nica funci´ on de dos VAs. Dispondremos, consecuentemente, de caminos alternativos para abordar el mismo problema.
3.5.1
Una funci´ on de dos variables aleatorias
Consideremos la situaci´on en la que la VA bidimensional (X, Y), cuya caracterizaci´on probabil´ıstica asumiremos conocida, se transforma mediante la transformaci´ on g(x, y) en una VA Z = g(X, Y). Asumiremos que la transformaci´ on es tal que se cumplen las condiciones para que Z sea una VA (v´ease secci´on 2.1). Con estas premisas, el objetivo es encontrar la caracterizaci´on probabil´ıstica de la VA Z en base a la caracterizaci´on de la VA bidimensional (X, Y) y de la transformaci´ on g(x, y). Para ello tendremos que calcular FZ (z) = P (Z ≤ z) = P (Dz ) =
Dz
fX,Y (x, y)dxdy
(3.32)
136
C. Alberola L´ opez
donde la regi´ on Dz se define como el lugar geom´etrico de los puntos del plano (x, y) que transformados mediante g(x, y) dan lugar a valores menores o iguales que z. Formalmente: Dz = {(x, y) ∈ R2 t.q. g(x, y) ≤ z} Por ello, el procedimiento para encontrar la caracterizaci´ on probabil´ıstica de Z consiste en dos fases: 1. Identificar la regi´ on Dz . 2. Calcular P (Dz ) =
Dz
fXY (x, y)dxdy
Ilustraremos este procedimiento mediante varios ejemplos: 1. Consid´erese que Z = g(X, Y) = X+Y. El objetivo es encontrar, para esta transformaci´ on, la funci´ on de distribuci´ on de Z como funci´ on de fX,Y (x, y). Para ello FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = P (Dz ) En este caso la regi´on Dz es el lugar geom´etrico de los puntos del y y=z-x
Dz
(0,z) (z,0)
x
(z>0)
Figura 3.9: Representaci´ on de Dz para Z = g(X, Y) = X + Y. plano que verifican que x + y ≤ z. Esta regi´ on tiene como frontera la ecuaci´on x + y = z, la cual puede escribirse como y = z − x, es decir, una recta de pendiente −1 y ordenada en el origen igual a z
Cap´ıtulo 3. Variable aleatoria bidimensional
137
(v´ease figura 3.9 donde se indica la regi´ on Dz ). A partir de la figura podemos escribir FZ (z) = P (X + Y ≤ z) =
∞
−∞
dx
z−x
−∞
fX,Y (x, y)dy
Para hallar la funci´ on de densidad fZ (z) tenemos que derivar con respecto a z la expresi´on anterior. Eso puede conseguirse f´acilmente sin m´as que realizar un cambio de variable en la integral en y, con el objetivo de que el extremo superior de esta integral no dependa de x. Si hacemos t = x + y, podemos escribir
FZ (z) =
∞
−∞
dx
z
−∞
fX,Y (x, t − x)dt =
z
−∞
ϕ(t)dt
∞ fX,Y (x, t − x)dx. Si derivamos la anterior expresi´ on con ϕ(t) = −∞ con respecto a z (recu´erdese la regla de Leibnitz, expresi´on 3.12), tenemos
dFZ (z) dz fZ (z) = = ϕ(z) = ϕ(z) = dz dz
∞
−∞
fX,Y (x, z − x)dx
El resultado hasta ahora obtenido es completamente general. No obstante, si asumimos que las variables X e Y son independientes, entonces fX,Y (x, z − x) = fX (x)fY (z − x), de forma que obtenemos
fZ (z) =
∞
−∞
fX (x)fY (z − x)dx = fX (z) ∗ fY (z)
con ∗ el operador convoluci´ on. A este resultado se le conoce como el Teorema de la Convoluci´ on, que dice, como hemos obtenido, que la funci´ on de densidad de la suma de dos VAs independientes es igual a la convoluci´ on de sus funciones de densidad. Ejercicio: Sean X e Y dos VAs independientes, uniformes entre (0, 1) y (0, 2) respectivamente. Se pide la funci´on de densidad de la variable Z = X + Y. Soluci´ on: Seg´ un acabamos de ver la funci´ on de densidad es la convoluci´on de las funciones de densidad. Por tanto, tenemos que realizar la operaci´on
fZ (z) =
∞
−∞
fX (τ )fY (z − τ )dτ =
∞
−∞
fY (τ )fX (z − τ )dτ
138
C. Alberola L´ opez
1
1 1
τ
τ =z
1/2
1/2
1/2
τ
τ =z
a) z ≤ 0
τ =z
b) 0 < z ≤ 1
c) 1 < z ≤ 2
1
1
1/2
1/2 τ
τ
τ =z
τ =z
d) 2 < z ≤ 3
e) z > 3
Figura 3.10: Las cinco secciones de la convoluci´ on de dos rect´angulos. en cualquiera de sus dos versiones. Escojamos la segunda. Dejamos entonces inalterada la funci´ on de densidad de la VA Y, reflejamos la funci´ on de densidad de la VA X alrededor del eje τ = 0 y desplazamos esta funci´on al punto z donde evaluamos la convoluci´on. Podemos pues considerar cinco casos: (a) z ≤ 0: En este caso (v´ease figura 3.10a) el ´area bajo el producto de ambas funciones es nula (las funciones no tienen puntos en com´ un) de forma que la convoluci´ on vale cero. (b) 0 < z ≤ 1 (figura 3.10b): El cuadrado en que consiste fX empieza a entrar en el rect´angulo de fY , pero no lo hace completamente. As´ı pues
fZ (z) =
0
z
fX (τ )fY (z − τ )dτ =
z
0
1 z 1 dτ = 2 2
(c) 1 < z ≤ 2 (figura 3.10c): El cuadrado ha entrado completamente en el rect´angulo de fY , y se mantiene en el interior en todo este intervalo. Por ello
fZ (z) = =
z
z−1
fX (τ )fY (z − τ )dτ =
z
1 1 dτ z−1 2
z − (z − 1) 1 = 2 2
(d) 2 < z ≤ 3 (figura 3.10d): En este caso el cuadrado
τ
Cap´ıtulo 3. Variable aleatoria bidimensional
139
comienza a salir del rect´angulo. Por ello
fZ (z) = =
2
z−1
fX (τ )fY (z − τ )dτ =
2
1 1 dτ z−1 2
2 − (z − 1) 3−z = 2 2
(e) z > 3 (figura 3.10e): El cuadrado ha abandonado el interior del rect´angulo de forma que el ´area bajo el producto de ambas funciones vuelve a ser nulo. f (z) Z
1/2
z 0
1
2
3
Figura 3.11: Funci´ on de densidad fZ (z) para el ejercicio planteado. La figura 3.11 muestra la funci´ on de densidad resultante. Como puede verse, la convoluci´on de dos rect´angulos es un trapecio, en general, y si la longitud de ambos rect´angulos coincide, la parte de la convoluci´ on que hemos clasificado en tercer lugar desaparece, de forma que, en tal caso, el trapecio se convierte en un tri´angulo. ♣ 2. Consid´erese que Z = g(X, Y) = max(X, Y). El objetivo es, como antes, encontrar la funci´ on de distribuci´ on de Z. Para ello FZ (z) = P (Z ≤ z) = P (max(X, Y) ≤ z) = P (Dz ) Para que el m´ aximo de dos variables sea menor que una cierta cantidad z debe verificarse que ambas variables sean menores o iguales que z. Por ello, Dz es la regi´ on {X ≤ z, Y ≤ z} (zona sombreada en figura 3.12a), y la funci´ on que nos piden es: FZ (z) = P (Z ≤ z) = P (X ≤ z, Y ≤ z) = FXY (z, z)
140
C. Alberola L´ opez
y
y z
(z,z)
Dz x
Dz x
z a)
b)
Figura 3.12: a) Dz para Z = g(X, Y) = max(X, Y) b) Dz para Z = g(X, Y) = min(X, Y). 3. Consid´erese que Z = g(X, Y) = min(X, Y). Buscamos FZ (z) = P (Z ≤ z) = P (min(X, Y) ≤ z) = P (Dz ) En este caso Dz var´ıa ligeramente respecto del anterior, puesto que para que el m´ınimo entre dos variables sea menor que una cierta cantidad z basta con que cualquiera de ellas lo sea. Por ello, Dz es la regi´ on {X ≤ z} {Y ≤ z} (zona sombreada en figura 3.12b) y la funci´ on que nos piden es: FZ (z) = P (Z ≤ z) = P ({X ≤ z} ∪ {Y ≤ z}) = P (X ≤ z) + P (Y ≤ z) − P (X ≤ z, Y ≤ z) = FX (z) + FY (z) − FXY (z, z) = FXY (z, ∞) + FXY (∞, z) − FXY (z, z) (3.33) Evidentemente, un procedimiento alternativo al empleado ser´ıa FZ (z) = 1 − P (Z > z) = 1 − P (X > z, Y > z)
4. Supongamos ahora que X e Y son discretas, y que toman los valores que se representan en la figura 3.13, con probabilidades pij . Se plantea la funci´ on Z = g(X, Y) = X · Y. La VA resultante Z tambi´en
Cap´ıtulo 3. Variable aleatoria bidimensional
141
y 3 2 1 x 1
2
Figura 3.13: Puntos de probabilidad no nula de la VA (X, Y). ser´a discreta, de forma que su caracterizaci´on viene dada por los valoa la variable y por las probabilidades pk = P (Z = zk ). res zk que tomar´ Por tanto, podemos construir la siguiente tabla: zk 1 2 4 6
pk p1 p2 p4 p6
= p11 = p12 + p21 = p22 = p23
puesto que P (Z = 1) = p1 = P (X = 1, Y = 1) = p11 P (Z = 2) = p2 = P (X = 1, Y = 2) + P (X = 2, Y = 1) = p12 + p21 P (Z = 4) = p4 = P (X = 2, Y = 2) = p22 P (Z = 6) = p6 = P (X = 2, Y = 3) = p23
3.5.2
Dos funciones de dos variables aleatorias
Consideremos ahora la situaci´on en la que (X, Y) se transforma en otra VA bidimensional por medio del par de transformaciones: Z = g(X, Y) W = h(X, Y)
142
C. Alberola L´ opez
En este caso, como en el apartado anterior, conocida la caracterizaci´on probabil´ıstica de la VA (X, Y) origen de la transformaci´ on, y conocidas las expresiones anal´ıticas de la transformaci´ on, se pretende obtener la caracterizaci´on probabil´ıstica de la VA bidimensional resultante (Z, W). El procedimiento de resoluci´ on en este caso ser´ıa similar al que acabamos de ver. Concretamente pretendemos hallar FZW (z, w) = P (Z ≤ z, W ≤ w) = P (Dzw ) =
Dzw
fXY (x, y)dxdy
con Dzw el lugar geom´etrico de los puntos del plano (x, y) que se transforman en puntos del plano (z, w) pertenecientes al suceso cuya probabilidad buscamos, esto es Dzw = {(x, y) ∈ R2 t.q. g(x, y) ≤ z, h(x, y) ≤ w} on, hallar Para tal fin, debemos identificar la regi´ on Dzw para, a continuaci´ la probabilidad asociada a dicha regi´ on. Ejemplo: Para el par de transformaciones "
Z = g(X, Y) = (+) X2 + Y2 Y W = h(X, Y) = X identif´ıquese la regi´ on Dzw para un par (z, w) gen´erico, con z > 0 y w > 0. √ Soluci´ on: La regi´ on {Z ≤ z} = { X2 + Y2 ≤ z} es, en el plano (x, y), el interior de una circunferencia de radio z. Por lo que respecta a la segunda transformaci´ on, W=
Y ≤ w → Y ≤ wX X
(3.34)
regi´on cuya frontera es una recta dada por el signo igual de la anterior desigualdad, es decir, y = wx. Esta frontera es una recta de pendiente w y ordenada en el origen igual a 0. Los valores que pertenecen a la regi´on y ≤ wx son los valores que est´an por debajo de la recta, como puede comprobarse tomando cualquier punto del primer cuadrante por debajo de la recta de divisi´ on (v´ease figura 3.14a). Sin embargo, hay que hacer una llamada de precauci´ on: la implicaci´on escrita en la ecuaci´on (3.34) no es completamente correcta, puesto que la desigualdad en su estado original es
Cap´ıtulo 3. Variable aleatoria bidimensional
143
y
y
y =w x
y =w x
z
z x
x
a)
b)
Figura 3.14: a) Dzw obtenida a partir de y ≤ wx b) Dzw obtenida a partir de xy ≤ w. sensible a los signos positivos/nega tivos de las variables involucradas. Por ello, hay que hacer un an´ alisis m´as pormenorizado: 1. Primer cuadrante: en este caso no hay duda, pues ambas magnitudes son positivas. Los puntos pertenecientes a la regi´on bajo estudio son los que se encuentran por debajo de la recta. 2. Segundo cuadrante: x es negativa, y es positiva, el cociente es negativo, luego es menor que w si w > 0. 3. Tercer cuadrante: los puntos de este cuadrante son puntos de ambas coordenadas negativas, luego el cociente es positivo. De ´estos, los que se encuentran por debajo de la recta tienen una ordenada que puede tomar valores arbitrariamente grandes, incluso con x = 0. Por ello, para estos puntos y/x > w. Por contra, los puntos por encima de la recta tienen signo positivo, y es la x la coordenada que puede crecer arbitrariamente, mientras que y crece de forma moderada. Estos puntos pertenecen a la regi´on. 4. Cuarto cuadrante: el cociente es negativo, luego todos los puntos pertenecen a la regi´ on. La regi´on resultante es pues la que se encuentra sombreada en la figura 3.14b).
144
C. Alberola L´ opez
♣ En cualquier caso, el m´etodo aqu´ı descrito no es empleado con frecuencia pues, como veremos a continuaci´on, existe una expresi´ on cerrada para la obtenci´ on de la funci´ on de densidad conjunta de dos variables transformadas, la cual constituye el Teorema Fundamental bidimensional.
3.5.3
Teorema Fundamental
Buscamos una extensi´on bidimensional de la metodolog´ıa descrita en la secci´on 2.6.3 del cap´ıtulo anterior. Tal metodolog´ıa, recu´erdese, proporcionaba una expresi´ on cerrada para la obtenci´ on de la funci´ on de densidad de probabilidad de la VA transformada a partir de la VA origen de la transformaci´on. Por tanto, dado que trabajaremos con funciones de densidad de probabilidad, tendremos que hacer uso de c´ alculo diferencial, empleando en nuestros razonamientos sucesos asociados a rect´angulos elementales en cada uno de los dominios (z, w) y (x, y). Consideremos una situaci´ on como la descrita en la figura 3.15. Podemos w
y
w+d w w y2 y3 y1 z z
z+dz
x x1
x2
x3
Figura 3.15: Puntos que se corresponden en planos destino y origen. ver que el punto (z, w) procede de la transformaci´ on de varios puntos del dominio (x, y). Por ello, dado que queremos hallar la funci´ on de densidad de la VA bidimensional (Z, W) podemos escribir fZW (z, w)dzdw = P (z < Z ≤ z + dz, w < W ≤ w + dw) = P ((x1 < X ≤ x1 + dx1 , y1 < Y ≤ y1 + dy1 ) ∪ (x2 < X ≤ x2 + dx2 , y2 < Y ≤ y2 + dy2 ) ∪ (x3 < X ≤ x3 + dx3 , y3 < Y ≤ y3 + dy3 )) (3.35) Generalizando, podemos escribir fZW (z, w)dzdw = P (z < Z ≤ z + dz, w < W ≤ w + dw)
Cap´ıtulo 3. Variable aleatoria bidimensional
= P
N
145
[xi < X ≤ xi + dxi , yi < Y ≤ yi + dyi ]
i=1
= =
N i=1 N
P (xi < X ≤ xi + dxi , yi < Y ≤ yi + dyi ) fXY (xi , yi )|dxi ||dyi |
i=1
(3.36) donde los valores absolutos se han incluido para evitar problemas de signos entre los diferenciales, dado que vamos a hacer uso de una relaci´on expl´ıcita entre ambos. En efecto, la relaci´on que liga los cuatro diferenciales es dzdw = |J(x, y)|dxdy con J(x, y) el jacobiano de la transformaci´ on, el cual es igual a J(x, y) =
∂z ∂x ∂w ∂x
∂z ∂y ∂w ∂y
(3.37)
Despejando la expresi´ on anterior a favor de la funci´ on de densidad fZW (z, w) podemos escribir fZW (z, w) =
N fXY (xi , yi ) i=1
dzdw |dxi ||dyi |
N fXY (x, y) = |J| i=1
(3.38) (xi ,yi )
expresi´on que constituye el teorema fundamental extendido a dos dimensiones. Rep´arese que esta expresi´on permite construir punto a punto la funci´ on de densidad de la VA (Z, W) lo cual significa que para cada punto (z, w) el n´ umero N de ra´ıces (xi , yi ), esto es, el n´ umero de puntos del plano origen que se transforman en el punto (z, w), puede variar. Por ello, estrictamente, el par´ametro N debe escribirse como N (z, w). Al respecto de este teorema debe recordarse que: • La soluci´on debe proporcionarse en funci´on de las variables (z, w). Por ello, debe acudirse a las funciones inversas de g(x, y) y h(x, y) o a cualquier otro procedimiento que se estime conveniente, para escribir la expresi´ on resultante del empleo del teorema en funci´on de las variables correctas.
146
C. Alberola L´ opez
• Asimismo, debe indicarse cu´al es la zona de validez de la expresi´on o expresiones resultantes de la aplicaci´ on del teorema. Finalmente debe recordarse que la expresi´on (3.38) puede escribirse, de forma alternativa, a trav´es del jacobiano de la funci´ on inversa. Denominando a dicho jacobiano J−1 (z, w) podemos escribir dxdy = |J−1 (z, w)|dzdw con
J−1 (z, w) =
∂x ∂z ∂y ∂z
∂x ∂w ∂y ∂w
por lo que fZW (z, w) =
N
fXY (x, y)|J−1 ||(xi ,yi )
(3.39)
i=1
igualdad que puede resultar de inter´es en funci´ on de las expresiones concretas de las operaciones a realizar. Ejemplo 1: Sean X e Y VAs uniformes en el intervalo (0, 1) e independientes. Se generan las VAs Z y W mediante: Z = g(X, Y) = XY W = h(X, Y) = X Obt´engase mediante el Teorema Fundamental la funci´ on de densidad fZW (z, w). Soluci´ on: Puesto que las VAs X e Y son independientes, la funci´ on de densidad conjunta puede escribirse fXY (x, y) = fX (x)fY (y), por lo que ´esta es constante de valor unidad en el interior del cuadrado 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, y nula fuera de dicha regi´ on. La transformaci´ on es inyectiva (salvo para el punto (z, w) = (0, 0), de contribuci´ on irrelevante a la probabilidad de sucesos definidos sobre la VA), de forma que podemos escribir: fZW (z, w) =
fXY (x, y) |J|
Cap´ıtulo 3. Variable aleatoria bidimensional
147
Sustituyendo t´erminos fZW (z, w) =
=
y 1
1 x 0
1 1 = | − x| |x|
Llegado a este punto resta indicar las dos cuestiones anteriormente apuntadas. As´ı pues 1. Para escribir la expresi´ on en funci´ on de (z, w) en este ejemplo las cosas son particularmente sencillas pues existe una identidad entre X y W. Ello nos permite escribir: fZW (z, w) =
1 w
2. La expresi´on anterior es v´ alida en la regi´ on del plano (z, w) sobre la que se transforma el cuadrado de lado 1 donde es no nula la funci´ on de densidad fXY (x, y). Para ver qu´e regi´ on es ´esta podemos razonar componente a componente:
w=z
w 1 w
0
z z=w
Figura 3.16: Regi´ on de soporte de la funci´ on fZW (z, w). • Dado que W = X , si X var´ıa en el intervalo (0, 1), W har´ a lo propio.
148
C. Alberola L´ opez
• Para cada valor w de la VA W (es decir, cortando por una horizontal de ordenada arbitraria w, v´ease la figura 3.16), y dado que W = X, entonces la VA Z ser´ıa Z = wY lo cual indica que, sobre esa horizontal, el valor m´ınimo que puede tomar Z es 0 (correspondiente al valor m´ınimo de Y) y el valor m´aximo es w (correspondiente al valor m´ aximo de Y). Por ello, para cada valor de W la VA Z var´ıa desde 0 hasta W, es decir, desde 0 hasta la bisectriz del primer cuadrante (zona sombreada de la figura 3.16). As´ı pues, la funci´ on pedida es fZW (z, w) =
1 w
0
0≤z≤w≤1 resto del plano
Ejercicio: Compru´ebese que el volumen encerrado bajo esta funci´ on de densidad es unitario. ♣ Ejemplo 2: Sean R y Θ dos VAs independientes donde R tiene una funci´ on de densidad Rayleigh, a saber, fR (r) =
r −r22 e 2σ u(r) σ2
y Θ ∼ U (−π, π). Se generan las VAs Z y W mediante: Z = g(R, Θ) = R cos(Θ) W = h(R, Θ) = R sin(Θ) Obt´engase mediante el Teorema Fundamental la funci´ on de densidad fZW (z, w). Soluci´ on: Es evidente que esta transformaci´on es un cambio de coordenadas polares a coordenadas cartesianas, de forma que la relaci´on es 1:1. Asimismo, los ´ındices de variaci´ on de las variables origen son tales que las VAs cartesianas Z y W podr´ an
Cap´ıtulo 3. Variable aleatoria bidimensional
149
tomar cualquier valor del plano R2 . Por ello las conclusiones que extraigamos ser´ an v´ alidas para todo el plano. Aplicando el Teorema Fundamental, tenemos fZW (z, w) =
fRΘ (r, θ) fR (r)fΘ (θ) = |J| |J|
donde el jacobiano es igual a cos(θ) −r sin(θ) J(r, θ) = sin(θ) r cos(θ)
= r(cos2 (θ) + sin2 (θ)) = r
Sustituyendo t´erminos −r 2
fZW (z, w) = = =
1 r 2σ2 2π σ 2 e
r −r 2 1 2σ 2 e σ 2 2π 1 − z2 +w2 2 e 2σ σ 2 2π
ya que r2 = z 2 + w2 . Rep´ arese que la expresi´on anterior puede factorizarse en z2 w2 1 1 √ e− 2σ2 √ e− 2σ2 σ 2π σ 2π = fZ (z)fW (w)
fZW (z, w) =
de donde se deduce que ambas variables son independientes, y marginalmente gaussianas, de media nula y desviaci´on t´ıpica σ. ♣
3.5.4
M´ etodo de la variable auxiliar
Los ejemplos anteriores han puesto de manifiesto que el Teorema Fundamental es una herramienta poderosa para realizar el c´alculo de la funci´ on de densidad conjunta de dos VAs. Ser´ıa pues deseable poder emplear este teorema para la situaci´on que analizamos en el apartado 3.5.1, a saber, la caracterizaci´on probabil´ıstica de una u ´nica funci´ on de dos VAs Z = g(X, Y).
150
C. Alberola L´ opez
La manera mediante la cual esto es posible no es otra que convirtiendo artificialmente el problema Z = g(X, Y) en un problema del tipo Z = g(X, Y) = XY W = h(X, Y) definiendo una VA W arbitraria. A esta VA se le denomina variable auxiliar, de la que este m´etodo toma el nombre. Realizado esto, bastar´ıa ejecutar las dos acciones siguientes: 1. Obtener la funci´ on de densidad conjunta fZW (z, w) mediante el Teorema Fundamental. 2. Obtener la funci´ on de densidad marginal de la VA realmente involucrada en el problema. Para ello.
fZ (z) =
∞
−∞
fZW (z, w)dw
Es pr´ actica habitual, por sensatez b´ asica, escoger una VA auxiliar que coincida con una de las dos VAs origen de la transformaci´ on. El motivo es obvio: dado que las operaciones a realizar pueden ser complicadas, interesa que la VA auxiliar sea lo m´as sencilla posible. El hecho de que coincida con una de las dos VAs origen garantiza que un elemento de la matriz de derivadas para el c´alculo del jacobiano sea nulo. Asimismo, a la hora de escribir fZW (z, w) como funci´ on de las variables (z, w) la inversi´ on es m´as sencilla si una de las dos variables (x, y) pasa directamente al dominio (u, w). Ejemplo: Obt´engase la funci´ on de densidad de probabilidad de la suma de dos VAs X e Y, cuya funci´ on de densidad fXY (x, y) se asumir´a conocida. Particular´ıcese para el caso en que ´estas sean independientes. Soluci´ on: En el enunciado se plantea, exclusivamente, la funci´on Z = g(X, Y) = X + Y. Para emplear el m´etodo de la variable auxiliar hacemos uso de una segunda transformaci´ on. Para ello, definimos Z = g(X, Y) = X + Y W = h(X, Y) = X
Cap´ıtulo 3. Variable aleatoria bidimensional
151
Con estas dos VAs podemos aplicar el Teorema Fundamental; dado que la transformaci´ on es lineal de determinante no nulo, la relaci´on es 1:1, por lo que podemos escribir fZW (z, w) =
fXY (x, y) |J|
Sustituyendo t´erminos fZW (z, w) =
fXY (x, y) 1 1 1 0
fXY (x, y) fXY (x, y) = = fXY (x, y) | − 1| 1 = fXY (w, z − w) =
Por tanto
fZ (z) =
∞
−∞
fZW (z, w)dw =
∞
−∞
fXY (w, z − w)dw
Si particularizamos para el caso en que la VAs X e Y sean independientes entonces
fZ (z) =
∞
−∞
fXY (w, z − w)dw
= fX (z) ∗ fY (z)
∞
−∞
fX (w)fY (z − w)dw
es decir, como ya conocemos de la secci´on 3.5.1, la convoluci´ on de las funciones de densidad de cada una de las VAs. En dicha secci´on llegamos a este mismo resultado con algo m´as de esfuerzo. ♣
3.6
Caracterizaci´ on parcial de una funci´ on de dos variables aleatorias
En el cap´ıtulo anterior (secci´on 2.7) vimos que si nos enfrent´abamos a la situaci´on Y = g(X), pero s´olo est´abamos interesados en calcular ciertos par´ ametros de caracterizaci´on parcial de la VA Y, entonces no hab´ıa raz´on
152
C. Alberola L´ opez
para calcular la funci´ on de densidad fY (y) de esta VA, sino que bastaba con la transformaci´ on g(X) y la funci´ on de densidad de la VA X para hallar cualquier momento de la VA Y. Estas conclusiones aplican, por id´entico motivo, al caso Z = g(X, Y). Si necesitamos conocer, en relaci´on con la VA Z, el valor de E{h(Z)}, podemos reflejar el problema sobre el dominio (X, Y) (al cual, naturalmente, supondremos caracterizado) y escribir
E{h(Z)} = E{h(g(X, Y))} =
h(g(x, y))fXY (x, y)dxdy
En particular, si h(Z) = Z entonces
(3.40)
E{h(Z)} = E{Z} = E{g(X, Y)} =
g(x, y)fXY (x, y)dxdy
(3.41)
Si Z = g(X, Y) = aX + bY + c, con a, b, c constantes reales, tendremos E{Z} = E{g(X, Y)}
=
=
(ax + by + c)fXY (x, y)dxdy
axfXY (x, y)dxdy + cfXY (x, y)dxdy
= a c
fXY (x, y)dxdy
xdx
c
yfXY (x, y)dxdy +
fXY (x, y)dy + b
ydy
fXY (x, y)dx +
fXY (x, y)dxdy
= a
xfXY (x, y)dxdy + b
= a
byfXY (x, y)dxdy +
xfX (x)dx + b
yfY (y)dy + c
= aE{X} + bE{Y} + c
(3.42)
es decir, el operador esperanza matem´ atica es, tambi´en para funciones de dos variables, un operador lineal. Finalmente, indiquemos que si las VAs son discretas podremos escribir E{Z} = E{g(X, Y)} = =
i
j
i
g(xi , yj )pij
g(xi , yj )P (X = xi , Y = yj )
j
(3.43)
Cap´ıtulo 3. Variable aleatoria bidimensional
3.6.1
153
Esperanzas condicionadas
El c´alculo de una esperanza condicionada es similar al de una esperanza incondicional. Lo u ´nico que var´ıa es el empleo de una funci´ on de densidad condicionada en lugar de una incondicional. Concretamente, si Z = g(X, Y) y M ∈ Fc , con Fc la clase de sucesos del experimento compuesto c , podremos escribir E{Z|M } = E{g(X, Y)|M } =
g(x, y)fXY (x, y|M )dxdy
(3.44)
Especial inter´es tiene el caso particular Z = g(X, Y) = Y con el condicionante M = {X = x}. En tal caso calcular´ıamos
fXY (x, y) dy = ϕ(x) fX (x) (3.45) Haremos uso extensivo de la misma en la secci´on 3.7.6. E{Y|X = x} = E{Y|x} =
3.6.2
yfY (y|x)dy =
y
Momentos conjuntos
Los momentos vistos en el cap´ıtulo anterior se extienden al caso bidimensional de la forma que sigue: • Momento no central de ´ordenes (r, s): mrs = E{Xr Ys } =
xr y s fXY (x, y)dxdy
(3.46)
• Momento central de ´ordenes (r, s): µrs = E{(X−ηX ) (Y−ηY ) } = r
s
(x−ηX )r (y−ηY )s fXY (x, y)dxdy (3.47)
donde, como es conocido, los ´ordenes r, s ∈ Z + t´ıpicamente. De nuevo, si las VAs involucradas fuesen discretas, los operadores anteriores se reducir´ıan a sumatorios. Por ejemplo, el momento central anteriormente definido se escribir´ıa µrs = E{(X−ηX )r (Y−ηY )s } =
i
(xi −ηX )r (yj −ηY )s P (X = xi , Y = yj )
j
(3.48) Entre todos estos momentos son de particular inter´es los introducidos en el cap´ıtulo anterior, l´ease, media, varianza y VCM. Asimismo, y de nueva introducci´ on, son los siguientes:
154
C. Alberola L´ opez
• Correlaci´ on: RXY = m11 = E{XY} • Covarianza: CXY = µ11 = E{(X − ηX )(Y − ηY )} Estas dos magnitudes est´an relacionadas debido a la propiedad de linealidad del operador esperanza. En efecto: CXY = E{(X − ηX )(Y − ηY )} = E{XY − ηY X − ηX Y + ηX ηY } = RXY − ηY ηX − ηX ηY + ηX ηY = RXY − ηX ηY
(3.49)
N´otese que esta igualdad es an´aloga a la igualdad que relaciona varianza con VCM y media al cuadrado. De hecho, si en la expresi´on anterior la VA Y se sustituye por la VA X, entonces obtenemos la igualdad (2.48). Por tanto, la covarianza entre dos variables es la generalizaci´ on del concepto de varianza, y el correlaci´on es la generalizaci´on del valor cuadr´ atico medio. Un coeficiente que se emplea con la pr´actica es el llamado coeficiente de correlaci´ on o covarianza normalizada. Se define: ρXY =
CXY σX σY
(3.50)
on y es un valor real que verifica que |ρXY | ≤ 1. Mide el grado de relaci´ lineal que existe entre las VAs, esto es, el grado en el que una VA, digamos Y, se puede predecir mediante una funci´ on lineal de la otra (VA X, en este caso). La predicci´on perfecta se da cuando ρXY = ±1 y tal relaci´ on no existe cuando ρXY = 0. Posponemos los detalles sobre esta cuesti´on hasta la secci´on 3.7.4 (t´engase en cuenta, no obstante, el comentario que se hace en el ejercicio de la p´agina 155). Las definiciones anteriores se complementan con las siguientes: • Incorrelaci´on: dos VAs se dice que son (o que est´an) incorreladas si CXY = 0. En tal caso se verifica tambi´en que ρXY = 0 y, por tanto, incorrelaci´ on implica ausencia de relaci´on lineal entre las VAs. • Ortogonalidad: dos VAs se dice que son ortogonales si RXY = 0. Tales definiciones traen consigo las siguientes consecuencias: 1. Si las VAs X e Y son independientes, entonces son incorreladas. En efecto, CXY = E{(X − ηX )(Y − ηY )}
Cap´ıtulo 3. Variable aleatoria bidimensional
=
∞
∞
−∞ −∞ ∞ ∞
=
−∞ −∞ ∞
=
−∞
155
(x − ηX )(y − ηY )fXY (x, y)dxdy (x − ηX )(y − ηY )fX (x)fY (y)dxdy
(x − ηX )fX (x)dx
∞
−∞
(y − ηY )fY (y)dxdy
= (E{X} − ηX )(E{Y} − ηY ) = 0 Conceptualmente esto es debido a que la independencia entre VAs implica ausencia de relaci´ on entre las variables, mientras que la incorrelaci´on implica ausencia de relaci´ on lineal entre las VAs. Por ello, la segunda est´a incluida en la primera, de forma que si se verifica la primera, debe verificarse la segunda. Por esta misma raz´ on el rec´ıproco, en general, no es cierto. Ejercicio: Considere X ∼ N (0, σ). Se define Y = X2 . Indique si las VAs son incorreladas e independientes. Soluci´ on: Por simple inspecci´on es obvio que las VAs no pueden ser independientes, dado que una es funci´on de la otra (sabido lo que vale X es conocido el valor de Y). Respecto a la incorrelaci´on, calculemos su covarianza: CXY = E{(X − ηX )(Y − ηY )} = RXY − ηX ηY
= RXY = E{XY} = E{X3 }
=
∞
−∞
x3 fX (x)dx = 0
La integral anterior es nula dado que la funci´ on de densidad de la VA X es una funci´ on par, mientras que la funci´ on 3 f (x) = x es impar, y el intervalo de integraci´on es sim´etrico con respecto al cero. Por tanto, las VAs son incorreladas, pero no independientes. Rep´ arese que, como diremos en el apartado 3.7.4, la incorrelaci´on implica que la variable Y no se puede predecir con una funci´ on lineal de la VA X mejor que mediante una simple constante. Sin embargo no debe entenderse que esto es debido a que no existe un t´ermino lineal en la relaci´ on entre X e Y. En particular, si se repite el ejercicio para Y = X3 se ver´a que, si bien no existe una relaci´on anal´ıtica
156
C. Alberola L´ opez
lineal entre las VAs, s´ı que existe una covarianza no nula. Con ello se est´a afirmando que una funci´ on lineal de la VA X predice mejor a la VA Y (apartado 3.7.4) que una recta horizontal de valor igual a la media de la VA Y (apartado 3.7.3). ♣ 2. Si X e Y son incorreladas: (a) CXY = 0 → RXY = E{XY} = E{X}E{Y}, es decir, la esperanza del producto es igual al producto de las esperanzas (b) La varianza de la suma es igual a la suma de las varianzas. En efecto: 2 σX+Y = E{((X + Y) − (ηX + ηY ))2 }
= E{((X − ηX ) + (Y − ηY ))2 }
= E{(X − ηX )2 + (Y − ηY )2 + 2(X − ηX )(Y − ηY )} 2 2 + σY + 2CXY = σX
(3.51)
Si las VAs son incorreladas, el tercer sumando se anula, y se verifica el resultado indicado. 3. Incorrelaci´ on y ortogonalidad son una misma propiedad si al menos una de las dos VAs involucradas tiene media nula. Tal afirmaci´ on es obvia a partir de la relaci´ on (3.49). 4. Sin las VAs son ortogonales, entonces el VCM de la suma es igual a la suma de los VCMs. Esto se deduce haciendo un razonamiento paralelo al hecho para la varianza de la suma, de la forma: E{(X + Y)2 } = E{X2 + Y2 + 2XY} = E{X2 } + E{Y2 } + 2E{XY} = E{X2 } + E{Y2 } + 2RXY
(3.52)
Interpretaci´ on geom´ etrica Es f´ acil comprobar que la operaci´ on E{XY} es un producto escalar, de forma que se puede considerar el espacio de las VAs como un espacio vectorial con una m´etrica asociada. En base a esto, los resultados expuestos anteriormente tienen una interpretaci´ on geom´etrica relativamente directa.
Cap´ıtulo 3. Variable aleatoria bidimensional
157
X- η
Y
X+Y
X
a)
Y- η
X
+ Y- η
Y
Y
X- η
X
b)
Figura 3.17: a) Ilustraci´ on del concepto de ortogonalidad. b) Ilustraci´ on del concepto de incorrelaci´on. Si consideramos el caso de dos VAs ortogonales, podemos interpretarlas como dos vectores cuyo producto escalar es nulo, esto es, como dos vectores perpendiculares. El VCM de cada una de las VAs ser´ıa igual a la norma del vector, esto es, a su m´odulo al cuadrado. Por ello, E{(X + Y)2 } ser´ıa igual a la norma del vector suma Z = X + Y, la cual, como muestra la figura ´ 3.17a) ser´ıa igual a la suma de las normas de cada uno de los vectores. Este es el resultado obtenido en la expresi´on (3.52) para el caso RXY = 0. La incorrelaci´ on puede ilustrarse mediante la figura 3.17b). En tal caso los vectores X−ηX e Y −ηY son ortogonales por lo que la norma del vector suma, l´ease, X + Y − (ηX + ηY ), es igual a la suma de las normas de cada uno de ellos. Como el VCM (la norma) calculado sobre una VA menos su media es igual a la varianza de la misma, la varianza de la suma es igual a suma de varianzas si las VAs son incorreladas (resultado indicado en la expresi´ on 3.51 para el caso CXY = 0).
3.7 3.7.1
Estimaci´ on de m´ınimo error cuadr´ atico medio Introducci´ on
En este apartado indicaremos el procedimiento mediante el cual el valor y de una VA Y puede predecirse en base a la observaci´on x de que podamos disponer de otra VA X. Sabemos que si la relaci´on entre las variables fuese del tipo X = h(Y) con h() una funci´ on determin´ıstica y monovaluada, es decir, con h() una funci´ on no aleatoria y tal que cada origen tenga una u ´nica imagen, entonces, conocido el valor x que ha tomado la VA X conocer´ıamos sin error ninguno el valor y de la VA Y sin m´as que invertir la funci´ on en
158
C. Alberola L´ opez
el valor concreto observado x de la variable X, es decir, y = h−1 (x). Y EMISOR
^ = g (X) Y
X CANAL
RECEPTOR
Z
PERTURBACIONES
Figura 3.18: Diagrama de bloques de un esquema de comunicaciones. No obstante, existen numerosos casos en los que la relaci´on entre las variables X e Y no es determin´ıstica, sino aleatoria. De hecho, ´este es el caso m´as frecuente en los sistemas de comunicaciones. Seg´ un se representa en la figura 3.18, un emisor env´ıa un determinada se˜ nal; considerando un esquema muy simplificado del problema —con el objetivo de hacerlo encajar en un esquema de variables bidimensionales— pensemos que analizamos la situaci´ on en un estado est´atico, esto es, en un u ´nico instante temporal. Aceptando esto como premisa, la se˜ nal enviada por el emisor, en el instante temporal de an´ alisis, se reduce5 a un escalar y. Si el mensaje enviado cambia, el n´ umero a enviar ser´ıa otro, de forma que el conjunto de n´ umeros, cada uno asociado a un mensaje, constituir´ıa el conjunto de valores de una VA Y. Esta variable es transformada por el canal y, adem´ as, sobre ´esta se superponen un conjunto de perturbaciones aleatorias, de forma que la se˜ nal recibida se podr´ıa modelar como una VA X cuya relaci´on con la Y ser´ıa del tipo X = h(Y) + Z (3.53) con Z una VA que agrupar´ıa todas las perturbaciones que se habr´ıan superpuesto sobre la transformaci´ on de Y mediante el canal. En este caso, el receptor tratar´ a de averiguar el valor y que ha tomado la variable Y, pero, como se ve, en base a una observaci´on x de la VA X, versi´ on transformada y ruidosa de la variable de origen. Para ello construir´ a una funci´ on ˆ = g(X), la cual pretender´ Y a acercarse lo m´aximo posible al verdadero valor y que haya tomado la variable Y. No obstante, dado que la relaci´ on 5
Si la se˜ nal fuese y(t) ∈ R y analizamos el instante temporal t0 entonces el valor que manejar´ıamos ser´ıa y(t0 ) = y. Planteamos en este ejemplo un problema de filtrado de se˜ nales pero, para evitar emplear conceptos que analizaremos en el cap´ıtulo 5, hemos considerado la simplificaci´ on indicada.
Cap´ıtulo 3. Variable aleatoria bidimensional
159
es una relaci´ on aleatoria ya no es posible invertir la funci´ on de transformaci´on, de modo que nos tendremos que conformar simplemente con tratar de adivinar (en lenguaje t´ecnico, estimar) el valor que ha tomado la variable ˆ = g(X) se le denomina estimador original. Por esta raz´ on, a la funci´ on Y de la VA Y, y es una funci´ on de la VA X, esto es, una funci´ on que a cada observaci´on concreta x de la VA X le asocia un valor y que podr´ıa haber tomado la VA Y. Dado que g(X) es una funci´ on de VA, es tambi´en una VA, de forma que la expresi´on tratar de adivinar el valor que ha tomado la variable original tiene significado s´olo en t´erminos probabil´ısticos. ¿Qu´e criterio pues emplear para construir esta funci´ on? ^ Y =g (X ) 1
ε = Y - Y^ 2 1
y
0
^ =g (X ) Y
y
0
ε = Y - Y^ 2
^ Y3 =g (X )
y
0
ε = Y - Y^ 3
1
2
2
3
2
3
Figura 3.19: Ejemplo de prestaciones de diferentes selecciones de la funci´on de estimaci´on gi (X), {1, 2, 3}. Cada punto procede de una realizaci´ on de la VA X para el caso particular en que Y = y. Para ilustrar tal criterio, consideremos la situaciones que se indican en la figura 3.19. En ella se muestran los posible resultados de m´ ultiples ˆ i = gi (X) (i = 1, 2, 3) cuando experimentaciones con tres estimadores Y la cantidad correcta es Y = y. La parte izquierda de la figura muestra d´ onde han ca´ıdo cada uno de los valores gi (x), tomando como referencia el valor verdadero y. La derecha de la figura muestra c´omo se distribuyen los errores en la estimaci´on, entendiendo por tales los diferentes valores que ha tomado la VA error en la estimaci´ on, definida gen´ericamente como ˆ = Y − Y. Es claro, a partir de la figura que: ˆ 1 = g1 (X) se cometen errores centrados en • En el caso del estimador Y el error cero (los valores del estimador oscilan en torno a y), pero la dispersi´on de los mismos es elevada. ˆ 2 = g2 (X) la dispersi´on de los valores es peque˜ • Para Y na ya que todos se concentran en una parte reducida de los ejes dibujados. Sin embargo, los valores del error no est´an centrados sobre el valor 0 de error, sino que existe un t´ermino sistem´atico de error (sesgo, en adelante).
160
C. Alberola L´ opez
ˆ 3 = g3 (X) la variabilidad en el error es peque˜ • En el caso de Y na y adem´as no existe el error sistem´atico anterior sino que los valores de error oscilan en torno al cero. El tercer estimador parece el m´as adecuado y los estimadores que construiremos se dise˜ nar´ an con el objetivo de que se comporten como ´este. En la terminolog´ıa que conocemos, es decir, recordando que E{2 } = σ2 + E 2 {} podr´ıamos decir que: ˆ 1 = g1 (X) posiblemente se ha construido tratando de • El estimador Y minimizar el t´ermino E 2 {} de la expresi´ on anterior, pues, en efecto, el error tiene media nula, pero no se ha prestado atenci´ on a la varianza 2 σ del mismo. ˆ 2 = g2 (X) posiblemente se ha construido tratando • El estimador Y de minimizar el t´ermino σ2 de la expresi´ on anterior, pero no se ha considerado el t´ermino E 2 {}, de forma que el error tiene una media distinta de cero. • En el tercer caso se ha atendido a ambos criterios a la vez, esto es, se ha dise˜ nado con el criterio de minimizar E{2 }, por lo que se ha logrado una variabilidad peque˜ na y ausencia de sesgo6 . Los estimadores que se construyen acorde con la filosof´ıa de minimizar atico el valor de E{2 } se denominan estimadores de m´ınimo error cuadr´ medio y se denotan de forma abreviada por las siglas de su equivalente en ingl´es MMSEE (minimum mean square error estimator). En lo que sigue ´este ser´a el criterio que emplearemos para dise˜ nar estimadores. La estructura de la exposici´ on es como sigue: en primer lugar haremos una recopilaci´ on de los tres resultados b´ asicos de esta secci´on 3.7. Con ello se pretende disponer de una gu´ıa de referencia r´ apida, ajena a los detalles de obtenci´ on de los mismos. A continuaci´ on deduciremos tales resultados: en primer lugar estimaremos mediante una constante y obtendremos 6 Lo dicho es cierto, u ´ nicamente, para el caso en que la magnitud a estimar sea una VA ya que, como veremos, los estimadores presentar´ an— felizmente —ausencia de sesgo (a los cuales se denomina insesgados). Si la magnitud a estimar fuese una constante determin´ıstica desconocida, y estimada a partir de observaciones de VAs, la estimaci´ on que se construyese en base a minimizar el VCM del error no tendr´ıa por qu´e dar lugar a estimadores insesgados, pudi´endose perfectamente llevar a cabo un intercambio entre sesgo y varianza para minimizar tal VCM. Los estimadores de constante determin´ıstica que s´ı se ajustar´ıan a este tercer caso ser´ıan los conocidos como estimadores insesgados de m´ınima varianza [4]. Estas cuestiones, no obstante, caen fuera de los objetivos de este tratado, mencion´ andose aqu´ı u ´nicamente por completitud.
Cap´ıtulo 3. Variable aleatoria bidimensional
161
qu´e constante es la ´optima en el sentido MMSE. Seguidamente haremos lo propio, pero permitiendo que el estimador sea una funci´ on lineal de la observaci´on. Encontraremos qu´e recta es la ´optima en el sentido MMSE. Por u ´ltimo, eliminaremos todo tipo de restricci´on a la expresi´on funcional del estimador, de forma que deduciremos cu´al es el estimador ´optimo sin restricciones.
3.7.2
Resumen de estimadores
ˆ = g(X) = a. • Estimador mediante una constante: Y a = E{Y}
(3.54)
ˆ = g(X) = aX + b • Estimador lineal Y CXY 2 σX b = E{Y} − aE{X}
a =
(3.55) (3.56)
ˆ = g(X) • Estimador o´ptimo sin restricciones Y
g(X) = E{Y|X} =
3.7.3
∞
−∞
yfY (y|x)dy
(3.57)
Estimaci´ on mediante una constante
ˆ = g(X) = a, es decir, estimar Se va a construir un estimador del tipo Y mediante una constante, con independencia de la observaci´ on recibida. Como es natural, este estimador ser´a de una calidad cuestionable, pero es interesante conocerlo con el fin de poder ver que existen condiciones en las que un estimador tan simple es el ´optimo. Para hallar el valor de la constante que minimiza el error cuadr´atico medio procedemos de la forma siguiente: ˆ =Y−a = Y& −Y 2 ' $ % 2 ˆ = E (Y − a)2 E{ } = E Y − Y Entonces el valor de a ´optimo ser´ a (llamemos al ´optimo a∗ ) $
a∗ = arg min E (Y − a)2 a
%
162
C. Alberola L´ opez
y por ello $
dE (Y − a)2 da
%
= E{2 (Y − a) (−1)}
con lo que igualando a cero y despejando a favor de a obtenemos el resultado a∗ = E{Y}. En cuanto al error E{} = E {Y − a∗ } = E {Y} − a∗ = 0 $
%
$
%
2 E{2 } = E (Y − a∗ )2 = E (Y − E{Y})2 = σY
es decir, estamos cometiendo un error de media nula, y con una varianza tan grande como la de la varianza de la variable que pretendemos observar.
3.7.4
Estimaci´ on mediante una funci´ on lineal de la observaci´ on
ˆ = aX + b, es decir, una funci´ En este caso, el estimador ser´a del tipo Y on lineal del dato observado. Para hallar el valor de las constantes que minimizan el error cuadr´ atico medio procedemos de una forma similar al caso anterior: ˆ = Y − (aX + b) = Y−Y 2
E{ } = E
&
ˆ Y−Y
2 '
$
= E [Y − (aX + b)]2
%
(3.58) Derivando con respecto a cada uno de los par´ ametros e igualando a cero $
∂E [Y − (aX + b)]2
%
∂a % ∂E [Y − (aX + b)]2 $
∂b
= E{2(Y − (aX + b))(−X)} = 0 (3.59) = E{2(Y − (aX + b))(−1)} = 0
A partir de la ecuaci´ on (3.60) despejamos para obtener E{Y} − aE{X} − b = 0 → b∗ = E{Y} − aE{X} y sustituyendo en (3.59) E{XY} − aE{X2 } − bE{X} = 0
(3.60)
Cap´ıtulo 3. Variable aleatoria bidimensional
163
E{XY} − aE{X2 } − (E{Y} − aE{X})E{X} = 0 E{XY} − E{X}E{Y} − a(E{X2 } − E 2 {X}) = 0 CXY 2 = 0 → a∗ = 2 CXY − aσX σX Por lo tanto CXY 2 σX = E{Y} − a∗ E{X}
a∗ =
(3.61)
b∗
(3.62)
Al respecto del error podemos hacer un an´alisis similar al hecho en la secci´on anterior. Concretamente: E{} = E {Y − (a∗ X + b∗ )} = 0 (compru´ebese) $
E{2 } = σ2 = E [Y − (a∗ X + b∗ )]2
%
$
= E [Y − (a∗ X + E{Y} − a∗ E{X})]2 $
= E [Y − E{Y} − a∗ (X − E{X})]2
%
(3.63)
%
2 2 = σY + (a∗ )2 σX − 2a∗ E{(Y − E{Y})(X − E{X})} 2 2 + (a∗ )2 σX − 2a∗ CXY = σY
=
2 σY
+
CXY 2 σX
2
2 σX −2
CXY 2 CXY σX
2 C2 CXY 2 2 = σY − XY = σ 1 − Y 2 2 σ2 σX σY X 2 = σY (1 − ρ2XY )
(3.64)
con ρXY el coeficiente de correlaci´on entre las variables involucradas. N´otese por lo tanto: 2 , y coincidir´ • Si ρXY = 0 entonces σ2 = σY ıa con el caso de estimaci´on mediante una constante. N´otese que, en efecto, a∗ = 0 dado que la covarianza CXY ser´ıa nula (ecuaci´on 3.61), y as´ı pues estimar´ıamos ´ s´olo con b∗ = E{Y} (ecuaci´on 3.62). Este ser´ıa el caso de ausencia de relaci´ on lineal entre las VAs, esto es, no poder estimar mejor (en sentido MMSE) mediante una funci´ on lineal que mediante una constante (seg´ un indicamos ya en el ejercicio de la p´ agina 155).
164
C. Alberola L´ opez
• Si |ρXY | = 1 entonces σ2 = 0. La estimaci´on en este caso no ser´ıa una VA, sino una constante, y el error ser´ıa nulo. Estar´ıamos estimando con precisi´on perfecta. Por tanto, n´ otese que cuando se produce esta situaci´ on, el conocimiento de X hace que se conozca sin error ninguno la variable Y. Estar´ıamos en el caso de ambas variables relacionadas mediante una funci´ on determin´ıstica, concretamente, mediante una funci´ on lineal.
3.7.5
Principio de ortogonalidad
La estimaci´on lineal cumple el llamado principio de ortogonalidad que consiste en lo siguiente: considerando, como ya hemos dicho, la operaci´ on E{XY} como un producto escalar de las variables X e Y, aplicamos esta operaci´on al error E{X} = E {(Y − (a∗ X + b∗ ))X} ∗
(3.65)
2
∗
= E{XY} − (a )E{X } − b E{X} = E{XY} − (a∗ )E{X2 } − E{Y}E{X} + a∗ E 2 {X} 2 = CXY − CXY = 0 = CXY − a∗ σX
Y
ε
^ = g (X) Y X
Figura 3.20: Ilustraci´ on del principio de ortogonalidad. Puede por tanto concluirse que el estimador lineal es tal que el error cometido es ortogonal a la observaci´ on empleada. Podemos interpretar esto gr´ aficamente como que estar´ıamos proyectando la variable a estimar sobre la observaci´ on, de modo que el error cometido ser´ıa la componente de Y que se pierde al proyectar (v´ease figura 3.20). Este principio es una forma equivalente de obtener las ecuaciones de los par´ ametros de la estimaci´on. Rep´ arese que, de hecho, la expresi´on (3.65) es equivalente a la ecuaci´on (3.59).
Cap´ıtulo 3. Variable aleatoria bidimensional
3.7.6
165
Estimaci´ on ´ optima sin restricciones
Se pretende ahora construir el estimador o´ptimo sin ninguna restricci´on funcional sobre el mismo. Por ello, tendremos que acudir a su definici´ on gen´erica mediante la funci´ on g(X) y optimizar sobre dicha funci´ on ˆ = Y − g(X) = Y−Y $
2
E{ } = E (Y − g(X))
=
2
%
=
(y − g(x))2 fXY (x, y)dxdy
(y − g(x))2 fY (y|x)fX (x)dxdy
(3.66)
Entonces el estimador ´optimo ser´a (llam´emosle g ∗ (X)) g ∗ (X) = arg min E{2 }
(3.67)
g(X)
Acorde con la ecuaci´on (3.66) podemos escribir
fX (x)dx
2
(y − g(x)) fY (y|x)dy =
ϕ(g(x))fX (x)dx
(3.68)
Minimizar esta ecuaci´on con respecto a g(x) equivale a minimizar ϕ(g(x), x) con respecto a g(x). Por ello, podemos escribir dϕ(g(x), x) dg(x)
=
∂ ∂g(x)
= (−2)
dϕ(g(x)) dg(x)
= 0→
yfY (y|x)dy = g(x) ∗
g (x) =
(y − g(x))2 fY (y|x)dy
(y − g(x))fY (y|x)dy (y − g(x))fY (y|x)dy = 0 fY (y|x)dy = g ∗ (x)
(yfY (y|x)dy = E{Y|x}
(3.69)
Por lo tanto, podemos ver que el estimador o´ptimo sin restricciones es g ∗ (X) = E{Y|X}, es decir, la esperanza de la variable Y condicionada al valor que haya tomado la variable X. N´otese que en el caso en que las variables sean independientes, dado que fY (y|x) = fY (y), entonces E{Y|X} = E{Y} de forma que el estimador ´optimo, en este caso, coincidir´ıa con el estimador mediante una constante. Como resumen, podemos decir que
166
C. Alberola L´ opez
1. En general σ2 constante ≥ σ2 lineal ≥ σ2 no lineal 2. Si las VAs son incorreladas σ2 constante = σ2 lineal 3. Si las VAs son independientes σ2 constante = σ2 no lineal Ejercicio: Obtenga la media E{} y la varianza σ2 del error de estimaci´on = Y − E{Y|X}. Soluci´ on: Al respecto del valor medio: E{} = E{Y − E{Y|X}} = E{Y} − E{E{Y|X}} = E{Y} − E{g(X)} = E{Y} − = E{Y} − = E{Y} − = E{Y} −
∞
∞
−∞ −∞ ∞ ∞
yfY (y|x)dy fX (x)dx
yfXY (x, y)dxdy −∞ −∞ ∞ ∞
−∞ ∞
ydy
−∞
−∞
fXY (x, y)dx
yfY (y)dy
= E{Y} − E{Y} = 0 Respecto de la varianza: σ2 = E{2 } = E{(Y − E{Y|X})2 }
=
∞
∞
−∞ −∞ ∞ ∞
=
−∞ −∞ ∞
= =
−∞ ∞ −∞
(y − E{Y|x})2 fXY (x, y)dxdy (y − E{Y|x})2 fY (y|x)fX (x)dxdy
fX (x)dx
∞
−∞
(y − E{Y|x})2 fY (y|x)dy
2 σY|x fX (x)dx
2 } = E{σY|X
♣
Cap´ıtulo 4
Variable N-dimensional 4.1
Conceptos b´ asicos
Se pretende ahora generalizar al caso N-dimensional los conceptos vistos para N = 2 en el cap´ıtulo anterior. En este cap´ıtulo consideraremos que las VAs vienen dadas mediante un vector X = [X1 , . . . , XN ]T de N componentes. Esta notaci´on vectorial nos permitir´ a hacer, en algunos casos, operaciones con vectores y matrices de forma sencilla. El hecho de trabajar con un n´ umero gen´erico N de variables en vez de con N = 2 no supone cambio conceptual alguno; simplemente a˜ nade complejidad a las operaciones, pero los conceptos b´ asicos y, en particular, el concepto de comportamiento conjunto, se extienden directamente del caso de N = 2 a un caso de dimensi´ on arbitraria. Rep´ arese, no obstante, que los momentos definidos en las expresiones (3.46) y (3.47) de la secci´on 3.6.2, as´ı como el coeficiente de correlaci´on, son conceptos impl´ıcitamente bidimensionales, de los cuales aqu´ı tambi´en haremos uso de ellos. As´ı pues podemos recordar y extender conceptos generales de las VAs de la forma que sigue: 1. FX (x) = FX1 X2 ...XN (x1 , x2 , . . . , xN ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , XN ≤ xN ) 2. fX (x) = fX1 X2 ...XN (x1 , x2 , . . . , xN ) = 3. P (X ∈ D) =
∂ N FX1 X2 ...XN (x1 ,x2 ,...,xN ) ∂x1 ∂x2 ...∂xN
D fX1 X2 ...XN (x1 , x2 , . . . , xN )dx1 dx2 . . . dxN
con D una regi´ on arbitraria en el hiperespacio N -dimensional. 167
168
C. Alberola L´ opez
4. Reducci´on del n´ umero de variables de las funciones. Si consideramos, por ejemplo, que N = 4, podemos escribir FX1 X3 (x1 , x3 ) = FX1 X2 X3 X4 (x1 , ∞, x3 , ∞)
fX1 X4 (x1 , x4 ) =
∞
(4.1)
∞
−∞ −∞
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )dx2 dx3 (4.2)
5. Transformaciones: si ahora se verifica que Y = g(X), donde por g() representamos en modo compacto un vector g() = [g1 (), g2 (), . . . , gN ()]T de N transformaciones de RN → R, entonces el teorema fundamental extendido a N dimensiones se puede escribir M fX1 ...XN (x1 , . . . , xN ) fY1 ...YN (y1 , . . . , yN ) = |J| i=1
(4.3) (xi1 ,...,xiN )
donde el jacobiano de la transformaci´ on es ahora J =
∂g1 ∂x1
.. .
∂gN ∂x1
··· .. . ···
∂g1 ∂xN
.. .
∂gN ∂xN
(4.4)
y los puntos (xi1 , . . . , xiN ), i = (1, . . . , M ) son los M puntos del dominio origen que se convierten en el punto (y1 , . . . , yN ) donde estamos construyendo la funci´ on de densidad de la VA Y. Si el n´ umero de transformaciones gi fuese k < N , entonces podr´ıamos hacer uso de N − k variables auxiliares para poder aplicar el teorema fundamental. Con ello, extender´ıamos a N VAs el m´etodo de la VA auxiliar visto en la secci´on 3.5.4. 6. Independencia: tambi´en este concepto se extiende de una forma natural al caso de N variables. Si ´estas son independientes se verifica que existe independencia entre los sucesos definidos a partir de las mismas, en particular, entre los sucesos {Xi ≤ xi } y {Xj ≤ xj } ∀i = j. Por ello podremos escribir1 FX1 X2 ...XN (x1 , x2 , . . . , xN ) =
N
FXi (xi )
(4.5)
i=1 1 En t´erminos estrictos y seg´ un la notaci´ on de la secci´ on 1.7, el suceso en el experimento compuesto asociado al suceso {Xi ≤ xi } deber´ıa escribirse S1 × · · · × Si−1 × {Xi ≤ on simplificada, no obstante. xi } × Si+1 × · · · × SN . Emplearemos la notaci´
Cap´ıtulo 4. Variable N-dimensional
169
fX1 X2 ...XN (x1 , x2 , . . . , xN ) =
N
fXi (xi )
(4.6)
i=1
N´ otese que esta expresi´on implica independencia entre cada dos variables, entre cada tres etc ..., hasta la independencia conjunta de las N variables. El motivo no es otro que a partir de las expresiones anteriores podemos reducir a nuestro gusto el n´ umero de VAs involucradas sin m´as que aplicar la operativa indicada en las expresiones (4.1) y (4.2) y la igualdad se seguir´ıa manteniendo. 7. Distribuciones condicionadas: en el cap´ıtulo anterior obtuvimos que fXY (x, y) = fX (x|y)fY (y)
(4.7)
(expresiones 3.24 y 3.25). Para el caso de N variables las relaciones anteriores se generalizan de una manera similar a como se escrib´ıa la probabilidad de la intersecci´ on de N sucesos en el primer cap´ıtulo (ecuaci´on 1.25). All´ı escrib´ıamos P (A1 , A2 , . . . , AN ) = P (A1 |A2 , . . . , AN )P (A2 , . . . , AN ) = = P (A1 |A2 , . . . , AN )P (A2 |A3 . . . , AN ) · P (A3 |A4 . . . AN ) · · · P (AN −1 |AN )P (AN ) (4.8) o bien, de forma equivalente P (A1 , A2 , . . . , AN ) = P (A1 , A2 |A3 . . . , AN )P (A3 , . . . , AN ) = = P (A1 , A2 |A3 . . . , AN ) · P (A3 |A4 . . . , AN ) · · · P (AN −1 |AN )P (AN ) (4.9) Siguiendo este planteamiento, podemos escribir de forma similar2 , f (x1 , x2 , . . . , xN ) = f (x1 |x2 , . . . , xN )f (x2 , . . . , xN ) = = f (x1 |x2 , . . . , xN )f (x2 |x3 . . . , xN ) × f (x3 |x4 . . . xN ) · · · f (xN −1 |xN )f (xN ) (4.10) Como norma general: 2
Para no sobrecargar la notaci´ on quitamos los sub´ındices a las funciones de densidad por ser obvio a qu´e variables nos referimos.
170
C. Alberola L´ opez
(a) Para eliminar una variable a la izquierda de la l´ınea del condicionante, integramos con respecto a ella. Por ejemplo, para pasar de f (x1 , x2 |x3 ) a f (x1 |x3 ), integramos con respecto a x2 . En efecto, v´ease que f (x1 , x2 |x3 ) =
f (x1 , x2 , x3 ) f (x3 )
y, como sabemos, para eliminar la dependencia de x2 en la variable conjunta, integramos respecto a ella. As´ı pues
f (x1 , x2 |x3 )dx2 =
f (x1 , x3 ) f (x1 , x2 , x3 )dx2 = = f (x1 |x3 ) f (x3 ) f (x3 )
(b) Para eliminar la influencia de una variable que se encuentra a la derecha del condicionante, multiplicar´ıamos por la funci´ on de densidad de esa variable condicionada al resto de las VAs condicionantes, e integrar´ıamos con respecto a ella. Por ejemplo, para eliminar la influencia de x2 en f (x1 |x2 , x3 ) dado que f (x1 |x2 , x3 ) =
f (x1 , x2 , x3 ) f (x2 , x3 )
si ahora multiplicamos por f (x2 |x3 ), tendr´ıamos f (x1 |x2 , x3 )f (x2 |x3 ) =
f (x1 , x2 , x3 ) f (x2 , x3 ) f (x2 , x3 ) f (x3 )
on de forma que ya aparece la dependencia de x2 s´olo en la funci´ conjunta. Por tanto, integrando respecto a ella tendr´ıamos
f (x1 , x2 , x3 ) f (x2 , x3 ) dx2 f (x2 , x3 ) f (x3 ) f (x1 , x2 , x3 ) = dx2 f (x3 ) f (x1 , x3 ) = = f (x1 |x3 ) f (x3 ) (4.11)
f (x1 |x2 , x3 )f (x2 |x3 )dx2 =
8. Respecto de la estimaci´on MMSE: si la estimaci´ on es lineal, en el caso de N variables se desear´ıa estimar la VA Y como funci´ on lineal de X1 , . . . , XN , esto es, ˆ = g (X1 , . . . , XN ) = Y
N i=1
ai Xi + b
(4.12)
Cap´ıtulo 4. Variable N-dimensional
171
Los coeficientes ai , i={1,. . . ,N} y b se obtienen siguiendo un procedimiento similar al empleado para obtener las ecuaciones (3.59) y (3.60) de la secci´on 3.7.4. En este caso el n´ umero de ecuaciones resultante ser´a de N +1, coincidente con el n´ umero de inc´ognitas en la expresi´on (4.12). Si el estimador es el ´optimo sin restricciones, la extensi´on al caso de N variables de lo visto en la secci´on 3.7.6 es inmediata: debe calcularse la esperanza de Y condicionada a todas las variables observadas. Concretamente, la expresi´on (3.69) ahora se generaliza de la forma ˆ = g (X1 , . . . , XN ) = Y
yfY (y|X1 , . . . , XN ) dy
= E {Y|X1 , . . . , XN }
4.2
(4.13)
Esperanzas matem´ aticas
El operador esperanza lleva a cabo la misma funci´on que para el caso de N = 2. No obstante, para un N gen´erico, es c´omodo ordenar las esperanzas de cada variable por separado, y las esperanzas del producto de cada dos variables, respectivamente, en vectores y matrices. Con esta ordenaci´on, aparte de poder expresar la informaci´on de forma m´ as compacta, se podr´ an hacer operaciones de forma m´as r´apida como veremos en la secci´on siguiente. Por ello, podemos definir: 1. Vector de medias:
ηX
= E{X} =
ηX1 ηX2 .. .
(4.14)
ηXN 2. Matriz de correlaci´ on:
RX
= E{XX } = T
E{X1 X1 } E{X2 X1 } .. .
E{X1 X2 } E{X2 X2 } .. .
··· ··· .. .
E{X1 XN } E{X2 XN } .. .
E{XN X1 } E{XN X2 } · · · E{XN XN }
172
C. Alberola L´ opez
=
E{X21 } RX1 X2 · · · RX1 XN RX2 X1 E{X22 } · · · RX2 XN .. .. .. .. . . . . RXN X1 RXN X2 · · · E{X2N }
(4.15)
N´otese, pues, que esta matriz no es otra cosa que una tabla de N 2 elementos, donde los t´erminos de la diagonal principal son los VCMs de cada variable y el resto de los elementos son las correlaciones cruzadas entre cada dos variables distintas. Obviamente, para variables reales esta matriz es sim´etrica. 3. Matriz de covarianza: matriz similar a la anterior, pero ahora el t´ermino cij es la covarianza entre Xi y Xj , es decir, cij = E{(Xi −ηXi )(Xj − ηXj )}. Ello trae consigo que, en particular, los elementos de la diagonal principal sean las varianzas de cada una de las variables. As´ı pues3
CX =
2 σX 1 CX2 X1 .. .
CX1 X2 2 σX 2 .. .
CXN X1
CXN X2
· · · CX1 XN · · · CX2 XN .. .. . . 2 ··· σX N
(4.16)
En este caso la matriz es una tabla de N 2 n´ umeros en los que los elementos de la diagonal principal son las varianzas de cada variable y el resto son las covarianzas entre cada dos variables distintas. Esta matriz tambi´en es sim´etrica para VAs reales. De manera equivalente al caso bidimensional: • El vector X est´a formado por componentes ortogonales si RXi Xj = 0 ∀i = j. • El vector X est´a formado por componentes incorreladas si CXi Xj = 0 ∀i = j. 3
Seg´ un la expresi´ on (4.16) deber´ıamos llamar a esta matriz de varianzas y covarianzas, as´ı como a la matriz de la expresi´ on (4.15) matriz de valores cuadr´ aticos medios y correlaciones. Aqu´ı se ha empleado, sin embargo, la denominaci´ on m´ as com´ un en el ´ area de Teor´ıa de la Se˜ nal, aun a riesgo de pecar de anglicista.
Cap´ıtulo 4. Variable N-dimensional
173
El inter´es de que las componentes sean ortogonales y/o incorreladas viene dado por la nulidad de las esperanzas cruzadas en un problema de m´ ultiples variables. Concretamente: 1. Si las variables Xi son ortogonales, entonces se verifica que el VCM
de la variable Z = N i=1 Xi es igual a la suma de los VCMs. En efecto E{Z2 }
=
=
E
N
E
2
Xi
i=1
N
#
X2i
+E
i=1
=
N
$
%
E X2i +
i=1
=
N
$
%
E X2i +
N
Ortog.
i=1
N N
$
Xi Xj
i=1 j=1
Xi Xj
j=1 j=i
E {Xi Xj }
j=1 j=i
N N i=1
E X2i
N N
i=1
i=1 =
=E
N N
R Xi Xj
j=1 j=i
%
(4.17)
i=1
2. Si las variables fuesen incorreladas, se podr´ıan obtener conclusiones similares, pero en este caso en relaci´on con la varianza. Concretamente, la varianza de la suma ser´ıa igual a la suma de las varianzas. En efecto: E{(Z − ηZ )2 }
=
=
=
=
E
E
E
E
N i=1 N
Xi −
2
ηXi
i=1
i=1
(Xi − ηXi )(Xj − ηXj )
i=1 j=1
N
2
(Xi − ηXi )
i=1 N N
N
# 2
(Xi − ηXi )
+
174
C. Alberola L´ opez
E
=
N N i=1
N
=
N
$
N
Incorr.
%
$
%
E (Xi − ηXi )(Xj − ηXj )
j=1 j=i
$
%
E (Xi − ηXi )2 +
i=1 =
(Xi − ηXi )(Xj − ηXj )
j=1 j=i
E (Xi − ηXi )2 +
i=1 N N i=1
N N i=1
2 σX i
CXi Xj
j=1 j=i
(4.18)
i=1
4.3
Variables conjuntamente gaussianas
N variables aleatorias son conjuntamente gaussianas si la funci´ on de densidad conjunta de las mismas se puede escribir de la forma que sigue: fX1 ...XN (x1 , . . . , xN ) = fX (x) −1 1 − 12 (x−η X )T C X (x−η X ) e (4.19) = 1 N |CX | 2 (2π) 2 donde x = [x1 , x2 , . . . , xN ]T y η X y C X son, respectivamente, el vector de medias (expresi´on 4.14) y la matriz de covarianzas (expresi´on 4.16) de la variable N-dimensional. Si N VAs son conjuntamente gaussianas se verifica [12]: 2 ), ∀i = 1, . . . , N ; 1. que Xi ∼ N (ηXi , σX i
2. que cualquier subconjunto de k < N VAs extra´ıdo del vector X tambi´en constituye un vector de VAs conjuntamente gaussianas; 3. que la funci´ on de densidad de cualquier conjunto de k < N VAs del vector X, condicionada al conjunto de N − k VAs restantes, es tambi´en conjuntamente gaussiana. El estudio de variables gaussianas y conjuntamente gaussianas es particularmente interesante por diversas razones. Entre ellas:
Cap´ıtulo 4. Variable N-dimensional
175
1. Como se acaba de ver, la funci´ on de densidad conjunta de la variable gaussiana N -dimensional viene completamente caracterizada por el vector de medias y por la matriz de covarianzas. Por tanto, la funci´on de densidad conjunta (a partir de la cual, recu´erdese, se pueden calcular momentos centrales y no centrales de ´ordenes arbitrarios y que involucren a tantas variables como deseemos) viene dada, exclusivamente, por el momento no central m1 de cada VA (v´ease la secci´on 2.7.1), y por el momento central de ´ordenes r = 1 y s = 1 para cada par de VAs (v´ease secci´on 3.6.2). 2. Seg´ un se ver´a (secci´on 4.5.1), el Teorema del L´ımite Central hace que en la naturaleza muchos problemas de ´ındole estoc´astico tiendan a comportarse de forma gaussiana. 3. Los estimadores lineal y no lineal o´ptimos coinciden, es decir, para el caso de variables conjuntamente gaussianas las expresiones resultantes de (4.12) y (4.13) son id´enticas. Esto es debido a que la funci´ on de densidad conjunta (4.19) se construye haciendo uso, u ´nicamente, de medias y covarianzas, que es, a su vez, la informaci´on de que hace uso el estimador lineal (4.12). 4. En la gaussiana N -dimensional incorrelaci´ on tambi´en implica independencia. N´ otese que si las variables Xi est´an incorreladas entre s´ı entonces la matriz CX (ecuaci´on 4.16) es una matriz diagonal. Esto hace en la expresi´on (4.19) • que el determinante de la matriz CX pueda escribirse como el 2 de las N variables involucradas; producto de las varianzas σX i • que la forma cuadr´ atica que acompa˜ na la exponencial no tenga t´erminos cruzados del tipo (xi −ηXi )(xj −ηXj ), i = j. Por ello, la exponencial se puede escribir como productos de exponenciales con exponente de la forma
(xi − ηXi )2 exp − 2 2σX i
Aplicando estas simplificaciones es inmediato comprobar que fX (x) = N on implica, i=1 fXi (xi ), de forma que, como hemos dicho, incorrelaci´ para este tipo de variables, independencia.
176
C. Alberola L´ opez
5. La transformaci´ on lineal Y = AX del vector X de VAs conjuntamente gaussianas da lugar a un vector Y de VAs tambi´en conjuntamente gaussianas si la matriz Y es cuadrada y de rango completo N . Ejercicio 1: Demu´estrese por medio del Teorema Fundamental N-dimensional (expresi´ on 4.3) que si A es una matriz cuadrada de N × N y rango completo, entonces la VA generada mediante Y = A X es un vector de VAs conjuntamente gaussianas si el vector X lo es. Obtenga la expresi´ on de η Y y C Y en funci´ on de η X y C X . Soluci´ on: Si A es de rango completo entonces la combinaci´on lineal asociada a ella es biyectiva. Por ello, podemos escribir:
fX1 ...XN (x1 , . . . , xN ) = −1 |J| x=A y
fY1 ...YN (y1 , . . . , yN ) =
1
|C X | 2 (2π)
=
−1
1
1
e− 2 (A
N 2
−1
−1
y−η X )T C X (A
y−η X )
|A|
= fY (y) Denominando por conveniencia η = Aη X
(4.20)
entonces podemos escribir fY (y) = = =
1
1
1 2
N 2
1 2
N 2
|C X | |A|(2π) 1 |C X | |A|(2π) 1 1
−1
e− 2 (A 1
−1
e− 2 (A
−1
y−A
N
−1
−1
−1
(y−η))T C X (A
1
|C X | 2 |A|(2π) 2
−1
η)T C X (A
e− 2 (y−η)
−1
y−A
η)
(y−η))
−1 −1 −1 T (A )T C X A (y−η)
(4.21) Si denominamos ahora T
C = A C XA
(4.22)
Cap´ıtulo 4. Variable N-dimensional
177
y recordando que (A B)T (B
−1 T
)
T
= B A
T
T
= (B )−1
|A B| = |A||B| (suponiendo en el u ´ltimo caso que ambas matrices son cuadradas y de la misma dimensi´on), entonces C
−1
−1
T
= (A )−1 C X A
−1
= (A
−1 T
−1
) CX A
−1
y tambi´en se verifica que T
T
|C| = |A C X A | = |A||C X ||A | = |C X ||A|2 de forma que volviendo a la ecuaci´on (4.21) podemos escribir fY1 ...YN (y1 , . . . , yN ) =
1 1 2
|C| (2π)
1
N 2
e− 2 (y−η)
TC
−1
(y−η)
(4.23) por lo que concluimos que, en efecto, el vector Y es un vector de variables conjuntamente gaussianas. Asimismo, comparando la expresi´on obtenida con la indicada por definici´ on en la ecuaci´on (4.19) vemos que los par´ametros η Y y C Y , coinciden con los definidos por comodidad en las expresiones (4.20) y (4.22), por tanto ηY = A η X C Y = A C XA
T
♣ Ejercicio 2: Raz´onese que si A es una matriz de dimensiones M × N , con M < N , y de rango M , entonces la VA generada mediante Y = A X es un vector de VAs conjuntamente gaussianas. Obtenga la expresi´ on de η Y y C Y en funci´ on de η X y C X. Soluci´ on: La respuesta es afirmativa y para ello podemos razonar:
178
C. Alberola L´ opez
• Si M < N entonces tenemos un problema de M VAs en dominio destino y N VAs en dominio origen. • Podemos construir N − M VAs Z = [Z1 . . . ZN −M ]T auxiliares, y construir la transformaci´ on lineal
Y Z
= BX
con B una matriz cuadrada de rango completo N . Una elecci´on razonable es que el vector de VAs coincida, por ejemplo, con las N − M u ´ltimas VAs, es decir que Z = [Z1 . . . ZM −N ]T = [XM +1 . . . XN ]T lo cual puede conseguirse f´acilmente haciendo que
B=
A 0 I N −M
con 0 la matriz nula de dimensiones (N − M ) × M e I N −M la matriz identidad de dimensi´ on N − M . • Seg´ un se ha visto en el ejercicio anterior, el vector [Y Z]T es un vector de VAs conjuntamente gaussianas. • Por definici´ on, si el vector completo est´a formado por VAs conjuntamente gaussianas, cualquier subconjunto de VAs extra´ıdo del mismo tambi´en es conjuntamente gaussiano, en particular, un subconjunto formado por M (M < N ) VAs. Al respecto de η Y y C Y , aplicando la linealidad del operador esperanza: η Y = E{Y} = E{A X} = A η X C Y = E{(Y − η Y )(Y − η Y )T } = E{(A X − A η X )(A X − A η X )T } T
= E{A(X − η X )(X − η X )T A } T
= AE{(X − η X )(X − η X )T }A = A C X A
T
(4.24) expresiones que coinciden, respectivamente, con (4.20) y (4.22)
Cap´ıtulo 4. Variable N-dimensional
179
♣ Ejercicio 3: Particular´ıcese la expresi´on (4.19) para el caso N = 2 (gaussiana bivariante). Soluci´ on: Para el caso que se pide empleemos la notaci´on (X, Y) de forma similar a como hac´ıamos en el cap´ıtulo 3. La matriz de covarianza puede escribirse:
C XY =
2 σX CXY 2 CXY σY
cuyo determinante es 2 2 2 2 2 |C XY | = σX σY − CXY = σX σY (1 − ρ2XY )
y su inversa −1 C XY
1 = 2 2 σX σY (1 − ρ2XY )
2 σY −CXY 2 −CXY σX
La expresi´on (4.19) se particulariza para este caso de la forma fXY (x, y) =
1
!
2 σ 2 (1 σX Y
2π
1
−
ρ2XY )
e− 2 α
con α la forma cuadr´ atica presente en (4.19), la cual pasa a ser: α = =
=
1 × − ρ2XY )
2 σ 2 (1 σX Y
=
x − ηX y − ηY
x − ηX y − ηY
−1 C XY
x − ηX y − ηY
2 σY −CXY 2 −CXY σX
x − ηX y − ηY
2 (x − η )2 − 2C 2 2 σY X XY (x − ηX )(y − ηY ) + σX (y − ηY ) 2 σ 2 (1 − ρ2 ) σX Y XY 1 × (1 − ρ2XY )
(x − ηX )2 (x − ηX )(y − ηY ) (y − ηY )2 − 2ρXY + 2 2 σX σX σX σY
180
C. Alberola L´ opez
Por tanto, la expresi´ on de la gaussiana bivariante es fXY (x, y) =
1
!
σX σY 2π 1 − ρ2XY
1 − 12 (1−ρ2 ) XY
e
×
(x−ηX )(y−ηY ) (x−ηX )2 (y−ηY )2 −2ρXY + σX σX σ2 σ2 X Y
(4.25) ♣ Ejercicio 4: Compruebe que, para el caso de una VA gaussiana bivariante, el estimador lineal o´ptimo coindice con el estimador ´optimo sin restricciones. Soluci´ on: A partir de la expresi´ on (4.25) denominemos, por simplicidad en la escritura τ1 = x − ηX y τ2 = y − ηY ; podemos entonces escribir fXY (τ1 , τ2 ) =
1
!
σX σY 2π 1 − ρ2XY
1 − 12 (1−ρ2 ) XY
e =
×
τ12 τ2 τ τ −2ρXY σ 1 σ2 + 22 σ2 σ X X X Y
1
!
σX σY 2π 1 − ρ2XY
− 12
e
1 Ψ(τ1 ,τ2 ) (1−ρ2 ) XY
(4.26) Entonces Ψ(τ1 , τ2 ) =
2 τ 2 − 2ρ 2 2 σY XY σX σY τ1 τ2 + σX τ2 1 2 2 σX σY
2 τ 2 podemos conseguir un cuadrado Sumando y restando ρ2XY σY 1 perfecto de la forma
Ψ(τ1 , τ2 ) =
2 τ 2 − 2ρ 2 2 σY XY σX σY τ1 τ2 + σX τ2 1 + 2 σ2 σX Y
2 τ 2 − ρ2 σ 2 τ 2 ρ2XY σY 1 XY Y 1 2 σ2 σX Y
=
2 τ 2 1 − ρ2 (σX τ2 − ρXY σY τ1 )2 + σY 1 XY 2 σ2 σX Y
Cap´ıtulo 4. Variable N-dimensional
181
=
σY 2 τ −ρ σX 2 XY σX τ1
=
2
2 τ 2 1 − ρ2 + σY 1 XY
2 σ2 σX Y
τ2 − ρXY σσY τ1 X
2
τ 2 1 − ρ2XY + 1 2 σX
2 σY
Por ello, retomando la expresi´ on (4.26) fXY (τ1 , τ2 ) =
−
1 √
σX 2π
e
τ12 1−ρ2 XY 1 2(1−ρ2 σ2 ) XY X
(
) ·
−
1
!
σY 2π(1 − ρ2XY )
e
1 2(1−ρ2 ) XY
2 σ τ2 −ρXY σY τ1 X σ2 Y
con lo que si devolvemos la expresi´on a las variables originales x e y tendremos fXY (x, y) =
1 √
σX 2π
−
e
(x−ηX )2 σ2 X
· −
1
!
σY 2π(1 − ρ2XY ) =
1 √
σX 2π
−
e
!
(x−ηX )2 σ2 X
e
2 σ (y−ηY )−ρXY σY (x−ηX ) X 2 2 2(1−ρ )σ XY Y
·
1
σY 2π(1 − ρ2XY )
−
e
σ y− ηY +ρXY σY (x−ηX ) X 2 2(1−ρ )σ 2 XY Y
2
= fX (x)fY (y|x) donde la u ´ltima igualdad procede de las identidades (3.24) y (3.25). Entonces podemos afirmar que X ∼ N (ηX , σX )
! σY Y|x ∼ N ηY + ρXY (x − ηX ), σY 1 − ρ2XY σX
(4.27) por lo que, seg´ un se desprende de (4.27) σY (X − ηX ) E{Y|X} = ηY + ρXY σX
182
C. Alberola L´ opez
que resulta ser una funci´ on lineal de la VA X. ♣ Ejercicio 5: Considere que la secuencia x[n] = (x[0], x[1], x[2], x[3]) es filtrada a trav´es de un sistema lineal e invariante (LTI) con respuesta al impulso h[n] = (h[0], h[1], h[2]). Se pide que escriba la secuencia de salida en forma matricial. Soluci´ on: Como es bien sabido, la secuencia de salida de un sistema LTI con respuesta al impulso h[n] cuando la entrada es x[n] se obtiene mediante la expresi´on de la convoluci´ on de se˜ nales discretas y[n] =
∞
h[k]x[n − k]
k=−∞
Para el caso que se plantea en el ejercicio, el sumatorio tiene un recorrido finito. La secuencia x[n] tiene un tama˜ no de L = 4 puntos y la respuesta al impulso de P = 3 puntos. Por ello, la secuencia de salida y[n] tiene un tama˜ no de L + P − 1 = 4 + 3 − 1 = 6 puntos, cuyos valores son: y[0] = x[0]h[0] y[1] = x[0]h[1] + x[1]h[0] y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0] y[3] = x[1]h[2] + x[2]h[1] + x[3]h[0] y[4] = x[2]h[2] + x[3]h[1] y[5] = x[3]h[2] lo cual puede escribirse matricialmente como
y[0] y[1] y[2] y[3] y[4] y[5]
=
h[0] h[1] h[2] 0 0 0
0 h[0] h[1] h[2] 0 0
0 0 h[0] h[1] h[2] 0
0 0 0 h[0] h[1] h[2]
x[0] x[1] x[2] x[3]
Por tanto dado que la expresi´ on de la convoluci´ on no es otra que la de una combinaci´ on lineal, es obvio que si la entrada a
Cap´ıtulo 4. Variable N-dimensional
183
un sistema LTI es un vector de VAs conjuntamente gaussianas, la salida lo ser´a tambi´en4 . ♣
4.4
Variables complejas
En el caso en que las variables involucradas sean complejas, los resultados que hemos visto hasta ahora son aplicables con peque˜ nas variaciones. Concretamente, una variable compleja Z = X + jY tiene dos componentes reales, de forma que la funci´ on de densidad de la variable compleja coincide con la funci´ on de densidad de la variable bidimensional (X, Y). Para el caso de dos variables complejas tendr´ıamos cuatro variables reales, de forma que la funci´ on conjunta ser´ıa una funci´ on de densidad tetradimensional. Estos resultados se extender´ıan al caso de N variables. Con respecto a las esperanzas, E{Z} = E{X + jY} = E{X} + jE{Y}. Como puede verse, una esperanza es una medida de tendencia central, de forma que la media localiza a la variable compleja en torno a un punto del plano complejo. Por otra parte, la varianza es una medida de dispersi´ on, y medir´ıa en este caso c´omo se dispersa la variable compleja con respecto a su valor medio. As´ı pues, se plantea como un radio de dispersi´on de la forma 2 σZ = E{|Z − ηZ |2 } = E{(Z − ηZ )(Z − ηZ )∗ } ∗ = E{ZZ∗ } − ηZ ηZ
= E{|Z|2 } − |ηZ |2
(4.28)
donde E{|Z|2 } es el VCM de la variable Z. Si g(Z) es una funci´ on de la variable compleja Z el c´alculo de E{g(Z)} se hace definiendo esta funci´on en base a las componentes real e imaginaria de Z. As´ı pues, considerando que g(Z) se puede expresar en base a estas componentes como ϕ(X, Y) entonces
E{g(Z)} = E{ϕ(X, Y)} = 4
ϕ(x, y)fXY (x, y)dxdy
(4.29)
Estrictamente hablando, s´ olo las L primeras VAs ser´ıan conjuntamente gaussianas pues las P − 1 restantes son calculables a partir de las primeras. No obstante, en casos pr´ acticos el valor de L suele ser mucho mayor de P , por lo que los efectos de bordes de los transitorios del filtro son despreciables.
184
C. Alberola L´ opez
Si Z1 = X1 + jY1 y Z2 = X2 + jY2 son dos variables complejas independientes, entonces podremos escribir fX1 Y1 X2 Y2 (x1 , y1 , x2 , y2 ) = fX1 Y1 (x1 , y1 )fX2 Y2 (x2 , y2 )
(4.30)
Finalmente, la correlaci´ on y la covarianza se generalizan al caso complejo, simplemente, conjugando la segunda variable. Concretamente RZ1 Z2
= E{Z1 Z∗2 }
CZ1 Z2
= E{(Z1 − ηZ1 )(Z2 − ηZ2 ) }
(4.31) ∗
∗ = RZ1 Z2 − ηZ1 ηZ 2
(4.32)
N´otese pues que RZ2 Z1 CZ2 Z1
∗ = E{Z2 Z∗1 } = E ∗ {(Z1 Z∗2 )} = RZ 1 Z2
(4.33)
= E ∗ {(Z1 − ηZ1 )(Z2 − ηZ2 )∗ } = CZ∗ 1 Z2
(4.34)
= E{(Z2 − ηZ2 )(Z1 − ηZ1 )∗ }
de modo que las expresiones dadas para las matrices de correlaci´on y covarianza (ecuaciones 4.15 y 4.16) eran espec´ıficas del caso real. Para VAs complejas las matrices tienen que incorporar los complejos conjugados, de modo que las matrices no ser´an sim´etricas sino herm´ıticas (la matriz coincide con su conjugada traspuesta).
4.5 4.5.1
Teoremas asint´ oticos Teorema del L´ımite Central
En t´erminos muy amplios, el Teorema del L´ımite Central establece que la distribuci´ on de la suma de un n´ umero elevado de variables tiende a comportarse como la distribuci´ on de una variable gaussiana, tanto m´ as cuantas m´as variables intervengan en la suma. Este teorema aplica cuando las variables involucradas son independientes, aunque tambi´en puede ser cierto en algunos casos de dependencia. Las versiones m´as exigentes del teorema requieren que las variables que intervienen en la suma sean independientes e id´enticamente distribuidas (en adelante IID). No obstante esta segunda condici´ on se puede relajar siempre que ninguna variable domine sobre las dem´ as. ¿C´omo puede cuantificarse dicho dominio? Una posible forma es la siguiente [1]: denominando a las variables Xi , i = {1, . . . , N }, entonces
Cap´ıtulo 4. Variable N-dimensional
185
a)
b)
c)
d)
Figura 4.1: Ejemplo de convergencia hacia una distribuci´ on gaussiana a partir de VAs U (0, 1). a) Histograma de una u ´nica VA. b) Suma de dos VAs. c) Suma de cinco VAs d) Suma de 10 VAs. En todos los casos se ha superpuesto en l´ınea discontinua la funci´ on de densidad gaussiana con la media y varianza de la VA resultante de la suma de las VAs uniformes. 2 >B >0 1. σX 1 i
∀i = 1, . . . , N
2. E{|Xi − ηXi |3 } > B2
∀i = 1, . . . , N
con B1 y B2 dos constantes. Una expresi´on, por tanto, del teorema es: dadas Xi , i = {1, . . . , N }, variables independientes y que satisfacen las condiciones de suficiencia indicadas, entonces la distribuci´ on de la variable Z=
N i=1
Xi
186
C. Alberola L´ opez
tiene el comportamiento
FZ (z) −→N →∞
z − ηZ G σZ
(4.35)
con ηZ = 2 σZ =
N i=1 N
ηXi 2 σX i
i=1
N´otese que se ha hablado de convergencia en distribuci´ on, y no se ha dicho nada del comportamiento de la funci´ on de densidad de probabilidad. En general, en el caso de las variables continuas una convergencia suele traer consigo tambi´en la otra, de forma que si se cumple (4.35) se verifica tambi´en que (z−ηZ )2 − 1 2 √ e 2σZ fZ (z) −→N →∞ (4.36) σZ 2π on de densidad No obstante, si las variables Xi fuesen discretas, la funci´ de la suma ser´ıa la correspondiente a una VA tambi´en discreta (es decir, formada por impulsos) de forma que una funci´ on de densidad gaussiana no tendr´ıa por qu´e poder ajustarse a este esquema. Un caso particular de esto, como veremos a continuaci´on, es el caso en que los valores que tomen las VAs Xi sean equiespaciados, es decir, Xi = a · i. Intuitivamente puede ilustrarse el funcionamiento del teorema en base al teorema de la convoluci´on (v´ease secci´on 3.5.1). Como es sabido, la funci´ on de densidad de la suma de variables independientes es igual a la convoluci´ on de sus funciones de densidad. Considerando variables IID uniformes entre cero y uno, la figura 4.1a) muestra el histograma normalizado de la VA Z1 = X1 ; la figura 4.1b) lo hace para la VA Z2 = X1 + X2 y las figuras
4.1c) y 4.1d) muestran los histogramas respectivos de las VA Z5 = 5i=1 Xi
10 y Z10 = i=1 Xi Como puede verse, la funci´ on de densidad resultante va adquiriendo progresivamente una envolvente m´ as parecida a la curva gaussiana, tanto m´ as cuantas m´as funciones de densidad intervienen en la convoluci´ on.
4.5.2
Teorema de DeMoivre-Laplace
Es el caso particular del anterior teorema para VAs discretas con valores equiespaciados, en concreto, VAs Xi de Bernoulli (de par´ ametro p). En
Cap´ıtulo 4. Variable N-dimensional
187
este caso, asumiendo independencia entre las VAs, la distribuci´on de la VA Z=
N
Xi
i=1
que, como sabemos, en t´erminos exactos es una binomial, puede aproximarse (con N >> 1) mediante
FZ (z) ≈ G
z − ηZ σZ
con ηZ = N p σZ = N pq Asimismo, por ser una VA de valores equiespaciados zi = i · a = i, i = (0, . . . , N ) la envolvente de la funci´ on de densidad de la misma tambi´en es gaussiana (v´ease ecuaci´on (1.51) y figura 1.5 del primer cap´ıtulo). Esta aproximaci´on es tanto m´as v´alida cuanto m´ as cerca est´en los valores de la VA de su valor medio. Por este motivo, se plantearon en el cap´ıtulo primero condiciones adicionales de validez de la expresi´on (1.51).
4.5.3
Ley de los Grandes N´ umeros
La Ley de los Grandes N´ umeros es la conexi´on entre la probabilidad definida en t´erminos de frecuencia relativa y la probabilidad axiom´ atica. Constituye pues la base s´olida de argumentaci´on de que la frecuencia relativa tiende a la probabilidad axiom´ atica conforme el n´ umero de experimentos sobre los que se calcula esta frecuencia es cada vez mayor. Como se ver´a, la argumentaci´ on a emplear hace uso de conceptos vistos hasta ahora. Consideremos un determinado experimento aleatorio < S, F, P >, y aceptemos que dado un A ∈ F se verifica que P (A) = p. Ac´eptese que realizamos este experimento N veces, naturalmente, ejecuciones independientes entre s´ı, y que llevamos cuenta de cu´antas veces (de las N posibles) se ha verificado el suceso A. Denominemos a esta cantidad NA . En estas condiciones, es f´acil demostrar5 que la frecuencia relativa 5
Podr´ıa argumentarse que lo que haremos a continuaci´ on no es una demostraci´ on pues nos basaremos en una aproximaci´ on para conseguir la expresi´ on (4.38); no obstante, dado que la conclusi´ on se obtiene en el l´ımite (en el cual se verifica 4.35), la validez del resultado (4.39) est´ a fuera de duda.
188
C. Alberola L´ opez
fr (A) (v´ease secci´on 1.3.1) de aparici´ on de este suceso tiende a la probabilidad P (A) = p, o, formalmente lim P (|fr (A) − p| < δ) = 1
(4.37)
N →∞
∀δ > 0, δ ∈ R. Para ver que esto es as´ı basta caracterizar la VA NA . Esta VA es igual, como hemos dicho antes, al n´ umero de veces que se verifica el suceso deseado, de N veces posibles, cuando se ejecutan experimentos independientes. Esta VA, por definici´ on, es una VA Binomial, concretamente, B(N, p). As´ı pues, aplicando la aproximaci´ on de DeMoivre-Laplace, podemos escribir: P (|fr (A) − p| < δ) = P (−δ < fr (A) − p < δ) NA = P (−δ < − p < δ) N = P (N (p − δ) < NA < N (p + δ)) N (p + δ) − N p N (p − δ) − N p √ √ ≈ G −G N pq N pq Nδ Nδ = G √ − G −√ N pq N pq Nδ Nδ = G √ − 1−G √ N pq N pq Nδ = 2G √ −1 (4.38) N pq Por lo tanto
Nδ lim 2G √ −1 N →∞ N pq = 2G(∞) − 1 = 2 − 1 = 1
lim P (|fr (A) − p| < δ) =
N →∞
(4.39)
Naturalmente, en un caso real el n´ umero de ejecuciones del experimento no ser´a infinito, sino limitado. En tal caso la expresi´ on (4.38) sirve, para cada valor de p, para encontrar un intervalo de confianza donde se encontrar´ a la frecuencia relativa con una determinada probabilidad. Ejercicio: Sup´ ongase que se sospecha que para un cierto problema p = 0.6. Se pide que halle el n´ umero de veces N que debe realizarse un experimento para que la frecuencia relativa on del suceso est´e en un entorno de p de radio fr (A) de aparici´ δ = 0.05 con probabilidad 0.98.
Cap´ıtulo 4. Variable N-dimensional
189
Soluci´ on: Aplicando la expresi´ on (4.38) tenemos
Nδ − 1 = 0.98 P (|fr (A) − p| < δ) = 2G √ N pq Nδ = G √ = 0.99 N pq Por tanto
Nδ √ = G−1 (0.99) ≈ 2.33 N pq
por lo que √
√
N N
pq δ √ 2 pq 0.6 · 0.4 2.33 = (2.33)2 = 521.17 = δ 0.052
= 2.33
de forma que necesitamos hacer al menos N = 522 experimentos. ♣ Ejercicio: Demuestre la Ley de los Grandes N´ umeros mediante la desigualdad de Tchebycheff. Soluci´ on: En este caso la desigualdad de Tchebycheff (expresi´on 2.67) se escribir´ıa P (|X − ηX | < ) ≥ 1 −
2 σX 2
(4.40)
La VA en juego es NA . Esta VA se define NA = N i=1 Xi con Xi VA de Bernoulli de par´ ametro p, la cual toma el valor 1 cuando el suceso A se ha verificado. Las VAs Xi y Xj son independientes (luego, en particular, incorreladas) ∀i = j. As´ı pues, dado que fr (A) = NNA , se verifica que &
E{fr (A)} = E σf2r (A) =
NA N
'
=
N 1 E{Xi } = p N i=1
N 1 2 1 N pq pq 2 σ = σX = = NA i 2 2 2 N N i=1 N N
190
C. Alberola L´ opez
Por ello, sustituyendo en (4.40), tenemos P (|fr (A) − p| < ) ≥ 1 −
pq N 2 pq = 1 − lim = 1 (4.41) N →∞ N 2
lim P (|fr (A) − p| < ) ≥
N →∞
pq N 2
lim 1 −
N →∞
∀ > 0, como se quer´ıa demostrar. ♣
4.6
Algunos ejercicios ilustrativos
1.- Un sistema de vigilancia a´erea est´a constituido por N subsistemas y un control central; cada subsistema toma, en un determinado instante, una medida, tal que en condiciones de ausencia de aeronave puede modelarse como una variable aleatoria Xi i = {1, . . . , N } uniforme entre 0 y 1. Cada variable Xi est´a sometida a un proceso de acondicionamiento mediante la 1 funci´ on g(Xi ) = α1 [−ln(Xi )] β , (con α, β > 0), originando nuevas variables Yi , m´as apropiadas para basar en ellas las decisiones. El funcionamiento de cada subsistema puede considerarse independiente del resto de ellos. El control central combinar´ a la informaci´ on que recibe de los subsistemas para gestionar la presencia o ausencia de aeronave. La forma en que el sistema central combina la informaci´ on depender´ a de la estrategia de detecci´on a seguir. En estas condiciones: a) Considerando que la funci´ on de transformaci´ on g(Xi ) i = {1, . . . , N } es biun´ıvoca, obtenga la funci´ on de densidad de probabilidad y la media de cada variable Yi . b) Cada subsistema env´ıa al control central una se˜ nal de alarma (indicando que el sistema piensa que hay presencia de aeronave) si la amplitud de la Yi recibida supera un cierto umbral µ. Calcule el valor de ´este para que la probabilidad de falsa alarma (en adelante P f a) en cada subsistema sea igual a λ. Particularice para λ = 0.6, α = 4 y β = 3. c) Para aumentar la fiabilidad el control central sigue una estrategia de decidir presencia de blanco si al menos M subsistemas (de los N posibles) han enviado se˜ nal de alarma. Calcule la expresi´on de la Pfa del sistema, as´ı como su valor num´erico si M = 13, N = 20 (N >> 1) y el umbral µ es el del apartado anterior. d) Con el fin de reducir el n´ umero de operaciones a realizar por el
Cap´ıtulo 4. Variable N-dimensional
191
sistema de control para tomar una decisi´on se propone otra estrategia; ´esta consiste en los subsistemas en orden creciente de ´ındice (de 1 a N ), y dar alarma en cuanto alguno de ellos haya enviado se˜ nal de alarma. Obtenga el umbral µ para cada subsistema de modo que la Pfa de esta estrategia coincida con la del apartado c), as´ı como el n´ umero medio de operaciones realizadas por el sistema de control para tomar una decisi´on, suponiendo que la consulta a cada subsistema requiere P operaciones. Soluci´ on: a) La funci´ on de densidad de la VA cada Yi puede obtenerse mediante el Teorema Fundamental para variables unidimensionales (v´ease secci´on 2.6.3) cuya expresi´ on es fX (x) i fYi (y) = |g (x)| N (y) i=1
. x=xi
En nuestro caso N (y) = 1 ∀y que resulte ser imagen de la transformaci´on, puesto que ´esta es biun´ıvoca. Por otra parte podemos calcular la derivada de la transformaci´ on de la forma g(x) = g (x) = |g (x)| =
1 1 [−ln(x)] β α 1 1 1 −1 − [−ln(x)] β αβ x 1−β 1 1 [−ln(x)] β αβ x
Asimismo, a partir de la transformaci´ on es claro que −(αy)β = ln(x) x = e−(αy)
β
por lo que la expresi´ on del valor absoluto de la derivada podemos escribirla, de forma alternativa |g (x)| =
1−β 1 β (αy)β β e(αy) αβ
Ello trae consigo que la funci´ on de densidad resulte ser fYi (y) =
1 |g (x)|
=
1 1 αβ
[(αy)1−β ] e(αy)β
= αβ βy β−1 e−(αy)
β
= αβ(αy)β−1 e−(αy)
β
192
C. Alberola L´ opez
siendo esta expresi´ on v´ alida y > 0 y cero en el resto de la recta real. Al respecto del c´alculo de E{Yi } podemos escribir, haciendo uso de la igualdad (2.87) E{Yi } = E{g (Xi )} =
1
0
1 1 (−ln(x)) β dx α
Efectuando el cambio de variable ln(x) = τ y recordando la definici´ on de la funci´ on Γ(·) (expresi´ on (2.63)), podemos escribir
0
1 1 (−τ ) β eτ dτ −∞ α ∞ 3 4 1 β1 −τ 1 ∞ ( β1 +1)−1 −τ τ e dτ = = τ e dτ α α 0 0 1 1 1 1 Γ 1+ Γ = = α β αβ β
E{Yi } = E{g (Xi )} =
b) El valor µ debe ser tal que
∞
λ = P f a = P (Yi > µ) = µ ∞
= =
fYi (y)dy β
αβ βy β−1 e−(αy) dy
µ
−e−(αy)
β
∞ µ
= e−(αµ)
β
Por ello (αµ)β = −ln(λ) 1
αµ = [−ln(λ)] β 1 1 µ = [ln(λ)] β α
(4.42)
Para los valores planteados en el enunciado µ = 0.1998. c) Se plantea una composici´on de ensayos de Bernoulli (decisi´on en cada subsistema de presencia/ausencia de aeronave) mediante subsistemas independientes. Por ello, podemos emplear las conclusiones obtenidas en la secci´on 1.7.1. En particular, definiendo el suceso Bk como “ha habido k alarmas de N posibles”, la probabilidad pedida se puede escribir
Pfa = P
N
k=M
Bk
=1−P
M −1 k=0
Bk
=1−
M −1 k=0
P (Bk )
Cap´ıtulo 4. Variable N-dimensional
193
lo cual, en virtud de la expresi´on (1.49), podemos escribir Pfa = 1 −
M −1
N k N −k p q k
k=0
con p la probabilidad de que cada subsistema d´e alarma; como el umbral que se emplea en cada subsistema es µ entonces p = λ. Por ello Pfa = 1 −
M −1
N k λ (1 − λ)N −k k
k=0
(4.43)
Al respecto del valor num´erico y con el objetivo de facilitar el c´alculo, podr´ıa plantearse el uso de la aproximaci´on de DeMoivre-Laplace (expresi´on (1.52)); para ello debemos comprobar que se cumplen las condiciones de aproximaci´ on de forma satisfactoria (v´ease p´agina 46). Por una parte rep´ arese que λ(1 − λ)N = 0.6 · 0.4 · 20 = 4.8 valor que, si bien es mayor que uno, no es excesivamente mayor. El valor M − 1 = 13 − 1 = 12, por otra parte, s´ı se encuentra suficientemente pr´ oximo al valor N λ = 20 · 0.6 = 12; de hecho N = M − 1. Por ello, si bien no se cumplen enteramente las condiciones de la aproximaci´ on, ´esta nos podr´ıa proporcionar una primera idea del valor de la P f a. Aplicando dicha aproximaci´ on, con las reservas indicadas, obtenemos
M − 1 − Nλ Pfa ∼ =1−G " N λ(1 − λ)
= 1 − G(0) = 1 − 0.5 = 0.5
Si se calcula de forma num´erica el resultado de la expresi´on (4.43) para la valores propuestos resulta una probabilidad P f a = 0.41, por lo que, en efecto, la aproximaci´ on de DeMoivre-Laplace se aleja del valor real al no cumplirse, por completo, las condiciones para su empleo. d) Definamos el suceso Ai (i = {1, . . . , N }) como “el subsistema i-´esimo env´ıa alarma”, y aceptemos que P (Ai ) = p. En este caso el sistema decide falsa alarma, digamos, suceso F A si se verifica F A = A1
A1
A2
A1
A2
A3
...
N −1
Ai
AN
i=1
Sin embargo, a efectos del c´alculo de P f a es m´as sencillo emplear el suceso complementario FA =
N i=1
Ai
194
C. Alberola L´ opez
por lo que
P f a = P (F A) = 1 − P (F A) = 1 − P
N
Ai
i=1
= 1−
N
P (Ai ) = 1 − (1 − p)N
i=1
Para P f a = 0.5 el valor de p resultante es p = 0.0341. El umbral µ se calcular´ıa ahora haciendo uso de la expresi´ on (4.42), escribiendo p = P (Ai ) en lugar de λ. Sustituyendo los valores de α y β indicados en el apartado b), obtenemos µ = 0.3751. Al respecto del n´ umero medio de operaciones, definimos la VA Z como el “n´ umero de operaciones que realiza el control central para tomar una decisi´on”. A partir de esta definici´ on podemos escribir → P (Z = P ) = P (A1 ) = p → P (Z = 2P ) = P (A1 A2 ) = qp → P (Z = 3P ) = P (A1 A2 A3 ) = q 2 p
Z=P Z = 2P Z = 3P .. .
Z = (N − 1)P
→ P (Z = (N − 1)P ) = P
N −2
Z = NP
→ P (Z = N P ) = P
Ai
i=1
N −1
Ai
AN
= q N −2 p
AN −1
AN
=
i=1
= q N −1 (p + q) = q N −1 A partir de ello el c´alculo del valor medio E{Z} se llevar´ıa a cabo en base a la expresi´on (2.41) y operando de forma acorde. Concretamente E{Z} =
N
zi P (Z = zi ) =
N −1
i=1
(iP )q i−1 p + (N P )q N −1
i=1
Esta expresi´ on puede reformularse para extender el sumatorio al u ´ltimo N −1 N −1 =q (p + q), de modo valor de la VA empleando el hecho de que q que E{Z} = pP
N i=1
iq i−1 + N P q N
Cap´ıtulo 4. Variable N-dimensional
195
Para encontrar el valor de la serie anterior podemos partir de la igualdad S(q) =
N
qi =
i=1
q − q N +1 q(1 − q N ) = 1−q 1−q
y derivando con respecto al par´ ametro q tenemos dS(q) = dq
N
iq i−1 =
1 − (N + 1)q N [1 − q] + (q − q N +1 ) (1 − q)2
i=1
Por tanto
E{Z} = pP P = = =
1 − (N + 1)q N [1 − q] + (q − q N +1 )
(1 − q)2
+ qN N P
1 − (N + 1)q N (1 − q) + (q − q N +1 ) + pq N N P
p P (1 − q N )p − P N q N p + P q(1 − q N ) + P N q N p p N P (1 − q )(p + q) 1 − qN =P p p ♣
2.- Un detector de un sistema de comunicaciones digitales binario tiene dos canales (superior e inferior). La salida del canal superior ser´a la variable aleatoria X1 y la del canal inferior la variable X2 . Cuando el emisor transmite el s´ımbolo 1, las funciones de densidad de las variables mencionadas se sabe que son fXi (x) =
β −αi αi −1 −x/β e x Γ(αi )
x≥0
con i = {1, 2}, αi > 0, β > 0, y en las condiciones indicadas, α1 > α2 . Se sabe adem´as que las variables son independientes. El detector construye 1 la variable Z = X ımbolo enviado es un 1 si Z ≥ 1, y X2 , y decide que el s´ caso contrario considera que el s´ımbolo enviado es un 0. Suponiendo que el emisor transmite el s´ımbolo 1, se pide: a) fZ (z) b) ηZ
196
C. Alberola L´ opez
c) Sabiendo que la funci´ on de distribuci´ on de las variables arriba indicadas puede escribirse (si αi ∈ Z): −x/β
FXi (x) = 1 − e
α i −1 j=0
(x/β)j j!
x ≥ 0,
con i = {1, 2}, calcule, para α1 = 3 y α2 = 2, la probabilidad de detectar el s´ımbolo 1 correctamente. Soluci´ on: a) Las VAs X1 y X2 toman valores no negativos, luego su cociente tambi´en ser´a no negativo. Podemos emplear el m´etodo de la variable auxiliar (secci´on 3.5.4) de la forma X1 X2 W = X2 Z =
Entonces fX1 X2 (x1 , x2 ) 1 − x1 = x2 fX1 X2 (x1 , x2 ) x2 x2
fZW (z, w) =
0
2
1 = x2 fX1 (x1 )fX2 (x2 ) = wfX1 (zw)fX2 (w), w ≥ 0, z ≥ 0
Marginalizando, obtenemos
fZ (z) =
0
= =
∞
wfX1 (zw)fX2 (w)dw
β −α2 β −α1 (zw)α1 −1 e−zw/β (w)α2 −1 e−w/β dw Γ(α ) Γ(α ) 0 1 2 β −α1 β −α2 α1 −1 ∞ α1 +α2 −1 − z+1 w w e β dw z Γ(α1 ) Γ(α2 ) 0 ∞
w
on de la Denominando k = z+1 β y p = α1 + α2 , y recordando la definici´ funci´ on Γ(·) (expresi´ on (2.63)), podemos escribir
fZ (z) = =
β −(α1 +α2 ) α1 −1 1 + z z Γ(α1 )Γ(α2 ) β α −1 1 z Γ(α1 + α2 ) Γ(α1 )Γ(α2 ) (1 + z)α1 +α2
−(α1 +α2 )
Γ(α1 + α2 )
Cap´ıtulo 4. Variable N-dimensional
197
expresi´ on v´ alida para z ≥ 0. b)
ηZ = E{Z} =
0
∞
zfZ (z)dz
&
'
∞ ∞ X1 = x1 x−1 = E 2 fX1 (x1 )fX2 (x2 )dx1 dx2 X2 0 0 ∞ −α1 ∞ −α2 β β = xα1 1 e−x1 /β dx1 xα2 −2 e−x2 /β dx2 Γ(α1 ) Γ(α2 ) 0 0
β −α1 Γ(α1 )
−(α1 +1)
−(α2 −1)
β −α2 1 Γ(α2 ) β 1 Γ(α1 + 1)Γ(α2 − 1) = β −(α1 +α2 ) −(α +α ) 1 2 Γ(α1 )Γ(α2 ) β α1 Γ(α1 ) Γ(α2 − 1) α1 = = Γ(α1 ) (α2 − 1)Γ(α2 − 1) α2 − 1 =
1 β
Γ(α1 + 1)
Γ(α2 − 1)
c) Sea suceso A=“detecci´on correcta de s´ımbolo 1”; entonces
P (A) = P (Z ≥ 1) = P
= = =
0∞
dx1
0
x1
fX1 X2 (x1 , x2 )dx1 dx2 =
fX1 (x1 )dx1
0∞ 0
=
∞
∞
0
= 1− = 1− = 1−
X1 ≥ 1 = P (X1 ≥ X2 ) X2
50
fX2 (x2 )dx2 =
1 − e−x1 /β 1 +
fX1 (x1 )dx1 −
∞
0
x1
∞
5
x1 β
∞
0
e−x1 /β 1 +
6
6
5
Γ(α1 )
−α1
2 β
6
x1 1+ fX1 (x1 )dx1 β
x1 β −α1 α1 −1 −x1 /β e dx1 x β Γ(α1 ) 1
β −α1 α1 −1 −2x1 /β e dx1 − x Γ(α1 ) 1
0 β −α1
FX2 (x1 )fX1 (x1 )dx1
0
fX1 (x1 )dx1
−x1 /β
e
∞
∞
0 −(α +1) β 1
β −(α1 +1) α1 −2x1 /β dx1 x e Γ(α1 ) 1
−(α1 +1)
2 Γ(α1 ) β 1 3 11 =1− − = 8 16 16
Γ(α1 ) −
= 1 − 2−α1 − α1 2−(α1 +1)
Γ(α1 + 1)
♣
198
C. Alberola L´ opez
X1
f()
Y1
Y2
...
X2
f()
XN
f()
Σ
Z
YN
Figura 4.2: Figura problema 3. 3.- La figura adjunta representa el diagrama de bloques de una parte de un detector radar. Las variables Xi son independientes e id´enticamente distribuidas, con una funci´ on de densidad de probabilidad para x ≥ 0 igual a fXi (x) = αβ −α xα−1 exp(−( βx )α ), y nula en el resto de la recta real, ∀i = {1, 2, .. . ,N }. Se sabe asimismo que la media de cada variable E{Xi } = αβ Γ α1 . En estas condiciones, se pide: a) Considerando que f (Xi ) = Xi , proporcione, en funci´ on de N ,
una cota a la probabilidad de que la variable Z = N Y presente valores i=1 i alejados de su media una cantidad superior a tres veces dicha media (particularice para α = 1/2). b) Obtenga de forma aproximada la probabilidad de que la variable Z presente valores alejados de su media una cantidad superior a dos veces su desviaci´on t´ıpica, considerando que el n´ umero de variables que intervienen es elevado. c) Obtenga la funci´ on caracter´ıstica de una variable U cuya funci´on de densidad de probabilidad es la que se indica (a y φ son par´ ametros positivos): φ−a a−1 exp(− φu ) u ≥ 0 Γ(a) u fU (u) = 0 u<0 d) Obtenga, mediante funciones caracter´ısticas, la funci´ on de densidad de probabilidad de la variable Z, considerando ahora que f (Xi ) = (Xi )α . NOTA: G(2) = 0.9773
Cap´ıtulo 4. Variable N-dimensional
Γ(p) = k p
199
∞
τ p−1 exp(−kτ )dτ ; p, k > 0 √ Γ(p + 1) = pΓ(p), p ∈ R; Γ( 12 ) = π; Γ(z + 1) = z!, z ∈ N 0
Soluci´ on: a) Recordando que la desigualdad de Tchebycheff (v´ease secci´on 2.5.5) σ2 P (|Z − ηZ | ≥ ) ≤ 2Z donde, seg´ un dice el enunciado, = 3ηZ , entonces el problema se reduce a calcular la media y la varianza de la VA Z. En las condiciones del apartado
N se verifica que Z = N i=1 Yi = i=1 Xi de forma que
N
1 β E{Xi } = N Γ E{Z} = α α i=1 N
2 σZ =
2 σX = i
i=1
N
E{X2i } − E 2 {Xi }
i=1
donde se ha hecho uso de la expresi´on (4.18). Respecto del VCM de cada VA Xi ∞ x E{X2i } = x2 αβ −α xα−1 exp(−( )α )dx β 0 ∞ x αβ −α xα+1 exp(−( )α )dx = β 0
Seg´ un el enunciado Γ(p) = k p 0∞ τ p−1 exp(−kτ )dτ , de forma que haciendo α x = τ la ecuaci´on anterior se puede escribir E{X2i } =
0
=
0
=
∞ ∞ ∞
0
β −α τ
dτ
− βτα
1+α α
e
τ β −α τ
1+α−α+1 α 2
− βτα
β −α τ α e
α−1 α
− βτα
e
dτ
dτ
Denominando k = 1/β α y p − 1 = 2/α → p = 2/α + 1 podemos escribir E{X2i } = k −p α
= (β )
∞
0 2+α α
β −α k p τ p−1 e−kτ dτ = k −p β −α Γ (p) β −α Γ
2 2 = β2 Γ α α
2 +1 α
200
C. Alberola L´ opez
Por ello 2 σX i 2 σZ
2 2 = β Γ α α 2 = N σ Xi 2
1 β2 − 2 Γ2 α α
5
2 β2 = 2Γ α α
6
1 1 − Γ2 α α
siendo estas expresiones v´ alidas ∀i = 1, . . . , N . As´ı pues la cota pedida es 2 σZ 2
=
2
2 σZ
= =
(3ηZ )2
=
N βα 2Γ
2 α
− α1 Γ2
2 2
9 Nα2β Γ2
α 2Γ 9N
2 α
1 α
1 α
− α1 Γ2
Γ2
1 α
1 α
Particularizando para α = 1/2 resulta 2 σZ 2
=
1 1 2Γ (4) − 2Γ2 (2) 1 1 10 5 = = 2 2 9N Γ (2) 2 9N 1 9N
b) P (|Z − ηZ | > 2σZ ) = 1 − P (|Z − ηZ | ≤ 2σZ ) = 1 − P (−2σZ < Z − ηZ ≤ 2σZ ) = 1 − P (ηZ − 2σZ < Z ≤ ηZ + 2σZ ) 5 6 ηZ + 2σZ − ηZ ηZ − 2σZ − ηZ ≈ 1− G −G σZ σZ = 1 − [G (2) − G (−2)] = 1 − [G (2) − (1 − G (2))] = 1 − [2G (2) − 1] = 1 − 0.9546 = 0.0454 donde se ha empleado el Teorema del L´ımite Central (v´ease secci´on 4.5.1), as´ı como la simetr´ıa de la funci´ on G(·) (v´ease p´ agina 62). c) Si escribimos la definici´ on de funci´ on caracter´ıstica (ecuaci´on 2.95) adaptada al caso que se plantea jωU
φU (ω) = E{e
}=
0
∞
jωu
fU (u)e
φ−a du = Γ(a)
0
∞
−
ua−1 e
1
φ
−jω u
du
parece claro que podemos explotar el parecido entre esta expresi´on y la definici´ on de la funci´ on Γ(·) (expresi´ on (2.63)). En concreto haciendo k =
Cap´ıtulo 4. Variable N-dimensional 1 φ
201
− jω y a = p entonces
φ−a −a ∞ a a−1 −ku k k u e du Γ(a) 0 φ−a −a = k Γ(a) Γ(a) a 1 − jωφ −a 1 = = φ−a φ 1 − jωφ
φU (ω) =
d) En este caso Z =
N
=
i=1 Yi
φZ (ω) = E{ejωZ } = E{ejω
N
Xα i
i=1
N
α i=1 Xi .
}=
N
Por ello α
E{ejωXi } =
i=1
N
φXαi (ω)
i=1
donde se ha hecho uso de la independencia de las variables Xi para convertir la esperanza del producto en el producto de las esperanzas (v´ease p´ agina 156 y ecuaci´on 4.6). Con respecto a la funci´ on caracter´ıstica de las VAs Xαi α
φXαi (ω) = E{ejωXi } =
=
∞
0
= β
∞
0 −
αβ −α xα−1 e
−α
= β −α
−1 − e 1 β α − jω
1 βα
x α −( β ) jωxα
αβ −α xα−1 e
1 −jω βα
1 −jω βα
xα
xα
e
dx
dx
∞ 0
1 1 = 1 − jωβ α − jω
Por lo que
φZ (ω) =
1 1 − jωβ α
N
Seg´ un el resultado del apartado anterior, podemos escribir fZ (z) =
φ−a a−1 z z exp(− ), z > 0 Γ(a) φ
con a = N y φ = β α . ♣
202
C. Alberola L´ opez
4.- Sean Yi , i = {1, . . . , n}, n variables aleatorias independientes e id´enticamente distribuidas (IID), con funci´ on de distribuci´ on F (y) (com´ un para todas), tal que F (y) = 0 ∀y < 0. Se pide: a) Definiendo Z = max(Y1 , . . . , Yn ) y W = min(Y1 , . . . , Yn ), obtenga la funci´ on FZW (z, w) para z ≥ w ≥ 0. b) Suponiendo que Y0 es una variable IID con respecto a las Yi anteriormente definidas, obtenga P (W < Y0 ≤ Z) como funci´ on exclusivamente de n. Para resolver las expresiones que obtenga se recomienda que analice el parecido formal de la funci´ on fZW (z, w) calculada a partir de n y n + 1 variables IID. c) Suponga que Xj es una variable que toma el valor 1 cuando {W < Y0 ≤ Z} y 0 en cualquier otro caso, con j = {1, . . . , N } y N el n´ umero de veces que se ejecutan experimentos independientes del tipo del indicado (N >> 1). Se pide que obtenga el valor de que hace que 1 N P Xj − p < = 1 − α N j=1
con α un valor de probabilidad, y p la probabilidad calculada en el apartado anterior (si no contest´o a ´este emplee un p gen´erico). Particularice para α = 0.05. Soluci´ on: a) Para hallar la funci´ on de distribuci´ on conjunta FZW (z, w) en el punto que se indica definamos el suceso Bk como“hay k variables a la izquierda de w y n − k entre w y z”. Asimismo, dado que las VAs Yi son IID empleemos el s´ımbolo Y para referirnos a una cualquiera de ellas. En estas condiciones, y siguiendo un razonamiento similar al expuesto en la secci´on 1.7.1, podemos escribir
n P (Y < w)k P (w < Y ≤ z)n−k k
P (Bk ) =
n F k (w)(FY (z) − FY (w))n−k k Y
= Entonces
FZW (z, w) = P
n
k=1
=
n k=1
Bk
=
n
P (Bk )
k=1
n F k (w)(FY (z) − FY (w))n−k k Y
= FY (z) − P (B0 ) = FY (z) − [FY (z) − FY (w)]n
Cap´ıtulo 4. Variable N-dimensional
203
con 0 ≤ w ≤ z. b) Recordando la definici´ on de funci´ on de densidad conjunta (ecuaci´on 3.7) ∂ 2 FZW (z, w) ∂z∂w ∂2 [FY (z) − [FY (z) − FY (w)]n ] = ∂z∂w ∂ = n [FY (z) − FY (w)]n−1 fY (w) ∂z = n(n − 1) [FY (z) − FY (w)]n−2 fY (z)fY (w)
fZW (z, w) =
Para calcular la probabilidad que se pide, empleemos el Teorema de la Probabilidad Total (definici´ on original en ecuaci´on 1.29 y un caso particular del mismo para una u ´nica VA en la ecuaci´on 2.36) adaptado a este caso. Concretamente P (W < Y0 ≤ Z) =
zw
= zw
= zw
= zw
P (w < Y0 ≤ z|W = w, Z = z)fZW (z, w)dzdw P (w < Y0 ≤ z)fZW (z, w)dzdw [FY0 (z) − FY0 (w)] fZW (z, w)dzdw n(n − 1) [FY (z) − FY (w)]n−1 fY (z)fY (w)dzdw
donde se ha hecho uso del hecho de que la VA Y0 es IID con respecto a las VAs Yi , por lo que tambi´en es independiente de una funci´on de las mismas, en particular, de las funciones m´aximo y m´ınimo. Definiendo ahora n+1 fZW (z, w) como la funci´ on de densidad conjunta del m´ aximo y m´ınimo obtenido a partir de n + 1 VAs Yi , y comparando con la expresi´on que se acaba de obtener, es claro que n+1 (z, w) = (n + 1)n [FY (z) − FY (w)]n−1 fY (z)fY (w) fZW
de modo que podemos continuar el razonamiento anterior de la forma P (W < Y0 ≤ Z) =
n(n − 1) × n(n + 1)
zw
n(n + 1) [FY (z) − FY (w)]n−1 fY (z)fY (w)dzdw
204
C. Alberola L´ opez
= =
n(n − 1) f n+1 (z, w)dzdw n(n + 1) zw ZW n(n − 1) (n − 1) = n(n + 1) (n + 1)
resultado que coincide con el obtenido en el ejercicio de la p´ agina 23. c) Las VAs Xi son variables de Bernoulli con probabilidades p(Xi = 1) = p = n−1 n+1 p(Xi = 0) = 1 − p = q = 1 −
Xi Definiendo
U=
n−1 n+1
=
2 n+1
N V 1 = Xi N N i=1
y siendo N >> 1 podemos hacer uso de la Ley de los Grandes N´ umeros (secci´on 4.5.3) y escribir P (|U − p| < ) = P (− < U − p ≤ ) = P (p − < U ≤ p + ) V = P (p − < ≤ p + ) = P (N (p − ) < V ≤ N (p + )) N N (p + ) − N p N (p − ) − N p √ √ −G ≈ G N pq N pq N N N = G √ − G −√ = 2G √ −1 N pq N pq N pq = 1−α donde se ha hecho uso de la simetr´ıa de la funci´ on G(·) (v´ease p´ agina 62). Entonces
G−1
N −1 = 1−α 2G √ N pq N α = 1− G √ 2 N pq
α 1− 2
7
= G−1 (0.9750) =
por lo que
8
= 1.96
N = 1.96 pq
pq N ♣
Cap´ıtulo 4. Variable N-dimensional
205
5.-Dos especialistas m´edicos diagnostican un n´ umero N de radiograf´ıas. En cada una de ellas el juicio de cada especialista puede ser presencia de patolog´ıa (PP, al que asociaremos el valor num´erico 0) o ausencia de patolog´ıa (AP, al que asociaremos el valor num´erico 1). Se asumir´a que no existen dependencias entre juicios de dos radiograf´ıas distintas. La tabla adjunta refleja los resultados obtenidos para esas radiograf´ıas: Esp1 \ Esp2 PP AP
PP a c
AP b d
con a, b, c, d ≥ 0 y a + b + c + d = N . Se define la variable aleatoria binaria Xi como el valor num´erico del diagn´ ostico del primer especialista para la radiograf´ıa i (i = {1, . . . , N }), y, de forma equivalente, Yi para el segundo especialista. Denominemos I a la variable n´ umero de veces que coinciden los juicios de los especialistas, y, para una radiograf´ıa cualquiera, se definen pxj como la probabilidad de que el primer especialista diagnostique resultado j, (j=(0,1)), pyk como la probabilidad de que el segundo diagnostique k (k = (0, 1)), y pjk como la probabilidad de que, conjuntamente, el primero diagnostique j y el segundo k, con j, k = (0, 1). Se pide: a) Denominando I a la variable n´ umero de veces que coinciden los juicios de los especialistas, escriba I como funci´ on de Xi e Yi , con i = {1, . . . , N }. b) Se pretende analizar probabil´ısticamente si los especialistas tienen el mismo criterio. Para ello, denominemos hip´ otesis H0 a la hip´ otesis los especialistas comparten el mismo criterio (entendemos por tal que los juicios respectivos sobre una misma radiograf´ıa sean dependientes) otesis contraria (es decir, que los juicios respectivos sean y H1 a la hip´ independientes). En estas condiciones obtenga fI (i|H0 ) empleando s´olo las pjk , y fI (i|H1 ) empleando s´olo las pxj y las pyk . c) Se considerar´ a que los especialistas comparten el mismo criterio si E{I|H0 } > E{I|H1 }. Suponiendo que las probabilidades pxj , pyk y pjk son desconocidas, se pide que proporcione una regla, funci´ on de a, b, c y d, que permita materializar el criterio anterior. Para introducir estos par´ ametros en el problema identificaremos probabilidad con frecuencia relativa, calculada esta u ´ltima a partir de los datos de la tabla adjunta. Soluci´ on:
a) I = N i=1 δ [Xi − Yi ] donde, Xi = 0 si el primer especialista dice P P y Xi = 1 en caso contrario, y lo propio para el segundo especialista
206
C. Alberola L´ opez
con la VA Yi . b) Por definici´ on la VA I es binomial en ambos supuestos (esto es, en supuestos H0 y H1 ), ya que esta variable se construye en base a una composici´on de ensayos de Bernoulli independientes (v´ease secciones 1.7.1 y 2.3.2). Lo que cambia entre H0 y H1 es la probabilidad de cada valor de la VA I. As´ı pues IH0
∼ B(N, pH0 )
IH1
∼ B(N, pH1 )
donde pHj
= p(Xi = Yi |Hj ) = p((Xi = 1, Yi = 1) ∪ (Xi = 0, Yi = 0)|Hj ) = p(Xi = 1, Yi = 1|Hj ) + p(Xi = 0, Yi = 0|Hj )
pH0
= p11 + p00
pH1
= p(Xi = 1|H1 )p(Yi = 1|H1 ) + p(Xi = 0|H1 )p(Yi = 0|Hj ) = px1 py1 + px0 py0
c) La media de las VAs binomiales anteriores, acorde con la expresi´on (2.64), es E{IH0 } = N pH0 E{IH1 } = N pH1
Para calcular las probabilidades pH0 y pH1 empleamos los datos siguiendo las expresiones escritas en el apartado anterior, e identificando— seg´ un indica el enunciado — probabilidad con frecuencia relativa. As´ı pues pHj
= p(Xi = Yi |Hj ) = p((Xi = 1, Yi = 1) ∪ (Xi = 0, Yi = 0)|Hj )
pH0
= p(Xi = 1, Yi = 1|Hj ) + p(Xi = 0, Yi = 0|Hj ) d a a+d = + = N N N = p(Xi = 1|H1 )p(Yi = 1|H1 ) + p(Xi = 0|H1 )p(Yi = 0|Hj ) c+db+d a+ba+c 1 = + = 2 ((a + b)(a + c) + (b + d)(c + d)) N N N N N
pH1
Cap´ıtulo 4. Variable N-dimensional
207
La regla por tanto ser´ıa decidir H0 si E{IH0 } > E{IH1 } (a + b)(a + c) (b + d)(c + d) a+d > + N N ♣
Cap´ıtulo 5
Procesos estoc´ asticos Hasta ahora, hemos abordado el estudio de los conceptos b´asicos de Teor´ıa de la Probabilidad, as´ı como de las VAs a trav´es de un planteamiento incremental de una, dos y N variables. En este tema encontraremos ya la relaci´on que liga a las se˜ nales con las VAs. Toda se˜ nal que transporte informaci´ on tendr´ a alg´ un grado de aleatoriedad, de forma que en general no podremos predecir sin error el valor que tomar´ a una se˜ nal en el futuro, conocidos los valores que ha tomado en el pasado. Pero, no obstante, hemos visto formas de predecir de manera ´optima haciendo uso de la informaci´ on probabil´ıstica de que dispongamos. Por otra parte, las se˜ nales de comunicaciones siempre se mueven en entornos ruidosos, siendo el ruido tambi´en una se˜ nal aleatoria, en este caso indeseada. Por ello, ser´a necesario disponer de herramientas que nos permitan minimizar el efecto del ruido. En el tema que comenzamos, por lo tanto, conectaremos los conceptos vistos hasta ahora con el tratamiento de la se˜ nal.
5.1
Concepto de proceso estoc´ astico. Clasificaci´ on
Un proceso estoc´astico es una regla que asigna a cada resultado de un cierto experimento aleatorio < S, F, P > una funci´ on, la cual depende de un determinado n´ umero de variables, y del propio resultado a ∈ S obtenido del experimento (figura 5.1). El caso m´as sencillo ser´ıa una funci´ on de una u ´nica variable, por ejemplo, el tiempo. En tal caso, un proceso estoc´astico ser´ıa una colecci´on de funciones del tiempo, cada una de ellas asociada a cada uno de los resultados a ∈ S. Pero, tambi´en, la variables podr´ıan 209
210
C. Alberola L´ opez
ser 2 y con significado de coordenadas espaciales. En tal caso, un proceso estoc´astico podr´ıa ser una colecci´on de im´ agenes est´aticas, cada una de ellas asociada a cada resultado del espacio muestral. Si fuesen tres variables, por ejemplo, dos espaciales y una temporal, podr´ıamos considerar un proceso estoc´astico como una colecci´on de im´ agenes en movimiento. En esta asignatura nos centraremos en el caso de se˜ nales unidimensionales funciones del tiempo.
x (t) = X(t, a ) 1
1
t
x (t) = X(t, a ) 2
2
t
x (t) = X(t, a ) 3
3
t0 t
X(t 0)
Figura 5.1: Concepto de proceso estoc´astico: colecci´on de funciones del tiempo o de VAs. El concepto de proceso estoc´astico es muy similar al concepto de una
Cap´ıtulo 5. Procesos estoc´ asticos
211
VA. Recu´erdese que una variable era una funci´ on del espacio muestral en el cuerpo de los n´ umero reales, de forma que para cada a ∈ S obten´ıamos un n´ umero real X(a). No obstante, por simplicidad en la notaci´ on, nos hemos referido siempre a las VAs sin explicitar la dependencia con el resultado a del experimento aleatorio. En el caso de los procesos estoc´asticos (particularizados a funciones unidimensionales del tiempo) la dependencia es similar. A cada a ∈ S le asociamos una funci´ on del tiempo X(t, a). De forma similar al caso de las VAs, denotaremos al proceso estoc´astico como X(t) dando por sentado la dependencia con el resultado aleatorio. No obstante, antes de eliminar de la notaci´on esta dependencia, hagamos una u ´ltima aclaraci´on. Para ello, tomaremos como base tanto la figura 5.1 como el proceso estoc´astico Y(t, a) = Acos(ω0 t + Θ(a)), con Θ(a) una VA uniforme en un rango de 2π radianes, y el resto de los par´ ametros involucrados determin´ısticos. • X(t, a) con los dos par´ametros libres, es un proceso estoc´astico. • X(t, ai ) donde ai es un resultado concreto del experimento aleatorio, es decir, con la primera variable libre y fija la segunda, es una funci´ on determin´ıstica del tiempo. En este caso estamos ante una realizaci´ on del proceso. Corresponder´ıa en la figura 5.1 a una cualquiera de las funciones xi (t). Por su parte, en el proceso estoc´astico Y(t, a) tal particularizaci´ on corresponder´ıa a la funci´ on del tiempo observada para el valor particular de la variable Θ(ai ), por ejemplo, Y(t, ai ) = Acos(ω0 t + π3 ). El equivalente en el caso de las VAs ser´ıa el haber observado un valor concreto de la variable X, es decir, haber observado un n´ umero real. • X(t0 , a), donde t0 indica un instante de tiempo concreto, es decir, con la primera variable fija y libre la segunda, ser´ıa una VA: en efecto, el resultado para cada a ∈ S ser´ıa un n´ umero real, lo cual corresponde en la figura 5.1 al conjunto de n´ umeros que podr´ıamos observar sobre la vertical de abscisa t = t0 . Respecto del proceso Y(t, a), fijado el instante temporal en t = t0 tendr´ıamos Y(t0 , a) = Acos(ω0 t0 +Θ(a)), funci´ on de la VA Θ(a) y, por tanto, tendr´ıamos una VA. Por todo ello, una visi´ on alternativa de un proceso estoc´ astico es la de una colecci´on de VAs indexadas por un ´ındice continuo1 t. 1
El ´ındice no tiene que ser, necesariamente, continuo. Veremos a continuaci´ on que ´este puede ser discreto.
212
C. Alberola L´ opez
• X(t0 , ai ), esto es, ambas variables fijas, ser´ıa un n´ umero real. En la figura 5.1 seleccionar´ıamos una funci´ on concreta xi (t) y observar´ıamos un instante temporal concreto t = t0 . Para el caso del proceso Y(t, a), fijados t = t0 y a = ai tendr´ıamos, por ejemplo, el escalar Y(t0 , ai ) = Acos(ω0 t0 + π3 ).
5.1.1
Clasificaci´ on de procesos estoc´ asticos
Una posible clasificaci´on de los procesos estoc´asticos consistir´ıa en analizar tanto la variable temporal como las caracter´ısticas de cada una de las VAs involucradas. Concretamente: 1. Proceso estoc´astico continuo: en este caso, la variable t es continua, y cada una de las variables de X(t) toman valores en un rango continuo. 2. Proceso estoc´astico discreto: en este caso, la variable t es continua, pero las variables de X(t) son VAs discretas. 3. Secuencia aleatoria continua: la variable de indexaci´ on temporal es discreta, pero las VAs involucradas toman valores en un rango continuo. T´ıpicamente lo denotaremos por X[n]. 4. Secuencia aleatoria discreta: secuencia (como la anterior) de VAs discretas. La denotaremos como la anterior. Se podr´ıan hacer otra clasificaciones. Por ejemplo, si un proceso estoc´astico es predecible sin error a partir de la observaci´on de los valores del mismo en el pasado, el proceso se denomina predecible. Un ejemplo t´ıpico ser´ıa el proceso ya empleado Y(t) = Acos(ω0 t + Θ), con Θ una VA. En este caso, hablar´ıamos de una sinusoide cuya fase inicial es desconocida. No obstante, si se observa lo que vale el proceso en un instante se puede calcular el valor que ha tomado la variable Θ, de forma que a partir de ah´ı el proceso ser´ıa perfectamente predecible. Por contra, si tal predicci´ on no se puede llevar a cabo, el proceso ser´ıa impredecible, y, por tanto el comportamiento del mismo no se podr´ıa resumir en un conjunto finito de par´ ametros. Otras clasificaciones de los procesos requieren de m´as conocimiento del que hemos expuesto hasta el momento.
Cap´ıtulo 5. Procesos estoc´ asticos
5.2
213
Funciones de distribuci´ on y densidad
Dado que un proceso estoc´astico no es otra cosa que una colecci´on de VAs, indexadas ´estas mediante un ´ındice continuo (procesos estoc´asticos propiamente dichos) o discreto (secuencias aleatorias), podemos hablar tambi´en de funciones de densidad y distribuci´ on del proceso, bien entendido que tales funciones se definen sobre cada una de las VAs del proceso. Por tanto, podemos definir • Funci´ on de densidad (de primer orden) del proceso FX (x; t) = P (X(t) ≤ x)
(5.1)
Como puede verse, la funci´on de distribuci´ on es funci´ on de dos variables. La primera (variable x) tiene el significado tradicional: el punto de abscisa donde estamos evaluando la probabilidad del suceso indicado. La segunda variable es, simplemente, el ´ındice que indica sobre qu´e VA del proceso estamos haciendo el c´alculo de la funci´ on de distribuci´ on. Esta funci´ on se denomina de primer orden dado que s´olo involucra, para cada t, a una variable del proceso. • Funci´ on de densidad de probabilidad de primer orden. De forma coherente con lo que conocemos hasta ahora, la funci´on de densidad se obtiene a partir de la funci´ on de distribuci´ on de la forma: fX (x; t) =
dFX (x; t) dx
(5.2)
Nada nos impide extraer m´ as de una variable del proceso. Si extraemos dos, l´ease, (X(t1 ), X(t2 )), habr´ıamos creado una variable bidimensional a partir del proceso. Si extraemos N podemos crear un vector aleatorio a partir de variables del proceso de la forma [X(t1 ), X(t2 ), . . . , X(tN )]T , por lo que los conceptos ya conocidos de temas anteriores aplican directamente. A modo de ejemplo: • Funciones de distribuci´ on y densidad de segundo orden FX (x1 , x2 ; t1 , t2 ) = P (X(t1 ) ≤ x1 , X(t2 ) ≤ x2 ) ∂ 2 FX (x1 , x2 ; t1 , t2 ) fX (x1 , x2 ; t1 , t2 ) = ∂x1 ∂x2
214
C. Alberola L´ opez
• Obtenci´ on de las marginales a partir de las anteriores FX (x1 , t1 ) = FX (x1 , ∞; t1 , t2 )
fX (x1 , t1 ) =
∞
−∞
fX (x1 , x2 ; t1 , t2 )dx2
• Funciones de distribuci´ on y densidad de orden N
FX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) = P
N
X(ti ) ≤ xi
i=1
∂ N FX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) ∂x1 ∂x2 · · · ∂xN
fX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) =
• En el caso en que tengamos dos procesos, la caracterizaci´on probabil´ıstica total del mismo vendr´ıa dada por la funci´ on de densidad conjunta de o´rdenes N y M (∀N y ∀M ), es decir, a partir de la funci´ on: fXY (x1 , . . . , xN , y1 , . . . , yM ; t1 , . . . , tN , t1 , . . . , tM )
(5.3)
En la pr´ actica, salvo para procesos gaussianos, es impensable poder disponer de toda esta informaci´ on probabil´ıstica, tanto para uno como para dos o m´as procesos, de forma que es habitual trabajar con par´ ametros de caracterizaci´on parcial del proceso, l´ease, medias, varianzas, covarianzas ´ etc . . . . Este es nuestro siguiente punto de atenci´on.
5.3
Caracterizaci´ on parcial de procesos estoc´ asticos. Ruido blanco
• Media:
ηX (t) = E{X(t)} =
∞
−∞
xfX (x; t)dx
(5.4)
Como puede verse, la media de un proceso estoc´astico ser´a en general funci´ on del tiempo, ya que esta funci´ on contiene la media de cada una de las variables que podemos extraer del proceso. Como las variables en general ser´an de diferente distribuci´ on, las medias en general no coincidir´ an. • VCM:
2
E{X (t)} =
∞
−∞
x2 fX (x; t)dx
(5.5)
Cap´ıtulo 5. Procesos estoc´ asticos
215
• Varianza: 2 σX (t) = E{(X(t) − ηX (t))2 } = 2 (t) = E{X2 (t)} − ηX
∞
−∞
(x − ηX (t))2 fX (x; t)dx (5.6)
• Autocorrelaci´on2 : como es sabido, este par´ ametro involucra a dos VAs, de forma que, en relaci´on con los procesos estoc´asticos, la funci´ on de correlaci´on ser´a funci´ on de dos variables temporales (los ´ındices temporales de las dos variables involucradas).
RX (t1 , t2 ) = E{X(t1 )X(t2 )} =
∞
∞
−∞ −∞
x1 x2 fX (x1 , x2 ; t1 , t2 )dx1 dx2
(5.7) N´otese que RX (t, t) = E{X2 (t)}, es decir, es igual al VCM de la VA X(t). • Autocovarianza CX (t1 , t2 ) = E{(X(t1 ) − ηX (t1 ))(X(t2 ) − ηX (t2 ))}
=
∞
∞
−∞ −∞
(x1 − ηX (t1 ))(x2 − ηX (t2 ))fX (x1 , x2 ; t1 , t2 )dx1 dx2
= RX (t1 , t2 ) − ηX (t1 )ηX (t2 )
(5.8)
2 (t), es decir, es igual N´otese que CX (t, t) = E{(X(t) − ηX (t))2 } = σX a la varianza de la variable aleatoria X(t).
• Coeficiente de correlaci´on entre las variables X(t1 ) y X(t2 ) rX (t1 , t2 ) =
CX (t1 , t2 ) σX (t1 )σX (t2 )
(5.9)
• Para el caso de procesos complejos, las cosas funcionan como conocemos. Concretamente: 2 (t) = E{|X(t) − η (t)|2 } = E{|X(t)|2 } − |η (t)|2 – σX X X
– RX (t1 , t2 ) = E{X(t1 )X∗ (t2 )} 2 El prefijo auto enfatiza el hecho de que calculamos la correlaci´ on entre dos variables extra´ıdas del mismo proceso. Cuando los procesos involucrados sean dos, la correlaci´ on se denominar´ a correlaci´ on cruzada.
216
C. Alberola L´ opez
– CX (t1 , t2 ) = E{(X(t1 )−ηX (t1 ))(X(t2 )−ηX (t2 ))∗ } = RX (t1 , t2 )− ∗ (t ) ηX (t1 )ηX 2 • Si los ´ındices son discretos, esto es, si estamos tratando con una secuencia aleatoria, los operadores son los mismos, dado que en este caso el ´ındice temporal simplemente es un seleccionador de la variable o variables empleadas para el c´alculo. Por ejemplo, si la secuencia (real, por simplicidad) es X[n] podremos escribir – ηX [n] = E{X[n]} = –
2 [n] σX
∞
−∞ xfX (x; n)dx ηX [n])2 } = E{X2 [n]}
= E{(X[n] − t por n en la expresi´on (5.6).
2 [n], sustituyendo − ηX
– RX [n1 , n2 ] = E{X[n1 ]X[n2 ]}, sustituyendo t1 y t2 por n1 y n2 , respectivamente, en la expresi´on (5.7). – CX [n1 , n2 ] = E{(X[n1 ]−ηX [n1 ])(X[n2 ]−ηX [n2 ])} = RX [n1 , n2 ]− ηX [n1 ]ηX [n2 ], haciendo la misma sustituci´ on que en el caso anterior, ahora en la expresi´ on (5.8). • Finalmente, si el proceso o la secuencia consiste en variables discretas, los anteriores operadores probabil´ısticos continuos se pueden expresar como sumatorios en vez de como integrales. As´ı pues, tendr´ıamos – ηX (t) = E{X(t)} = –
2 (t) σX
=
i (xi
– RX (t1 , t2 ) =
−
i xi P (X(t) = xi ) ηX (t))2 P (X(t) = xi )
i
j
x1i x2j P (X(t1 ) = x1i , X(t2 ) = x2j )
– CX (t1 , t2 ) = i j (x1i − ηX (t1 ))(x2j − ηX (t2 ))× P (X(t1 ) = x1i , X(t2 ) = x2j )
5.3.1
Concepto de ruido blanco
Un proceso se denomina ruido blanco si cumple unas determinadas condiciones. Dentro del ruido blanco se distinguen t´ıpicamente dos casos, aunque ´ en la pr´ actica el empleado es el primero. Estos son: • Ruido blanco en sentido amplio: un proceso se dice que es un proceso de ruido blanco en sentido amplio si presenta incorrelaci´ on total, es decir, si cada dos variables del mismo est´an incorreladas. Por ello, para el caso de procesos estoc´asticos (esto es, para ´ındices temporales continuos) se puede escribir CX (t1 , t2 ) = q(t1 )δ(t1 − t2 )
(5.10)
Cap´ıtulo 5. Procesos estoc´ asticos
217
si el proceso X(t) es ruido blanco en sentido amplio. Si lo es la secuencia X[n] podremos escribir CX [n1 , n2 ] = q[n1 ]δ[n1 − n2 ]
(5.11)
Rep´arese que la funci´ on δ correspondiente al proceso estoc´astico es una delta de Dirac, es decir, presenta una discontinuidad en 0, mientras que la segunda es una delta de Kronecker, es decir, es una funci´on nula en todos los puntos de su argumento salvo en el 0, donde es unitaria. • Ruido blanco en sentido estricto: concepci´on m´as restrictiva que la anterior, en la que se exige no s´olo incorrelaci´ on a las variables del proceso, sino tambi´en independencia. Por tanto, si un proceso X(t) es un ruido blanco en sentido estricto, podremos escribir la funci´ on de densidad N -dimensional (∀N ) como sigue: fX (x1 , x2 , . . . , xN ; t1 , t2 , . . . , xN ) =
N
fX (xi ; ti )
(5.12)
i=1
En la pr´ actica, como hemos dicho, el modelo com´ unmente empleado es el de ruido blanco en sentido amplio. Asimismo, salvo menci´on expresa, se asumir´a que el ruido blanco tiene media nula.
5.3.2
Caso de dos procesos
Cuando los procesos involucrados sean dos, por ejemplo, X(t) e Y(t), la caracterizaci´on conjunta de ambos vendr´ıa dada por la funci´ on de densidad conjunta de o´rdenes N y M , con estos par´ ametros arbitrariamente grandes. No obstante, no suele ser posible poder calcular esta funci´on, de forma que el recurso es limitarse a caracterizaciones parciales del tipo medias, varianzas y covarianzas. Las covarianzas, en este caso, involucran a variables de dos procesos y por ello se las denomina covarianzas (o correlaciones, en su caso) cruzadas. As´ı pues, se definen:
RXY (t1 , t2 ) = E{X(t1 )Y(t2 )} =
∞
∞
−∞ −∞
xyfXY (x, y; t1 , t2 )dxdy
CXY (t1 , t2 ) = E{(X(t1 ) − ηX (t1 ))(Y(t2 ) − ηY (t2 ))}
=
∞
∞
−∞ −∞
(x − ηX (t1 ))(y − ηY (t2 ))fXY (x, y; t1 , t2 )dxdy
= RXY (t1 , t2 ) − ηX (t1 )ηY (t2 )
(5.13)
218
C. Alberola L´ opez
De manera similar a lo ya conocido, podemos hablar de procesos incorrelados, ortogonales e independiente. Formalmente: • Incorrelaci´on: dos procesos son incorrelados si CXY (t1 , t2 ) = 0, ∀t1 , t2 . N´ otese que esto implica que RXY (t1 , t2 ) = ηX (t1 )ηY (t2 ), ∀t1 , t2 • Ortogonalidad: dos procesos son ortogonales si RXY (t1 , t2 ) = 0, ∀t1 , t2 • Independencia: dos procesos son independientes si ∀N y ∀M se verifica fXY (x1 , ..., xN , y1 , ..., yM ; t1 , ..., tN , t1 , ..., tM ) =
fX (x1 , ..., xN ; t1 , ..., tN )fY (y1 , ..., yM ; t1 , ..., tM )
(5.14) Todo lo conocido para el caso de VAs, como es natural, aplica en este momento. En particular, independencia implica incorrelaci´ on, y si dos procesos son gaussianos (esto es, si las variables que podamos extraer de ´estos son conjuntamente gaussianas) incorrelaci´ on implicar´ıa independencia. Pi´ensese en ello.
5.4
Estacionariedad
Hasta ahora, como se ha observado, apenas se ha hecho uso de la dimensi´on temporal del proceso estoc´astico X(t). B´asicamente, no hemos centrado en la visi´ on de un proceso estoc´astico como una colecci´on de VAs y las relaciones que hemos manejado entre ellas han sido las ya conocidas (correlaciones, covarianzas, etc . . . ). En este punto, y en los que siguen, explotaremos el hecho de que un proceso estoc´astico es una funci´ on del tiempo. El concepto de estacionariedad est´a ligado a las variaciones de las propiedades estad´ısticas del proceso a lo largo del tiempo. En este caso, tambi´en distinguiremos entre estacionariedad en sentido estricto y estacionariedad en sentido amplio. El primer sentido har´ a referencia a las propiedades que debe cumplir la funci´ on de densidad, mientras que el segundo impondr´ a condiciones s´olo sobre la media y la correlaci´ on del proceso. • Sentido estricto3 : un proceso estoc´astico X(t) es estacionario en sentido estricto si su funci´ on de densidad de orden N (∀N ) es invariante 3
Se denota por SSS, de strict sense stationary
Cap´ıtulo 5. Procesos estoc´ asticos
219
a un desplazamiento en el origen de tiempos, esto es, si se verifica que fX (x1 , x2 , ..., xN ; t1 , t2 , ..., tN ) = fX (x1 , x2 , ..., xN ; t1 +c, t2 +c, ..., tN +c) (5.15) ∀c. N´ otese por tanto que un proceso es estacionario en sentido estricto si se verifica que la distribuci´ on conjunta de variables igualmente separadas coincide. Dos casos particulares importantes de lo anterior son fX (x; t) = fX (x) fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 − t2 )
(5.16)
esto es, las variables de un proceso estacionario en sentido estricto son marginalmente equidistribuidas, y la funci´ on de densidad bidimensional depende de la separaci´on entre las dos variables y no de sus posiciones absolutas en el eje de tiempos. Si la condici´ on prevista en la ecuaci´on (5.15) se verifica s´olo hasta un cierto valor de N entonces el proceso se denomina estacionario de orden N . Las definiciones anteriores se extienden al caso de dos procesos. Se dice que X(t) e Y(t) son conjuntamente estacionarios si fXY (x1 , ..., xN , y1 , ..., yM ; t1 , ..., tN , t1 , ..., tM ) =
fXY (x1 , ..., xN , y1 , ..., yM ; t1 + c, ..., tN + c, t1 + c, ..., tM + c) (5.17) N´otese que de lo anterior se desprende que si dos procesos son conjuntamente estacionarios en sentido estricto, lo son individualmente. Bastar´ıa calcular las funciones de densidad marginales de cada proceso a partir de la expresi´on anterior. Finalmente, el proceso Z(t) = X(t) + jY(t) es estacionario si sus componentes real e imaginaria son conjuntamente estacionarias. • Sentido amplio4 : un proceso X(t) es estacionario en sentido amplio si de verifican las dos condiciones siguientes: E{X(t)} = ηX (t) = ηX RX (t1 , t2 ) = RX (t1 − t2 ) = RX (τ ) 4
Se denota por WSS, de wide sense stationary
(5.18) (5.19)
220
C. Alberola L´ opez
es decir, si la media no var´ıa con el tiempo y la autocorrelaci´ on es funci´ on de la separaci´ on temporal de las variables, no de la posici´ on absoluta de cada una en el eje temporal. N´otese que estas condiciones implican que varianza y VCM deben ser constantes, as´ı como que la covarianza es funci´ on s´olo de la separaci´on entre las variables. Para el caso de dos procesos se dice que son conjuntamente estacionarios si lo son marginalmente, y si, adem´as, la correlaci´on cruzada RXY (t1 , t2 ) = RXY (t1 − t2 ) = RXY (τ ). Puede tambi´en apreciarse que si el proceso es SSS, o bien estacionario hasta orden 2, tambi´en es WSS. No obstante, el rec´ıproco no es cierto en general, salvo en el caso de procesos gaussianos. Finalmente, y a nivel de convenio, estableceremos la siguiente notaci´on para procesos WSS (para el caso complejo, por generalidad) RX (τ ) = E{X(t + τ )X∗ (t)}
CX (τ ) = E{(X(t + τ ) − ηX )(X(t) − ηX )∗ } = RX (τ ) − |ηX |2
RXY (τ ) = E{X(t + τ )Y∗ (t)}
∗ CXY (τ ) = E{(X(t + τ ) − ηX )(Y(t) − ηY )∗ } = RXY (τ ) − ηX ηY
(5.20) Para el caso de secuencias aleatorias el convenio ser´a el mismo salvo sustituir los ´ındices continuos por ´ındices discretos. Por ejemplo, RX [m] = E{X(n + m)X∗ [n]}. En lo que sigue, y hasta el final del tema, con el objetivo de no duplicar resultados consideraremos procesos de ´ındices continuos, bien entendido que los resultados a los que llegaremos aplican tambi´en a secuencias aleatorias sin m´as que hacer las oportunas adaptaciones de operadores continuos a operadores discretos (el ejercicio 3 de la secci´on 5.8 es un ejemplo de manejo de una secuencia aleatoria).
5.4.1
Propiedades de la correlaci´ on de procesos estacionarios
Autocorrelaci´ on Si X(t) es un proceso WSS se verifica:
Cap´ıtulo 5. Procesos estoc´ asticos
221
1. La autocorrelaci´ on del proceso en τ = 0 es igual al VCM del proceso, el cual coincide con la potencia del mismo (seg´ un indica la ecuaci´on (5.55) de la secci´on 5.6.3). Formalmente RX (0) = E{|X(t)|2 } = PX
(5.21)
2. |RX (τ )| ≤ RX (0). La demostraci´on es sencilla mediante el concepto de densidad espectral de potencia (v´ease secci´on 5.6) y el por qu´e de esta propiedad se puede razonar en t´erminos muy intuitivos haciendo uso del concepto de ergodicidad (v´ease secci´on 5.5.3). ∗ (τ ). En general la correlaci´ on es una funci´ on herm´ıtica. 3. RX (−τ ) = RX Para el caso real, la correlaci´on es una funci´ on par.
4. Si X(t) es peri´odico, RX (τ ) tambi´en es peri´odico y del mismo periodo. 5. La funci´ on de autocorrelaci´on no puede tener una forma arbitraria. Concretamente, escogiendo N variables del proceso, la matriz de correlaci´on debe ser, al menos, semidefinida positiva. Esto es debido a que 2 N N N E ai X(ti ) = ai a∗j RX (ti , tj ) ≥ 0 i=1
(5.22)
i=1 j=1
6. Si el proceso X(t) es un proceso de ruido blanco entonces CX (τ ) = qδ(τ ). Ejercicio: El proceso estoc´astico X(t) se define de la forma X(t) =
K
Ak ej(kωo t+Θk )
k=1
con Ak VAs complejas de VCM conocido y Θk VAs uniformes en un rango de 2π radianes (k={1,. . . ,K}). Sup´ ongase que todas las VAs involucradas son independientes entre s´ı. Se pide que obtega la media y la autocorrelaci´on del proceso X(t) e indique si el proceso es estacionario en sentido amplio. Soluci´ on: Para calcular la media, recordando la linealidad del operador esperanza (secci´on 3.6) as´ı como que independencia
222
C. Alberola L´ opez
implica incorrelaci´ on y lo que ello conlleva en relaci´ on a la esperanza del producto (secci´on 3.6.2), podemos escribir ηX (t) = E{X(t)} = E
K
# j(kωo t+Θk )
Ak e
k=1
= = =
K k=1 K k=1 K
$
ejkωo t E Ak ej Θk
%
$
ejkωo t E {Ak } E ej Θk
ejkωo t E {Ak }
k=1
1 2π
%
(cos(θk ) + jsen(θk ))dθk <2π>
= 0 pues la integral de una sinusoide en un periodo de la misma es nula. Respecto de la autocorrelaci´on: RX (t1 , t2 ) = E{X(t1 )X∗ (t2 )} = E
K K
Ap A∗q ej(pωo t1 +Θp ) e−j(qωo t2 +Θq )
p=1 q=1
=
K K
$
%
$
ejpωo t1 e−jqωo t2 E Ap A∗q E ej Θp e−Θq
%
p=1 q=1
Centr´ andonos en la u ´ltima esperanza rep´ arese que para p = q tendr´ıamos la esperanza del producto de funciones de VAs independientes. La independencia implica incorrelaci´ on, luego la esperanza del producto ser´ıa igual al producto de las esperanzas. La esperanza de cada exponencial compleja, seg´ un acabamos de ver, es nula. Por ello, los u ´nicos t´erminos que permanecen en la expresi´on anterior son los t´erminos de ´ındice p = q, para los cuales la exponencial compleja es constante y de valor unidad (el exponente es nulo). Por ello, resulta RX (t1 , t2 ) =
K
$
ejpωo (t1 −t2 ) E |Ap |2
p=1
=
K p=1
$
%
E |Ap |2 ejpωo τ
%
Cap´ıtulo 5. Procesos estoc´ asticos
223
= RX (τ ) En virtud del resultado, el proceso es WSS. Definiendo el proce
j(kωo t+Θk ) , so X(t) como X(t) = K k=1 Xk (t), con Xk (t) = Ak e puede comprobarse que la autocorrelaci´on de X(t) es igual a la suma de las autocorrelaciones de los procesos Xk (t). Asimismo, rep´ arese en que la autocorrelaci´on es peri´odica de periodo 2π T = ω0 , de la misma manera que cada proceso lo es; finalmente, n´ otese que tambi´en presenta simetr´ıa conjugada as´ı como un m´aximo en τ = 0. ♣ Correlaci´ on cruzada Si los procesos X(t) e Y(t) son procesos conjuntamente WSS entonces se verifica que: ∗ (τ ) 1. RXY (−τ ) = RYX
2. |RXY (τ )| ≤
"
RX (0)RY (0)
3. Si los procesos son ortogonales entonces RXY (τ ) = 0 ∀τ . Esto trae consigo que si Z(t) = X(t) + Y(t) entonces RZ (τ ) = RX (τ ) + RY (τ ). 4. Si los procesos son incorrelados entonces CXY (τ ) = 0 ∀τ . Esto trae consigo que si Z(t) = X(t) + Y(t) entonces CZ (τ ) = CX (τ ) + CY (τ ). 5. Si los procesos son independientes, definiendo Z(t) = X(t)Y(t), se verifica que RZ (τ ) = RX (τ )RY (τ ).
5.5 5.5.1
Ergodicidad Ergodicidad con respecto de la media
Seg´ un conocemos de los temas anteriores, si observamos el valor que han tomado N variables Xi id´enticamente distribuidas, cada una con valor medio η y varianza σ 2 , entonces si creamos otra variable Z=
N 1 Xi N i=1
(5.23)
224
C. Alberola L´ opez
podemos afirmar que E{Z} = η y, si estas variables son, al menos, incorre2 = σ 2 /N . Por tanto, conforme N aumenta, la variable ladas, entonces σZ Z tiene cada vez una varianza menor y, en el l´ımite (N → ∞), Z pasar´ıa a ser una constante de valor igual a η. En t´erminos pr´ acticos, dado que nunca podremos llegar al l´ımite, diremos que Z es un buen estimador del valor de la media de cada una de las variables Xi . Consideremos ahora el caso de un proceso estoc´astico WSS X(t). Por ser estacionario, su media es constante, esto es, no es funci´on del tiempo, tampoco lo es su varianza y la correlaci´on es funci´ on de la separaci´ on entre las variables escogidas. Pensemos que queremos calcular la media de la variable X(t0 ), con t0 un valor concreto del tiempo. Para ello, seg´ un acabamos de ver, necesitar´ıamos m´ ultiples realizaciones del proceso X(t, ai ), desechar´ıamos todos los valores de las realizaciones en instantes diferentes de t0 y nos limitar´ıamos a promediar en el ´ındice i, es decir Z=
N 1 X(t0 , ai ) N i=1
(5.24)
Procediendo de esta manera, la variable Z tendr´ıa un comportamiento similar al de la VA de la expresi´ on (5.23): su media coincidir´ıa con la del proceso y su varianza ser´ıa tanto m´as peque˜ na cuanto mayor fuese el n´ umero de realizaciones del proceso, de forma que en el l´ımite la varianza ser´ıa nula. Sin embargo, rep´ arese en que hemos desperdiciado mucha informaci´on: nos hacen falta numerosas realizaciones del proceso pero, de cada una de ellas, s´olo escogemos un valor (el correspondiente al instante temporal t0 ) y renunciamos a hacer uso del resto. No obstante, el proceso es WSS, de forma que la media del resto de las variables coincide con la media de la variable X(t0 ). ¡Y disponemos de una realizaci´on de cada una de las infinitas variables de que consta el proceso! Por ello, ¿no ser´ıa posible calcular el valor medio a partir de una u ´nica realizaci´ on, sin necesidad de acudir a infinitas realizaciones? Pues bien, si esto es posible, el proceso estoc´astico X(t) se dice que es erg´odico, en este caso, con respecto a la media. Veamos qu´e condiciones son necesarias para que un proceso pueda ser erg´odico con respecto a la media. La primera condici´ on es obvia: la media del proceso no puede variar con el tiempo, de forma que el proceso, al menos, ha de ser WSS. Por otra parte, definamos el operador media temporal de la forma siguiente: T 1 MT = MT [X] = X(t)dt (5.25) 2T −T
Cap´ıtulo 5. Procesos estoc´ asticos
225
Este operador, como es natural, resulta en una VA puesto que es una funci´on de las infinitas variables del proceso estoc´astico. ¿Cu´ales son la media y la varianza de dicho operador? Al respecto de la media: E{MT } = E 1 2T
=
1 2T
T
−T
#
T
−T
X(t)dt
1 E{X(t)}dt = 2T
T
−T
ηX dt = ηX
(5.26)
la cual, como puede verse, coincide con la media del proceso. Al respecto de la varianza el c´alculo es un poco m´as complejo, pero metodol´ogicamente interesante: 2 σM T
= E{(MT − ηX )(MT − ηX )∗ } = E
1 2T
T
1 (X(t1 ) − ηX )dt1 2T −T
#
T
−T
(X(t2 ) − ηX )∗ dt2
1 2 T T = E{(X(t1 ) − ηX )(X(t2 ) − ηX )∗ }dt1 dt2 2T −T −T 1 2 T T = CX (t1 , t2 )dt1 dt2 2T −T −T 1 2 T T = CX (t1 − t2 )dt1 dt2 (5.27) 2T −T −T Para calcular esta integral es conveniente hacer el cambio de variable t2
s
2T
T -T
T
-2T
2T τ
t1 -T -2T
Figura 5.2: Dominios original (t1 , t2 ) y transformado (τ, s) de integraci´on. s = t1 + t 2 τ
= t1 − t 2
(5.28)
(la figura 5.2 indica los dominios de integraci´ on original y transformado) y dado que el jacobiano de la transformaci´ on es
∂s ∂t1 ∂τ ∂t1
∂s ∂t1 ∂τ ∂t1
1 1 = 1 −1
= −2
(5.29)
226
C. Alberola L´ opez
entonces = | − 2|dt1 dt2 = 2dt1 dt2 1 = dsdτ 2
dsdτ dt1 dt2
(5.30)
de forma que la integral pasa a ser 2 σM T
=
1 2T
2
2T
−2T
dτ
2
(2T −|τ |)
1 CX (τ ) ds 2 −(2T −|τ |)
2T 1 1 CX (τ )2(2T − |τ |)dτ 2T −2T 2 1 2 2T |τ | CX (τ )2T 1 − dτ = 2T 2T −2T 2T |τ | 1 CX (τ ) 1 − dτ = 2T −2T 2T
=
(5.31)
Seg´ un hemos visto en la ecuaci´on (5.26), la media de la variable media temporal MT coincide con la media (estad´ıstica) ηX del proceso. Pues bien, para que el proceso sea erg´odico con respecto de la media hace falta que la varianza de esta variable tienda a cero cuando el tiempo de integraci´ on tienda a infinito, de forma que, en el l´ımite, la variable media temporal sea igual, sin error ninguno, a ηX . Formalmente el proceso es erg´odico con respecto de la media si 2 lim σM =0 (5.32) T T →∞
es decir, si se verifica que 1 lim T →∞ 2T
5.5.2
2T
−2T
|τ | CX (τ ) 1 − 2T
dτ = 0
(5.33)
Ergodicidad con respecto de la autocorrelaci´ on
Podr´ıamos hacer las mismas consideraciones acerca de la ergodicidad de un proceso respecto de la autocorrelaci´on. En este caso, a trav´es de un operador temporal aplicado sobre una u ´nica realizaci´ on del proceso pretender´ıamos que el resultado de esta operaci´on coincidiese con la autocorrelaci´ on RX (τ ) del proceso. Pues bien, en este caso el operador es la autocorrelaci´ on temporal del proceso, definido de la forma: AT (τ ) = MT [X(t + τ )X∗ (t)] =
1 2T
T
−T
X(t + τ )X∗ (t)dt
(5.34)
Cap´ıtulo 5. Procesos estoc´ asticos
227
El proceso ser´a erg´odico con respecto de la autocorrelaci´on si el l´ımite de la anterior expresi´ on coincide (sin error alguno) con la autocorrelaci´ on del proceso para todo τ , es decir, si se verifica que lim AT (τ ) = RX (τ ), ∀τ
(5.35)
T →∞
Para que esto sea as´ı se pueden hacer las mismas consideraciones que en el caso de ergodicidad con respecto de la media. Es sencillo comprobar que la esperanza de la ecuaci´on (5.34) coincide con la autocorrelaci´on RX (τ ) del proceso. Por la tanto, se cumple la primera condici´on para que el anterior l´ımite se verifique. La segunda condici´on tiene que ver con la reducci´on progresiva de la varianza del anterior operador conforme el intervalo de integraci´on crece. Se puede verificar que la varianza de AT (τ ) es: 2 σA T (τ )
1 = 2T
2T
−2T
|λ| CYτ (λ) 1 − dλ 2T
(5.36)
con CYτ (λ) es la covarianza del proceso Yτ (t) = X(t + τ )X∗ (t) evaluada en el punto λ. As´ı pues, para que el proceso sea erg´odico respecto de la autocorrelaci´on, se debe verificar que 2 lim σA = 0, ∀τ T (τ )
T →∞
5.5.3
(5.37)
Algunas consecuencias de la ergodicidad de procesos estoc´ asticos
La ergodicidad es una propiedad que nos permite conectar conceptos probabil´ısticos con ideas intuitivas que podemos obtener haciendo razonamientos temporales. Por ejemplo, imaginemos que un proceso estoc´astico X(t) es igual a una VA Y, es decir X(t) = Y, ∀t
(5.38)
Supongamos, por concreci´on, que la media de la variable Y es igual a ηY . En estas condiciones es obvio que una realizaci´on cualquiera del proceso ser´a una funci´ on constante del tiempo de valor igual al del valor que haya tomado la variable Y en el experimento aleatorio, digamos, valor y. Por tanto, el operador media temporal MT =
1 2T
T
−T
ydt = y
(5.39)
228
C. Alberola L´ opez
de forma que, tambi´en en el l´ımite (T → ∞), la media temporal es igual al valor y de la realizaci´ on. Como es natural, este valor en general ser´a distinto de la media (salvo que d´e la casualidad que coincidan) por lo que el operador media temporal no coincidir´ a con la media ηY del proceso, de modo que un proceso as´ı definido no puede ser erg´ odico. Un segundo ejemplo ilustrativo es el de un proceso estoc´astico erg´odico de media nula. Si el proceso es erg´odico, como ya hemos dicho, la integraci´on temporal del mismo, en el l´ımite, ha de ser igual a la media (estad´ıstica) del proceso. Por ello, si la media de ´este es nula, la media temporal del proceso tambi´en lo ha de ser, de forma que cualquier realizaci´ on del mismo ser´a una se˜ nal con fluctuaciones en torno a la amplitud cero, con m´ as o menos simetr´ıa de los valores de la se˜ nal en torno a dicho valor nulo. Si, por contra, el proceso tuviese media igual a 5, las fluctuaciones de las realizaciones del proceso se producir´ıan sobre un nivel constante de valor 5. La figura 5.3 muestra un ejemplo de cada uno de los dos procesos. El concepto de ergodicidad tambi´en nos permite justificar, de forma intuitiva, por qu´e la correlaci´on de un proceso WSS erg´ odico ha de ser m´axima en el cero, as´ı como por qu´e debe ser peri´ odica si el proceso es peri´ odico5 . Al respecto de la primera, tomemos como referencia la figura 5.4. En esta figura observamos en l´ınea continua una realizaci´on del proceso X(t) y en l´ınea discontinua una realizaci´ on de este proceso desplazado, es decir, del proceso X(t + τ ) para τ = −1 (figura inferior) y para τ = −4 (figura superior). Recu´erdese que el operador autocorrelaci´on temporal calcula el ´area encerrada bajo el producto de estas dos funciones. Como es natural, cuando el proceso no est´a desplazado con respecto a ´el mismo, el ´area encerrada bajo el producto punto a punto de las dos funciones temporales (la realizaci´on del proceso original, y la realizaci´ on del proceso desplazado) es m´axima, dado que todos los productos tendr´ an signo positivo, de forma que todos los puntos de la realizaci´ on contribuyen positivamente. Por contra, cuando desplazamos la se˜ nal con respecto a ella misma, los productos punto a punto de una con otra tendr´ an, dependiendo de cada punto, signos positivos o negativos, de forma que la contribuci´ on al a´rea total ser´a constructiva o destructiva seg´ un el signo y, por ello, el ´area total ser´a menor. Un argumento similar se puede emplear para un proceso peri´ odico. En la figura 5.5 se muestra una realizaci´on de un proceso peri´ odico junto a 5
Debe hacerse una llamada de precauci´ on. La ergodicidad no es condici´ on necesaria para que se cumplan las propiedades de la autocorrelaci´ on vistas en la secci´ on 5.4.1. Tales propiedades se cumplen para procesos erg´ odicos y no erg´ odicos. Lo que aqu´ı se pretende es proporcionar una visi´ on gr´ afica de por qu´e ha de ser as´ı, no una demostraci´ on.
Cap´ıtulo 5. Procesos estoc´ asticos
229
2.5
2
1.5
1
0.5
0
−0.5
−1
−1.5
−2
−2.5
0
10
20
30
40
50
60
70
80
90
100
80
90
100
a) 7
6
5
4
3
2
1
0
0
10
20
30
40
50
60
70
b) Figura 5.3: a) Realizaci´on de un proceso estoc´astico erg´odico de media nula. b) Realizaci´on de un proceso estoc´astico erg´odico de media cinco. otra realizaci´on del mismo desplazada 2 unidades temporales (uts). Seg´ un se observa, el periodo del proceso es de 10 uts. La realizaci´on en l´ınea discontinua ha desplazado su m´ aximo al instante t = 8, mientras que el m´aximo central de la realizaci´on en l´ınea continua se encuentra en t = 10. Asimismo, en la realizaci´on en l´ınea discontinua observamos que un segundo m´ aximo aparece por la derecha de la ventana. Por tanto, si seguimos desplazando el proceso en l´ınea discontinua hasta 10 uts, el m´aximo que ha entrado por la derecha se habr´ a desplazado hacia la izquierda hasta encajar perfectamente con el m´aximo de la realizaci´on del proceso en l´ınea continua situado en t = 10. En este momento (τ = 10) la autocorrelaci´on
230
C. Alberola L´ opez
2 1 0 −1 −2 −3
0
2
4
6
8
10
12
14
16
18
20
0
2
4
6
8
10
12
14
16
18
20
2 1 0 −1 −2 −3
Figura 5.4: Ejemplo de ajuste entre una funci´ on y ella misma desplazada en el tiempo. Superior: retraso de τ = 1 unidades temporales (ut). Inferior: retraso de τ = 4 ut.
temporal (y, por ende, la autocorrelaci´ on estad´ıstica del proceso) volver´a a tener el mismo valor que para τ = 0. As´ı pues, la autocorrelaci´ on debe ser peri´ odica, y del mismo periodo que el proceso.
2
1.5
1
0.5
0
−0.5
−1
−1.5
−2
0
2
4
6
8
10
12
14
16
18
Figura 5.5: Ilustraci´ on del desplazamiento temporal de una realizaci´ on de un proceso peri´ odico.
Cap´ıtulo 5. Procesos estoc´ asticos
5.6 5.6.1
231
Densidad espectral de potencia Introducci´ on
En este punto vamos a llevar a cabo una caracterizaci´on espectral de los procesos estoc´asticos en el dominio de Fourier, es decir, en el dominio de la frecuencia. Como es sabido [15] el dominio transformado hace que ciertas operaciones, en particular, la operaci´on de filtrado, sean mucho m´ as intuitivas que en el dominio temporal original. El motivo es que una convoluci´ on es una operaci´on de cierta complejidad, mientras que su equivalente en el dominio de la frecuencia es un simple producto punto a punto de la transformada de Fourier de la se˜ nal con la transformada de Fourier de la respuesta en frecuencia del filtro. Por tanto, conocidas ambas, es evidente ver, por ejemplo, qu´e extensi´on espectral tendr´a la se˜ nal de salida del filtro, si bien la respuesta a esta pregunta en el dominio temporal original no es, en absoluto, trivial. Con el objetivo de poder hacer uso de esta operativa vamos a relacionar la teor´ıa de los procesos estoc´asticos con la teor´ıa de los sistemas lineales. Para tal fin, haremos un an´ alisis paralelo a [1]. Una manera inmediata de hacerlo ser´ıa llevar a cabo el siguiente razonamiento: dado que los procesos estoc´asticos son una colecci´on de funciones temporales, podemos limitarnos a calcular las transformadas de Fourier de las infinitas (o finitas, en su caso) realizaciones del mismo y as´ı tendremos la caracterizaci´on del proceso en el dominio espectral. Este razonamiento es correcto, sin embargo, es poco pr´actico. El motivo es obvio: nos obliga a trabajar con una colecci´on de transformadas de Fourier. Ser´ıa mucho m´as u ´til poder definir una u ´nica funci´ on espectral que caracterizase conjuntamente a todas las posibles realizaciones del proceso. En cierta manera, ser´ıa algo equivalente a un espectro promedio del proceso. Con esta funci´ on, a la cual denominaremos densidad espectral de potencia del proceso, podr´ıamos ver, por ejemplo, si el discurso de un locutor podr´ıa pasar sin distorsi´on a trav´es de un determinado sistema lineal (por ejemplo, un amplificador) con independencia de lo que el locutor diga en concreto, simplemente, haciendo uso de las caracter´ısticas globales de la voz de dicho locutor.
5.6.2
Deducci´ on de la densidad espectral de potencia
Como es sabido, una condici´ on suficiente para que la transformada de Fourier de una se˜ nal x(t) exista, es que ´esta sea de cuadrado integrable. Sin embargo, las sinusoides, por ejemplo, no tienen cuadrado integrable, pero
232
C. Alberola L´ opez
s´ı que disponen de transformada de Fourier. En el caso de los procesos estoc´asticos, en general, tampoco ser´an de cuadrado integrable, de forma que tendremos que asegurarnos que, de alguna manera, la integral de Fourier sea convergente. Esto se consigue trabajando en t´erminos de potencia de las se˜ nales, en vez de en t´erminos de energ´ıa. Para tal fin, consideremos un proceso estoc´astico X(t), y definamos, a partir de ´este, un proceso estoc´astico XT (t) el cual coincidir´ a con el primero en una parte del eje temporal y ser´a nulo en el resto. Concretamente: XT (t) =
X(t) |t| ≤ T 0 |t| > T
(5.40)
Un proceso as´ı definido ser´ a de cuadrado integrable salvo que el proceso X(t) presente en el intervalo |t| ≤ T alg´ un tipo de patolog´ıa. Dado que asumiremos que esto no ser´a as´ı, partamos de la hip´ otesis de
T
−T
|XT (t)|2 dt < ∞
(5.41)
Con esta asunci´ on, podemos afirmar que la transformada de Fourier del proceso XT (t) (es decir, la de cada una de las realizaciones de dicho proceso) existe. Adem´as, es cierto que
T
−T
|XT (t)|2 dt =
T
−T
|X(t)|2 dt = ER=1Ω
(5.42)
dado que en esa ventana temporal los dos procesos coinciden. Asimismo, si aceptamos que los procesos son una magnitud el´ectrica (tensi´on o corriente) la anterior expresi´ on se puede considerar que es igual a la energ´ıa disipada por el proceso sobre una resistencia normalizada de valor igual a 1Ω. No se pierda de vista que, naturalmente, dado que el proceso estoc´ astico es una colecci´on de VAs, dicha energ´ıa es una funci´ on de VA y, por ello, una VA. En virtud del teorema de Parseval para se˜ nales continuas podemos escribir T 1 ∞ |X(t)|2 dt = |XfT (ω)|2 dω (5.43) ER=1Ω = 2π −T −∞ donde XfT (ω) es la transformada de Fourier del proceso enventanado XT (t). N´ otese que esta transformada de Fourier es tambi´en un proceso estoc´astico, dado que es una funci´ on aleatoria de una variable, en este caso, de la pulsaci´ on ω.
Cap´ıtulo 5. Procesos estoc´ asticos
233
Podemos pasar de energ´ıas a potencias simplemente dividiendo por el tiempo empleado en el c´alculo de la energ´ıa. Por ello PR=1Ω
1 ER=1Ω = = 2T 2T
T
1 |X(t)| dt = 2π 2
−T
|XfT (ω)|2 dω 2T
∞
−∞
(5.44)
Extendiendo el intervalo de integraci´ on para abarcar todo el proceso (T → ∞) y tomando valores promedio (es decir, calculando la esperanza de las transformadas de Fourier de cada realizaci´ on) tendr´ıamos PX = =
lim E{PR=1Ω }
T →∞
lim E
T →∞
1 = lim T →∞ 2T = =
lim E
T →∞
1 2π
1 2T
−T
1 2π
# 2
|X(t)| dt
$
T
−T
T
=
%
E |X(t)|2 dt =
∞
−∞
∞
lim E
−∞ T →∞
|XfT (ω)|2 dω 2T |XfT (ω)|2 2T
#
#
dω
(5.45)
Resultado de esta operativa es que a la funci´ on subintegral de la u ´ltima expresi´ on, es decir a SX (ω) = lim E T →∞
|XfT (ω)|2 2T
#
,
(5.46)
se le denomina densidad espectral de potencia del proceso X(t), ya que es una funci´ on que integrada en un eje de frecuencias (de pulsaciones, estrictamente) proporciona la potencia media desarrollada por el proceso (sobre una resistencia normalizada de 1 Ω). Mide, por lo tanto, c´ omo se reparte la potencia media del proceso en cada una de las componentes espectrales que contribuyen a la formaci´ on del proceso.
5.6.3
Caso particular de procesos estacionarios en sentido amplio
En el caso particular, aunque pr´ acticamente habitual, de procesos estoc´asticos estacionarios al menos en sentido amplio, las expresiones anteriores se transforman en otras de m´as f´ acil manejo y mucho m´ as intuitivas, pues relacionan la potencia media y la densidad espectral de potencia con par´ametros de los procesos que ya conocemos.
234
C. Alberola L´ opez
Concretamente, si consideramos la expresi´on (5.45), y nos centramos en la relaci´ on entre la potencia media y el proceso en el tiempo, es decir
$ % T 1 P X = lim E |X(t)|2 dt, (5.47) T →∞ 2T −T podemos escribir esta expresi´on haciendo uso del operador media temporal, de forma que $ % P X = lim MT E |X(t)|2 (5.48) T →∞
es decir, estamos calculando la media temporal de la funci´ on de VCMs del proceso. En el caso de procesos WSS, el VCM es contante, de forma que, dado que la media temporal de una constante coincide con la constante, podemos escribir $ % (5.49) P X = E |X(t)|2 As´ı pues, para un proceso WSS, el VCM tiene el significado de la potencia media del mismo. Por otra parte, la expresi´ on general de la densidad espectral de potencia SX (ω) se simplifica notablemente, resultando una expresi´on mucho m´ as intuitiva. Concretamente, llevando a cabo una operativa muy similar a la desarrollada en la secci´on 5.5, podemos escribir XfT (ω) $
E |XfT (ω)|2
%
=
T
−T T
=
X(t)e−jωt dt
−T
T
−T
E {X(t1 )X∗ (t2 )} e−jω(t1 −t2 ) dt1 dt2 (5.50)
y haciendo el cambio de variable s = t1 + t2 = t1 − t 2
τ podemos escribir $
E |XfT (ω)|2 2T
%
(5.51)
2T (2T −|τ |) 1 1 dτ RX (τ )e−jωτ ds 2T −2T 2 −(2T −|τ |) 2T 1 1 RX (τ )e−jωτ 2(2T − |τ |)dτ = 2T −2T 2 2T |τ | 1 RX (τ )e−jωτ 2T (1 − )dτ = 2T −2T 2T 2T |τ | RX (τ )e−jωτ (1 − )dτ = 2T −2T
=
(5.52)
Cap´ıtulo 5. Procesos estoc´ asticos
235
Si ahora calculamos el l´ımite de la anterior expresi´on cuando T → ∞ para dar lugar a la funci´ on de densidad de potencia, obtendremos |XfT (ω)|2 2T
SX (ω) = lim E T →∞
#
=
∞
−∞
RX (τ )e−jωτ dτ
(5.53)
o lo que es igual, la transformada de Fourier de la funci´ on de correlaci´on del proceso. La relaci´on, por tanto, entre la densidad espectral de potencia de un proceso estoc´astico WSS y la funci´ on de autocorrelaci´on del mismo es de transformadas directa e inversa, es decir
SX (ω) = RX (τ ) =
∞
−∞
1 2π
RX (τ )e−jωτ dτ
∞
−∞
SX (ω)ejωτ dω
(5.54)
Estas expresiones reciben el nombre de relaciones de Wiener-Khinchin. Algunas propiedades de SX (ω) La funci´ on de densidad de potencia de un proceso verifica las siguientes propiedades: on real. N´otese, seg´ un indica la expresi´ on (5.46), 1. SX (ω) es una funci´ que se calcula mediante una esperanza de un m´odulo al cuadrado de un n´ umero complejo. Por lo tanto es una esperanza de una magnitud real, luego ha de ser real. un hemos dicho, es la esperanza de una 2. SX (ω) ≥ 0 ∀ω. En efecto, seg´ magnitud no negativa (un m´ odulo al cuadrado) luego no puede ser negativa. 3. Si el proceso X(t) es real y estacionario, SX (ω) = SX (−ω), es decir, es una funci´ on par. Esto es debido a que es igual a la transformada de Fourier de RX (τ ), funci´ on que, como hemos visto, es real y par si el proceso X(t) es real. Si el proceso X(t) fuese complejo, SX (ω) ser´ıa una funci´ on herm´ıtica, puesto que tambi´en lo ser´ıa la correlaci´on RX (τ ). 4. Habida cuenta de la relaci´ on entre el VCM de un proceso estoc´astico WSS y su funci´ on de autocorrelaci´on, se verifica que PX
1 = 2π
∞
−∞
SX (ω)dω = RX (0) = E{X2 (t)}
(5.55)
236
5.6.4
C. Alberola L´ opez
Espectros cruzados de procesos estacionarios en sentido amplio
La relaciones de Wiener-Khinchin se pueden extender al caso de dos procesos X(t) e Y(t) conjuntamente estacionarios en sentido amplio. Podemos, por tanto, definir el par de transformadas
SXY (ω) = RXY (τ ) =
∞
−∞
1 2π
RXY (τ )e−jωτ dτ
∞
−∞
SXY (ω)ejωτ dω
(5.56)
Estos espectros cruzados son, en general, funciones complejas incluso aunque los procesos X(t) e Y(t) sean reales. Adem´as, habida cuenta de las propiedades de la correlaci´on cruzada RXY (τ ) es f´acil comprobar que ∗ (ω). SXY (ω) = SYX Por otra parte, los espectros cruzados surgen con frecuencia en la pr´ actica. Por ejemplo, supongamos que necesitamos calcular la densidad espectral de un proceso Z(t) = X(t) + Y(t). Entonces, calculando su autocorrelaci´on RZ (τ ) = E{Z(t + τ )Z∗ (t)}
= E{(X(t + τ ) + Y(t + τ ))(X(t) + Y(t))∗ }
= E{X(t + τ )X∗ (t)} + E{X(t + τ )Y∗ (t)} + E{Y(t + τ )X∗ (t)} + E{Y(t + τ )Y∗ (t)} = RX (τ ) + RY (τ ) + RXY (τ ) + RYX (τ )
(5.57)
por lo que, tomando transformadas de Fourier, obtenemos SZ (ω) = SX (ω) + SY (ω) + SXY (ω) + SYX (ω)
(5.58)
densidad espectrak que, como se observa, es funci´ on de dos densidades espectrales y dos espectros cruzados. No obstante, para el caso particular en el que los procesos sean ortogonales se verifica que RXY (τ ) = RYX (τ ) = 0 ∀τ , de forma que los espectros cruzados ser´ıan nulos ∀ω y la densidad espectral de la suma de dos procesos coincidir´ıa con la suma de las densidades espectrales. Una vez m´as, la ortogonalidad de procesos hace que ciertas operaciones sean mucho m´as sencillas.
5.7
Sistemas lineales con entradas estoc´ asticas
Consideremos que el proceso X(t) atraviesa un sistema lineal e invariante con respuesta al impulso h(t). Denotemos al proceso a la salida del mismo
Cap´ıtulo 5. Procesos estoc´ asticos
237
como Y(t). El objetivo de esta secci´on es obtener las principales propiedades del proceso de salida en funci´ on de las propiedades del proceso de entrada. Como es sabido [15], la relaci´on entrada-salida se obtiene mediante la operaci´on de convoluci´ on:
Y(t) =
5.7.1
∞
−∞
X(t − τ )h(τ )dτ
Media y valor cuadr´ atico medio
Con respecto a la media: &
E{Y(t)} = E
=
'
∞
−∞
∞
−∞
X(t − τ )h(τ )dτ
h(τ )E {X(t − τ )} dτ =
∞
−∞
h(τ )ηX (t − τ )dτ (5.59)
y si el proceso es WSS
E{Y(t)} = ηX
∞
−∞
h(τ )dτ = ηX H(ω = 0)
(5.60)
donde H(ω = 0) es la transformada de Fourier de la respuesta al impulso del filtro evaluada en el cero. Con respecto al VCM: &
2
E{|Y(t)| } = E
=
∞
h(τ1 )X(t − τ1 )dτ1
−∞ ∞ ∞
−∞ −∞
∞
−∞
∗
∗
'
h (τ2 )X (t − τ2 )dτ2
E {X(t − τ1 )X∗ (t − τ2 )} h(τ1 )h∗ (τ2 )dτ1 dτ2 (5.61)
En el caso en que X(t) sea real y WSS
E{|Y(t)|2 } =
∞
∞
−∞ −∞
RX (τ2 − τ1 ) h(τ1 )h∗ (τ2 )dτ1 dτ2
(5.62)
238
C. Alberola L´ opez
Un caso particular de inter´es consiste en que el proceso de entrada X(t) sea un ruido blanco de media nula y funci´ on de autocorrelaci´ on RX (τ ) = N0 δ(τ ). En estas condiciones 2 E{Y(t)} = ηX H(ω = 0) = 0 ∞ ∞ N0 δ(τ2 − τ1 )h(τ1 )h∗ (τ2 )dτ1 dτ2 E{|Y(t)|2 } = 2 −∞ −∞ N0 ∞ = |h(τ )|2 dτ 2 −∞
5.7.2
(5.63)
(5.64)
Correlaci´ on cruzada y autocorrelaci´ on
Calculemos ahora la autocorrelaci´on RY (t1 , t2 ) del proceso Y(t) como funci´on de RX (t1 , t2 ). Al respecto del proceso X(t), consideraremos que es WSS. Para calcular la autocorrelaci´ on del proceso Y(t) emplearemos como paso intermedio la correlaci´on cruzada RXY (t1 , t2 ): ∗
&
RXY (t1 , t2 ) = E {X(t1 )Y (t2 )} = E X(t1 )
=
∞
−∞ ∞
=
−∞
∞
∗
'
∗
X (t2 − α)h (α)dα
−∞
h∗ (α)E {X(t1 )X∗ (t2 − α)} dα h∗ (α)RX (t1 − t2 + α) dα =
∞
−∞
h∗ (α)RX (τ + α) dα
= RXY (τ )
(5.65)
es decir, que la correlaci´on cruzada RXY (t1 , t2 ) es funci´ on de la diferencia entre los ´ındices τ = t1 − t2 , y se obtiene mediante la siguiente operaci´on de convoluci´ on: RXY (τ ) = RX (τ ) ∗ h∗ (−τ ) (5.66) Con esto, la funci´ on de autocorrelaci´ on RY (t1 , t2 ) se puede calcular de la forma ∗
&5
RY (t1 , t2 ) = E {Y(t1 )Y (t2 )} = E
= =
∞
−∞ ∞ −∞
∞
−∞
6
∗
'
h(α)X(t1 − α)dα Y (t2 )
h(α)E {X(t1 − α)Y∗ (t2 )} dα h(α)RXY (t1 − t2 − α) dα =
= RY (τ ) = h(τ ) ∗ RXY (τ )
∞
−∞
h(α)RXY (τ − α) dα (5.67)
Cap´ıtulo 5. Procesos estoc´ asticos
239
es decir, RY (τ ) = h(τ ) ∗ RXY (τ )
= h(τ ) ∗ h∗ (−τ ) ∗ RX (τ )
5.7.3
(5.68)
Densidad espectral de potencia
Consecuencia inmediata de lo anterior es que SXY (ω) = F {RXY (τ )} = F {RX (τ ) ∗ h∗ (−τ )} = SX (ω)H ∗ (ω)
(5.69)
as´ı como que SY (ω) = SX (ω)H ∗ (ω)H(ω) = SX (ω)|H(ω)|2
5.8
(5.70)
Algunos ejercicios ilustrativos
1.- Sea X(t) un proceso estoc´astico definido como sigue: X(t) = Acos (2πF(n)t) con nT < t ≤ (n + 1)T , n ∈ Z, T > 0 y F[n] una secuencia de variables independientes de Bernoulli, las cuales toman los valores fi = Ti , i = 1, 2, con igual probabilidad ∀n ∈ Z. Se pide: 2 (t). ¿Es el proceso WSS? a) Obtenga ηX (t) y σX b) Se define el proceso
(n+1)T
Z[n] = nT
X(t)cos (2πf1 t) dt
Obtenga la caracterizaci´on probabil´ıstica de primer orden de este proceso. c) Se define el proceso
(n+1)T
W[n] = nT
X(t)cos (2πf2 t) dt
Se pide que justifique si los procesos Z[n] y W[n] son ortogonales. Soluci´ on: a) El proceso X(t) consiste en una colecci´on de VAs discretas, pues para un t dado el proceso puede tomar los valores Acos (2πf1 t) o´ Acos (2πf2 t) de forma equiprobable. Por ello, para el c´ alculo de los
240
C. Alberola L´ opez
par´ ametros que se piden emplearemos las expresiones (2.41) y (2.50). As´ı pues 2
ηX (t) = E{X(t)} =
xi pi
i=1
A [cos (2πf1 t) + cos (2πf2 t)] 2 5 6 A 1 2 cos 2π t + cos 2π t 2 T T
= =
Si particularizamos para dos valores temporales concretos ηX (t = 0) =
ηX t =
T 4
=
A [1 + 1] = A 2 5 6 π A A cos + cos (π) = − 2 2 2
on del de forma que es evidente que ηX (t) = ηX , es decir, la media es funci´ tiempo, por lo que el proceso no puede ser WSS. Para calcular la varianza, calculemos primero el VCM E{X2 (t)} = =
2 i=1 A2
2
x2i P (X(t) = xi ) = 5
2
cos
2 i=1
x2i pi
1 2 2π t + cos2 2π t T T
6
para finalmente escribir 2 2 (t) = E{X2 (t)} − ηX (t) σX 5 6 2 A 1 2 cos2 2π t + cos 2π t − = 2 T T 5 62 2 A 1 2 2 cos 2π t + cos 2π t 4 T T 5 6 A2 1 2 1 2 = cos2 2π t + cos2 2π t − 2cos 2π t cos 2π t 4 T T T T
b) Z[n] es un proceso de VAs discretas dado que cada VA del proceso procede de una funci´ on de cada variable del proceso F[n]. Por ello, su caracterizaci´on de primer orden consiste en hallar los valores que toma cada variable, as´ı como las probabilidades con las que los toman (secci´on
Cap´ıtulo 5. Procesos estoc´ asticos
241
2.2.2). As´ı pues si F[n] = f1 entonces
(n+1)T
Z[n] =
Acos (2πf1 t) cos (2πf1 t) dt
nT
(n+1)T
= A nT (n+1)T
cos2 (2πf1 t) dt
1 + cos (2π(2f1 )t) dt 2 nT 4π 4π (n+1)T A A (n+1)T A T A cos T+ t dt = T + sen t 2 2 nT T 2 2 4π T nT A T 2
= A = =
Por otra parte si F[n] = f2
(n+1)T
Z[n] =
Acos (2πf2 t) cos (2πf1 t) dt
nT
A (n+1)T [cos (2π(f2 + f1 )t) + cos (2π(f2 − f1 )t)] dt 2 nT 5 6 A (n+1)T 3 1 = cos 2π t + cos 2π t dt 2 nT T T (n+1)T A T 6π 2π (n+1)T T = + sen t sen t 2 6π T nT 2π T nT = 0
=
As´ı pues Z[n] es un proceso de VAs discretas que toman los valores A2 T y 0 de forma equiprobable. c) Es evidente, a partir del procedimiento seguido en el apartado anterior, que el proceso W[n] es tambi´en un proceso de VAs discretas que toman los mismos valores que Z[n] y con las mismas probabilidades. Sin embargo, debido a la definici´ on de estos procesos, cuando Z[n] = 0 entonces W[n] = A2 T y viceversa. Por ello la VA bidimensional (Z[n], W[n]) toma los on valores (0, A2 T ) y ( A2 T, 0) de forma equiprobable. Recordando la definici´ de correlaci´on entre dos VAs (secci´on 3.6.2) podemos escribir RZW [n, n] = E{Z[n]W[n]} =
=
i
zi wi P (Z[n] = zi , W[n] = wi )
A 1 A 0· T + T ·0 =0 2 2 2
Por ello las VAs Z[n] y W[n] son ortogonales.
242
C. Alberola L´ opez
Sin embargo si escogemos dos ´ındices distintos m = n las VAs Z[m] y W[n] proceden de funciones de las VAs F[m] y F[n], las cuales son independientes y, por ello, tambi´en lo son Z[m] y W[n]. Al ser independientes son incorreladas (secci´on 3.6.2) por lo que
RZW [m, n] = E{Z[m]W[n]} = E{Z[m]}E{W[n]} =
=
AT 4
2
AT 1 1 +0 2 2 2
2
= 0
Por ello los procesos no son ortogonales. Este problema describe un tipo de modulaci´ on digital conocido [13] como FSK (frequency shift keying), en la cual cada d´ıgito binario se env´ıa como un pulso sinusoidal de frecuencia fi (i={1,2}). Los procesos Z[m] y W[n] toman valores no nulos cuando se reciben los s´ımbolos asociados a las frecuencias f1 y f2 , en los intervalos (mT, (m + 1)T ) y (nT, (n + 1)T ), respectivamente. ♣ 2.- La cabecera de una instalaci´ on de TV recibe la superposici´on de tres procesos estoc´asticos X(t), Y(t) y N(t). Los dos primeros soportan, respectivamente, la informaci´ on de intensidad y color, mientras que el tercero es un proceso de ruido blanco, de media nula, estacionario en sentido amplio con funci´ on de autocorrelaci´ on RN (τ ) = N20 δ(τ ), erg´ odico e independiente de los primeros, el cual se ha introducido durante la transmisi´ on de la se˜ nal. Los procesos X(t) e Y(t) responden,respectivamente, a las expresiones
N y x X(t) = N i=1 Ai cos(ωi t + Θi ), Y(t) = j=1 Bj cos(ωj t + Φj ), siendo Ai exponenciales de par´ ametro λ ∀i, Bj exponenciales de par´ ametro µ ∀j y las fases iniciales Θi y Φj uniformes [0, 2π], ∀i, j. Considere, asimismo, independencia entre todas las variables Ai , Bj , Θp , Φq , ∀i, j, p, q. Se pide: a)Denominando Z(t) al proceso suma de los tres arriba indicados, obtener E{Z(t)} y RZ (t1 , t2 ). ¿Es el proceso Z(t) estacionario en sentido amplio? b) ¿Es el proceso Z(t) erg´odico respecto de la media? Sin necesidad de hacer las operaciones, razone la ergodicidad respecto de la autocorrelaci´on del proceso X(t) + Y(t). c) El proceso Z(t) es filtrado mediante un filtro cuya respuesta al impulso es h(t) = δ(t) − δ(t − T0 ) originando un proceso de salida W(t). Obtener la densidad espectral del proceso de salida W(t), sabiendo que y fix = 2i+1 on 2 f0 , fj = jf0 , siendo f0 = 1/T0 . Explique brevemente la misi´
Cap´ıtulo 5. Procesos estoc´ asticos
243
del filtro h(t). Soluci´ on: a) Aplicando linealidad del operador esperanza (apartado 3.6) podemos escribir E{Z(t)} = E{X(t) + Y(t) + N(t)} = E{X(t)} + E{Y(t)} + E{N(t)} Al respecto de la esperanza de X(t) E{X(t)} = E
N
#
Ai cos(ωix t
+ Θi )
i=1
=
N
E{Ai cos(ωix t + Θi )}
i=1
=
N
E{Ai }E{cos(ωix t + Θi )}
i=1 N
1 = E{Ai } 2π i=1
0
2π
cos(ωix t + θi )dθi
donde el paso de la segunda a la tercera l´ınea se ha hecho en base a la independencia de las VAs Ai y Θi (v´ease apartado 3.6.2). Con ello, la integral resulta ser nula, dado que es la integraci´ on de un coseno en un periodo del mismo (recu´erdese que se integra en la variable θi y ´esta var´ıa en el intervalo [0, 2π]). Por ello, E{X(t)} = 0. Similares consideraciones podr´ıan hacerse con el proceso Y(t); adem´as el enunciado dice que el proceso N(t) tiene media nula. Ello hace finalmente que E{Z(t)} = 0. Respecto de la autocorrelaci´on: RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )} = E{(X(t1 ) + Y(t1 ) + N(t1 ))(X(t2 ) + Y(t2 ) + N(t2 ))} Si se realiza el producto indicado tendremos numerosos factores del tipo E{AB} con A y B VAs independientes (las procedentes de cada uno de los procesos). Dado que E{AB} = E{A}E{B} para el caso de VAs independientes, y dado que la media de cada proceso es nula, del producto anterior basta con que nos quedemos con los t´erminos consistentes en productos de variables que proceden del mismo proceso. Por ello RZ (t1 , t2 ) = E{Z(t1 )Z(t2 )}
244
C. Alberola L´ opez
= E{X(t1 )X(t2 )} + E{Y(t1 )Y(t2 )} + E{N(t1 )N(t2 )} = RX (t1 , t2 ) + RY (t1 , t2 ) + RN (t1 , t2 ) = RX (t1 , t2 ) + RY (t1 , t2 ) + RN (t1 − t2 ) Debemos calcular los dos primeros sumandos. Comenzando por RX (t1 , t2 ) RX (t1 , t2 ) =
N N
E{Ai Aj cos(ωix t1 + Θi )cos(ωjx t2 + Θj )}
i=1 j=1
=
N
E{A2i cos(ωix t1 + Θi )cos(ωix t2 + Θi )} +
i=1 N N i=1
=
N
E{Ai Aj cos(ωix t1 + Θi )cos(ωjx t2 + Θj )}
j=1 j=i
E{A2i }E{cos(ωix t1 + Θi )cos(ωix t2 + Θi )} +
i=1 N N i=1
E{Ai }E{Aj } ×
j=1 j=i
E{cos(ωix t1 + Θi )}E{cos(ωjx t2 + Θj )} = =
N i=1 N i=1
=
E{A2i }E{cos(ωix t1 + Θi )cos(ωix t2 + Θi )} E{A2i } E{cos(ωix (t1 + t2 ) + 2Θi ) + cos(ωix (t1 − t2 ))} + 2
N E{A2i }
2
i=1
=
N 1 i=1
λ2
cos(ωix (t1
− t2 )) =
N 2/λ2 i=1
cos(ωix (t1 − t2 )) =
N 1 i=1
λ2
2
cos(ωix (t1 − t2 ))
cos(ωix τ )
con τ = t1 − t2 . Rep´arese que se ha hecho uso de la independencia de VAs, as´ı como del VCM de una VA exponencial (apartado 2.5.4). Respecto del proceso Y(t) el razonamiento ser´ıa similar, y el u ´nico cambio proceder´ıa de los VCMs de las VAs Bi . Por ello, podemos concluir que RZ (t1 , t2 ) =
N 1 i=1
λ
cos(ωix τ ) + 2
N 1 j=1
µ2
cos(ωjy τ ) +
N0 δ(τ ) 2
Cap´ıtulo 5. Procesos estoc´ asticos
245
= RZ (τ ) por lo que el proceso es WSS (apartado 5.4). b) La ergodicidad respecto de la media se puede plantear analizando si el l´ımite del operador media temporal (expresi´on 5.25) coincide con la esperanza matem´atica del proceso. Para tal fin MT [Z] = MT [X + Y + N] = MT [X] + MT [Y] + MT [N] (5.71) Respecto del proceso N(t), el enunciado dice que es erg´odico. Queda pues comprobar qu´e sucede con los otros dos. Razonando, como anteriormente, con el proceso X(t) MT [X] =
1 2T
=
1 2T
T
−T
T
X(t)dt N
−T i=1
N
1 T →∞ 2T i=1
lim MT [X] =
T →∞
lim
Ai cos(ωix t + Θi )dt
T
−T
Ai cos(ωix t + Θi )dt
Cada una de las integrales corresponde a la integraci´on de una sinusoide en toda la recta real. El valor de esta integral es nulo. Podemos ver esto redefiniendo el origen de tiempos para que el coseno se convierta en un seno. En tal caso, la integral ser´ıa la de una funci´ on impar en un intervalo sim´etrico. No obstante, para evitar dudas, empleemos el procedimiento consistente en el c´alculo de la varianza de la VA MT [X] (expresi´on 5.31): 2 σM T
= = = = =
2T 1 |τ | CX (τ ) 1 − dτ 2T −2T 2T 2T |τ | 1 RX (τ ) 1 − dτ 2T −2T 2T
1 T
N 1
2T
0
N 1 i=1 N i=1
T σi2
0
i=1 2T
λ
cos(ωix τ ) 2
τ 1− 2T
1 τ cos(ωix τ ) 1 − 2 λ 2T
dτ
dτ
246
C. Alberola L´ opez
Centr´ andonos, por simplicidad, en un u ´nico valor de i podemos escribir σi2
I1
2T 2T 1 1 τ x = cos(ω τ )dτ − cos(ωix τ ) dτ i 2 2 Tλ 0 Tλ 0 2T = I1 + I2 1 1 1 = sen(ωix τ )|2T sen(ωix 2T ) 0 = x 2 T λ ωi T λ2 ωix
Es evidente que limT →∞ I1 = 0 pues el seno toma un valor entre 0 y 1. Respecto de I2 podemos integrar por partes de la forma: I2 = = =
1 2T 2 λ2 1 2T 2 λ2 1 2T 2 λ2
1 τ x sen(ωix τ )|2T 0 − ωi
0
2T
1 sen(ωix τ )dτ ωix
2T 1 sen(ωix 2T ) + x 2 cos(ωix τ )|2T 0 ωix (ωi )
2T 1 sen(ωix 2T ) + x 2 (cos(ωix 2T ) − 1) x ωi (ωi )
En este caso el factor T 2 que divide a la expresi´ on hace que el l´ımite sea 2 nuevamente cero. Por ello limT →∞ σi2 = 0, de forma que limT →∞ σM =0 T y el proceso es erg´odico con respecto de la media. Lo mismo sucede para el proceso Y(t) por lo que podemos concluir que el proceso Z(t) es erg´odico respecto de la media. En relaci´ on con la ergodicidad con respecto a la autocorrelaci´on rep´ arese que la autocorrelaci´on temporal (expresi´on (5.34)) ser´a funci´ on de los valores concretos observados de las VAs Ai y Bj . Por ello la autocorrelaci´on temporal ser´a una funci´ on aleatoria, de forma que no coincidir´ a, en general, con RZ (τ ), por lo que el proceso no ser´ a erg´odico respecto de la autocorrelaci´ on. c) Haciendo uso de la expresi´on (5.70) y dado que H(ω) = 1−e−jωT0 [15] entonces SW (ω) = |H(ω)|2 SZ (ω) = 2(1 − cos(ωT0 ))SZ (ω) con SZ (ω) =
N π i=1
λ2
[δ(ω − ωix ) + δ(ω + ωix )] +
N π j=1
µ2
δ(ω − ωjy ) + δ(ω + ωjy ) +
N0 2
Cap´ıtulo 5. Procesos estoc´ asticos
247
Rep´ arese entonces que: 1 T0 = kf0 2k + 1 = 2T0 2k + 1 = f0 2
|H(ω)|2 = 0 → ωT0 = 2kπ → 2πf T0 = 2kπ → fk = k |H(ω)|2 = 4 → ωT0 = (2k + 1)π → 2πf T0 = (2k + 1)π → fk
Por ello, habida cuenta de los valores que toman fix y fjy es claro que el filtro elimina la componente de color Y(t) de la se˜ nal Z(t), multiplica por 4 la componente de intensidad X(t) y colorea el ruido adoptando ´este un espectro sinusoidal. As´ı pues SZ (ω) = 4SX (ω) + 2(1 − cos(ωT0 ))SN (ω) ♣ 3.- Considere el proceso estoc´astico real X[n], (n ∈ Z), estacionario en sentido amplio y de media nula, con secuencia de autocorrelaci´on RX [m] conocida (RX [m] < RX [0] ∀m = 0). Se pide: ˆ a) Identifique el valor de a11 que hace que X[n] = a11 X[n − 1] sea el estimador lineal de X[n] de m´ınimo error cuadr´ atico medio. Obtenga la varianza σ 2 del error en la estimaci´on. 1 es excitado por un ruido b) Un filtro causal con H(z) = 1−a11 z −1 blanco W[n], real y estacionario, de media nula y secuencia de autocorrelaci´on RW [m] = σ 2 δ[m], originando as´ı un nuevo proceso Y[n]. Obtenga la secuencia de autocorrelaci´on RY [m]. c) Para mejorar la calidad de la estimaci´on de X[n] se propone el estimador ˆ X[n] = a21 X[n − 1] + a22 X[n − 2] ˆ Obtenga los valores de los coeficientes a11 y a22 de modo que X[n] sea el estimador lineal de m´ınimo error cuadr´ atico medio, y deduzca la relaci´on entre ´estos y σ 2 . Soluci´ on: a) Dado que las medias de las VAs del proceso X[n] son nulas, la expresi´on del estimador lineal ´optimo es, en efecto, la indicada en el enunciado (pues el valor de la ordenada en el origen b ser´ıa nulo seg´ un indica la expresi´ on (3.62)). Por otra parte el coeficiente a11 se puede obtener directamente del empleo de la expresi´on (3.61). Asimismo y tambi´en debido
248
C. Alberola L´ opez
a la nulidad de la media, correlaci´ on y covarianza coinciden (expresi´ on 3.49). Por ello CX [1] RX [1] = a11 = 2 RX [0] σX Con respecto a la varianza del error de estimaci´on y seg´ un la expresi´ on (3.64) podemos escribir 2 σ 2 = σX (1 − ρ2X [1])
Dado que RX [1] RX [1] " ρX [1] = " = = a11 RX [0] RX [0] RX [0] entonces σ 2 = RX [0](1 − a211 ) b) El filtro planteado tiene una respuesta al impulso [15] h[n] = an u[n], con u[n] la funci´ on escal´on. La autocorrelaci´ on a la salida del filtro puede calcularse mediante el equivalente discreto de la expresi´on (5.68) o bien a trav´es del dominio transformado, haciendo uso de la expresi´ on (5.70) adaptada al dominio discreto. Empleando el dominio original, la autocorrelaci´ on pedida puede calcularse mediante RY [m] = h[m] ∗ h∗ [−m] ∗ RW [m] En este caso, dado que la autocorrelaci´ on a la entrada es la correspondiente a un ruido blanco, la expresi´ on anterior se puede escribir RY [m] = σ 2 (h[m] ∗ h∗ [−m])
(5.72)
Para calcular esta convoluci´ on podemos hacer uso de la propiedad de paridad de la autocorrelaci´ on para un proceso estoc´astico WSS real (apartado 5.4.1); de esta manera, podemos calcular la convoluci´ on para valores m ≥ 0 y luego forzar a que ese resultado sea par. Procediendo del modo indicado: h[m] ∗ h∗ [−m] = =
∞
h[n]h[n − m]
n=0 ∞ n=m
an an−m = a−m
∞ n=m
a2n ,
(5.73)
Cap´ıtulo 5. Procesos estoc´ asticos
249
expresi´ on v´ alida ∀m ≥ 0. Denominando a2 = τ debemos hacer la suma
∞ S(τ ) = n=m τ n lo cual se obtiene de forma sencilla haciendo S(τ ) = τ S(τ ) = τ
∞ n=m ∞
τ n = τ m + τ m+1 + . . . τ n = τ m+1 + τ m+2 + . . .
n=m
Restando ambas expresiones llegamos a (1 − τ )S(τ ) = τ m τm S(τ ) = 1−τ
(5.74)
por lo que uniendo los resultados de (5.74) y (5.73) y sustituyendo en (5.72) llegamos a am , RY [m] = σ 2 1 − a2 lo cual es v´alido ∀m ≥ 0. Como dijimos, la correlaci´on debe ser par. Por ello a|m| RY [m] = σ 2 , ∀m 1 − a2 c) En este caso nos plantean la extensi´on a dos variables del estimador lineal o´ptimo, esto es, la particularizaci´on de la expresi´ on (4.12) para N = 2. Para tal fin, dado que b = 0 puesto que el proceso es de media nula, podemos, simplemente, hacer uso del principio de ortogonalidad ˆ (v´ease apartado 3.7.5). Concretamente, denominando [n] = X[n] − X[n] podemos escribir E{[n]X[n − 1]} = 0 E{[n]X[n − 2]} = 0 Por lo que E{(X[n] − (a21 X[n − 1] + a22 X[n − 2]))X[n − 1]} = 0 E{(X[n] − (a21 X[n − 1] + a22 X[n − 2]))X[n − 2]} = 0 a21 RX [0] + a22 RX [1] = RX [1] a21 RX [1] + a22 RX [0] = RX [2],
250
C. Alberola L´ opez
sistema de dos ecuaciones con dos inc´ognitas que podemos resolver, por ejemplo, mediante la regla de Cramer, esto es:
a21
a22
= =
RX [1] RX [1] RX [2] RX [0] RX [0] RX [1] RX [1] RX [0] RX [0] RX [1] RX [1] RX [2] RX [0] RX [1] RX [1] RX [0]
=
RX [1]RX [0] − RX [1]RX [2] 2 [0] − R2 [1] RX X
=
2 [1] RX [2]RX [0] − RX 2 [0] − R2 [1] RX X
RX [0] RX [2] − =
RX [0] 1 − =
2 [1] RX 2 [0] RX
2 [1] RX RX [0]
RX [0]
RX [2] − a11 RX [1] σ2 ♣
4.- El proceso estoc´astico real M(t) es WSS, de media nula, con densidad espectral SM (ω), de la que se sabe que SM (ω) = 0 para |ω| > ω0 . A partir de ´este se construye el proceso X(t) de la forma ˆ (ωc t) X(t) = M(t)cos (ωc t) − M(t)sen ˆ donde el proceso M(t) es la transformada de Hilbert del proceso M(t). Esta transformada se obtiene como salida del filtro lineal e invariante cuya res1 y, de forma complementaria, su respuesta en puesta al impulso es h(t) = πt frecuencia es H(ω) = −jsgn(ω) con sgn la funci´ on signo. Bajo el supuesto de que ωc ω0 se pide que obtenga la densidad espectral de potencia SX (ω) del proceso X(t). Soluci´ on: Para obtener SX (ω) calcularemos, como paso previo, RX (t1 , t2 ) y, de resultar el proceso WSS, nos limitaremos a calcular la transformada de Fourier de la autocorrelaci´ on. Rep´ arese que de no resultar WSS tendr´ıamos que emplear la v´ıa indicada en la expresi´ on (5.46). Por otra parte, dado que ˆ el proceso M(t) se obtiene a partir de M(t) mediante un sistema lineal e
Cap´ıtulo 5. Procesos estoc´ asticos
251
ˆ invariante, al ser M(t) WSS, tambi´en lo es M(t) y son, asimismo, conjuntamente estacionarios (v´ease secci´on 5.7). As´ı pues RX (t1 , t2 ) = E{X(t1 )X(t2 )} = E
$
ˆ 1 )sen (ωc t1 ) × M(t1 )cos (ωc t1 ) − M(t %
ˆ 2 )sen (ωc t2 ) M(t2 )cos (ωc t2 ) − M(t
= E {M(t1 )M(t2 )cos (ωc t1 ) cos (ωc t2 ) − ˆ 2 )cos (ωc t1 ) sen (ωc t2 ) − M(t1 )M(t ˆ 1 )M(t2 )sen (ωc t1 ) cos (ωc t2 ) + M(t % ˆ 2 )sen (ωc t1 ) sen (ωc t2 ) ˆ 1 )M(t M(t = RM (t1 − t2 )cos (ωc t1 ) cos (ωc t2 ) − RMM ˆ (t1 − t2 )cos (ωc t1 ) sen (ωc t2 ) − (t1 − t2 )sen (ωc t1 ) cos (ωc t2 ) + RMM ˆ
RM ˆ (t1 − t2 )sen (ωc t1 ) sen (ωc t2 )
En virtud de las relaciones entrada-salida obtenidas en la secci´on mencionada y de las propiedades de las autocorrelaciones y correlaciones cruzadas vistas en la secci´on 5.4.1, podemos escribir (τ ) = RMM RMM ˆ (−τ ) ˆ
1 1 = RM (τ ) ∗ − R MM ˆ (τ ) = RM (τ ) ∗ h (−τ ) = RM (τ ) ∗ π(−τ ) πτ 1 1 RMM (τ ) = RM (−τ ) ∗ = RM (τ ) ∗ = −RMM ˆ (τ ) ˆ πτ πτ Por otra parte recu´erdese que la funci´on sgn(ω) es igual a 1 para ω > 0 y a −1 para ω < 0. Para ω = 0 la funci´ on vale cero. Sin embargo, dado que el proceso M(t) se ha supuesto de media nula, la densidad espectral SM (ω) no presenta una delta en el origen (no est´a presente un t´ermino proporcional a δ(ω)), de forma que el comportamiento de la funci´ on sgn(ω) en ω = 0 es, a todos los efectos, irrelevante. Por ello, podemos escribir ∗
2 SM ˆ (ω) = |H(ω)| SM (ω)
= (−jsgn(ω)) (jsgn(ω)) SM (ω) = SM (ω) ∀ω = 0. Por ello podemos afirmar que RM ˆ (τ ) = RM (τ ) ∀τ . Volviendo a la expresi´on de RX (t1 , t2 ), y aceptando que τ = t1 − t2 , podemos escribir RX (t1 , t2 ) = RM (τ )cos (ωc t1 ) cos (ωc t2 ) −
252
C. Alberola L´ opez
R MM ˆ (τ )cos (ωc t1 ) sen (ωc t2 ) + R MM ˆ (τ )sen (ωc t1 ) cos (ωc t2 ) + RM (τ )sen (ωc t1 ) sen (ωc t2 ) = RM (τ ) [cos (ωc t1 ) cos (ωc t2 ) + sen (ωc t1 ) sen (ωc t2 )] + R MM ˆ (τ ) [sen (ωc t1 ) cos (ωc t2 ) − cos (ωc t1 ) sen (ωc t2 )]
= RM (τ )cos (ωc (t1 − t2 )) + RMM ˆ sen (ωc (t1 − t2 )) = RM (τ )cos (ωc τ ) + RMM ˆ sen (ωc τ ) Finalmente, dado que $
%
ˆ E{X(t)} = E M(t)cos (ωc t) − M(t)sen (ωc t) $
%
ˆ = E {M(t)} cos (ωc t) − E M(t) sen (ωc t) = 0 (recu´erdese la expresi´on (5.60)) podemos afirmar que el proceso X(t) es WSS. Si recordamos ahora la expresi´ on (5.69), dado que H ∗ (ω) = jsgn(ω) entonces ∗ SMM ˆ (ω) = H (ω)SM (ω) = jsgn(ω)SM (ω) Con todo ello la densidad espectral SX (ω) se puede expresar SX (ω) = SM (ω) ∗ (π [δ(ω − ωc ) + δ(ω + ωc )]) + π [δ(ω − ω SMM (ω) ∗ ) − δ(ω + ω )] c c ˆ j = π [SM (ω − ωc ) + SM (ω + ωc )] + 4 π3 S MM ˆ (ω − ωc ) − SMM ˆ (ω + ωc ) j = π [SM (ω − ωc ) + SM (ω + ωc )] + π [SM (ω − ωc )sgn(ω − ωc ) − SM (ω + ωc )sgn(ω + ωc )] La figura 5.6 muestra, para una forma escogida de SM (ω) que cumple la restricci´ on del enunciado, la densidad espectral de potencia SX (ω) del proceso X(t). Como puede verse, se ha desplazado la densidad espectral SM (ω) del proceso M(t) al valor ω = ωc pero s´olo se ha conservado la banda lateral superior de tal densidad espectral (esto es, los valores SM (ω) para ω > 0). Al ser M(t) un proceso real su densidad espectral es par, de forma que al conservar s´olo la banda lateral superior (o la inferior) no perdemos informaci´ on de dicha funci´ on. El procedimiento descrito en este
Cap´ıtulo 5. Procesos estoc´ asticos
253 A
S (ω ) M
ω0
−ω 0 1
A
S (ω )
A
X
−ω c −(ω c+ ω 0)
−ωc + ω
2
A
ωc
ωc − ω 0
0
0
S (ω )
ω c+ ω 0
ω
A
X
−ωc + ω
−ω c −(ω c+ ω 0)
ωc − ω 0
0
ω c+ ω 0
ω
-A
-A
S (ω ) X
2Aπ
−ω c −(ω c+ ω 0)
ωc
0
2A π
ωc 0
ω c+ ω 0
ω
1 (ω) = S (ω − ω ) + Figura 5.6: Figura problema 4. Se ha denominado SX c M 2 SM (ω + ωc ) y SX (ω) = SM (ω − ωc )sgn(ω − ωc ) − SM (ω + ωc )sgn(ω + ωc ).
ejercicio consiste en un tipo de modulaci´on lineal conocida [13] como SSB (single sideband, esto es, modulaci´ on de banda lateral u ´nica) y permite modular se˜ nales anal´ ogicas ocupando la mitad de ancho de banda que se ocupar´ıa si se transmitiesen las dos bandas laterales, sin p´erdida alguna de informaci´ on. ♣
Bibliograf´ıa B´ asica [1] P. Z. Peebles, Probability, Random Variables and Random Signal Principles, Mc-Graw Hill Int. Ed., 3rd Ed., 1994. [2] A. Papoulis, Probability, Random Variables and Stochastic Processes, Mc-Graw Hill Int. Ed., 3rd Ed., 1993. [3] H. Starks, J. W. Woods, Probability, Random Processes and Estimation Theory for Engineers, Mc-Graw Hill Int. Ed., 2nd Ed., 1994.
Avanzada [4] S. M. Kay, Fundamentals of Statistical Signal Processing. Estimation Theory, Prentice-Hall Int. Ed., 1st Ed., 1993. [5] S. M. Kay, Fundamentals of Statistical Signal Processing. Detection Theory, Prentice-Hall Int. Ed., 1st Ed., 1998. [6] H. L. Van Trees, Detection, Estimation and Modulation Theory, Part I, John Wiley and Sons Inc., 1st Ed., 1968. [7] H. V. Poor, An Introduction to Signal Detection and Estimation, Springer-Verlag, 2nd Ed., 1994. [8] L. L. Scharf, Statistical Signal Processing, Adddison Wesley, 1st Ed., 1991. [9] R. O. Duda, P. E. Hart, Pattern Analysis and Scene Classification, John Wiley and Sons Inc., 1st Ed., 1973. 255
256
C. Alberola L´ opez
[10] S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, 1st Ed. 1999. [11] B. W. Lindgren Statistical Theory, Collier-Macmillan Int. Ed., 4th Ed., 1976. [12] T. W. Anderson, An Introduction to Multivariate Statistical Analysis, John Wiley and Sons Inc., 2nd Ed., 1984.
Sistemas de comunicaci´ on [13] S. Haykin, Communication Systems, John Wiley and Sons Inc., 3rd Ed., 1994. [14] B. Sklar, Digital Communications: Fundamentals and Applications, Prentice Hall Int. Ed., 1st Ed., 1988.
Procesado de Se˜ nal e Imagen [15] A. V. Oppenheim, A. S. Willsky, I. T Young, Signals and Systems, Prentice Hall Int. Ed., 1st Ed., 1983. [16] A. K. Jain, Fundamentals of Digital Image Processing, Prentice-Hall Int. Ed., 1st Ed., 1989. [17] J. S. Lim, Two dimensional Signal and Image Processing, Prentice-Hall Int. Ed., 1st Ed., 1990.
´Indice General Pr´ ologo
9
1 Teor´ıa de la Probabilidad 1.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 1.2 Algebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Definiciones, terminolog´ıa y notaci´ on . . . . . . . . . 1.2.2 Operaciones con conjuntos . . . . . . . . . . . . . . . 1.3 Definici´ on de probabilidad . . . . . . . . . . . . . . . . . . . 1.3.1 Probabilidad como frecuencia relativa . . . . . . . . 1.3.2 Definici´ on cl´asica . . . . . . . . . . . . . . . . . . . . 1.3.3 Definici´ on axiom´ atica de la probabilidad . . . . . . . 1.4 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . 1.5 Independencia de sucesos . . . . . . . . . . . . . . . . . . . 1.5.1 Independencia de pares de sucesos . . . . . . . . . . 1.5.2 Independencia de m´ ultiple sucesos . . . . . . . . . . 1.6 Teoremas de la Probabilidad total y de Bayes . . . . . . . . 1.6.1 Concepto de partici´ on . . . . . . . . . . . . . . . . . 1.6.2 Teorema de la Probabilidad Total . . . . . . . . . . 1.6.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . 1.6.4 Sobre el teorema de Bayes y los sistemas de comunicaciones . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Experimentos compuestos. Composici´on de ensayos de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.1 Composici´on de ensayos de Bernoulli . . . . . . . . .
13 13 15 15 16 19 20 20 21 26 28 28 31 32 32 32 33
2 Variable aleatoria unidimensional 2.1 Concepto de variable aleatoria . . . . . . . . . . . . . . . . 2.2 Caracterizaci´on de las variables aleatorias: funciones de distribuci´ on y densidad . . . . . . . . . . . . . . . . . . . . . .
47 47
257
34 37 40
49
258
C. Alberola L´ opez
2.3
2.4
2.5
2.6
2.7 2.8
2.2.1 Funci´ on de distribuci´ on . . . . . . . . . . . . . . . . 2.2.2 Funci´ on de densidad de probabilidad . . . . . . . . . Algunas variables aleatorias frecuentes . . . . . . . . . . . . 2.3.1 Continuas . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Discretas . . . . . . . . . . . . . . . . . . . . . . . . Funciones condicionadas . . . . . . . . . . . . . . . . . . . . 2.4.1 Teoremas de la Probabilidad Total y de Bayes . . . 2.4.2 Teoremas de la Probabilidad Total y de Bayes mediante partici´ on continua . . . . . . . . . . . . . . . Caracterizaci´on parcial de una variable aleatoria. . . . . . 2.5.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Otras medidas de tendencia central . . . . . . . . . . 2.5.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 Ejemplos para varias distribuciones . . . . . . . . . . 2.5.5 Desigualdad de Tchebycheff . . . . . . . . . . . . . . Transformaci´ on de variable aleatoria . . . . . . . . . . . . . 2.6.1 Caso de X discreta . . . . . . . . . . . . . . . . . . . 2.6.2 Caso general. Obtenci´ on de la funci´ on de distribuci´ on 2.6.3 Caso general. Obtenci´ on de la funci´ on de densidad: Teorema Fundamental . . . . . . . . . . . . . . . . . Caracterizaci´on parcial de una funci´ on de variable aleatoria 2.7.1 Momentos de una variable aleatoria . . . . . . . . . Funciones que generan momentos . . . . . . . . . . . . . . . 2.8.1 Funci´ on caracter´ıstica . . . . . . . . . . . . . . . . . 2.8.2 Funci´ on generadora de momentos . . . . . . . . . . .
3 Variable aleatoria bidimensional 3.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Caracterizaci´on de variable aleatoria bidimensional . . . . . 3.2.1 Funci´ on de distribuci´ on conjunta . . . . . . . . . . . 3.2.2 Funci´ on de densidad de probabilidad conjunta . . . 3.2.3 Funciones marginales . . . . . . . . . . . . . . . . . . 3.2.4 Casos particulares . . . . . . . . . . . . . . . . . . . 3.3 Funciones condicionadas . . . . . . . . . . . . . . . . . . . . 3.3.1 Funciones marginales, condicionadas y conjuntas . . 3.3.2 Teoremas de la Probabilidad Total y de Bayes para partici´ on continua . . . . . . . . . . . . . . . . . . . 3.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Transformaci´ on de variable aleatoria bidimensional . . . . . 3.5.1 Una funci´ on de dos variables aleatorias . . . . . . . .
50 55 58 58 65 67 69 70 73 73 75 76 78 85 87 89 90 94 99 101 103 103 109 111 111 114 114 117 119 122 127 128 131 132 135 135
´INDICE GENERAL
3.6
3.7
259
3.5.2 Dos funciones de dos variables aleatorias . . . . . . . 3.5.3 Teorema Fundamental . . . . . . . . . . . . . . . . . 3.5.4 M´etodo de la variable auxiliar . . . . . . . . . . . . . Caracterizaci´on parcial de una funci´ on de dos variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Esperanzas condicionadas . . . . . . . . . . . . . . . 3.6.2 Momentos conjuntos . . . . . . . . . . . . . . . . . . Estimaci´ on de m´ınimo error cuadr´ atico medio . . . . . . . . 3.7.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Resumen de estimadores . . . . . . . . . . . . . . . . 3.7.3 Estimaci´ on mediante una constante . . . . . . . . . 3.7.4 Estimaci´ on mediante una funci´ on lineal de la observaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.5 Principio de ortogonalidad . . . . . . . . . . . . . . . 3.7.6 Estimaci´on o´ptima sin restricciones . . . . . . . . . .
4 Variable N-dimensional 4.1 Conceptos b´ asicos . . . . . . . . . . . 4.2 Esperanzas matem´aticas . . . . . . . . 4.3 Variables conjuntamente gaussianas . 4.4 Variables complejas . . . . . . . . . . . 4.5 Teoremas asint´oticos . . . . . . . . . . 4.5.1 Teorema del L´ımite Central . . 4.5.2 Teorema de DeMoivre-Laplace 4.5.3 Ley de los Grandes N´ umeros . 4.6 Algunos ejercicios ilustrativos . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
141 144 149 151 153 153 157 157 161 161 162 164 165 167 167 171 174 183 184 184 186 187 190
5 Procesos estoc´ asticos 209 5.1 Concepto de proceso estoc´astico. Clasificaci´on . . . . . . . . 209 5.1.1 Clasificaci´ on de procesos estoc´asticos . . . . . . . . . 212 5.2 Funciones de distribuci´ on y densidad . . . . . . . . . . . . . 213 5.3 Caracterizaci´on parcial de procesos estoc´asticos. Ruido blanco214 5.3.1 Concepto de ruido blanco . . . . . . . . . . . . . . . 216 5.3.2 Caso de dos procesos . . . . . . . . . . . . . . . . . . 217 5.4 Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . . . 218 5.4.1 Propiedades de la correlaci´on de procesos estacionarios220 5.5 Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.5.1 Ergodicidad con respecto de la media . . . . . . . . 223 5.5.2 Ergodicidad con respecto de la autocorrelaci´on . . . 226
260
C. Alberola L´ opez
5.5.3
5.6
5.7
5.8
Algunas consecuencias de la ergodicidad de procesos estoc´asticos . . . . . . . . . . . . . . . . . . . . . . . Densidad espectral de potencia . . . . . . . . . . . . . . . . 5.6.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Deducci´ on de la densidad espectral de potencia . . . 5.6.3 Caso particular de procesos estacionarios en sentido amplio . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.4 Espectros cruzados de procesos estacionarios en sentido amplio . . . . . . . . . . . . . . . . . . . . . . . Sistemas lineales con entradas estoc´asticas . . . . . . . . . . 5.7.1 Media y valor cuadr´ atico medio . . . . . . . . . . . . 5.7.2 Correlaci´on cruzada y autocorrelaci´on . . . . . . . . 5.7.3 Densidad espectral de potencia . . . . . . . . . . . . Algunos ejercicios ilustrativos . . . . . . . . . . . . . . . . .
Bibliograf´ıa
227 231 231 231 233 236 236 237 238 239 239 255