Slide 9
Slide 9 text
3.2 Nivel Morfol´
ogico 51
as´
ı como de todos los estados precedentes. Sin embargo, las cadenas de Markov presentan dos
caracter´
ısticas de suma importancia:
1. La propiedad del horizonte limitado, que permite truncar la dependencia probabil´
ıstica
del estado actual y considerar, no todos los estados precedentes, sino ´
unicamente un
subconjunto finito de ellos. Una cadena de Markov de orden n es la que utiliza n estados
previos para predecir el siguiente estado. Por ejemplo, para el caso de las cadenas de Markov
de tiempo discreto de primer orden tenemos que P(qt = j|qt−1 = i, qt−2 = k, . . . ) = P(qt =
j|qt−1 = i), es decir, depender´
ıa ´
unicamente del estado anterior; en caso de ser de segundo
orden, de los dos estados anteriores, y as´
ı sucesivamente.
2. La propiedad del tiempo estacionario, que nos permite considerar s´
olo aquellos procesos en
los cuales P(qt = j|qt−1 = i) es independiente del tiempo, lo que a su vez nos lleva a definir
una matriz de probabilidades de transici´
on independientes del tiempo A = {aij
}, donde
∀i, j; 1 ≤ i, j ≤ N; aij = P(qt = j|qt−1 = i) = P(j|i) y se cumplen las restricciones
estoc´
asticas est´
andar: aij
≥ 0 para todo i y j, y N
j=1
aij = 1 para todo i. Adicionalmente,
es necesario especificar el vector π = {πi
} que almacena la probabilidad πi
≥ 0 que tiene
cada uno de los estados de ser el estado inicial: ∀i; 1 ≤ i ≤ N; πi = P(q1 = i).
A un proceso estoc´
astico que satisface estas caracter´
ısticas se le puede llamar un modelo de
Markov observable, porque su salida es el conjunto de estados por los que pasa en cada instante de
tiempo, y cada uno de estos estados se corresponde con un suceso observable. Esta modelizaci´
on
puede resultar demasiado restrictiva a la hora de ser aplicada a problemas reales. A continuaci´
on
extenderemos el concepto de modelos de Markov de tal manera que sea posible incluir aquellos
casos en los cuales la observaci´
on es una funci´
on probabil´
ıstica del estado. El modelo resultante,
denominado modelo de Markov oculto (HMM, Hidden Markov Model), es un modelo doblemente
estoc´
astico, ya que uno de los procesos no se puede observar directamente (est´
a oculto), y s´
olo
se puede observar a trav´
es de otro conjunto de procesos estoc´
asticos, los cuales producen la
secuencia de observaciones. Un HMM se caracteriza por la 5-tupla (Q, V, π, A, B) donde:
1. Q = {1, 2, . . . , N} es el conjunto de estados del modelo. Aunque los estados permanecen
ocultos, para la mayor´
ıa de las aplicaciones pr´
acticas se conocen a priori. Por ejemplo,
para el caso de la etiquetaci´
on de palabras, cada etiqueta del juego de etiquetas utilizado
ser´
ıa un estado. Generalmente los estados est´
an conectados de tal manera que cualquiera
de ellos se puede alcanzar desde cualquier otro en un solo paso, aunque existen muchas
otras posibilidades de interconexi´
on. El estado actual en el instante de tiempo t se denota
como qt. El uso de instantes de tiempo es apropiado, por ejemplo, en la aplicaci´
on de los
HMM al procesamiento de voz. No obstante, para el caso de la etiquetaci´
on de palabras,
no hablaremos de los instantes de tiempo, sino de las posiciones de cada palabra dentro
de la frase.
2. V es el conjunto de los distintos sucesos que se pueden observar en cada uno de los estados.
Por tanto, cada uno de los s´
ımbolos individuales que un estado puede emitir se denota como
{v1, v2, . . . , vM
}. En el caso de la etiquetaci´
on de palabras, M es el tama˜
no del diccionario
y cada vk, 1 ≤ k ≤ M, es una palabra distinta.
3. π = {πi
}, es la distribuci´
on de probabilidad del estado inicial, cumpli´
endose que πi
≥ 0,
∀i; 1 ≤ i ≤ N; πi = P(q1 = i), y N
i=1
πi = 1.
4. A = {aij
} es la distribuci´
on de probabilidad de las transiciones entre estados, esto es,
∀i, j, t; 1 ≤ i ≤ N, 1 ≤ i ≤ N, 1 ≤ t ≤ T; aij = P(qt = j|qt−1 = i) = P(j|i),
cumpli´
endose que ai, j ≥ 0 y que N
j=1
aij = 1 para todo i.