ADAPTACIÓN DE LA ARQUITECTURA DE REDES NEURONALES ESTOCÁSTICAS POLINOMIALES UTILIZANDO APRENDIZAJE DE AUTOMATAS

Eduardo Gómez1 y Alexander S. Poznyakz

1Laboratorio del Centro de Investigación Universidad La Salle, Benjamín Franklin 47, Col. Hipódromo-Condesa, México DF 06170, email· egomez@aldebaran.ci.ulsa.mx

2Sección de Control Automático, CINVESTAV-IPN.

Av.IPN 2508 AP 14-740, México D.F., CP 07000 email. apoJ:.o.yª@ctrl.clnvestav.mx

RESUMEN

Se discute la forma de obtener el número óptimo de nodos en una Red Neuronal artificial Polinomial con perturbaciones de tipo estocástico en la salida de cada nodo. El algoritmo utilizado se basa en una técnica de aprendizaje reforzado. Para resolver este problema de op!Jmización se introduce un índice especial de desempeño de tal forma que el número óptimo de nodos corresponde al punto mínimo de este criterio. Este criterio es una combinación de la minimización de una función residual y de la varianza de las perturbaciones consideradas de naturaleza aleatoria . Un valor grande en la varianza de la perturbación da como resultado un óptimo diferente del número de neuronas en la red debido al efecto de "interferencia". El algoritmo de aprendizaje utilizado permite aplicar este procedimiento sin conocer la naturaleza de las perturbaciones y disminuye la cantidad de operaciones que se requieren en la convergencia del estimado. Se presentan algunos resultados de simulación para ilustrar la potencialidad del algoritmo propuesto.

ABSTRACT

This paper is concerned with the selection of a number of nodes in polynomial artificial neural nets containing stochastic noise perturbations in the outputs of each node. The suggested approach is based on a reinforcement learning technique. To solve this optimizalion problem we introduce a spe­ cial performance index in such a way that Lhe best number of nades corresponds to the minimum point of !he suggested cnterion. This cnterion presents a linear combination of a residual minim1zation func­ tíonaland sorne "generalized variance of the involved disturbances of random nature. A large value of the noise variance leads to a different opt imal number of neurons in a neural network because of the interference" effect. The nature of the noise perturbations is not necessary to be known using the learning algorithm and \he computing effort decreased to get the convergence estimated. Simulation modeling results are presented to illustrate the effectiveness of the suggested approach.


INTRODUCCIÓN

Las Redes Neuronales Artificiales (RNA) han demostrado ser una herramienta muy importante en una gran variedad de problemas de ingeniería (1-4). Especialmente en aplicaciones de RNA a control y reconocimiento de patrones (5-8).A pesar de la gran cantidad de publicaciones en el área, es una minoría la que considera el problema de adaptar la arquitectura de la red para una aplicación en particular (9). Algunas de estas publicaciones consideran límites máximos y mínimos para la selección del número de nodos o

Rev C enl!o lm·. (Mux; Vol '1Num. 11 (1998)


neuronas en las capas ocultas (10). Otros autores discuten la influencia del número de nodos y capas ocultas en la minimización del error cuadrático entre la salida de la red y la salida deseada en una aplicación en particular (11, 12). Otros artículos sugieren algunos algoritmos para estimar el número de nodos para diferentes paradigmas (13-19). Como se demostró en (20) bajo la presencia de ruidos de naturaleza estocástica en la entrada y salida de cada nodo existe un procedimiento por el cual se puede obtener el número óptimo de nodos de una RNA para una aplicación en particular donde se conoce la

estadistica de los ruidos o perturbaciones.



En este trabajo el tipode red considerada es una Red Neuronal Artific ial Polinomial (RNAP) que contiene perturbaciones estocásticas enla salida del nodo. El ob¡etivo principal es obtener un algoritmo adaptable que obtenga el óptimo (desde elpunto de vista de aproximación) número de nodos de una RNAP,utilizando solamente la información disponible de lasmediciones de las señales de entrada y salida. En (19) este problema fue resuelto considerando la suposición que se conoce la estadística completa sobre las perturbaciones de antemano. En nuestro caso esta suposición no es necesaria debido a que se utilizará un algoritmo adaptable.

Pa ra poder realizar este procedimiento en ausencia de toda la información necesaria sobre la estadística de la perturbaciones se requiere cierta clase de "aprendizaje" para obtener un resultado


interconexiones sinápticas que son más complejas que una simple sumatoria. Algunos resultados muestran que este tipo de comportamiento es no lineal y puede ser modelado. Existen algunos modelos de RNA que utilizan estos conceptos como son: Redes Neuronales Polinomiales {RNP) (24), Redes Neuronales de Orden Mayor (Higher Order Neural Networks (HONN) (25) y modelos de lnterconecciones no lineales (26, 27). Este tipo de representación no es exclusiva de RNA y resultados similares pueden ser encontrados en otras áreas. Por ejemplo: modelos NARMAX (28, 31), métodos de rnanipulación de datos (Group Method of Data Handling. GMDH) (32, 33) y aproximaciones polinomiales (34).

Las RNAP con perturbaciones estocásticas pueden ser descritas por:


adecuado. En elcaso de optimización discreta sobre un conjunto finito en la presencia de perturbaciones


Yt "" (x.,x 2 ···


X1,1.-1 Xz.l-1 ····


.rr.k -ndi


se sugiere aplicar Aprendizaje de Autómatas. Esta

técnica hademostrado tener muy buenos resullados en estas situaciones (20-22). Para este trabajo se aplicaron las ideas presentadas en (23) para construir elproceso de adaptación de la estructura.


donde:


Yt -1 Yt-i . ... yt _,.,¡) + L

(Ec 1)


El artículo tiene elsiguiente orden:

En la sección 2 se describe las RNAP y el planteamiento del problema; en la sección 3 se explica la forma en que se selecciona el número óptimo de términos enun problema de aproximación de una función multidimensional en la presencia de ruidos o perturbaciones en las mediciones. En la sección 4 se muestra corno el problema de seleccionar el número óptimo de nodos en RNAP

puede tr aducirse al problema de aproximación descrito en la sección anterior. La sección 5 describe la técnica de aprendizaje de autómatas y el esquema de reforzamiento de Bush-Mosteller para obtener el número óptimo de nodos. la sección 6 explica la aplicac ión de aprendizaje de autómatas para seleccionar el número óptimo de nodos en RNAP. La descripción del algoritmo numérico se presenta

en la sección 7 con algunos ejemplos de simulación . Las conclusiones se presentan en la sección 8.

REDES NEURON ALES ARTIFICIALES POLINOMIALES CON PERTURBACIONES ESTOCÁSTICAS Y FORMULACIÓN DEL PROBLEMA

Las redes neuronales biológicas tienen


ndi número de retrasos de la entrada ndo número de retrasos de la salida t1>t) es una función no lineal

t; es una vanable aleatoria

x

1

yk es la función estimada son las entradas a la red

El diagrama correspondiente para la RNAP se muestra en la fig. 1. La función no lineal <J>i) puede ser representada por:

<z1 , Za ....•, z.,) "' ao(z"lz •....• zM) + a¡ (Zp Zz ,...., z.,.)

tll1(l1 •....,z.J...... + Oi--{z.1,z1,....,¡..,.)

(Ec. 2)

donde: z.es la entrada al modelo. nv es el número totalde elementos de q¡t) tal que:

nv .. ni + ndi *ni + ndo (Ec. 3)

2

pow es la potencia máxima de la expresión polinomial y a,(z ,,z , • • • • z,,) es un polinomio

homogéneo de grado i, para i:O,. ..pow , tal que (35):

Rov . C nt• o /m (Mt:x.J \fol3 Núm 11 (198)



ª o( z .. z 2 .. .. , znJ = Co

a,(z,,z.i ,...,znJ = CLiZt + C1.2Zi + ...+ c,_ ,,,.z,,,.

ª2 (zl, Zz· ···• ZnJ = C2.tZ + Cz.2 z,Zi + c2.3zlz3 + ····

+ ... z,z,,v + ...+ ...2 + ... ...+ cN z,2,..

l

1 2 2


señales de entrada y salida de la red , c onst ru i r un p roceso de aprendizaje para o btener as i ntóticamente ( en algún sentido probab i l í st i co ) " el óptimo " número de n euronas N . C o n este n úmer o se obtiene el error mínimo de aproximación.


1

a,(Z1,Z2 ,..., Z..v) :::: C3.1 Z

+ C3.2Z1 Zi + C:uZi Z3 + ...


En la siguiente sección se explica la solución

para un problema análogo cuando se quiere


2 2

+...C14Z1Zi + ··· + C35Z1 + c.3.6Z 1Z3 + ···


aproximar una función mullidimensional.


+ ... z; 3 + ..z2 Z3 +


2 + .... + CN z3


··Z2Z3

' 3

•··+ Cpow .N """'z;;w


(Ec. 4)


SELECCIÓN DEL ORDEN ÓPTIMO DE UNA APROXIMACIÓN DE UNA FUNCIÓN MULTIDIMENSIONAL EN LA PRESENCIA DE RUIDOS DEPENDIENTES.



donde N

1


es el número de términos de cada


Para poder demostrar la forma en que se va


polinomio tal que j;:; 1....pow. El número total de

términos N de la representación (Ec 1) es igual a·


obtener el orden óptimo considérese que se

cumplen las siguientes suposiciones:



p<>w

N = L

j-0


(Ec. 5)


A 1) Un vector zk Eff< y una salida escalar y* E R' de un modelo de referencia estático pueden ser relacionadas mediante la siguiente ecuación·

n (Ec. 6)

donde n es elnúmero de rned1c1ones disponibles. S1t. E R1 representa las perturbaciones no med1bles de naturaleza estocástica en el tiempo k,f(z) es la medición srn ruido o perturbación. Esta perturbación es una variable aleatoria definida en un espacio de probabilidad ( rí,F ,P) tal que:



x , .

X .

X 1 ,.ro.1

· 1

z

X 2 ,t-1

X ni !.111-1

I x.U·n<li

X

1t.1.k--r:!:ti

l(

X 1 .kr.d1

;{*)

y

z

E{k} = O, E{ ks}

= a!al'.s


(aquiaz =az (zJ es la varianza de la variable aleatoria s que puede ser dependiente de la

entrada z" ; es el símbolo Kronecker).

a

A2) La aproxfrnac16n delmodelo se obtiene como.


Figura 1.Esquema de RNAP Considerando lo anterior el problema principal


.. ,. N A N

Y t = f (zk lc,,) = etrl( ( zk )

i-1


(Ec. 7)


de este trabajo puede ser descnto como en (36.

19):


donde 4( (zk ) representa una función conocida

y c es la constante o peso de esta función, N es

1


Utilizando las secuencias de obseNacíón d e las

R ev Ce ntr o l rw ( Mf>) / Vol 3 Núm 1 1 (1998)


el orden de la aprox imación, en otras palabras,


325



el número de términos necesarios para la estimación de la (Ec. 7).

A3) Los parámetros delmodelo (Ec. 7} se obtienen utilizando el Método de Mínimos Cuadrados Ponderados (MMCP) (Weíghted Least Squares Method. WLSM) (36):

(Ec. 8}

Elvector cnN que m1nim1za el error cuadrático puede ser expresado mediante la siguiente fórmula.

{Ec. 9)


cara cteri za la pr ec i s ión medi a cua drática de l a apro ximación (7) des pués de n medicio nes de to s

pares {x ; y ,). A l a función D N se le denom111a

n

función de pérdida conjunta.

Este criterio es una generalización del Criterio de Aka1ke para el caso de varianza variante en el tiempo (37)

SEL ECCION DEL ÓPTIMO NUMERO DE NODOS EN RNAP PARA EL CASO DE INFORMACIÓN COMPLETA

Elsiguiente teorema muestra la equivalencia entre elplanteamiento anterior sobre la óptima selección del orden de la aprox1mac1on {Ec 7) para el problema central de la selección óptima de nodos de la RNAP.

Primero, considér ese que se cumplen la s siguientes suposiciones:

B1) La salida de la RNAP está descrita por la s1gu1ente relación.


o en su forma recurrente:


N

Yk = ¿c,</>( Z;.k ) + k

1-1


(Ec. 13)


(Ec. 10}

Teorema 1. (19) Considerando tas supos1c1ones A 1)-A3) para el MMCP se cumplen la siguientes relaci ones

(Ec 11)

don de S N se define por la (Ec. 8} y

"


donde c, es el peso asociado, >(z) es una función no lineal y es fa perturbación en la salida del nodo.

s

B2) Las perturbaciones a la sahda s.de cada nodo son·una variable aleatoria definida en un espacio de probab1l1dad (n,F,P) tal que son estacionarias.

independientes en tiempo y son centradas con varianza finita. por ejemplo:

B3) La función no lineal puede ser representada por:

</J(Z¡> <::z ,..., z.J = Co + C¡.1Z1 + C¡.2Z'l. + ... + C¡.••ztlV + ...

....c . uz: + ....C2.:1.Z1Z2 + C2,3Z1Z3 +·...z1z.,. + ...zi + ...

2 3 2 2

+ .. z1Z3 ... +C2.N2 Zn• + C3,1Z, + C3.zZ1 Z2 + C3,3Z1 Z3 +...

2 z 3

... + C3, 4 Z1Z1 + c3.5<.1Z2Z 3 + C3.óZ1Z3 + ... + ...z.¿ +..


1

e z """'-'7. +... + e z"'"'

+...z2,l:J + ..ZiZ32 + .... + c,,"')l ..,.......cpow.1z"

+ ...


(Ec. 12)


pt>w,2 1 pnw,/'I l°'h"' nv


(Ec. 14)


Rr;: Centro Jnv: ¡Mé:x} VoU N•1m 11 (1998)



Entonces el modelo no lineal de la (Ec. 13) de la RNAP es equivalente al modelo de la planta estática (Ec. 6) . Enlonces para un valor

suficientemente grande de k tal que k = "el número óptimo·· ( N,, ( ú>i_ ))* de nodos (i=1,2,. ., N) puede ser calculado con probab1l1dad de 1.

La dependencia de la función D (w") (Ec.

s :

12) con N se muestra en la f1g 2. Es claro que la

curva (<,V¡, ) corresponde a la precisión de la aproximación sin perturbación. La curva 2 (el

N

término 2(- ) corresponde a la influencia de los

n

,-

ruidos o perturbaciones en el proceso de aproximación para diferentes valores de N:A mayor cantidad de entradas con ruido produce una mayor

APRENDIZAJE DE AUTÓMATAS

El aprendizaje de autómalas (AA) (20) se puede describir como un sistema

L= {3,X,U,P,ffi (Ec 15)

donde :=: es el con¡unto de en1radas (salidas del medio) s, al tiempo t: X={x(1), ......,x(K)} es el

conjunto de estados: U={u(1) . . ......u(N)} es el conjunto de salidas o acciones de control; Pes el conjunto de vec tores de probabilidad

p =- p¡( 1). ,p¡(N) E P, la probabilidad p/ i)

1

corresponde a la probabilidad para seleccionar la salida u,=u(1). ¡= 1, . .N al tiempo t , :H es el

esquema de reforzamiento. tal que·


distorsión o interferencia en la estimación de la salida de cada nodo. El valor óptimo del número


<J\. p


p l• I


de nodos ( Nn )' corresponde al mínimo valor de "la función de pérdida conjunta'' D:.

N

Figura 2. Función de Pérdida Conjunta DN ,


Este esquema modifica el vec tor de

probabilidades y se basa en las med1c1ones para obtener el mejor comportamiento en un medio de termmado. Cabe aclarar que el medio corresponde al sistema donde se toman !as med1cíones considerando la perturbación como se muestra en la figura 3.

s

Usualmente, la relación entre la salida del medio =i;/ur Cu) (W es un factor aleatorio) y la

1

función de pérdida <l\ asociada con el autómata está dada por la siguiente expresión-

! 111

<P"¡ = -l:s,

o nl l=I


(Ec. 16)


Obsérvese que s1 el valor de la vananzaa,, se


donde nt es el número total de iteraciones del algoritmo.


mcrementa entonces la curva SN se desplaza

n

hacia abaJo y el número óptimo de nodos (N,, )" se mueve hacia la 1zqu1erda.

Una desventaja de este procedimiento es que para eshmar E{ s:} se requiere de una gran

cantidad de cálculos para obtener una solución adecuada que converja al valor esperado. En la s1gu1ente sección se explica la forma en que esto se puede evitar utilizando aprendizaje de autómalas. De esta forma se permite cierto tipo de ··adaptación'·dentro de la estructura.

Rev C entro lnv. ( Méx) V ol , 3 Num . 11 (1 9 9 8)


f(x)

función muttimodal

Construcción de la fur1ci6n de erdlda

r

Autóma!a

Fígura 3. Aprendizaje de Autómatas y su medio.

La teoría de aprendiza¡e de autómatas se puede resumir como.

Encontrar un esquema de reforzamren/o que

genere la secuencia {P) y Ja acción de control {u).


327


,J...\,


para asegurar la minimi zac i ón as mtól1ca de la fu nción de pérdida (Ec. 17) , t a l que.


X; e X ,X¡ nX j,,_í = 0,i,j = l,......,N

N

LJX¡= X C mM


lim sup<PIU' -+ inf

"'-."' {u,)

en algún sentido probabilístico (f 1g. 3 ).


{Ec. 17)


i-1 (Ec. 19}

q

Sea la observación medible de r(x) con un ruido

1

w r tal que:


Uno de los esquemas de reforzamiento más populares fue el desarrollado por Bush & Mosteller en 1958. Este esquema puede describirse mediante una ecuación recurrente:

P,..1 = P, + Y,[e( ) - p, + S,(eN - Ne(.u,))/( N -1)]

p 1 ( t) > O, (i = l,.....N)

(Ec. 18)

donde.

.;, E[0,11 e(u,) = (O,O,....,l,......0.0)7 ,

u ,


q, = r( x ) + w, (Ec. 20)

1

donde x,E {x(1),. ...x(N)}, x(i) E X, son puntos fijos y w, es una variable aleatoria la cual caracteriza el ruido en la observación. La idea central asociada con el uso de AA es encontrar la forma de construir las entradas al autómata.

De tal forma que la entrada s, al tiempo 1 se obtiene mediante el siguiente procedimiento de normalización (22):

(s,(í) - ins,_ 1(})]+


eN = (1,1,J,.,,,J,l{en"'


;, = f . . 1 '

(i\..

maxl s,(k) - ms,_1 + 1

u, == x( t)


1

donde u,es generada de acuerdo a la función de probabilidad P, y y E (O. 1} es el fac tor de corrección (ganancia de adaptación) de este esquema.

donde:


1

_"¿ q,X( u

K

= x(,i))


(Ec. 2 1)


Los resultados de convergencia para este esquema en el caso binario,continuo y reacciones no estacionarias continuas del ambiente pueden consultarse en (22, 23)


s,( i ) = r -; ,i 1,....,N

:¿X(u, = x(i ))

1- 1 (Ec. 22)

y


X, X C?: 0 {J,


si u 1 = u(i)


OPTIMIZACIÓN DE LA FUNCIÓN DE PÉRDIDA CONJUNTA


[x].. := ( o


o,X(u, = u(i)):=

X < Ü,


si u 1


;é u(i)


En esta sección se considera la aplicación de AA al problema de la optimización de funcione s multimodales basados enla aproximación descrita en (22, 23). También se explica la relación del problema previo a la adaptación de la estructura de RNAP.

Sea r(x) alguna función real para un vector xE X e')\o't (X es un compacto en 9\M) y sea r(x) una función multimodal. En este caso se busca el valor de x= x el cual minimiza r(x).

Considérese una cuantificación {X} de una

re gión X , tal que:


(Ec. 23)

C onsidérese el autómata descnlo antenorment e para seleccionar el punto x(CX }. el cualcorresponde (en algún sentido) al valor mirnmo de la función mult1modal r(x,) sobre elconjunto X.

Este proceso puede ser organizado como se muestra en la fig 3. Como se puede observar en

este caso no es necesario conocer toda la estadística de la perturbación w,.

Para adaptar este proceso a nuestra estructura de optimización se puede seleccionar q = DN u =N,

' 11 l 1.

donde N,, es el número de nodos seleccionados in


RNAP al tiempo l. De tal forma que q

1


representa



328


Rev Centro lnv . ¡Mex) Vol.3 Num 11 ( 1998!



la función de pérdida conjunta y u, el orden del modelo a ser seleccionado. Nótese que en este caso se obtiene únicamente un punto de x, en cada instante de tiempo t (cada iteración) para calcular el valor mínimo de la función r(x). Finalmente, se

genera la secuencia u,= N,, de acuerdo a la distribución de probabilidad p la cual se modifica

en cada instante t de acuer'd·o al esquema de

reforzamiento (Ec. 18) con el procedimiento de normalización (Ec. 21).


corresponde al intervalo del número óptimo de nodos de RNAP. Los resultados de simulación muestran que esto se obtiene alrededor de las 500 iteraciones del proceso de aprendizaje. El esquema de reforzamiento (Ec. 19) selecciona únicamente

la acción de control u,= 15. Para ejemplificar la forma

en que esto sucede se obtuvo el histograma de la acción de control. (Recuérdese que el autómata es

de dos secciones y u,es el valor del primer intervalo

más lo obtenido en el segundo intervalo).


Cuando el número de intervalos N es

1

demasiado grande se sugiere que se divida en dos •! secciones y asi sucesivamente , para disminuir el 'º proceso de búsqueda. En este caso se utilizó un

Autómata de dos secciones ; en la primera se / j

dividió el interva lo en dos segmentos y en cada

segmento se consideraron todos los intervalos para mejorar la convergencia y disminuir el tiempo de cálculo.


Los pasos de este algoritmo son los siguientes:

1. Generar la seña l de control u, utilizando una función de distribución inicial P, y un número de observaciones.

2. Calcular la función DN solamente para el

n


·Na '° tO • ;. VJO 110 '"° ""iia-- 1Ío.._il0

Figura 4. Función Original f(z).


punto N,,=u(

3. Regresar al paso 2 hasta que una de las probabilidades tienda a 1.

En esle proceso se selecciona una y otra vez el número de nodos N, elcual corresponde al punto

mínimo de DN . La probabilidad que tienda a 1

n

cuando t-?oo corresponde al valor de (Nn )° que minimiza la función de pérdida conjunta DN , es

"

decir, ( N,,) • es el número óptimo de nodos de RNAP.

E JEMPLOS


t<ISTOGRHM "CCJOr< OE CONiROL 1 HISTOORAWI ACCION OE CONTROi..

'"" ·

Figura 5. Vector de Probabilidad e Histograma de la acción de control utilizando <> s=1.0


.,....

Para ejemplificar la teoría desarrollada en secciones anteriores se utilizaron las ecuaciones de

Lorenz para generar una serie de tiempo que fuera "

aproximada por RNAP. La serie utilizada se muestra en la fig. 4 . Considerando ndo=3 y una desviación

estándar oS= 1 para la perturbación lafig. 5 muestra r


la evolución de las componentes de p Como se

1

puede observar la componente que tiende a 1

R e v Ge11lm lnv. (Mf))./ Vol 3 Num 11 (1998)


• is • .. t

Figura 6.Vector de Probabilidad e Histograma

de la acción de control utilizando a -,=5.0


3 2 9



330


En la fig.6 para <JS=S la acción de control u es igual a 11. Como se puede observar cuando la varianza de la perturbación se incrementa el número óptimo de nodos disminuye.

1

CONCLUSION

En este trabajo se propuso un proceso de aprendizaje para obtener el número óptimo de nodos en RNAP utilizando el esquema de reforzamiento de Bush-Mosteller y el criterio de la función de pérdida (A partir del criterio de Akaike). De este análisis se puede observar cómo en ciertos casos la aproximación de una función no mejora si se aumenta el número de términos de la aproximación y es posible encontrar el número óptimo de nodos o términos.

El mismo esquema se puede utilizar para aproximaciones similares como puede ser el caso de la Transformada de Fourier. Método de Máxima Entropía, Transformada de Walsh, etc..

AGRADECIMIENTOS

Se agradece la colaboración de Stalin Muñoz y Walterio Mayal del laboratorio LINDA de la UNAM por sus comentarios y aportaciones para mejorar el algoritmo de RNAP.

REFERENCIAS

1. Alexander, l.. lntroduction to neural nets. Chapter 9 in Applied Artificial lntelligence, ed.

K. Warwick, Peter Peregrinus Ud.. 1991.

2. Chang, T. & Abdel-Ghaffar, K., A Universal Neural Net wíth Guaranteed Convergence to Zero System Error. IEEE Transactions on signa/ processing , Vol. 40, no. 12, December 1992.

3. Pineda. F. J .. Recurrent Backpropagation and the Oynamical Approach to Adapt ive Neural Computation . Neural Computation , No.1. pp.161 - 172, 1989.

4 . Simpson, P. K. Art ificial Neural Systems.

Pergamon Press,N.Y.. 1989 .


5. Bhat, N. and T J. Mc-Avoy, Use of Neural Nets for Oynamic Modeling and Control of Chemical Process Systems. Computers Chem. Eng., No.14, pp.573-583 , 1990.

6. Chen S. & Billings S., Neural networks far nonlinear dynamic system modelíng and idenlificalion,In/. J. Control, vol. 56, no.2., 1992.

7. . Narendra, K. S. and K. Parthasarathy. ldentífication and Control of Dynamical Systems Using Neural Networks. IEEE Trans. Neural Networks. No.1, pp.4-27. 1990.

8. Poznyak, A. s.. K. Najim and M. Chtourou. Use of recursive stochasllc algorithm for neural networks synthesis. Appl. Math. Modelling, vol.17 ,August , pp. 444 - 448 , 1993.

9. Bebís, G. & Georgíopoulos . "Feed-forward neural networks". IEEE Potentials, October/ November, 1994

10.Huang, S.C. and Y.F. Huang, "Bounds on the number of h1dde n neurons in multilayer perceptrons", IEEE Trans. Neural Networks, Vol. 2 pp. 47-55 ,1991.

11. Albrechl, T.; Matz, G. & Hildermann, J. "An lntelligent ga s sensor system far t he ídentification of hazardous aírborne compounds using an array of semiconductor gas sensors and Kohonen Feature Map Neural Networks. lntelligent Systems Engineenng, Conference Publication No. 395, 5-9 September 1994

12. Syam, M. M., A Neural Experl System for Oiagnosing Eye diseases Proceedíngs of the Tenth Conference on Artificial lntel/igence for Applicaftons, San Antonio TX, USA, 1-4 March, 1994.

13. Alfonzetti, S.; Coco, S.; Cavalieri,S. & Malgeri,

M.. Automatic Mesh Generation by the Let-lt­ Grow Neural Network. IEEE Transactions on Magnetics, Vol. 32 No. 3 May 1996.

14.Barron, A. R., Universal Approximation in Bounds for Superpositions of a Sigmoidal Function. IEEE Transactions on lnformation Theory. Vol. 39 No. 3 May, 1993.

15. Fang,Y. and T. J. Sejnowski. (<Faster Learning for Oynamic Recurren! Backpropagat ron». Neural Computaflon, No.2,pp.270 - 273, 1990.

R ev. C entro frN {Mex . l Vol 3 Ntin• 11 (1998)



16.Govind. G. & Ramamoorthy, P., An Adaptive­ Topology Neural Architecture and Algorithm.for Nonlinear System ldentification. IEEE ICNN. 28 march-1 april. San Francisco Ca. USA, 1993

17.Huang, Q. & Liu, R. a Neural Computation for Canonical Representations of nonlinear Functions, IEEE lntemationaf Symposium on Círcuits and Systems. New Orleans, USA. 1-3 May, 1990

18.Marchesi. M.: Orlandi, G. Piazza. F & Uncini

A., Neural Networks with self-adaptive topology, IEEE Jnternationat symposíum on Circuits and Syslems, Singapore,11-14 June 1991.

19.Poznyak, A.S. & Gómez-Ram írez, E., 1994. How to select the number of nades in artificial neural networks. AMCA/IEEE lnt. Workshop on Neural Networks Applied to Control and lmage Processing, Mexico City.

20.Najim, K. & Poznyak, A.S., 1994. Learning Automata: Theory and Applications (Oxford, U.K.: Pergamon Elsevier Sciences).

21.Narendra & Thathachar, M.A. L., 1989, Learning Automata- An lntroduction (Englewood Cliffs, NJ:Prentice Hall).

22.Poznyak. A. S., K. Najim & M. Chtourou. "Learning Automata with continuous inputs and their application for multimodal functions optimízation". lnternat1onal Journaf of Systems Scíence, 1996, volume 27, number 1, pages

87-95.

23.Poznyak. A . S., K. Najim & E. lkonen. ''Adaptive Selection of the optimal arder of linear regression models using learning automata". lntemationat Joumal of Systems Science. 1996, volume 27, number 1, pages 151-159.

24. Park D. & Zhu Y., Bilinear Recurrent Neural Network. IEEE lnlernatíonal Conference on Neural Network , p. 1459-64, vol. 3, Orlando, Florida, 27 june-2 july 1994.

25.Chang C., Lin J.;& Cheung J., Polynomialand Standard Higher Order Neural Network. IEEE lntemational Conference on Neural Nelworks.

p. 989-94 vol.2. San Francisco, CA, USA, 28