ADAPTACIÓN DE LA ARQUITECTURA DE REDES NEURONALES ESTOCÁSTICAS POLINOMIALES UTILIZANDO APRENDIZAJE DE AUTOMATAS
Eduardo Gómez1 y Alexander S. Poznyakz
1Laboratorio del Centro de Investigación Universidad La Salle, Benjamín Franklin 47, Col. Hipódromo-Condesa, México DF 06170, email· egomez@aldebaran.ci.ulsa.mx
2Sección de Control Automático, CINVESTAV-IPN.
Av.IPN 2508 AP 14-740, México D.F., CP 07000 email. apoJ:.o.yª@ctrl.clnvestav.mx
RESUMEN
Se discute la forma de obtener el número óptimo de nodos en una Red Neuronal artificial Polinomial con perturbaciones de tipo estocástico en la salida de cada nodo. El algoritmo utilizado se basa en una técnica de aprendizaje reforzado. Para resolver este problema de op!Jmización se introduce un índice especial de desempeño de tal forma que el número óptimo de nodos corresponde al punto mínimo de este criterio. Este criterio es una combinación de la minimización de una función residual y de la varianza de las perturbaciones consideradas de naturaleza aleatoria . Un valor grande en la varianza de la perturbación da como resultado un óptimo diferente del número de neuronas en la red debido al efecto de "interferencia". El algoritmo de aprendizaje utilizado permite aplicar este procedimiento sin conocer la naturaleza de las perturbaciones y disminuye la cantidad de operaciones que se requieren en la convergencia del estimado. Se presentan algunos resultados de simulación para ilustrar la potencialidad del algoritmo propuesto.
ABSTRACT
This paper is concerned with the selection of a number of nodes in polynomial artificial neural nets containing stochastic noise perturbations in the outputs of each node. The suggested approach is based on a reinforcement learning technique. To solve this optimizalion problem we introduce a spe cial performance index in such a way that Lhe best number of nades corresponds to the minimum point of !he suggested cnterion. This cnterion presents a linear combination of a residual minim1zation func tíonaland sorne "generalized variance of the involved disturbances of random nature. A large value of the noise variance leads to a different opt imal number of neurons in a neural network because of the interference" effect. The nature of the noise perturbations is not necessary to be known using the learning algorithm and \he computing effort decreased to get the convergence estimated. Simulation modeling results are presented to illustrate the effectiveness of the suggested approach.
INTRODUCCIÓN
Las Redes Neuronales Artificiales (RNA) han demostrado ser una herramienta muy importante en una gran variedad de problemas de ingeniería (1-4). Especialmente en aplicaciones de RNA a control y reconocimiento de patrones (5-8).A pesar de la gran cantidad de publicaciones en el área, es una minoría la que considera el problema de adaptar la arquitectura de la red para una aplicación en particular (9). Algunas de estas publicaciones consideran límites máximos y mínimos para la selección del número de nodos o
Rev C enl!o lm·. (Mux; Vol '1Num. 11 (1998)
neuronas en las capas ocultas (10). Otros autores discuten la influencia del número de nodos y capas ocultas en la minimización del error cuadrático entre la salida de la red y la salida deseada en una aplicación en particular (11, 12). Otros artículos sugieren algunos algoritmos para estimar el número de nodos para diferentes paradigmas (13-19). Como se demostró en (20) bajo la presencia de ruidos de naturaleza estocástica en la entrada y salida de cada nodo existe un procedimiento por el cual se puede obtener el número óptimo de nodos de una RNA para una aplicación en particular donde se conoce la
estadistica de los ruidos o perturbaciones.
En este trabajo el tipode red considerada es una Red Neuronal Artific ial Polinomial (RNAP) que contiene perturbaciones estocásticas enla salida del nodo. El ob¡etivo principal es obtener un algoritmo adaptable que obtenga el óptimo (desde elpunto de vista de aproximación) número de nodos de una RNAP,utilizando solamente la información disponible de lasmediciones de las señales de entrada y salida. En (19) este problema fue resuelto considerando la suposición que se conoce la estadística completa sobre las perturbaciones de antemano. En nuestro caso esta suposición no es necesaria debido a que se utilizará un algoritmo adaptable.
Pa ra poder realizar este procedimiento en ausencia de toda la información necesaria sobre la estadística de la perturbaciones se requiere cierta clase de "aprendizaje" para obtener un resultado
interconexiones sinápticas que son más complejas que una simple sumatoria. Algunos resultados muestran que este tipo de comportamiento es no lineal y puede ser modelado. Existen algunos modelos de RNA que utilizan estos conceptos como son: Redes Neuronales Polinomiales {RNP) (24), Redes Neuronales de Orden Mayor (Higher Order Neural Networks (HONN) (25) y modelos de lnterconecciones no lineales (26, 27). Este tipo de representación no es exclusiva de RNA y resultados similares pueden ser encontrados en otras áreas. Por ejemplo: modelos NARMAX (28, 31), métodos de rnanipulación de datos (Group Method of Data Handling. GMDH) (32, 33) y aproximaciones polinomiales (34).
Las RNAP con perturbaciones estocásticas pueden ser descritas por:
adecuado. En elcaso de optimización discreta sobre un conjunto finito en la presencia de perturbaciones
Yt "" (x.,x 2 ···
X1,1.-1 Xz.l-1 ····
.rr.k -ndi
se sugiere aplicar Aprendizaje de Autómatas. Esta
técnica hademostrado tener muy buenos resullados en estas situaciones (20-22). Para este trabajo se aplicaron las ideas presentadas en (23) para construir elproceso de adaptación de la estructura.
donde:
Yt -1 Yt-i . ... yt _,.,¡) + L
(Ec 1)
El artículo tiene elsiguiente orden:
En la sección 2 se describe las RNAP y el planteamiento del problema; en la sección 3 se explica la forma en que se selecciona el número óptimo de términos enun problema de aproximación de una función multidimensional en la presencia de ruidos o perturbaciones en las mediciones. En la sección 4 se muestra corno el problema de seleccionar el número óptimo de nodos en RNAP
puede tr aducirse al problema de aproximación descrito en la sección anterior. La sección 5 describe la técnica de aprendizaje de autómatas y el esquema de reforzamiento de Bush-Mosteller para obtener el número óptimo de nodos. la sección 6 explica la aplicac ión de aprendizaje de autómatas para seleccionar el número óptimo de nodos en RNAP. La descripción del algoritmo numérico se presenta
en la sección 7 con algunos ejemplos de simulación . Las conclusiones se presentan en la sección 8.
REDES NEURON ALES ARTIFICIALES POLINOMIALES CON PERTURBACIONES ESTOCÁSTICAS Y FORMULACIÓN DEL PROBLEMA
Las redes neuronales biológicas tienen
ndi número de retrasos de la entrada ndo número de retrasos de la salida t1>t) es una función no lineal
t; es una vanable aleatoria
x |
1 |
El diagrama correspondiente para la RNAP se muestra en la fig. 1. La función no lineal <J>i) puede ser representada por:
<z1 , Za ....•, z.,) "' ao(z"lz •....• zM) + a¡ (Zp Zz ,...., z.,.)
tll1(l1 •....,z.J...... + Oi--{z.1,z1,....,¡..,.)
(Ec. 2)
donde: z.es la entrada al modelo. nv es el número totalde elementos de q¡t) tal que:
nv .. ni + ndi *ni + ndo (Ec. 3)
2 |
homogéneo de grado i, para i:O,. ..pow , tal que (35):
Rov . C nt• o /m (Mt:x.J \fol3 Núm 11 (198)
ª o( z .. z 2 .. .. , znJ = Co
a,(z,,z.i ,...,znJ = CLiZt + C1.2Zi + ...+ c,_ ,,,.z,,,.
ª2 (zl, Zz· ···• ZnJ = C2.tZ + Cz.2 z,Zi + c2.3zlz3 + ····
+ ... z,z,,v + ...+ ...z¡2 + ... ...+ cN z,2,..
l
1 2 2
señales de entrada y salida de la red , c onst ru i r un p roceso de aprendizaje para o btener as i ntóticamente ( en algún sentido probab i l í st i co ) " el óptimo " número de n euronas N . C o n este n úmer o se obtiene el error mínimo de aproximación.
1 |
+ C3.2Z1 Zi + C:uZi Z3 + ...
En la siguiente sección se explica la solución
para un problema análogo cuando se quiere
2 2
+...C14Z1Zi + ··· + C35Z1 + c.3.6Z 1Z3 + ···
aproximar una función mullidimensional.
+ ... z; 3 + ..z2 Z3 +
2 + .... + CN z3
··Z2Z3 |
•··+ Cpow .N """'z;;w
(Ec. 4)
SELECCIÓN DEL ORDEN ÓPTIMO DE UNA APROXIMACIÓN DE UNA FUNCIÓN MULTIDIMENSIONAL EN LA PRESENCIA DE RUIDOS DEPENDIENTES.
donde N
1
es el número de términos de cada
Para poder demostrar la forma en que se va
polinomio tal que j;:; 1....pow. El número total de
términos N de la representación (Ec 1) es igual a·
obtener el orden óptimo considérese que se
cumplen las siguientes suposiciones:
p<>w
N = L
j-0
(Ec. 5)
A 1) Un vector zk Eff< y una salida escalar y* E R' de un modelo de referencia estático pueden ser relacionadas mediante la siguiente ecuación·
n (Ec. 6)
donde n es elnúmero de rned1c1ones disponibles. S1t. E R1 representa las perturbaciones no med1bles de naturaleza estocástica en el tiempo k,f(z) es la medición srn ruido o perturbación. Esta perturbación es una variable aleatoria definida en un espacio de probabilidad ( rí,F ,P) tal que:
x , . |
X . |
X 1 ,.ro.1 |
· 1 z |
X 2 ,t-1 |
X ni !.111-1 |
I x.U·n<li |
X 1t.1.k--r:!:ti |
l( |
X 1 .kr.d1 |
;{*) |
y |
z |
= a!al'.s
(aquiaz =az (zJ es la varianza de la variable aleatoria s que puede ser dependiente de la
entrada z" ; es el símbolo Kronecker).
a
A2) La aproxfrnac16n delmodelo se obtiene como.
Figura 1.Esquema de RNAP Considerando lo anterior el problema principal
.. ,. N A N
Y t = f (zk lc,,) = etrl( ( zk )
i-1
(Ec. 7)
de este trabajo puede ser descnto como en (36.
19):
donde 4( (zk ) representa una función conocida
y c es la constante o peso de esta función, N es
1
Utilizando las secuencias de obseNacíón d e las
R ev Ce ntr o l rw ( Mf>) / Vol 3 Núm 1 1 (1998)
el orden de la aprox imación, en otras palabras,
325
el número de términos necesarios para la estimación de la (Ec. 7).
A3) Los parámetros delmodelo (Ec. 7} se obtienen utilizando el Método de Mínimos Cuadrados Ponderados (MMCP) (Weíghted Least Squares Method. WLSM) (36):
(Ec. 8}
Elvector cnN que m1nim1za el error cuadrático puede ser expresado mediante la siguiente fórmula.
{Ec. 9)
cara cteri za la pr ec i s ión medi a cua drática de l a apro ximación (7) des pués de n medicio nes de to s
pares {x ; y ,). A l a función D N se le denom111a
• n
función de pérdida conjunta.
Este criterio es una generalización del Criterio de Aka1ke para el caso de varianza variante en el tiempo (37)
SEL ECCION DEL ÓPTIMO NUMERO DE NODOS EN RNAP PARA EL CASO DE INFORMACIÓN COMPLETA
Elsiguiente teorema muestra la equivalencia entre elplanteamiento anterior sobre la óptima selección del orden de la aprox1mac1on {Ec 7) para el problema central de la selección óptima de nodos de la RNAP.
Primero, considér ese que se cumplen la s siguientes suposiciones:
B1) La salida de la RNAP está descrita por la s1gu1ente relación.
o en su forma recurrente:
N
Yk = ¿c,</>( Z;.k ) + k
1-1
(Ec. 13)
(Ec. 10}
Teorema 1. (19) Considerando tas supos1c1ones A 1)-A3) para el MMCP se cumplen la siguientes relaci ones
(Ec 11)
don de S N se define por la (Ec. 8} y
"
donde c, es el peso asociado, >(z) es una función no lineal y es fa perturbación en la salida del nodo.
s |
independientes en tiempo y son centradas con varianza finita. por ejemplo:
B3) La función no lineal puede ser representada por:
</J(Z¡> <::z ,..., z.J = Co + C¡.1Z1 + C¡.2Z'l. + ... + C¡.••ztlV + ...
....c . uz: + ....C2.:1.Z1Z2 + C2,3Z1Z3 +·...z1z.,. + ...zi + ...
2 3 2 2 |
2 z 3
... + C3, 4 Z1Z1 + c3.5<.1Z2Z 3 + C3.óZ1Z3 + ... + ...z.¿ +..
1 |
e z """'-'7. +... + e z"'"' |
+ ...
(Ec. 12)
pt>w,2 1 pnw,/'I l°'h"' nv
(Ec. 14)
Rr;: Centro Jnv: ¡Mé:x} VoU N•1m 11 (1998)
Entonces el modelo no lineal de la (Ec. 13) de la RNAP es equivalente al modelo de la planta estática (Ec. 6) . Enlonces para un valor
suficientemente grande de k tal que k = "el número óptimo·· ( N,, ( ú>i_ ))* de nodos (i=1,2,. ., N) puede ser calculado con probab1l1dad de 1.
La dependencia de la función D (w") (Ec.
s : |
curva (<,V¡, ) corresponde a la precisión de la aproximación sin perturbación. La curva 2 (el
N
término 2(- ) corresponde a la influencia de los
n
,- |
APRENDIZAJE DE AUTÓMATAS
El aprendizaje de autómalas (AA) (20) se puede describir como un sistema
L= {3,X,U,P,ffi (Ec 15)
donde :=: es el con¡unto de en1radas (salidas del medio) s, al tiempo t: X={x(1), ......,x(K)} es el
conjunto de estados: U={u(1) . . ......u(N)} es el conjunto de salidas o acciones de control; Pes el conjunto de vec tores de probabilidad
p =- p¡( 1). ,p¡(N) E P, la probabilidad p/ i)
1
corresponde a la probabilidad para seleccionar la salida u,=u(1). ¡= 1, . .N al tiempo t , :H es el
esquema de reforzamiento. tal que·
distorsión o interferencia en la estimación de la salida de cada nodo. El valor óptimo del número
<J\. p
p l• I
de nodos ( Nn )' corresponde al mínimo valor de "la función de pérdida conjunta'' D:.
N |
Figura 2. Función de Pérdida Conjunta DN ,
Este esquema modifica el vec tor de
probabilidades y se basa en las med1c1ones para obtener el mejor comportamiento en un medio de termmado. Cabe aclarar que el medio corresponde al sistema donde se toman !as med1cíones considerando la perturbación como se muestra en la figura 3.
s |
1
función de pérdida <l\ asociada con el autómata está dada por la siguiente expresión-
! 111 |
o nl l=I
(Ec. 16)
Obsérvese que s1 el valor de la vananzaa,, se
donde nt es el número total de iteraciones del algoritmo.
mcrementa entonces la curva SN se desplaza
n
hacia abaJo y el número óptimo de nodos (N,, )" se mueve hacia la 1zqu1erda.
Una desventaja de este procedimiento es que para eshmar E{ s:} se requiere de una gran
cantidad de cálculos para obtener una solución adecuada que converja al valor esperado. En la s1gu1ente sección se explica la forma en que esto se puede evitar utilizando aprendizaje de autómalas. De esta forma se permite cierto tipo de ··adaptación'·dentro de la estructura.
Rev C entro lnv. ( Méx) V ol , 3 Num . 11 (1 9 9 8)
f(x) función muttimodal |
Construcción de la fur1ci6n de erdlda |
Autóma!a
Fígura 3. Aprendizaje de Autómatas y su medio.
La teoría de aprendiza¡e de autómatas se puede resumir como.
Encontrar un esquema de reforzamren/o que
genere la secuencia {P) y Ja acción de control {u).
327
,J...\,
para asegurar la minimi zac i ón as mtól1ca de la fu nción de pérdida (Ec. 17) , t a l que.
X; e X ,X¡ nX j,,_í = 0,i,j = l,......,N
N
LJX¡= X C mM
lim sup<PIU' -+ inf
"'-."' {u,)
en algún sentido probabilístico (f 1g. 3 ).
{Ec. 17)
i-1 (Ec. 19}
q |
1
w r tal que:
Uno de los esquemas de reforzamiento más populares fue el desarrollado por Bush & Mosteller en 1958. Este esquema puede describirse mediante una ecuación recurrente:
P,..1 = P, + Y,[e( ) - p, + S,(eN - Ne(.u,))/( N -1)]
p 1 ( t) > O, (i = l,.....N)
(Ec. 18)
donde.
.;, E[0,11 e(u,) = (O,O,....,l,......0.0)7 ,
u ,
q, = r( x ) + w, (Ec. 20)
1 |
De tal forma que la entrada s, al tiempo 1 se obtiene mediante el siguiente procedimiento de normalización (22):
(s,(í) - ins,_ 1(})]+
eN = (1,1,J,.,,,J,l{en"'
;, = f . . 1 '
(i\.. |
u, == x( t)
1 |
donde:
1 |
K
= x(,i))
(Ec. 2 1)
Los resultados de convergencia para este esquema en el caso binario,continuo y reacciones no estacionarias continuas del ambiente pueden consultarse en (22, 23)
s,( i ) = r -; ,i 1,....,N
:¿X(u, = x(i ))
1- 1 (Ec. 22)
y
X, X C?: 0 {J,
si u 1 = u(i)
OPTIMIZACIÓN DE LA FUNCIÓN DE PÉRDIDA CONJUNTA
[x].. := ( o
o,X(u, = u(i)):=
X < Ü,
si u 1
;é u(i)
En esta sección se considera la aplicación de AA al problema de la optimización de funcione s multimodales basados enla aproximación descrita en (22, 23). También se explica la relación del problema previo a la adaptación de la estructura de RNAP.
Sea r(x) alguna función real para un vector xE X e')\o't (X es un compacto en 9\M) y sea r(x) una función multimodal. En este caso se busca el valor de x= x el cual minimiza r(x).
Considérese una cuantificación {X} de una
re gión X , tal que:
(Ec. 23)
C onsidérese el autómata descnlo antenorment e para seleccionar el punto x(CX }. el cualcorresponde (en algún sentido) al valor mirnmo de la función mult1modal r(x,) sobre elconjunto X.
Este proceso puede ser organizado como se muestra en la fig 3. Como se puede observar en
este caso no es necesario conocer toda la estadística de la perturbación w,.
Para adaptar este proceso a nuestra estructura de optimización se puede seleccionar q = DN u =N,
' 11 l 1.
donde N,, es el número de nodos seleccionados in
RNAP al tiempo l. De tal forma que q
1
representa
328
Rev Centro lnv . ¡Mex) Vol.3 Num 11 ( 1998!
la función de pérdida conjunta y u, el orden del modelo a ser seleccionado. Nótese que en este caso se obtiene únicamente un punto de x, en cada instante de tiempo t (cada iteración) para calcular el valor mínimo de la función r(x). Finalmente, se
genera la secuencia u,= N,, de acuerdo a la distribución de probabilidad p la cual se modifica
en cada instante t de acuer'd·o al esquema de
reforzamiento (Ec. 18) con el procedimiento de normalización (Ec. 21).
corresponde al intervalo del número óptimo de nodos de RNAP. Los resultados de simulación muestran que esto se obtiene alrededor de las 500 iteraciones del proceso de aprendizaje. El esquema de reforzamiento (Ec. 19) selecciona únicamente
la acción de control u,= 15. Para ejemplificar la forma
en que esto sucede se obtuvo el histograma de la acción de control. (Recuérdese que el autómata es
de dos secciones y u,es el valor del primer intervalo
más lo obtenido en el segundo intervalo).
Cuando el número de intervalos N es
1 |
Autómata de dos secciones ; en la primera se / j
dividió el interva lo en dos segmentos y en cada
segmento se consideraron todos los intervalos para mejorar la convergencia y disminuir el tiempo de cálculo.
Los pasos de este algoritmo son los siguientes:
1. Generar la seña l de control u, utilizando una función de distribución inicial P, y un número de observaciones.
2. Calcular la función DN solamente para el
n
·Na '° tO • ;. VJO 110 '"° ""iia-- 1Ío.._il0
Figura 4. Función Original f(z).
punto N,,=u(
3. Regresar al paso 2 hasta que una de las probabilidades tienda a 1.
En esle proceso se selecciona una y otra vez el número de nodos N, elcual corresponde al punto
mínimo de DN . La probabilidad que tienda a 1
n
cuando t-?oo corresponde al valor de (Nn )° que minimiza la función de pérdida conjunta DN , es
"
decir, ( N,,) • es el número óptimo de nodos de RNAP.
E JEMPLOS
t<ISTOGRHM "CCJOr< OE CONiROL 1 HISTOORAWI ACCION OE CONTROi..
'"" ·
Figura 5. Vector de Probabilidad e Histograma de la acción de control utilizando <> s=1.0
.,.... |
Lorenz para generar una serie de tiempo que fuera "
aproximada por RNAP. La serie utilizada se muestra en la fig. 4 . Considerando ndo=3 y una desviación
estándar oS= 1 para la perturbación lafig. 5 muestra r
la evolución de las componentes de p • Como se
1
puede observar la componente que tiende a 1
R e v Ge11lm lnv. (Mf))./ Vol 3 Num 11 (1998)
• is • .. t
Figura 6.Vector de Probabilidad e Histograma
de la acción de control utilizando a -,=5.0
3 2 9
330
En la fig.6 para <JS=S la acción de control u es igual a 11. Como se puede observar cuando la varianza de la perturbación se incrementa el número óptimo de nodos disminuye.
1 |
En este trabajo se propuso un proceso de aprendizaje para obtener el número óptimo de nodos en RNAP utilizando el esquema de reforzamiento de Bush-Mosteller y el criterio de la función de pérdida (A partir del criterio de Akaike). De este análisis se puede observar cómo en ciertos casos la aproximación de una función no mejora si se aumenta el número de términos de la aproximación y es posible encontrar el número óptimo de nodos o términos.
El mismo esquema se puede utilizar para aproximaciones similares como puede ser el caso de la Transformada de Fourier. Método de Máxima Entropía, Transformada de Walsh, etc..
AGRADECIMIENTOS
Se agradece la colaboración de Stalin Muñoz y Walterio Mayal del laboratorio LINDA de la UNAM por sus comentarios y aportaciones para mejorar el algoritmo de RNAP.
REFERENCIAS
1. Alexander, l.. lntroduction to neural nets. Chapter 9 in Applied Artificial lntelligence, ed.
K. Warwick, Peter Peregrinus Ud.. 1991.
2. Chang, T. & Abdel-Ghaffar, K., A Universal Neural Net wíth Guaranteed Convergence to Zero System Error. IEEE Transactions on signa/ processing , Vol. 40, no. 12, December 1992.
3. Pineda. F. J .. Recurrent Backpropagation and the Oynamical Approach to Adapt ive Neural Computation . Neural Computation , No.1. pp.161 - 172, 1989.
4 . Simpson, P. K. Art ificial Neural Systems.
Pergamon Press,N.Y.. 1989 .
5. Bhat, N. and T J. Mc-Avoy, Use of Neural Nets for Oynamic Modeling and Control of Chemical Process Systems. Computers Chem. Eng., No.14, pp.573-583 , 1990.
6. Chen S. & Billings S., Neural networks far nonlinear dynamic system modelíng and idenlificalion,In/. J. Control, vol. 56, no.2., 1992.
7. . Narendra, K. S. and K. Parthasarathy. ldentífication and Control of Dynamical Systems Using Neural Networks. IEEE Trans. Neural Networks. No.1, pp.4-27. 1990.
8. Poznyak, A. s.. K. Najim and M. Chtourou. Use of recursive stochasllc algorithm for neural networks synthesis. Appl. Math. Modelling, vol.17 ,August , pp. 444 - 448 , 1993.
9. Bebís, G. & Georgíopoulos . "Feed-forward neural networks". IEEE Potentials, October/ November, 1994
10.Huang, S.C. and Y.F. Huang, "Bounds on the number of h1dde n neurons in multilayer perceptrons", IEEE Trans. Neural Networks, Vol. 2 pp. 47-55 ,1991.
11. Albrechl, T.; Matz, G. & Hildermann, J. "An lntelligent ga s sensor system far t he ídentification of hazardous aírborne compounds using an array of semiconductor gas sensors and Kohonen Feature Map Neural Networks. lntelligent Systems Engineenng, Conference Publication No. 395, 5-9 September 1994
12. Syam, M. M., A Neural Experl System for Oiagnosing Eye diseases Proceedíngs of the Tenth Conference on Artificial lntel/igence for Applicaftons, San Antonio TX, USA, 1-4 March, 1994.
13. Alfonzetti, S.; Coco, S.; Cavalieri,S. & Malgeri,
M.. Automatic Mesh Generation by the Let-lt Grow Neural Network. IEEE Transactions on Magnetics, Vol. 32 No. 3 May 1996.
14.Barron, A. R., Universal Approximation in Bounds for Superpositions of a Sigmoidal Function. IEEE Transactions on lnformation Theory. Vol. 39 No. 3 May, 1993.
15. Fang,Y. and T. J. Sejnowski. (<Faster Learning for Oynamic Recurren! Backpropagat ron». Neural Computaflon, No.2,pp.270 - 273, 1990.
R ev. C entro frN {Mex . l Vol 3 Ntin• 11 (1998)
16.Govind. G. & Ramamoorthy, P., An Adaptive Topology Neural Architecture and Algorithm.for Nonlinear System ldentification. IEEE ICNN. 28 march-1 april. San Francisco Ca. USA, 1993
17.Huang, Q. & Liu, R. a Neural Computation for Canonical Representations of nonlinear Functions, IEEE lntemationaf Symposium on Círcuits and Systems. New Orleans, USA. 1-3 May, 1990
18.Marchesi. M.: Orlandi, G. Piazza. F & Uncini
A., Neural Networks with self-adaptive topology, IEEE Jnternationat symposíum on Circuits and Syslems, Singapore,11-14 June 1991.
19.Poznyak, A.S. & Gómez-Ram írez, E., 1994. How to select the number of nades in artificial neural networks. AMCA/IEEE lnt. Workshop on Neural Networks Applied to Control and lmage Processing, Mexico City.
20.Najim, K. & Poznyak, A.S., 1994. Learning Automata: Theory and Applications (Oxford, U.K.: Pergamon Elsevier Sciences).
21.Narendra & Thathachar, M.A. L., 1989, Learning Automata- An lntroduction (Englewood Cliffs, NJ:Prentice Hall).
22.Poznyak. A. S., K. Najim & M. Chtourou. "Learning Automata with continuous inputs and their application for multimodal functions optimízation". lnternat1onal Journaf of Systems Scíence, 1996, volume 27, number 1, pages
87-95.
23.Poznyak. A . S., K. Najim & E. lkonen. ''Adaptive Selection of the optimal arder of linear regression models using learning automata". lntemationat Joumal of Systems Science. 1996, volume 27, number 1, pages 151-159.
24. Park D. & Zhu Y., Bilinear Recurrent Neural Network. IEEE lnlernatíonal Conference on Neural Network , p. 1459-64, vol. 3, Orlando, Florida, 27 june-2 july 1994.
25.Chang C., Lin J.;& Cheung J., Polynomialand Standard Higher Order Neural Network. IEEE lntemational Conference on Neural Nelworks.
p. 989-94 vol.2. San Francisco, CA, USA, 28