Emulált digitális CNN-UM architektúra megvalósítása újrakonfigurálható áramkörökön és alkalmazásai
DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI
Nagy Zoltán
Témavezető:
Dr. Szolgay Péter
Pannon Egyetem Informatikai Tudományok Doktori Iskola
Veszprém, 2007
Bevezetés Habár a scaling-down hatás megoldani látszik a növekvő számítási igények problémáját, vannak olyan feladatok, amelyeket nehezen lehet megoldani a hagyományos digitális számítógépeken. Tipikusan ilyen feladatok az alakzat-felismerés, adatbányászat és a parciális differenciál egyenletek megoldása. A neurális hálózatok sokkal hatékonyabbak ezekben az alkalmazásokban, mint a digitális számítógépek de nem terjedtek el széleskörűen az ipari felhasználásban a neurális hardverek hiányosságai miatt. Az általános neurális hálózatok legnagyobb hátránya hogy gyors újraprogramozásuk nem lehetséges, ami felhasználhatóságukat specifikus alkalmazásokra szűkíti. Továbbá teljesen összekötött neurális hálózatot feltétezve az áramköri komplexitás exponenciálisan nő a processzorok számának függvényében, ami a megvalósítás legfőbb akadálya. A celluláris neurális hálózatok (Cellular Neural Networks - CNN) esetén a műveletvégző elemek egy szabályos négyzetrácson helyezkednek el és csak a szomszédos cellákkal vannak összekötve amely megoldást ad az előbbi problémára. Ez a megközelítés lehetővé teszi több ezer analóg műveletvégző egység egy chip-en történő integrálását. A CNN igen hatékonynak bizonyult valósidejű kép és jelfeldolgozási feladatokban, ahol a számításokat valamilyen téridőbeli dinamika végzi el. Azonban a jelenlegi analóg VLSI CNN chip-ek pontossága nem elegendő parciális differenciál egyenletek olyan pontosságú megoldásához, ami lehetővé tenné az eredmények felhasználását mérnöki alkalmazásokban. Ezek a hátrányok megoldhatóak, ha emulált digitális architektúrát használunk a CNN dinamika emulálására, azonban ezek a megoldások egy nagyságrenddel lassabbak analóg megfelelőiknél. Egy „full custom” digitális VLSI architektúra megtervezése azonban nagyon idő és költségigényes főleg kis mennyiségű chip gyártása esetén. Az emulált digitális CNN architektúra fejlesztési költségeit jelentősen csökkenteni lehet, ha a megvalósításra programozható logikai eszközöket használunk. Az újrakonfigurálható eszközök legfőbb előnye hogy a gyártási technológia ismerete nélkül is lehetővé teszik digitális architektúrák megvalósítását. Ezen kívül a technológiaváltás is egyszerűsödik, mivel megtervezett áramkörnek csak kis részeit kell újratervezni esetleg egyáltalán nincs szükség újratervezésre. További előny hogy egymástól jelentősen különböző architektúrákat valósíthatunk meg a hardver környezet megváltoztatása nélkül.
Elvégzett vizsgálatok, alkalmazott módszerek Kutatásaim során megvizsgáltam hogyan valósítható meg egy emulált digitális CNN-UM architektúra újrakonfigurálható FPGA áramkörökön. A vizsgálatok során nagy figyelmet fordítottam olyan tervezési technikák kifejlesztésére és használatára melyek segítségével változtatható számítási pontosságú emulált digitális CNN-UM architektúrát hozhattam létre. Az elkészült egyszerű CNN-UM architektúra képességeit kibővítettem lehetővé téve tetszőleges szomszédosságú és rétegszámú CNN cellatömb emulálását. Az elkészült architektúrákat sebesség és felület szerint optimalizáltam. A kísérletek során a különböző emulált digitális CNN-UM architektúrák szimulációihoz a ModelSim VHDL szimulátort az FPGA-s megvalósításhoz a Foundation ISE fejlesztőrendszert használtam. Az elkészült CNN-UM processzorokat a XESS cég XSV-300as típusú prototípus kártyáján teszteltem. Kutatásaim során megvizsgáltam hogy mekkora számítási pontosság szükséges különböző parciális differenciálegyenletek emulált digitális CNN-UM architektúrán történő megoldásához. A parciális differenciálegyenletek megoldása során több különböző, a véges differenciák módszerén alapuló, numerikus módszert használtam. A parciális 2
differenciálegyenletek hagyományos szoftveres megoldásait saját fejlesztésű programokkal készítettem el. A parciális differenciálegyenlet megoldó CNN-UM architektúrák FPGA-n történő megvalósítására a C alapú Handel-C magas-szintű hardverleíró nyelvet és a DK fejlesztő környezetet használtam. A DK fejlesztő környezet használatával a Handel-C-ben leírt viselkedési modellek közvetlenül szintetizálhatók, ami a hagyományos RTL szintű VHDL leíráson alapuló tervezési módszerekkel szemben nagyobb flexibilitást és rövidebb tervezési időt tett lehetővé. Az elkészült, parciális differenciálegyenletek megoldására specializált, emulált digitális processzorokat a Celoxica cég RC-200-as fejlesztőkártyáján valósítottam meg.
Új tudományos eredmények 1. Téziscsoport: Emulált digitális CNN-UM újrakonfigurálható FPGA áramkörökön.
processzorok
megvalósíthatósága
A SZTAKI-ban tervezett CASTLE emulált digitális CNN-UM architektúra lehetővé teszi a CNN dinamika emulációját különböző számábrázolási pontosság (1, 6 és 12 bit) felhasználásával. A számítási pontosság csökkentésével a számítási teljesítmény jelentősen növelhető, a csökkentett pontosságú üzemmódok esetén azonban a chip jelentős része nem vesz részt a dinamika számításában. Noha a beállítható számítási pontosságok általános képfeldolgozási feladatok esetén megfelelőek, de sok esetben, pl. biológiai rendszerek modellezése, parciális differenciál egyenletek megoldása, nagyobb pontosságra van szükségünk. A jelenlegi analóg és emulált digitális VLSI CNN-UM implementációk csak 3×3-as esetleg 5×5-ös méretű template-ek alkalmazását teszik lehetővé. Nagyobb méretű template-ek csak 3×3-as template-ekre történő dekompozícióval futtathatók azonban nem minden CNN template dekomponálható. Ezekben az esetekben a CNN dinamika csak szoftver szimulációval vizsgálható azonban a megnövekedett template méret miatt a számítási teljesítmény lényegesen lecsökken. Bonyolult biológiai és fizikai rendszerek jól modellezhetők többrétegű CNN hálózatokkal. Azonban az analóg CNN megvalósítások vagy nem teszik lehetővé többrétegű CNN modellek használatát vagy a megoldások nem megfelelő pontosságúak. Ezért a többrétegű CNN dinamika vizsgálatához szoftveres szimulációt kellett alkalmazni, amely nagy méretű hálózat vagy eltérő időállandójú rétegek szimulációjánál nagyon lassú. A fent említett problémák megoldására létrehoztam egy új Falcon-nak nevezett emulált digitális CNN-UM architektúra családot. Megmutattam, hogy egy FPGA-n megvalósított Falcon emulált digitális CNN-UM processzor egy 3,0GHz-es Pentium 4 processzoron futtatott szoftver szimulációnál nagyságrendekkel nagyobb számítási teljesítményű azonos pontosság és flexibilitás mellett. Kibővítettem a Falcon emulált digitális CNN-UM architektúra képességeit lehetővé téve tetszőleges szomszédságú CNN template-ek használatát és többrétegű CNN hálózatok emulálását. 1.1. Tézis: Konfigurálható digitálisan emulált CNN-UM processzor megvalósítása és optimalizálása Xilinx FPGA áramkörökön A SZTAKI-ban tervezett CASTLE emulált digitális CNN-UM architektúra alapjait felhasználva kidolgoztam, és FPGA áramkörökre optimalizáltam egy új konfigurálható emulált digitális CNN-UM processzort, amely lehetővé teszi különböző méretű CNN tömbök emulációját különböző számítási pontosság mellett. A Falcon-nak elnevezett új architektúra szintetizálható RTL leírásban beállíthatók a processzorok főbb paraméterei 3
úgymint a cellatömb szélessége, a cella állapotának, bemenetének és a felhasznált template-ek számábrázolási pontossága, a felhasznált tér-variáns template-ek száma valamint az architektúrán belüli processzormagok száma és elrendezése. A felsorolt paraméterek változtatásával a Falcon architektúra mérete és sebessége az aktuális alkalmazáshoz optimalizálható. Megmutattam, hogy a Xilinx Virtex-II FPGA-n megvalósított Falcon architektúra órajel-frekvenciája a számítási pontosságtól függően 147-429MHz. Egy cella új állapotának kiszámítása 3 órajel-ciklust igényel, ennek megfelelően egy processzor teljesítménye 49-143 millió cella iteráció/s. Megmutattam, hogy ez a számítási teljesítmény 3,5-10,4-szeresen múlja felül egy 3,0GHz-es Pentium 4 processzor teljesítményét. Több Falcon processzor használatával a számítási teljesítmény a processzorok számával arányosan tovább növelhető, az egy chip-en megvalósítható processzorok száma pontosságtól függően 11-185db lehet a legnagyobb Virtex-IIPro 125ös FPGA-n. 1.2. Tézis: Tetszőleges szomszédságú template-eket használó CNN-UM megvalósítása Kidolgoztam egy új eljárást, amellyel tetszőleges szomszédságú template-ek futtathatók emulált digitális architektúrákon. Megterveztem egy olyan emulált digitális architektúrát, amelyen a template-ek mérete beállítható. Az RTL leírásban szereplő konfigurációs paramétereknek megfelelően változik a processzoron belüli műveletvégző egységek (összeadók, szorzók) száma ennek megfelelően n×n-es template méret esetén n szorzóra van szükség, amelyekkel n órajel-ciklus alatt számítható ki egy cella új értéke. A változó hosszúságú cella-iterációs ciklus miatt a processzor vezérlőegysége is automatikusan a template mérethez idomul. Megmutattam, hogy a műveletvégző egységek nagyobb száma lényegesen nem befolyásolja a működési sebességet, így Virtex-IIPro FPGA-k használatával, template mérettől függetlenül elérhető a 147-429MHz-es órajel-frekvencia. A hosszabb cella iterációs ciklus miatt a Falcon architektúra teljesítménye 5×5-ös template-ek esetén 29-85 millió cella iteráció/s-ra csökken. Megmutattam, hogy ez a számítási teljesítmény 3,3-9,8-szeresen múlja felül egy 3,0GHz-es Pentium 4 processzor teljesítményét. A műveletvégző egységek számának növekedése miatt az egy chip-en megvalósítható processzorok száma, Virtex-IIPro 125-ös FPGA és 5×5-ös template méret esetén, pontosságtól függően 6-111db. 1.3. Tézis: Többrétegű CNN-UM megvalósítása Kibővítettem a Falcon emulált digitális CNN-UM architektúra képességeit lehetővé téve tetszőleges rétegszámú CNN cellatömb emulációját. Az új architektúra egy teljesen összekötött többrétegű CNN hálózatot emulál tehát minden réteg, globálisan beállítható méretű template-ekkel, kapcsolódik az összes többi réteghez. A többrétegű Falcon architektúra az egyrétegű processzor főbb elemeiből áll, r réteg esetén r darab memória egység és rétegenként r darab összekapcsolt aritmetikai egység (összesen r×r) szükséges. Egy cella új értékének kiszámításához szükséges órajelek száma független a rétegszámtól és csak a template mérettől függ. A többrétegű processzor megvalósításához szükséges felület a sok rétegközi kapcsolat miatt jelentősen megnő, három rétegű hálózat és 3×3-as template-ek használatánál a Virtex-IIPro 125-ös FPGA-n megvalósítható processzorok száma 1-20 darabra csökken. Megmutattam, hogy a működési sebességet ez lényegesen nem befolyásolja, így ebben az esetben is elérhető a 147-429MHz-es órajel-frekvencia. Három rétegű hálózat és 3×3-as template-ek használatánál egy többrétegű Falcon processzor 49-143-szor gyorsabb, mint egy 3,0GHz-es Pentium 4 processzor.
4
1.4. Tézis: Elosztott aritmetikai (distributed arithmetic) egység alkalmazása a Falcon emulált digitális CNN-UM architektúra aritmetikai egységének FPGA-ra történő optimalizálására. Kidolgoztam a Falcon emulált digitális CNN-UM architektúra aritmetikai egységének soros aritmetikát használó területre optimalizált változatát, amely térinvariáns template-ek futtatását teszi lehetővé. Megmutattam, hogy az optimalizált aritmetikai egység, az alkalmazott template és állapot változó számábrázolási pontosságának függvényében, akár 40%-kal kisebb területet is igényelhet, változatlan számítási teljesítmény mellett. Az új aritmetikai egység további előnye hogy teljesítménye jobban skálázható a hagyományos szorzókból felépített aritmetikai egységnél. A szorzókból felépített aritmetikai egységben n×n-es template méret esetén 1, n és n2 szorzó használata kézenfekvő ennek megfelelően egy cella új értéke n2, n és 1 órajel alatt számítható ki. Megmutattam, hogy soros aritmetika alkalmazása esetén a ciklusidő az állapot változó számábrázolási pontosságától függ, pl. 12 bites esetben lehetséges 1, 2, 3, 4, 6 és 12 órajeles feldolgozási idejű aritmetikai egységek létrehozása. 2. Téziscsoport: Alkalmazás specifikus emulált digitális CNN-UM felhasználása parciális differenciál egyenletek megoldására. Parciális differenciál egyenletek megoldása a matematika egyik legfontosabb ága mivel ezek az egyenletek gyakran fordulnak elő a fizikában, műszaki tudományokban és más tudományterületeken. A CNN architektúra szabályos rácsban elhelyezett lokálisan összekötött analóg processzáló elemei kézenfekvő lehetőséget kínálnak parciális differenciál egyenletek véges differenciákkal való megoldására. A megoldáshoz szükséges CNN hálózat azonban a legtöbb esetben többrétegű és néhány fontos egyenlet pl. a Navier-Stokes egyenletek, esetén a cellák közötti interakciók nemlineárisak. A jelenlegi egyrétegű analóg VLSI CNN-UM chip-eken többrétegű hálózatok viselkedését csak közelíteni tudjuk, ezen kívül gondot okoz a nemlineáris interakciók megvalósítása is. További probléma hogy az analóg VLSI CNN-UM chip-ek 7-8 bites pontossága és 128×128-as cellatömb mérete nem elegendő a legtöbb mérnöki alkalmazásban. A Falcon emulált digitális CNN-UM architektúra alkalmazása esetén a cellatömb mérete és a rétegek száma nem jelent problémát. A megoldás pontosságát viszont más szemszögből kell vizsgálnunk: minimálisan mekkora számábrázolási pontosság szükséges ahhoz, hogy helyes eredményt kapjunk? A parciális differenciál egyenletek CNN-en történő megoldásakor kapott template-ek sok esetben szimmetrikusak, térinvariánsok vagy az értékek egymáshoz viszonyított aránya állandó. Ezek a tulajdonságok lehetővé teszik, hogy a Falcon emulált digitális CNN-UM architektúrát az adott parciális differenciálegyenlet megoldására specializáljuk. A specializált processzorok megvalósítása kisebb felületet igényel, valamint számítási teljesítményük is jelentősen növekedhet. Ebben az esetben a hagyományos RTL szintű VHDL leíráson alapuló tervezési módszer használata túlságosan időigényes így magas szintű szintézis módszereket kell használni a processzorok tervezése során. 2.1. Tézis: A számábrázolási pontosság hatása a megoldás pontosságára parciális differenciál egyenletek megoldása esetén Kidolgoztam két új heurisztikus eljárást, amelyek segítségével meghatározható parciális differenciál egyenletek és közönséges differenciálegyenlet rendszerek fixpontos megoldásához szükséges optimális számítási pontosság. Az eljárások hatékonyságát algoritmikus megfontolásokkal és kísérletekkel igazoltam. Az új heurisztikus eljárásokat parciális differenciál egyenletek és közönséges differenciálegyenlet rendszerek megoldása
5
során teszteltem. Kísérletileg igazoltam, hogy az új heurisztikus módszerek általánosan használhatóak. 2.2. Tézis: Magas szintű szintézis és gyors prototípus képző technikák alkalmazhatósága parciális differenciálegyenlet megoldó architektúrák tervezésére Megvizsgáltam két parciális differenciál egyenlet megoldását (nyomásérzékelő szenzor, óceán modell) és megterveztem egy új számítási architektúrát ezeknek az egyenleteknek a megoldására, amely jól illeszkedik az emulált digitális CNN architektúrák struktúrájához, valamint gyors és hatékony számítást tesz lehetővé. Kidolgoztam egy új eljárást, amellyel különböző parciális differenciál egyenletek megoldására specializált emulált digitális architektúrák hozhatók létre a hagyományos tervezési mód-szereknél jelentősen rövidebb idő alatt. Két parciális differenciál egyenlet megoldásán (nyomásérzékelő szenzor, óceán modell) keresztül megmutattam a módszer működését és hatékonyságát. Az architektúra lehetővé teszi tetszőleges karakterisztikájú, lokálisan összekötött cellatömbök emulációját. A karakterisztika megváltoztatásához csak az aritmetikai egység leírását kell módosítani ez azonban a magas szintű Handel-C hardver-leíró nyelv használata miatt egyszerűbben elvégezhető valamint tesztelése a hagyományos VHDL szimulációnál nagyságrendekkel gyorsabb.
Az eredmények alkalmazási területei A Celluláris Neurális Hálózatok elméletének publikálása után rövid időn belül nagy számú analogikai algoritmust publikáltak a legkülönfélébb problémák megoldására. Azonban az eredmények gyakorlati alkalmazása nehézségekbe ütközött a megfelelő hardver platform hiánya miatt. Az első analóg VLSI CNN-UM chip-ek megjelenése újabb lökést adott a kutatásoknak és lehetővé tette az elméleti algoritmusok nagy részének gyakorlati megvalósítását. Annak ellenére, hogy az analóg CNN-UM chip-ek számítási teljesítménye igen jelentős bizonyos esetekben pontosságuk nem megfelelő ezen kívül érzékenyek a különböző zavarokra. Ezeknek a nehézségeknek a leküzdésére születtek meg az emulált digitális CNN-UM architektúrák. Ezek a megoldások valamivel lassabbak analóg megfelelőiknél. Mindkét megoldás hátránya azonban hogy csak egyes szomszédosságú template-ek használatát teszik lehetővé. A disszertációban bemutatott Falcon emulált digitális CNN-UM architektúra lehetővé teszi nagy pontosságot igénylő analogikai algoritmusok futtatását, az analóg VLSI megvalósításokkal összemérhető sebességgel. A változtatható számítási pontosság lehetővé teszi, hogy az analogikai algoritmusok futtatása során optimális mennyiségű erőforrást használjunk fel. A kibővített képességű Falcon architektúrán lehetőség nyílik tetszőleges szomszédosságú template-ek használatára, valamint többrétegű CNN cellatömb emulálására. A többrétegű CNN hálózatok felhasználhatók parciális differenciál egyenletek és bonyolult dinamikus rendszerek állapotegyenletének megoldására. Ilyen dinamikus rendszer lehet például egy kvalitatíve helyes retina modell. A Falcon emulált digitális CNN architektúra hatékonyságát parciális differenciálegyenletek megoldásán keresztül mutattam be. A bemutatott heurisztikus módszerek segítségével meghatározható az optimális számítási pontosság, amely lehetővé teszi az architektúra felületének, teljesítményének és I/O igényének csökkentését. A Falcon emulált digitális CNN-UM architektúra hatékonyan használható olyan feladatok megoldására, ahol a rendszer dinamikájának nagy pontosságú megoldására van szükség.
6
Publikációs lista Nemzetközi folyóirat [1]
Z. Nagy, P. Szolgay “Configurable Multi-Layer CNN-UM Emulator on FPGA” IEEE Transactions on Circuits and Systems I: Fundamental Theory and Applications, Vol. 50, pp. 774-778, 2003 Z. Nagy, P. Szolgay “Fast and efficient multi-layer CNN-UM emulator using FPGA” Periodica Polytechnica Electrical Engineering, Vol. 47, No. 1-2, pp. 57-70, 2003 P. Kozma, Z. Nagy, P. Szolgay “Seismic wave propagation modelling on emulated digital CNN-UM architecture” Periodica Polytechnica Electrical Engineering, Vol. 49, No. 3-4, pp. 183-193, 2005 Z. Nagy, P. Szolgay “Solving Partial Differential Equations On Emulated Digital CNNUM Architectures” International Journal Functional Differential Equations, Vol. 13, No. 1, pp. 61-87, 2006, ISSN: 0793-1786 Z. Nagy, Zs. Vörösházi, P. Szolgay “Emulated digital CNN-UM solution of partial differential equations” International Journal of Circuit Theory and Applications, Vo. 34, Issue 4, pp. 445-470, 2006, DOI: 10.1002/cta.363
[2] [3]
[4]
[5]
Konferencia előadások [6] [7] [8]
[9]
[10]
[11]
[12]
[13]
[14]
A. Katona, Z. Nagy, “The functional test of a real-time image processor model” Proceedings of INTCOM99, Budapest, Hungary, 1999 A. Katona, Z. Nagy, “The implementation of a real-time image processor on FPGA” Proceedings of INTCOM2000, Veszprém, Hungary, 9-14 September, 2000 Z. Nagy, P. Szolgay “An emulated digital CNN-UM implementation on FPGA with programmable accuracy” Proceedings of the 4th IEEE DDECS Workshop, Győr, Hungary, April 18-20, 2001 Z. Nagy, P. Szolgay “Fast and efficient multi-layer CNN-UM emulator using FPGA” Proceedings of the 3rd Conference of PhD Students in Computer Science, Szeged, Hungary, July 1-4, 2002 Z. Nagy, P. Szolgay “Configurable Multi-Layer CNN-UM Emulator on FPGA” Proceedings of the 7th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2002, Frankfurt/Main, Germany, July 22-24, 2002 Z. Nagy, P. Szolgay “Configurable multi-layer CNN-UM emulator on FPGA using Distributed Arithmetic” Proceedings of the 9th IEEE International Conference on Electronics, Circuits and Systems, Dubrovnik, Croatia, September 15-18, 2002 Z. Nagy, P. Szolgay “Numerical solution of a class of PDEs by using emulated digital CNN-UM on FPGAs” Proceedings of the 16th European Conference on Circuits Theory and Design, Cracow, September 1-4, 2003 Z. Nagy, Zs. Szolgay, P. Szolgay “Tactile Sensor Modeling by Using Emulated Digital CNN-UM” Proceedings of the 8th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2004, Budapest, Hungary, July 22-24, 2004 Z. Nagy, P. Szolgay “Emulated Digital CNN-UM Implementation of a Barotropic Ocean Model” Proceedings of the International Joint Conference on Neural Networks, IJCNN 2004, Budapest, Hungary, July 25-29, 2004
7
[15] L. Beke, Z. Nagy, P. Szolgay “Low-cost CNN-UM global analogic programming unit implementation on FPGA” Proceedings of the 8th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2004, Budapest, Hungary, July 22-24, 2004 [16] Z. Nagy, Zs. Vörösházi, P. Szolgay “An Emulated Digital Retina Model Implementation on FPGA” Proceedings of the 9th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2005, Hsin-chu, Taiwan, May 28-30, 2005 [17] Z. Nagy, P. Szolgay “Emulated Digital CNN-UM Implementation of a 3-dimensional Ocean Model on FPGAs” Proceedings of the 8th Military and Aerospace Programmable Logic Devices International Conference, MAPLD2005, Wasgington DC., USA, September 7-9, 2005 http://klabs.org/mapld05/abstracts/153_nagy_a.html [18] Z. Nagy, Zs. Vörösházi, P. Szolgay, “Mammalian retina model implementation on emulated digital FPGA”, Joint Hungarian-Austrian Conference on Image Processing and Pattern Recognition, ISBN 3-85403-192-0, pp. 295-302, Veszprém, 2005 [19] Z. Nagy, Zs. Vörösházi, P. Szolgay “An advanced emulated digital retina model on FPGA to implement a real-time test environment” Proceedings of the 2006 IEEE International Symposium on Circuits and Systems, ISCAS2006, Island of Kos, Greece, May 21-24, 2006 [20] Z. Nagy, Zs. Vörösházi, and P. Szolgay “A Real-time Mammalian Retina Model Implementation on FPGA”, Proceedings of the 10th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [21] Zs. Vörösházi, Z. Nagy, A. Kiss, P. Szolgay “An Embedded CNN-UM Global Analogic Programming Unit implementation on FPGA”, Proceedings of the 10th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [22] Z. Kincses, Z. Nagy, P. Szolgay “Implementation of Nonlinear Template Runner Emulated Digital CNN-UM on FPGA”, Proceedings of the 10th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [23] S. Kocsárdi, Z. Nagy, S. Kostianev, P. Szolgay “FPGA Based Implementation of Water Reinjection in Geothermal Structure”, Proceedings of the 10th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [24] P. Sonkoly, P. Kozma, Z. Nagy, P. Szolgay “Acoustic Wave Propagation Modeling on 3D CNN-UM Architecture”, Proceedings of the 10th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [25] P. Szolgay, S. Kocsárdi; Z. Nagy, P. Sonkoly, Zs. Vörösházi, “Complex computational problems in cellular architectures” RSEE 2006. Proceedings of the 6th international conference on renewable sources and environmental electro-technologies, pp: 111-115, Stana De Vele, 2006
8