ADAPTÍV ERŐFORRÁS IRÁNYÍTÁS Gépi tanulási megközelítesek erőforrás elosztásra bizonytalan és változó környezetekben
P h. D. é r t e k e z é s t é z i s e i
Csáji Balázs Csanád Témavezető: Monostori László, D. Sc.
Eötvös Loránd Tudományegyetem Informatikai Kar Informatikai Doktori Iskola Az informatika alapjai és módszertana doktori program Elnök: Prof. Demetrovics János, akadémikus Magyar Tudomámyos Akadémia Számítástechnikai és Automatizálási Kutatóintézet Budapest, 2008
1. Bevezetés
1
1. Bevezetés Az információtechnológia robbanásszerű fejlődésnek indult a múlt század közepe óta. Mégis, amint a számítástudomány áttörte a laboratóriumok és előadótermek falait és a való élet problémáival találta szembe magát, óriási nehézségekbe ütközött. A gyakorlatban ugyanis többnyire csak részleges és bizonytalan információink vannak a rendszerekről és környezetükről. Ezen felül ezek dinamikusan változhatnak is, a problémák lehetnek nem stacionáriusak. Továbbá bonyolultsági kérdésekkel is meg kell birkóznunk. Még statikus, nagyon leegyszerűsített, absztrakt problémák esetében is így van ez, amikor tudjuk, hogy a megoldás létezik és véges számú lépésben elérhető. Ilyenkor is előfordulhat ugyanis, hogy a feladat kezelhetetlen, mert nincs elég számítási kapacitásunk vagy tároló helyünk ahhoz, hogy a megoldást gyakorlatilag is kiszámítsuk. Ez a helyzet például sok NP-nehéz probléma esetén is. Ezen nehézségek leküzdésére kínálnak egy lehetséges megoldást a gépi tanulási módszerek. Ezek olyan rendszerek tervezését teszik lehetővé, amelyek képesek viselkedésükben alkalmazkodni a környezet aktuális állapotához, képesek tudásukat általánosítani az ismeretlen esetekre és megtanulni, hogy a rendszer hogyan optimalizálható. Ezek a megközelítések gyakran statisztikus módszereken alapulnak és megelégszenek közelítő, nem teljesen optimális, de kezelhető megoldásokkal, mind a számítási, mind a tároló kapacitás tekintetében. A tanulás fontosságát már a számítástudomány megalapítói is felismerték. Ismert például, hogy Neumann János mennyire érdeklődött a mesterséges élet iránt és – sok egyéb mellett – önszervező automatákat is tervezett. Egy másik példa lehet Alan Turing, aki híres cikkében – amelyet a mesterséges intelligencia kutatás egyik elindítójának tekinthetünk – azt írta, hogy ahelyett, hogy hatalmas és bonyolult rendszereket tervezünk, olyan programokat kellene készíteni, amelyek képesek saját maguk megtanulni a hatékony működést. A disszertációban egy olyan fontos, sok gyakorlati alkalmazással rendelkező problémát vizsgálok, amelyben az összes fent említett nehézség előfordul: az erőforrás elosztást. Az erőforrás elosztási problémák (EEP-k) nagy gyakorlati jelentőséggel bírnak, hiszen nagyon sok különböző területen fordulnak elő. Például, az ipari termelés-irányítás ( ütemezés), raktározás (tárkiosztás), áruszállítás, személyzeti politika (irodák, kórházak), építési projektek vezetése, celluláris mobil hálózatok irányítása vagy számítógépes programok ütemezésének (például erősen párhuzamos GRID rendszerekben) területén. Az EEP-k központi jelentőségűek a menedzsment tudományban is (Powell és Van Roy, 2004). A disszertációban olyan problémákat vizsgálok, amelyekben véges számú újrafelhasználható erőforrásokhoz kell nem megszakítható, összefüggő feladatokat rendelni, melyeknek időtartama és hatása bizonytalan. A dolgozat fő célkitűzése, hogy hatékony döntéshozó rendszereket tervezzen, amelyek képesek az erőforrásokat időben elosztani és közben egy célfüggvényt optimalizálni. A gyakorlati alkalmazások szempontjából fontos, hogy a megoldás képes legyen kezelni nagyméretű problémákat éppúgy, mint a környezeti változásokat. Az EEP-k vizsgálatánál egyik fő motivációm az volt, hogy az ipari termelékenység hatékonyságát növeljem. A mai ipari rendszerekben nagyon sok probléma származik a váratlan eseményekből és feladatokból, a nem-linearitásból és a különböző műhelyek tevékenységét összehangoló és irányító interakciók tömegéből. A bonyolultság és a bizonytalanság nagyon komolyan korlátozza a hagyományos termelésirányítási megközelítéseket, például a determi-
2
1. Bevezetés
nisztikus ütemezést. A dolgozatban matematikai programozást és gépi tanulási módszereket alkalmazok, hogy közel optimális megoldásokat adjak egy általánosított sztochasztikus EEPosztályra. Ezek egy intelligens ipari rendszer alapvető részei is lehetnek. Hatvany és Nemes (1978) már a nyolcvanas években javasolták mesterséges intelligencia módszerek alkalmazását, amik segítségével – bizonyos korlátok mellett – előre nem jelezhető vagy/és eddig nem tapasztalt problémák is megoldhatók még hiányos adatok birtokában is. A különféle EEP-knek nagy számú pontos és közelítő megoldása létezik, például az ütemezési problémák esetén (Pinedo, 2002); ugyanakkor, ezek a módszerek legtöbbször csak a statikus és determinisztikus változatokkal foglalkoznak és többnyire nem képesek megbirkózni a bizonytalansággal és a változásokkal. Sok determinisztikus EEP, amely a kombinatorikus optimalizálás területén lép föl – pl. az utazó ügynök probléma és a job-shop ütemezés – erősen NP-nehéz, sőt bizonyíthatóan nincs hozzájuk jó polinomiális idejű közelítő algoritmus sem. A sztochasztikus esetben az EEP-k Markov döntési problémává (MDP) is átfogalmazhatók és dinamikus programozási (DP) módszereket alkalmazva (Bertsekas, 2001) (elméletileg) optimálisan megoldhatóak. Ám – a Bellman által – a „dimenzionalitás átká”nak nevezett jelenség miatt, ezen módszerek gyakorlati hatékonysága csekély. Az „átok” azt a jelenséget takarja, hogy a probléma méretével arányosan a kiszámításához szükséges számítási kapacitás kombinatorikusan robban. Egyes szerzők (Powell és Van Roy, 2004) már nem is egy, hanem három fajta átkot említenek a DP módszerekkel kapcsolatban. Ezek a problémák közelítő módszereket motiváltak, amelyek a gyakorlatban is hatékonyan alkalmazhatóak, bár gyakran csak szuboptimális megoldást eredményeznek (Bertsekas, 2005). A következőkben röviden ismertetem a szakirodalom néhány olyan elemét, amely közel áll az én megközelítésemhez. Megoldási módszerem a közelítő dinamikus programozási (KDP) algoritmusok közé sorolható, mely egy diszkrét idejű irányítási technológia. Megjegyzendő, hogy a megerősítéses tanulási (MT) módszerek is a KDP-k osztályába tartoznak. Zhang és Dietterich (1995) alkalmazott elsőként MT módszereket egy speciális EEPre, egy NASA űrsikló rakodási problémájának megoldására alkalmaztva a TD(λ) módszert iteratív javítással kombinálva. Azóta sok olyan cikk született, ami EEP-kre javasolt különféle MT módszereket. Az első reaktív (visszacsatolt) megoldást ütemezési problémára KDP algoritmusok segítségével Schneider et al. (1998) adta. Riedmiller és Riedmiller (1999) többrétegű perceptron alapú neurális MT megoldást javasolt lokális heurisztikák tanulására. Aydin és Öztemel (2000) a Q-tanulás egy módosított változatának használták termelésirányítási erőforrás kiosztási (dispatching) stratégiákat tanulására. Powell és Van Roy (2004) bevezetett egy formális keretrendszert EEP-k vizsgálatára, melyek megoldására KDP-t alkalmaztak. Később az ő megoldásukat párhuzamosította Topaloglu és Powell (2005). Gersmann és Hammer (2005) szupport vektor gépeket alkalmazott iteratív javítási (lokális keresés) stratégiák továbbfejlesztésére, amelyeket erőforrás megszorított projekt ütemezési feladatokra alkalmaztak. Dolgov és Durfee (2006) ágens alapú erőforrás elosztási rendszert fejlesztett ki MDP-indukált preferenciákkal. Beck és Wilson (2007) proaktív megoldásokat javasolt job-shop típusú ütemezési problémákra. Ezen megoldások a Monte Carlo szimuláció és vagy korlátozás kielégítés vagy tabu keresés kombinációján alapultak. Végül a környezeti hatások tanuló algoritmusokra gyakorolt hatását vizsgálta Szita et al. (2002).
2. Főbb tudományos eredmények
3
2. Főbb tudományos eredmények A disszertáció főbb tudományos eredményei hat tézisben foglalhatóak össze, amelyek két téziscsoportba sorolhatóak. A következőkben ezeket a téziseket ismertetem. 2.1 Sztochasztikus erőforrás elosztás A dolgozat törzsét alkotó fejezetek első részében (2. fejezet) sztochasztikus EEP-ket vizsgáltam és ezekre gépi tanulási módszereken alapuló megoldásokat javasoltam: T 1.1 Bevezettem egy formális keretrendszert sztochasztikus EEP-k vizsgálatára, amelyek újrafelhasználható erőforrásokból és nem megszakítható, időbeni kiterjedéssel rendelkező feladatokból állnak. Megmutattam, hogy ezek átfogalmazhatóak MDP-ké és ez a módszer alkalmas mind reaktív mind proaktív megoldások kezelésére. Az általam definiált EEP keretrendszer természetes általánosítása számos klasszikus EEP-nek, mint pl. ütemezési és szállítási problémáknak. Megmutattam, hogy ez a rendszer átfogalmazható egy sztochasztikus legrövidebb út problémává, amely egy speciális MDP. Kiemelendő, hogy az ilyen MDP-k számos kedvező tulajdonsággal rendelkeznek: állapot- és akcióterük véges, aperiodikusak és ennél fogva minden politikájuk megfelelő, politikáik tere pedig biztonságosan leszűkíthető. Ezután reaktív EEP megoldásokat vizsgáltam, amelyeket az átfogalmazott MDP-k irányítási politikáiként definiáltam. Ezen kívül, a megközelítés proaktív megoldásokra való kiterjesztését is elemeztem, parciálisan megfigyelhető MDP-k (POMDP) irányítási politikáiként tekintve őket. Vizsgáltam a reaktív és a proaktív megközelítések közötti kapcsolatokat is. Ezen eredmények a disszertáció 2.1 fejezetében találhatóak. T 1.2 Megoldási módszereket javasoltam – amelyek KDP, szimulált lehűlés és vagy hasító táblák vagy szupport vektor regresszió kombinációján alapulnak – reaktív megoldások kiszámítására. A megközelítés hatékonyságát szimulációs kísérletek eredményeivel támasztottam alá, mind hatékonyság-mérő (benchmark) mind ipari adatokon. KDP-n alapuló módszereket – speciálisan illesztett Q-tanulást – javasoltam arra, hogy az MDP-vé átfogalmazott feladat egy hatékony irányítási politikáját kiszámítsuk. Két módszert vizsgáltam annak érdekében, hogy az értékelő függvény kompakt módon reprezentálható legyen: hasító táblákat és szupport vektor regressziót (SVR), különös tekintettel a ν-SVR-ekre. A tanulási algoritmust off-line módon alkalmaztam – azaz minden epizód végén történt csak tanulás. Egy epizód egy szimulált állapotakció-költség pályából (trajektóriából) állt. A felfedezés és az eddig tanult ismeretek kihasználása arányának beállítására Boltzmann formulát alkalmaztam. Ezen megközelítések a disszertáció 2.2.1 és 2.2.2 fejezeteiben találhatóak. Szimulációs kísérleteket is végeztem, hogy a módszer alkalmasságát alátámasszam, mind hatékonyság-mérő (benchmark) feladatokon, mind ipari adatokon. Megoldásom hatékonyságát nehéz ütemezési problémákon vizsgáltam, míg skálázhatóságát nagy méretű ipari adatokon. Ezen eredményeket a disszertáció 4.1.2 és 4.1.4 fejezetei tartalmazzák.
4
2. Főbb tudományos eredmények
T 1.3 Számos további javítást javasoltam és vezettem be, – mint pl. rollout algoritmusok alkalmazását kezdeti fázisban, állapottér-dekompozíciót, feladat klaszterezést és elosztott mintavételt –,hogy ez által meggyorsítsam egy hatékony megoldás kiszámítását. Ezen módszerek eredményességét szimulációs kísérletekkel támasztottam alá. A javasolt módosítások a következők voltak: rollout algoritmusok alkalmazását javasoltam, hogy a kezdeti fázisban irányítsa a felfedezést és hogy kezdeti mintákat biztosítson a függvény approximátor számára. Továbbá javasoltam az akciótér dekomponálását, hogy ez által csökkentsem az egyes állapotokból elérhető akciók számát. Javasoltam még a részfeladatok klaszterezését, amely elősegítette, hogy a trajektóriák hosszának csökkenésével a kumulatív költség varianciája is kisebb legyen. Végül az algoritmus kétféle párhuzamosítási lehetőségét is vizsgáltam attól függően, hogy közösvagy osztott memória architektúrával dolgozunk. Ezek a módosítások a disszertáció 2.2.3 és 2.2.4 fejezeteiben találhatók. A klaszterezéssel és az elosztott mintavétellel kapcsolatos kísérletek eredményei a disszertáció 4.1.3 és 4.1.5 fejezeteiben találhatók. 2.2 Változó környezetek A dolgozattörzs második részében (3. fejezet) a környezeti változások hatásait vizsgáltam. T 2.1 Korlátokat vezettem le diszkontált MDP-kben arra vonatkozóan, hogy hogyan függ az optimális értékelő függvény és egy tetszőleges rögzített politika értékelő függvénye az átmenet-valószínűségektől, az azonnali-költségektől és a diszkontálási faktortól. Bebizonyítottam, hogy egy tetszőleges rögzített (stacionárius, Markov, véletlenített) irányítási politika értékelő függvénye Lipschitz folytonosan függ az azonnali-költség függvénytől (11. tétel). Egy hasonló eredmény már ismert volt átmenet-valószínűség függvényekre, de erre az esetre is adtam egy erősebb korlátot (10. tétel). A diszkontálási faktor megváltozásának esetére szintén adtam korlátot (12. tétel) és egy példán keresztül megmutattam, hogy ez az összefüggés nem Lipschitz folytonos. Ezt követően (14. lemma segítségével) kiterjesztettem ezen eredményeket az optimális értékelő függvényekre is. Ezek a tételek a disszertáció 3.1 fejezetében találhatóak. T 2.2 Bevezettem egy új MDP modellt – az (ε, δ)-MDP-ket – a változó környezetek vizsgálatára. Ebben a modellben az átmenet-valószínűségek és az azonnali-költségek időben változhatnak, de a változásoknak aszimptotikusan korlátosnak kell maradniuk. Ahhoz, hogy a környezeti változások elemezhetővé váljanak, bevezettem az (ε, δ)MDP-ket (23. definíció), amelyek a klasszikus MDP-k és az ε-MDP-k általánosításai. Ebben a kiterjesztett modellben az átmenet-valószínűség függvény és az azonnaliköltség függvény időben változhat, de a változásoknak aszimptotikusan – azaz határértékben – korlátosnak kell maradniuk. Megmutattam (24. lemma), hogy a diszkontálási faktorban bekövetkezett változások visszavezethetőek az azonnali-költség függvényben bekövetkező változásokra, így a diszkont faktor változásait nem szükséges modellezni. Ezek az eredmények a disszertáció 3.2.2 fejezetében találhatóak.
3. Tudományos publikációk
5
T 2.3 Egy általános konvergencia tételt bizonyítottam időfüggő sztochasztikus iteratív algoritmusokra. Ennek következménye egy approximációs tétel (ε, δ)-MDP-kben működő, értékelő függvény alapú megerősítéses tanulási módszerekre. Ezen eredményeket három klasszikus MT algoritmuson és kísérleteken keresztül szemléltettem. Olyan sztochasztikus iteratív algoritmusokat vizsgáltam, amelyekben az értékelő függvényekre ható operátor időben változhat. Általánosított konvergencia tételt adtam (26. tétel) ilyen algoritmusokra. Ennek következményeként vezettem le egy approximációs tételt (ε, δ)-MDP-kben működő, értékelő függvény alapú MT módszerekre (27. következmény). Továbbá eredményeimet három klasszikus MT algoritmuson szemléltettem. Konvergencia tulajdonságokat bizonyítottam (ε, δ)-MDP-kben az aszinkron érték iteráció, a Q-tanulás és a TD-tanulás módszerére. Az eredményeket két egyszerű sztochasztikus iteratív algoritmuson szemléltettem, egy „ jól viselkedő” és egy „patologikus” eseten. A disszertáció 3.2.3 és 3.2.4 fejezeteiben találhatóak az elméleti eredmények, míg a kísérletek eredményeit a 4.2 fejezet mutatja be.
3. Tudományos publikációk 3.1 Folyóirat cikkek 1. Schuh, G.; Monostori, L.; Csáji, B. Cs.; Döring, S.: Complexity-based modeling of reconfigurable collaborations in production industry, Annals of the CIRP – Manufacturing Technology, Vol. 57., No. 1., 2008 (in print) - Impakt faktor: 0.989 2. Argyros, A.; Bártfai, G.; Eitzinger, Ch.; Kemény, Zs.; Csáji, B. Cs.; Kék, L.; Lourakis, M.; Reisner, W.; Sandrisser, W.; Sarmis, T.; Umgeher, G.; Viharos, Zs. J.: Smart sensor based vision system for automated processes, International Journal of Factory Automation, Robotics and Soft Computing, Thomson Scientific Journal, Vol. 3., 2007, pp. 118–123. 3. Csáji, B. Cs.; Monostori, L.; Kádár, B.: Reinforcement learning in a distributed market-based production control system, Advanced Engineering Informatics, Vol. 20, No. 3, July 2006, pp. 279–288. - Impakt faktor: 1.295 - Független hivatkozások: 2 4. Monostori, L.; Csáji, B. Cs.: Stochastic dynamic production control by neurodynamic programming, Annals of the CIRP – Manufacturing Technology, Vol. 55, No. 1, 2006, pp. 473–478. - Impakt faktor: 0.989 - Független hivatkozások: 3 5. Kádár, B.; Monostori, L.; Csáji, B. Cs.: Adaptive approaches to increase the performance of production control systems, CIRP Journal of Manufacturing Systems, Vol.
6
3. Tudományos publikációk
34, No. 1, 2005, pp. 33–43. - Független hivatkozások: 3 6. Monostori, L.; Csáji, B. Cs.; Kádár, B.: Adaptation and learning in distributed production control, Annals of the CIRP – Manufacturing Technology, Vol. 53, No. 1, 2004, pp. 349–352. - Impakt faktor: 0.973 - Független hivatkozások: 8 3.2 Könyvfejezetek 7. Argyros, A.; Bártfai, G.; Eitzinger, Ch.; Kemény, Zs.; Csáji, B. Cs.; Kék, L.; Lourakis, M.; Reisner, W.; Sandrisser, W.; Sarmis, T.; Umgeher, G.; Viharos, Zs. J.: Smart sensor based vision system for automated processes, In book: Emerging Technologies, Robotics and Control Systems, editor: Salvatore Pennacchio, Vol. 2., pages 24–29, International Society for Advanced Research, 2007 8. Csáji, B. Cs.; Monostori, L.: Stochastic reactive production scheduling by multi-agent based asynchronous approximate dynamic programming, Lecture Notes in Computer Science; 3690: Lecture Notes in Artificial Intelligence, Proceedings of the 4th International Central and Eastern European Conference on Multi-Agent Systems (CEEMAS), September 15–17, Budapest, Hungary, 2005, pp. 388–397. - Impakt faktor: 0.251 - Független hivatkozások: 2 9. Csáji, B. Cs.; Küng, J.; Palkoska, J.; Wagner, R.: On the automation of similarity information maintenance in flexible query answering systems; Lecture Notes in Computer Science, Vol. 3180: Proceedings of the 15th International Conference on Database and Expert Systems Applications, (DEXA), 2004 pp. 130–140. - Impakt faktor: 0.402 10. Csáji, B. Cs.; Kádár, B.; Monostori, L.: Improving multi-agent based scheduling by neurodynamic programming, Lecture Notes in Computer Science; 2744: Lecture Notes in Artificial Intelligence, Proceedings of the 1st International Conference on Holonic and Multi-Agent Systems for Manufacturing (HoloMAS), 2003, pp. 110–123. - Független hivatkozások: 9 3.3 Konferencia cikkek 11. Csáji, B. Cs.; Monostori, L.: A complexity model for networks of collaborating enterpises, 17th IFAC World Congress, July 6–11, 2008; Seoul, Korea (accepted) 12. Monostori, L.; Csáji, B. Cs.: Complex adaptive systems (CAS) approach to production systems and organisations; 41st CIRP Conference on Manufacturing Systems; May 26–28, 2008; The University of Tokyo, Japan (keynote paper)
3. Tudományos publikációk
7
13. Egri, P.; Csáji, B. Cs.; Kemény, Zs.; Monostori, L.; Váncza, J.: Komplexität der Bedarfsprognosen und ihre Wirkungen in kooperativen Logistiknetzwerken; 10th Paderborner Frühjahrstagung, Reagible Unternehmen in dynamischen Märkten; March 26, 2008; Paderborn, Germany (accepted) 14. Csáji, B. Cs.; Monostori, L.: Modeling networks of collaborating enterprises as complex systems, Preprints of the IFAC Workshop on Modelling, Management and Control (MIM’07), November 14–16, 2007, Budapest, Hungary, pp. 7–12. 15. Monostori, L.; Csáji, B. Cs.: Production structures as complex adaptive systems, Proceedings of the 40th CIRP International Seminar on Manufacturing Systems, May 30 – June 1, 2007, Liverpool, United Kingdom. 16. Csáji, B. Cs.; Monostori, L.: Adaptive sampling based large-scale stochastic resource control, Proceedings of the 21st National Conference on Artificial Intelligence (AAAI06), July 16–20, 2006, Boston, Massachusetts, pp. 815–820. 17. Csáji, B. Cs.; Monostori, L.: Adaptive algorithms in distributed resource allocation, Proceedings of the 6th International Workshop on Emergent Synthesis, (IWES), Kashiwa, The University of Tokyo, Japan, August 18–19, 2006. pp. 69–75. - Független hivatkozások: 1 18. Viharos, Zs. J.; Kádár, B.; Monostori, L.; Kemény, Zs.; Csáji, B. Cs.; Pfeiffer, A.; Karnok D.: Integration of production-, quality- and process monitoring for agile manufacturing, Proceedings of the 13rd IMEKO World Congress, Metrology for a Sustainable Development, September, 17–22, Rio de Janeiro, Brazil, 2006 19. Csáji, B. Cs.; Monostori, L.: Stochastic approximate scheduling by neurodynamic learning, 16th IFAC World Congress, July 3–8, 2005, Prague, Czech Republic. - Független hivatkozások: 1 20. Pfeiffer, A.; Kádár, B,; Csáji, B. Cs.; Monostori, L.: Simulation supported analysis of a dynamic rescheduling system, IFAC Symposium on Manufacturing, Modelling, Management and Control, October 21–22, 2004, Athens, pp. 24–29. 21. Csáji, B. Cs.; Kádár, B.; Monostori, L.; Pfeiffer, A.: Simulation supported agentbased adaptive production scheduling, International IMS Forum; Global Challenges in Manufacturing, May 17–19, 2004, Cernobbio, Lake Como, Italy, pp. 658–665. 22. Csáji, B. Cs.; Monostori, L.; Kádár, B.: Learning and cooperation in a distributed market-based production control system, Proceedings of the 5th International Workshop on Emergent Synthesis, (IWES), May 24–25, Budapest, 2004, pp. 109–117. - Független hivatkozások: 6 23. Kádár, B.; Monostori, L.; Csáji, B. Cs.: Adaptive approaches to increase the performance of production control systems, Proceedings of the 36th CIRP International
8
3. Tudományos publikációk
Seminar on Manufacturing Systems, Progress in Virtual Manufacturing Systems, June 3–5, 2003, Saarbrücken, Germany, pp. 305–312. - Független hivatkozások: 4 24. Monostori, L.; Kádár, B.; Csáji, B. Cs.: The role of adaptive agents in distributed manufacturing, Proceedings of the 4th International Workshop on Emergent Synthesis (IWES’02), May 9–10, 2002, Kobe, Japan, pp. 135–142. - Független hivatkozások: 1 3.4 A disszertációhoz nem kapcsolódó cikkek 25. Csáji, B. Cs.; Rédei, M.: A racionális demokratikus véleményösszegzés korlátairól, Magyar Filozófiai Szemle, Vol. 1., 2008 (accepted) 26. Gilles, M.; Ballin, D.; Csáji, B. Cs.: Efficient clothing fitting from data; 12nd International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision, February 2–6, Plzen, Czech Republic, 2004, pp. 129–136. 27. Csáji, B. Cs.: In defense of the symmetry of true and false; Proceedings of the 6th Interdisciplinary Symmetry Congress and Exhibition of ISIS (International Society for the Interdisciplinary Study of Symmetry), Symmetry: Art & Science, October 22–29, Tihany, Hungary, 2004, pp. 46–49. 3.5 Elbírálás alatt lévő cikkek 28. Csáji, B. Cs.; Monostori, L.: Value function based reinforcement learning in changing Markovian environments, Journal of Machine Learning Research (submitted in 2007) 29. Csáji, B. Cs.; Monostori, L.: Adaptive stochastic resource control: a machine learning approach, Journal of Artificial Intelligence Research (submitted in 2007) 30. Kemény, Zs.; Csáji, B. Cs.; Viharos, Zs., J.: Timing parameter optimization for visionbased monitoring of automated production lines, Journal of Mechanical Systems and Signal Processing (submitted in 2008) Összesítés kategória folyóirat könyvfejezet konferencia egyéb elbírálás alatt összesen
saját cikkek
impakt faktor
hivatkozások
6 4 14 (3) (3)
4.246 0.653 0 (0) -
16 11 13 (0) -
24 (30)
4.899
40
Hivatkozások
9
Hivatkozások Aydin, M. E. and Öztemel, E. (2000). Dynamic job-shop scheduling using reinforcement learning agents. Robotics and Autonomous Systems, 33:169–178. Beck, J. C. and Wilson, N. (2007). Proactive algorithms for job shop scheduling with probabilistic durations. Journal of Artificial Intelligence Research, 28:183–232. Bertsekas, D. P. (2001). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, Massachusetts, 2nd edition. Bertsekas, D. P. (2005). Dynamic programming and suboptimal control: A survey from ADP to MPC. European Journal of Control, 11(4–5):310–334. Dolgov, D. A. and Durfee, E. H. (2006). Resource allocation among agents with MDPinduced preferences. Journal of Artificial Intelligence Research, 27:505–549. Gersmann, K. and Hammer, B. (2005). Improving iterative repair strategies for scheduling with the SVM. Neurocomputing, 63:271–292. Hatvany, J. and Nemes, L. (1978). Intelligent manufacturing systems - a tentative forecast. In Niemi, A., editor, A link between science and applications of automatic control; Proceedings of the 7th IFAC World Congress, volume 2, pages 895–899. Pinedo, M. (2002). Scheduling: Theory, Algorithms, and Systems. Prentice-Hall. Powell, W. B. and Van Roy, B. (2004). Handbook of Learning and Approximate Dynamic Programming, chapter Approximate Dynamic Programming for High-Dimensional Resource Allocation Problems, pages 261–283. IEEE Press, Wiley-Interscience. Riedmiller, S. and Riedmiller, M. (1999). A neural reinforcement learning approach to learn local dispatching policies in production scheduling. In Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, pages 764–771. Schneider, J. G., Boyan, J. A., and Moore, A. W. (1998). Value function based production scheduling. In Proceedings of the 15th International Conference on Machine Learning, pages 522–530. Morgan Kaufmann, San Francisco, California. Szita, I., Takács, B., and Lőrincz, A. (2002). ε-MDPs: Learning in varying environments. Journal of Machine Learning Research (JMLR), 3:145–174. Topaloglu, H. and Powell, W. B. (2005). A distributed decision-making structure for dynamic resource allocation using nonlinear function approximators. Operations Research, 53(2):281–297. Zhang, W. and Dietterich, T. (1995). A reinforcement learning approach to job-shop scheduling. In Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI), pages 1114–1120. Morgan Kauffman.