Fejlődő technológiai ágak előrejelzése az amerikai szabadalmi hálózat vizsgálata alapján
Volf Péter Konzulensek: Érdi Péter (KFKI Részecskeés Magfizikai Kutatóintézet) Dobrowiecki Tadeusz (BME Méréstechnika és Információs Rendszerek Tanszék)
Tartalomjegyzék 1
Bevezetés ......................................................................................................................... 1
2
Kitűzött célok és alkalmazott hipotézisek ....................................................................... 3
3
Szabadalmak osztályozási rendszerei .............................................................................. 4 3.1
Az USPTO besorolási rendszere .............................................................................. 4
3.2
Az NBER besorolási rendszere ................................................................................ 5
Az amerikai szabadalmi hálózat és adatbázis bemutatása............................................... 7
4
4.1
A szabadalmi hálózat áttekintése ............................................................................. 7
4.2
Az elérhető adatbázisok áttekintése ......................................................................... 9
4.3
Az NBER alkategóriák .......................................................................................... 10
4.4
Az NBER osztályozási rendszerének megbízhatósága .......................................... 12
5
Az NBER adatbázisainak hatékony kezelése ................................................................ 13
6
A hivatkozás vektor ....................................................................................................... 15 6.1
Definíció ................................................................................................................ 15
6.2
A hivatkozás vektor számolásának illusztrációja................................................... 17
6.3
Átlag és szórás ....................................................................................................... 18
7
A kutatási módszer bemutatása ..................................................................................... 20
8
Eredmények és validáció ............................................................................................... 22 Modell validálási lehetőségek ................................................................................ 22
8.2
Új osztályok kialakulása ........................................................................................ 23
9
8.1
10
A további feladatokról ................................................................................................... 27 Irodalomjegyzék ........................................................................................................ 28
1 Bevezetés A 20. század közepétől a jellemző kutatói hozzáállás a részletek megismerésére való törekvés volt. Az volt az általánosan elfogadott feltételezés, hogy a különböző rendszerek alkotóelemeinek, részleteinek minél jobb megismerése révén a teljes rendszer működéséről, felépítéséről is egyre pontosabb képet kapunk, egyre jobban megértjük azt. A 21. század fordulójára egyre világosabbá vált, hogy a komplex rendszerek (Érdi, Complexity Explained 2007) mechanizmusainak megértéséhez nem elég azok építőelemeinek részletes ismerete, sőt sok esetben az igazán lényeges információkhoz éppen a rendszerszintű vizsgálat révén juthatunk. Nem meglepő tehát, hogy egyre nagyobb figyelem övezi a komplex rendszereket modellező hálózatokat. Ezeknek az általában nagyméretű, heterogén csomópontokból és a köztük levő irányított vagy irányítatlan, heterogén kapcsolatokból álló rendszereknek kiváló reprezentációja a gráf. A komplex hálózatok egyik tipikus példája a World Wide Web, aminek csomópontjai a weboldalak, irányított élei pedig az oldalakon található linkek. A gyorsan növekvő népszerűségű közösségi oldalaknak köszönhetően egyre kézzelfoghatóbbá válik mindenki számára a „szociális háló” kifejezés, amelyben mi vagyunk a csomópontok, ismeretségeink pedig az élek. Napjainkban népszerű kutatási téma a fehérje interakciós hálózatok vizsgálata. Ebben az esetben a fehérjék a hálózat csomópontjai, két fehérje között pedig akkor van él a gráfban, ha a vizsgált fehérjék képesek egymással összekapcsolódni. Sok egyéb példát is fel lehet még sorolni, mint például a tudományos kollaborációs, távközlő, villamos, közúti vagy éppen légi közlekedési hálózatok. Az amerikai szabadalmi hálózat is egy hatalmas, gyorsan növekvő, irányított gráf, amit a kormányzati intézmények, egyetemek, cégek, feltalálók, kutató intézetek, ügyvédek és szabadalmi ügyvivők alakítanak (Hall, Jaffe és Trajtenberg 2001). A szabadalmak általában új technológiai eredményekhez kapcsolódnak, így joggal feltételezhetjük azt, hogy a szabadalmi hivatkozási hálózat információt hordoz a technológia fejlődéséről (Breitzman 2007, Jaffe, Trajtenberg és Henderson, Geographic localization of knowledge spillovers as evidenced by patent citations 1993, Chang és Lai 2009, Ellis, Hepburn és Oppenhein 1978, Xin, és mtsai. 2007, Verspagen, Mapping Technological Trajectories As Patent Citation Networks: A Study On The History Of Fuel Cell Research 2007); ennek megértése pedig segítheti a döntéshozókat a kutatási és fejlesztési célokra szánt erőforrások minél optimálisabb elosztásában. Az elmúlt több mint egy évtizedben sokan foglalkoztak az amerikai szabadalmi hálózat kutatásával. Ezen munkák egy része a szabadalmi és más valós komplex hálózatok – mint például a World Wide Web – közti strukturális hasonlóságokra koncentrált (Csárdi, Strandburg és Zalányi, és mtsai. 2007, Érdi, Complexity Explained 2007, Csárdi, Strandburg és Tobochnik, és mtsai. 2009). Ilyen közös jellemzők például a hatványfüggvény szerinti fokszám eloszlás vagy a gráf ritkasága és klaszterezési együtthatója. [1]
A kutatások egy másik része annak felderítésével próbálkozott, hogy a technológiai fejlődés rekombinációs mechanizmusai hogyan érhetők tetten a szabadalmi hivatkozásokban (Podolny, Stuart és Hannan, A Role-Based Ecology of Technological Change 1995, Podolny, Stuart és Hannan, Networks, Knowledge, and Niches: Competition in the Worldwide Semiconductor Industry, 1984-1991 1996, Fleming, Recombinant Uncertainty in Technological Search. 2001, Fleming és Sorenson, Technology as a complex adaptive system: evidence from patent data 2001). „A technológiai változások sok esetben a meglévő technológiák újszerű rekombinációjából erednek” (Cunningham 2009). „… Gondoljunk például az automobilra, mint a bicikli, a lovas kocsi és a belső égésű motor egy kombinációjára” (Fleming, Recombinant Uncertainty in Technological Search. 2001, Podolny, Stuart és Hannan, A Role-Based Ecology of Technological Change 1995, Podolny, Stuart és Hannan, Networks, Knowledge, and Niches: Competition in the Worldwide Semiconductor Industry, 1984-1991 1996, Fleming és Sorenson, Technology as a complex adaptive system: evidence from patent data 2001). Végül, de nem utolsó sorban a kutatások egy jelentős része az egyes szabadalmak technológiai értékének, fontosságának a szabadalmi hivatkozások alapján történő jellemzésével foglalkozott (Griliches 1990, Trajtenberg 1990, Hargadon és Sutton 1997, Harhoff, Scherer és Vopel 2003, Powell és Snellman 2004). Osztályozták például a szabadalmakat aszerint, hogy mennyi hivatkozást kaptak és hogy ennek a hivatkozási folyamatnak milyen az időbeli lefutása (Breitzman 2007). Az így definiált csoportok a klasszikus, a potenciálisan klasszikus, az alvó és a felkapott szabadalmak. A klasszikus szabadalmak azok, amelyek már kimagaslóan sok hivatkozást gyűjtöttek be és több évvel engedélyezésüket követően is sok új szabadalom hivatkozza őket. A legjobb példa erre az 1988-as, 4733665-ös sorszámú Palmaz sztent szabadalom, ami a szabadalmi rendszer egyik legtöbbet hivatkozott szabadalma. Még 2006-ban is több mint száz új hivatkozást gyűjtött be. A potenciálisan klasszikus szabadalmak csoportjába olyan, legfeljebb néhány éves szabadalmakat sorolunk, amelyek korukhoz képest a vártnál lényegesen több hivatkozást gyűjtöttek össze, így jó esélyük van arra, hogy klasszikussá váljanak. Az alvó szabadalmak azok, amelyeket hosszú időn keresztül alig hivatkoztak, majd jóval az engedélyezésük után hirtelen nagyszámú hivatkozást gyűjtöttek be. Erre jó példa az 1969-es, 3461461-es sorszámú szabadalom, amit eredetileg vérnyomáscsökkentő szernek fejlesztettek ki, majd 15-20 évvel később észrevették, hogy a hajnövesztésben sokkal hatékonyabb és végül ennek köszönhetően kezdett egyre több új hivatkozást begyűjteni. A felkapott szabadalmak lényegében az alvó és potenciálisan klasszikus szabadalmak uniójaként definiálhatók. A bemutatott szabadalomtípusok felhasználása lehetőséget adott a felkapott szabadalmak köré szerveződő új, dinamikusan fejlődő technológiai területek szabadalmi hivatkozások alapján történő azonosítására. A dolgozatban bemutatásra kerülő módszer egyik újdonsága az, hogy az egyéni szabadalmaknál magasabb, a teljes hálózat globális vizsgálatánál viszont alacsonyabb szinten próbálja elemezni az amerikai szabadalmi rendszert, ennek révén pedig a technológiai fejlődést.
[2]
2 Kitűzött célok és alkalmazott hipotézisek A projekt kezdetén megfogalmazott általános cél a technológiai ágak fejlődésének, változásának vizsgálata és előrejelzése volt az amerikai szabadalmi hálózat felhasználásával. A technikai részleteket elhanyagolva ez a következő feladatokat foglalja magába: (i) Egy új módszer kifejlesztése a szabadalmi hálózatban bekövetkező strukturális változások vizsgálatára. (ii) Az eljárás tesztelése és validálása új technológiai ágak kialakulásának valós példáin. (iii) A technológiai változások előjeleinek megfigyelése a módszer felhasználásával. A munka folyamán néhány feltevéssel éltünk: (i) A szabadalmi hálózat fejlődése, ha nem is tökéletesen, de tükrözi a technológiai fejlődést. (ii) A szabadalmi hivatkozások valós technológiai kapcsolatot jelképeznek az érintett szabadalmak között. (iii) Definiálható egy mennyiség, ami lehetőséget ad a különböző technológiai területek változásainak vizsgálatára, trendek megfigyelésére. (iv) A szabadalmak a technológiai ágaknak megfelelően csoportokba sorolhatók az általuk kapott hivatkozások hasonlósága alapján. Az első két hipotézis a szabadalmaztatási folyamat pontosságára alapoz. A szabadalmasoknak a szabadalmi kérvényhez csatolniuk kell azon, a kérvényhez technológiailag közel álló korábbi szabadalmak listáját, amikről tudomásuk van. A szabadalmi ügyvivők feladata részben ennek a listának a javítása, kiegészítése annak érdekében, hogy megállapíthassák, hogy a kérvényt szabad-e engedélyezni. Ezen folyamat révén valószínűsíthető az új szabadalmak technológiai előzményeinek pontos feltárása. A harmadik hipotézis tesztelésére minden szabadalomhoz definiálunk egy mennyiséget, a hivatkozás vektort, ami azt mondja meg, hogy az adott szabadalmat a különböző technológiai ágak milyen arányban hivatkozzák a vizsgálat időpontjában. A hivatkozás vektor időbeli változása mutatja majd a szabadalom technológiai fejlődésre gyakorolt hatásának változását. A negyedik hipotézis a klaszterező eljárások erejére támaszkodik. A klaszterezés alapjául a szabadalmak hivatkozás vektorainak hasonlósága szolgál. Azt feltételezzük, hogy a különböző technológiai területek által hasonló arányban hivatkozott szabadalmak technológiailag valóban hasonlók lesznek.
[3]
3 Szabadalmak osztályozási rendszerei A szabadalmaknak sok besorolási rendszere létezik, amik szabadalmi hivatalonként jelentősen különböznek egymástól. Ebben a fejezetben két, egymásra épülő osztályozási rendszert mutatok be az amerikai szabadalmi hálózat kapcsán. Ezek fontos szerepet játszottak a célként megfogalmazott módszer kifejlesztése és validálása során, ezért elkerülhetetlen az ismertetésük. Az egyik a United States Patent and Trademark Office (USPTO) által használt és karbantartott besorolási rendszer; a másikat pedig – kutatási célokat szem előtt tartva – a National Bureau of Economic Research (NBER) fejlesztette ki sok év munkával az 1990-es évek végére.
3.1 Az USPTO besorolási rendszere Az Egyesült Államok szabadalmi osztályozási sémája (United States Patent Classification – USPC) egy funkcióorientált, vagyis hasonló eljárásokat, eszközöket egy helyre gyűjtő rendszer, ami az aktuális technológiai állás minél jobb követése érdekében az elmúlt közel 180 évben folyamatosan változott, fejlődött. Az USPC egy kétszintű, hierarchikus rendszer, ami osztályokba és alosztályokba sorolja a szabadalmakat. Az osztályozás elég nagy felbontású: az osztályok száma közel 450, az alosztályoké több mint 100000. A rendszer változásának sebességét jelzi, hogy évente akár 10 osztály is a módosítás, létrehozás vagy megszűnés sorsára juthat.
1. ábra: 1978 óta létrehozott USPTO alosztályok száma Mivel szabadalmakat, esetleg teljes alosztályokat vagy osztályokat újra és újra átsorolhatnak, szinte lehetetlen megállapítani azt, hogy a mostani rendszer szerint egy adott osztályba és alosztályba tartozó szabadalomnak évekkel ezelőtt pontosan mi volt a besorolása. Ez a nagyfokú változékonyság egyrészt megnehezíti az osztályozási rendszer kutatási célokra [4]
történő felhasználást; másrészt viszont a jól dokumentált osztályszintű változások remek lehetőséget nyújtanak a dolgozatban bemutatásra kerülő módszer teszteléséhez, validálásához.
3.2 Az NBER besorolási rendszere A National Bureau of Economic Research keretein belül az 1990-es években került kidolgozásra ez az osztályozási rendszer és a hozzá tartozó adatbázis (Hall, Jaffe és Trajtenberg 2001). Az új besorolási szisztéma kialakításának célja az amerikai szabadalmi hálózat kutatásának megkönnyítése, elősegítése volt. Kategóriák 1
2
3
4
5
6
Chemical
Computers and Communications
Drugs and Medical
Electrical and Electronics
Mechanical
Others
Agriculture, Food and Textiles
Communications
Drugs
Electrical Devices
Material Processing and Handling
Agriculture, Husbandry, Food
X2
Coating
Computer Hardware and Software
Surgery and Medical Instruments
Electrical Lightning
Metal Working
Amusement Devices
X3
Gas
Computer Peripherals
Biotechnology
Measuring and Testing
Motors and Engines
Apparel and Textile
X4
Organic Compounds
Information Storage
Nuclear and X-rays
Optics
Earth Working and Wells
X5
Resins
Power Systems
Transportation
Furniture, House, Fixtures
Alkategóriák
X1
Semiconductor devices
X6
Heating
X7
Pipes and Joints
X8
Receptacles
Miscellaneous X9 Chemical
Miscellaneous Miscellaneous Miscellaneous Miscellaneous Drugs and Electrical and Mechanical Others Medical Electronic
1. táblázat: Az NBER besorolási rendszere Az USPTO-éhoz hasonlóan ez is egy kétszintű, hierarchikus rendszer, ami erőteljesen épít az USPC-re: annak osztályait eredetileg 36 alkategóriába, ezeket pedig további 6 kategóriába [5]
vonta össze. A besorolási rendszer minden kategóriához egy számot rendel az [1,6] intervallumból. Az alkategóriák sorszámozása már kétjegyű számokkal történik. Az első számjegy a kategóriának felel meg, a második pedig a kategória egy alkategóriáját azonosítja. Ha például egy szabadalom besorolása 21, akkor az előbbiek szerint ez a szabadalom a 2. kategória 1. alkategóriájába tartozik. 2000 után ez a rendszer is megélt egy revíziót, aminek során az alkategóriák számát 37-re növelték. Az új alkategória kialakítására a „Számítógépek és Kommunikáció” nevű kategóriában került sor. Az átsorolt szabadalmak osztályozásának megváltozása itt nem okoz problémát, mivel minden szabadalomhoz elérhető az eredeti és az aktuális besorolása is. Ha ez esetleg nem lenne elég, akkor az NBER adatbázisaiban a szabadalmi hálózat, és ezzel együtt a szabadalmak aktuális besorolása is rögzítve van három időpontban: 1999, 2002 és 2006 végén.
[6]
4 Az amerikai szabadalmi hálózat és adatbázis bemutatása 4.1 A szabadalmi hálózat áttekintése Az amerikai szabadalmi adatbázis esetében egy nagyméretű, dinamikus komplex hálózattal van dolgunk. A rendszert modellező gráf irányított, körmentes, több forrással és több nyelővel rendelkezik valamint egy darab gyengén összekötött komponensből áll. Mivel az újabb szabadalmak tudják csak hivatkozni az őket megelőzőket, a hálózat forrásai azok a szabadalmak, amelyeknek vagy még nem volt idejük hivatkozásokat gyűjteni, vagy technológiailag olyan jelentéktelenek, hogy senki sem hivatkozza őket. A hálózat nyelői azok az általában régi szabadalmak, amelyeknek nem volt (szabadalmi) előzményük. A United States Patent and Trademark Office adatai alapján a szabadalmi rendszer 1790-es bevezetése és az első, 1X sorszámú szabadalom engedélyezése óta az USA-ban kiadott szabadalmak száma töretlenül növekszik (Hall, Jaffe és Trajtenberg 2001). 2010 augusztusában már sor került a 7787329-as sorszámú szabadalom engedélyezésére is. Bár a szabadalmi hálózat mérete például a World Wide Webéhez képest nagyon kicsi, mégis az egyik legnagyobb olyan komplex hálózatként tarthatjuk számon, amelyről nagy mennyiségű elektronikus adat áll rendelkezésünkre, ami évtizedek alatt gyűlt össze.
2. ábra: Az USA-ban engedélyezett szabadalmak száma 1964-től napjainkig [7]
3. ábra: Az engedélyezésre kerülő szabadalmak száma 2 éves bontásban Az ábrákon jól látszik, hogy a szabadalmak száma az 1980-as éves közepéig viszonylag egyenletesen nőtt, majd lassan elkezdett emelkedni az évente engedélyezett kérvények száma. 2000 előtt enyhítették a szabadalmi kérvények engedélyezésének feltételeit, ennek köszönhető az itt látható nagy ugrás az új szabadalmak számában. Ezt követően tovább folytatódott a 90es években is látható növekedési trend. Minden szabadalomhoz többek között tartoznak korábbi szabadalmakra mutató hivatkozások is. Ezek a szabadalmi hálózat élei. A kapcsolatok jelentése itt nem olyan egyértelmű, mint például egy tudományos hivatkozási hálózat esetében, ahol a hivatkozások kétségtelen jelei annak, hogy egy munka ténylegesen épített egy korábbira, tudásáramlás történt. Ha egy A szabadalom hivatkozik egy B szabadalmat, akkor ebből csak annyira következtethetünk, hogy A szabadalom elbírálása során érdemes volt megvizsgálni B szabadalmat, mint A egyik lehetséges előzményét. Ezek szerint a szabadalmi hivatkozások pusztán valamilyen mértékű technológiai kapcsolatot jelentenek két szabadalom között, tényleges tudásáramlásról viszont csak ritkán beszélhetünk. Egy szabadalomhoz átlagosan 4 kimenő hivatkozás tartozik, amiből az következik, hogy a hálózat éleinek száma napjainkban 30 millió körül lehet. Bár a szabadalmak átlagos kimenő fokszáma 4 – és így természetesen az átlagos bejövő fokszámuk is ennyi –, ahogy azt egy skálafüggetlen hálózat esetében várjuk is, a fokszámok szórása nagyon nagy, főleg a bemenő fokszámok esetében. Nem ritkák a több száz hivatkozást begyűjtő szabadalmak, de könnyű szerrel találhatunk ezres nagyságrendű bemenő hivatkozással rendelkezőt is, mint például az 1988-as, 4723129-es sorszámú, egy [8]
tintasugaras nyomtatási technikát levédő szabadalom. Ezek mellett természetesen rengeteg olyan szabadalom is van, ami egyáltalán nem is kapott hivatkozást.
4.2 Az elérhető adatbázisok áttekintése Az amerikai szabadalmi hálózattal való foglalkozáskor két forrásból szerezhetjük meg a szükséges adatokat: az USPTO vagy az NBER adatbázisaiból. A munka céljától függően akkor érdemes az USPTO adatait választani, ha szükségünk van olyan információkra a szabadalmakról, mint például a tulajdonosa, elbírálója vagy akár a tartalma. Ha a szabadalmi hálózat struktúráját, az NBER által definiált kategóriákat, alkategóriákat vagy akár egyes szabadalmak technológiai hatását szeretnénk vizsgálni, akkor célszerűbb az NBER könnyebben feldolgozható adatbázisait választanunk. Az adatbázisok között természetesen nem csak formai, hanem tartalmi különbségek is vannak. Az USPTO által karbantartott adatokban például nem szerepelnek az NBER származtatott jellemzői, mint például a szabadalmak kategóriája és alkategóriája; az NBER adatbázisaiból pedig többek között hiányzik a szabadalmak leírása. Mivel a munka során nem volt szükségünk a szabadalmak részletes leírására vagy a szabadalmasok neveire, hanem főként a hálózat szerkezetére és annak változásaira koncentráltunk, adta magát, hogy az NBER adatbázisait felhasználva dolgozzunk. Ezek három időpontban – 1999 végén, 2002 végén és 2006 végén – és időpontonként két adatbázisban rögzítik a szabadalmi hivatkozási hálózat éppen aktuális állapotát. Az egyik adatbázis csak a hálózat irányított éleit tartalmazza címkézett éllistás leírást használva úgy, hogy a címkék a szabadalmak sorszámainak felelnek meg. Ez a következőképpen néz ki: „CITING”,„CITED” 3858241,956203 3858241,1324234 …
Mivel a munka során a szabadalmak NBER szerinti alkategóriáira és USPTO szerinti osztályaira is szükségünk volt, a másik – szabadalmak adatait és származtatott jellemzőit tartalmazó – adatbázis is felhasználásra került, amelynek minden sora egy szabadalom leírását tartalmazza. Innen olyan adatokhoz juthatunk a szabadalmakról, mint például engedélyezésének éve, a kérelem beadási helye és éve, a szabadalom USPC szerinti osztálya, NBER szerinti kategóriája és alkategóriája vagy akár eredetiségének mértéke. Mindezt a következő formában kapjuk kézhez: 6009285,1999,14606,1997,"US","KY",335920,2,,399,5,54,38,0, 0.9737,,0.4938,,11.1842,0.0286,0.0263,,
Az újabb adatbázisok a korábbiakhoz képest tartalmaznak új származtatott változókat és az attribútumok sorrendje is különböző, de a leírás formája minden esetben megegyezik az imént bemutatottal. [9]
4.3 Az NBER alkategóriák Mivel a szabadalmak NBER szerinti kategóriái és alkategóriái többször is előkerülnek majd a későbbiekben, érdemes ezekre is vetni egy gyors pillantást. A különböző technológiai területek különböző gyorsasággal fejlődnek. Joggal várhatjuk, hogy a korábban felsorolt hipotéziseinknek megfelelően ez a jelenség szabadalmi hálózaton is megfigyelhető legyen. A 11-es – földművelés témakörébe tartozó szabadalmakat gyűjtő – és 23-as – számítógépes perifériákkal kapcsolatos szabadalmakat tömörítő – alkategóriák összehasonlítása kiválóan alátámasztja feltételezésünket. Az alábbi, az alkategóriák 1999 végi méreteit mutató táblázatban látható, hogy a kiválasztott két csoport ekkor hasonló mennyiségű szabadalmat tartalmazott. Az ezt követő oszlopdiagramokon pedig az is látszik, hogy a két alkategória dinamikája teljesen eltér egymástól: az egyik lecsengést, a másik pedig nagyon gyors – a teljes hálózatéval hasonlatos – növekedést mutat.
Alkategóriák
Kategóriák 1
2
3
4
5
6
1
25624
122981
84824
99950
167725
63994
2
44366
91614
70573
46950
94679
29619
3
14331
24282
32170
84098
109459
55158
4
124981
51460
–
42880
64848
43822
5
100725
–
–
103534
88856
61256
6
–
–
–
52603
–
40733
7
–
–
–
–
–
27151
8
–
–
–
–
–
63173
9
296907
–
16632
69726
155811
256427
606934
290337
204199
499741
681378
641333
Összesen:
2. táblázat: Az NBER kategóriák és alkategóriák méretei 1999 végén
[10]
4. ábra: A 11 alkategóriában évente engedélyezett szabadalmak száma
5. ábra: A 23-as alkategóriában évente engedélyezett szabadalmak száma [11]
A bemutatott adatbázisokkal persze akad néhány probléma is. Ezek közül a legfontosabb talán az, hogy az azonos időpontokhoz tartozó adatbázispárok nem ugyanazt az időintervallumot fedik le, csak az utolsó megtalálható szabadalom sorszáma közös. A 2000-es adatbázisok esetében például a szabadalmak adatai 1963 első szabadalmától – aminek sorszáma 3070801. – kezdődően vannak meg. Ezzel szemben csak az 1975 utáni szabadalmak hivatkozásai ismertek, amik egy része jóval 1975-nél korábbra mutat. Ez azt jelenti, hogy a hálózat 1963 előtti állapotáról csak nagyon gyenge képet kaphatunk, és még a következő 12 év is elég homályos. Gyakorlatilag az elmúlt 35 évet érdemes csak vizsgálni. Problémát jelent még az is, hogy az 1975 és 2000 között engedélyezett, közel három millió szabadalom közül majdnem 15000-ről semmilyen információt nem találunk az adatok között.
4.4 Az NBER osztályozási rendszerének megbízhatósága A felhasználás előtt érdemes tájékozódni a korábban bemutatott szabadalmi besorolási rendszerek jóságával kapcsolatban. Az egyik célravezető módszer a szükséges információk beszerzésére a hálózat hivatkozási struktúrájának vizsgálata. Jól definiált technológiák esetén azt feltételezhetjük, hogy az egyes technológiai területek szabadalmai túlnyomórészt a saját technológiai águkhoz tartozó egyéb szabadalmakat hivatkozzák majd. Ennek ellenőrzésére elég megvizsgálni a technológiai ágak szabadalmai által generált hivatkozások eloszlását a besorolási rendszerek által definiált osztályok között. 2010 elején éppen készült egy ezzel foglalkozó tanulmány (Gress 2010), aminek eredményeiből az NBER által definiált alkategóriákra vonatkozó szakasz egy kis részét emelném ki. Alkategória:
11
12
13
14
15
19
21
22
23
24
31
32
Önhivatkozások aránya:
0.39
0.39
0.60
0.48
0.59
0.65
0.69
0.64
0.62
0.68
0.74
0.82
Alkategória:
33
39
41
42
43
44
45
46
49
51
52
53
Önhivatkozások aránya:
0.40
0.67
0.61
0.67
0.58
0.54
0.62
0.76
0.52
0.61
0.55
0.71
Alkategória:
54
55
59
61
62
63
64
65
66
67
68
69
Önhivatkozások aránya:
0.64
0.71
0.59
0.76
0.79
0.72
0.78
0.69
0.63
0.53
0.65
0.58
3. táblázat: Az egyes alkategóriákba tartozó szabadalmak saját alkategóriájukra mutató hivatkozásainak aránya A táblázatból látszik, hogy alkategóriától függően az önhivatkozások aránya 40-80% között mozog körülbelül. Ez azt mutatja, hogy az NBER besorolási rendszere bár nem tökéletes, de azért lehet rá hagyatkozni. Kis munkával az is belátható, hogy az USPTO osztályoktól az NBER kategóriák felé haladva egyre javul az osztályozás minősége.
[12]
5 Az NBER adatbázisainak hatékony kezelése Mivel az NBER adott időponthoz tartozó mindkét adatbázisára szükség volt a munka során, ezeket valahogy integrálni kellett az egyszerűbb kezelhetőség érdekében. A feladat megoldását nagyon megkönnyítette az igraph (Csárdi és Nepusz, The igraph library dátum nélk.), ami egy ingyenes; könnyen használható; gráf készítő, manipuláló és elemző algoritmusokat tartalmazó, C++ nyelven írt programcsomag. Ennek felhasználásával az adatbázisok alapján könnyen felépíthető a szabadalmi hálózatot modellező gráf, melynek csomópontjaiban tárolva vannak azok fontos, felhasznált jellemzői is, mint például a szabadalom sorszáma, USPTO szerinti osztálya, NBER szerinti alkategóriája és a szabadalmi kérvény benyújtásának helye. Természetesen nem elég, hogy a gráfot egyszerűen össze tudjuk állítani az adatbázisokból: arra is szükség van, hogy a hálózat vizsgálatakor ne kelljen minden egyes alkalommal újra megtennünk ezt. Hogy elkerüljük a gráf újbóli létrehozásával kapcsolatos problémákat, célszerű azt eltárolni a merevlemezen, hogy legközelebb egyszerűen már csak be kelljen olvasni. Szerencsére az igraph több gráf leíró formátumot is ismer, mint például a címkézett éllistát, szomszédossági listát és mátrixot, a GraphViz és a Pajek által használt fájlformátumokat vagy akár a GML-t (Graph Modelling/Meta Language). Rugalmassága, egyszerű szintaxisa és könnyű átláthatósága miatt ezek közül a GML-re esett a választás. Ez egy hierarchikus gráf leíró formátum, aminek gyökéreleme maga a gráf objektum, ami tetszőleges számú, egyszerű attribútummal rendelkezhet. A gráf ezen kívül tetszőleges számú csomópontot és élet tartalmazhat, amiknek szintén egyszerű attribútumaik lehetnek. Az egyszerű jelen esetben egész vagy lebegő pontos számot és tetszőleges karaktersorozatot jelent. Ezeket az különbözteti meg egymástól, hogy a szöveges attribútumok értéke idézőjelek között szerepel. A gráffal ellentétben a csomópontoknak és az éleknek kötelezően megadandó attribútumaik is vannak. A csomópontok esetében ez a csomópont azonosítóját, az élek esetében pedig azok forrás- és célcsomópontjának azonosítóit jelenti. Ezeknek megfelelően a szabadalmi hálózat GML leírása például a következőképpen nézhet ki: graph [ directed 1 label ”United States Patent Citation Network” comment ”1963.01.01 – 1999.12.31.” node [ id 0 patent 3070801 NBERsubcategory 69 country "BE" USPTOclass 269 ]
[13]
……… node [ id 2938753 patent 6009554 NBERsubcategory 22 country "US" USPTOclass 714 ] edge [ source 787440 target 327605 weight 1 comment ”This is a citation.” ] ……… edge [ source 2938753 target 2293246 weight 1 comment ”This is a citation.” ] ]
Jelen esetben a gráf directed attribútuma azt határozza meg, hogy a GML fájllal leírt hálózat irányított. Emellett a gráfnak még két, karaktersorozat típusú jellemzője van: egy címke és egy megjegyzés. A csomópontok már jóval több attribútummal rendelkeznek. Van egy egyedi azonosítójuk, továbbá az általuk reprezentált szabadalom sorszámát, NBER szerinti alkategóriájának kódját és USPTO szerinti osztályát is tárolják, a szabadalmi kérvény benyújtásának helyével együtt. A kötelező attribútumokon túl a hálózat éleiről tároljuk azok súlyát és a példa kedvéért egy szöveges megjegyzést is.
[14]
6 A hivatkozás vektor Ebben a fejezetben a korábban már említett hivatkozás vektor bemutatására kerül sor.
6.1 Definíció A szabadalmak ezen új, időfüggő jellemzőjének létrehozásával az volt a célunk, hogy egy olyan mennyiséghez jussunk, aminek felhasználásával vizsgálni tudjuk a szabadalmak technológiára gyakorolt hatásának változását; továbbá hivatkozás vektoraik hasonlósága alapján csoportosítva a szabadalmakat, meg tudjuk figyelni a szabadalmi hálózat struktúrájában bekövetkező változásokat, amik hipotéziseink szerint szoros kapcsolatban állnak a valós technológiai változásokkal. Ahhoz, hogy egy, az előző bekezdésnek megfelelő mennyiséget tudjunk definiálni, két dologra van szükségünk: (i) jól definiált technológiai ágakra, és (ii) a szabadalmi hálózat kiválasztott időpontbeli állapotára. Az USPC-t és az NBER osztályozási rendszerét is nyugodtan tekinthetjük a technológiai ágak egy-egy – különböző részletességű – definíciójának, de természetesen máshová is nyúlhatunk, például a nemzetközi szabadalmi osztályozási rendszerhez (International Patent Classification – IPC). A dolgozatban bemutatásra kerülő eredmények esetében mi a 36 NBER alkategóriára alapoztunk. Mivel minden USPTO osztály pontosan egy NBER alkategóriába, és minden alkategória pontosan egy kategóriába tartozik, ez a választás lényegében az eredmények maximális részletességét határozta meg. Az NBER besorolási rendszerének választása miatt a szabadalmi hálózat tetszőleges időpontbeli állapotának visszaállítása semmilyen nehézséget nem okoz, mivel nem kell foglalkozni az osztályozási rendszer változásaival, csak azt kell megoldani, hogy minden, a kiválasztott időpont utáni szabadalomhoz tartozó csomópontot töröljünk a gráfból. Ha szövegesen szeretnénk definiálni a hivatkozás vektort, akkor a következő két definícióból választhatunk: A hivatkozás vektor a szabadalmak időfüggő jellemzője, ami azt mondja meg, hogy a szabadalom (i) az adott időpontig arányaiban milyen hatással volt a technológiai ágakra. (ii) az adott időpontban hol helyezkedik el a technológiák által kifeszített térben. A korábbi bekezdéseknek megfelelően, technológiák alatt a választott szabadalmi osztályozási rendszer által definiált egységeket értjük, a hatást pedig a szabadalmi hivatkozások testesítik meg. A hivatkozás vektor időfüggése abból fakad, hogy minden egyes alkalommal, amikor egy új szabadalom hivatkozik egy másikat, a régebbi szabadalom technológiai ágakra történő – a szabadalmi gráf élei alapján számolt – hatása megváltozik.
[15]
A szabadalmi hálózat összes csomópontjára a hivatkozás vektorok számolása egyszerű és gyorsan kivitelezhető feladat: időkomplexitása O(|E|+|V|), ahol |E| a gráf éleinek, |V| pedig a gráf csomópontjainak száma. A hivatkozás vektorok számolása a következőképpen történik: (i) Az első lépés a gráf éleinek súlyozása. Minden egyes él súlyát a forráscsomópontja fokszámának reciprokára állítjuk. A gráf átlagos kimenő fokszáma 4, azonban nagyon nagy a fokszámok szórása. A hálózatot böngészve találhatunk olyan szabadalmakat is, amelyek több száz referenciát tartalmaznak – jó példa erre az 5795784-es sorszámú szabadalom. Az élek súlyozásának az a szerepe, hogy az eltérő fokszámú csomópontok hivatkozás vektorokra történő teljes hatását kiegyenlítse. A súlyozás emellett javítja is az eredményt: ha egy A szabadalom csak a B szabadalmat hivatkozza, akkor ez általában erősebb technológiai kapcsolatot feltételez A és B szabadalmak között, mintha B-re csak egy mutatna A sok hivatkozása közül. (ii) A második lépés a szabadalmak által kapott hivatkozások súlyainak összegzése szabadalmanként egy 36 dimenziós vektorba, melynek elemei az NBER alkategóriáknak feleltethetők meg. Azért a kapott hivatkozások alapján történik a vektor számítása, mert a szabadalmak technológiai hatásának iránya éppen ellentétes a hivatkozások által mutatottal. A szabadalmak saját alkategóriájából érkező hivatkozásait nem számoljuk, így a szabadalmak hivatkozás vektoraiban a saját alkategóriájuknak megfelelő elem minden esetben nulla lesz. Ahogy korábban láttuk, a szabadalmak a legtöbb esetben a saját alkategóriájukat hivatkozzák, így nullázás nélkül a vektorok saját alkategóriának megfelelő eleme nagyon nagy lenne. Ennek a koordinátának a nullázásával jobban ki lehet emelni az alkategóriák szabadalmainak rekombinálódási folyamatait. (iii) A hivatkozás vektorok előállításának harmadik és egyben utolsó lépése az imént kiszámolt súlyozott összegekből álló vektor egységnyi hosszúságúra normálása. Ez több szempontból is fontos művelet. Egyrészt arra vagyunk kíváncsiak, hogy a technológiai területek milyen arányban használták fel a szabadalmakat, nem pedig arra, hogy milyen mértékben; így a szabadalmak között nem szabad különbséget tennünk a kapott hivatkozásaik száma alapján, a normálás nélküli összegzéssel viszont éppen ezt érjük el, mivel a több hivatkozást gyűjtő szabadalmak hivatkozás vektorának koordinátái magasabbak lesznek. Másrészt azért is fontos a normálás, mert újabban – az adatbázisok egyszerűbb kereshetősége miatt – a szabadalmakhoz átlagosan több referencia tartozik, mint amennyi régebben volt jellemző. Ha ehhez hozzávesszük azt, hogy a szabadalmak hivatkozásaik túlnyomó részét életük első öt évében kapják, akkor arra a következtetésre jutunk, hogy a megváltozott hivatkozási szokásnak köszönhetően a frissebb szabadalmaknak átlagosan több hivatkozás begyűjtésére van esélyük, mint a régebbieknek, így esetükben több élsúly kerül összegzésre. A vizsgált gráf összes csomópontjára a hivatkozás vektorok kiszámolása lineáris időben a következőképpen valósítható meg. Egyesével végigmegyünk az összes szabadalmi hivatkozáson. Minden hivatkozás esetében megnézzük a hivatkozó szabadalom kimenő éleinek számát, majd ennek reciprokát hozzáadjuk a hivatkozott csomópont hivatkozás [16]
vektorának a hivatkozó csomópont alkategóriájának megfelelő eleméhez. Ha minden éllel végeztünk, akkor már csak normálni kell a kiszámolt összegeket, és ezzel elő is állt a hálózat összes szabadalmának hivatkozás vektora.
6.2 A hivatkozás vektor számolásának illusztrációja A hivatkozás vektor tetszőleges, osztályozott egyedekből és a köztük lévő irányított kapcsolatokból álló hálózat esetén kiszámolható a csomópontokra. Ezt felhasználva egy egyszerű, négy osztályos példán be is mutatom a számolás menetét. A következő ábra a vizsgált gráf egy – a 37-es sorszámú csomópont köré szerveződő – kis részletét mutatja.
6. ábra: A hivatkozás vektor számolásának illusztrálása Jelen esetben négy osztályba vannak besorolva a csomópontok, így a hivatkozás vektor ennek megfelelően négy elemet tartalmaz majd. Az osztályokat a négy színnel – sorrendben Piros, Zöld, Kék és Sárga – azonosítjuk és a 37-es sorszámú csomóponthoz tartozó hivatkozás vektorra vagyunk kíváncsiak. A korábbiaknak megfelelően első lépésben a gráf éleinek súlyozására kerül sor. Az ábrán csak azon hivatkozások súlyai látszanak, amelyek közvetlenül vagy közvetve befolyásolják a kiválasztott csomópont hivatkozás vektorát. Egy él közvetlenül befolyásolja a hivatkozás vektort, ha a vizsgált csomópontra mutat. A közvetett befolyásolás annyit jelent, hogy az adott él beleszól egy olyan hivatkozás súlyának meghatározásába, amely a vizsgált csomópontra mutat – tehát megegyezik a forrásuk. Az élek súlyozását követően a kiválasztott csomópont által kapott hivatkozások osztályonkénti súlyozott összegzése következik. A Piros osztályból egy darab, 1/3 súlyú, a Zöld osztályból szintén egy darab, 1/2 súlyú, a Sárga osztályból pedig két darab, egy 1 és egy 1/2 súlyú hivatkozás mutat a 37-es sorszámú csomópontra. Bár a Kék osztályból is mutat egy 1/2 súlyú hivatkozás a vizsgált csomópontra, ezt nem vesszük figyelembe, mivel a 37-es csomópont is ennek az osztálynak az eleme. A hivatkozások osztályonkénti súlyozott összegének kiszámolása után a vektor egységnyi hosszúságúra történő normálása van csak hátra. Ez gyakorlatilag a szabadalmak egy origó
[17]
középpontú gömbfelületre történő vetítését jelenti az NBER által definiált technológiák terében.
6.3 Átlag és szórás A hivatkozás vektorok számolását követően nem árt meggyőződni arról, hogy a szabadalmak ezen jellemzője ad-e egyáltalán lehetőséget bármiféle technológiai csoportok definiálására, megtalálására. Ennek egyik alapvető feltétele az, hogy a szabadalmakat kellőképpen szétszórják a hivatkozás vektoraik a technológiák terében. Ha ez teljesül, akkor van csak értelme klaszterező algoritmusok alkalmazásával technológiai alapú csomósodásokat keresni a térben. A 36 NBER alkategóriából többek között a 11-es számúba sorolt szabadalmakra is elvégezve ezt a tesztet, az eredmény bíztató. A következő oszlopdiagramok a 11-es alkategória súlypontját, és az ide tartozó szabadalmak hivatkozás vektorainak koordinátánkénti szórását mutatják.
7. ábra: A 11-es alkategória szabadalmai hivatkozás vektorainak átlaga Jól látszik, hogy a 11-es alkategóriába tartozó szabadalmak saját alkategóriájukon túl a 19es és a 69-es alkategóriákat hivatkozzák leginkább. A 19-es alkategória az 1-es kategória máshová nem besorolható szabadalmait tartalmazza, így ennek a kapcsolatnak az erőssége könnyen érthető. A 69-es alkategória az 1-5 kategóriákba nem tartozó szabadalmak közül is a nehezen csoportba sorolhatóakat gyűjti egybe, ennek köszönhetően a mérete is nagyon nagy, [18]
így az ezzel való szoros kapcsolat sem különösebben meglepő. Ezen kívül a 11-es alkategória szabadalmai még leginkább az 1-es kategória többi alkategóriájából és a 31-esből kapnak hivatkozást. Az NBER besorolási rendszerének ismeretében ezen kapcsolatok mindegyike valós technológiai okokra vezethető vissza. Emellett a kapott eredmény jól összecseng más, az amerikai szabadalmi hálózatot a National Bureau of Economic Research osztályozási rendszere alapján vizsgáló kutatások megfigyeléseivel (Gress 2010).
8. ábra: A 11-es alkategória szabadalmai hivatkozás vektorainak koordinátánkénti szórása A koordinátánkénti szórásokat mutató diagramon az látszik, hogy több irányban is kellőképpen szét vannak szórva a szabadalmak, különösen, ha figyelembe vesszük azt is, hogy egy hipergömb felületén helyezkednek el. Ezen kívül az is megfigyelhető, hogy a szórások azon technológiai ágak irányában a legnagyobbak, amelyek a leginkább építenek a vizsgált, 11-es számú alkategóriára. Ezeket az eredményeket látva van remény arra, hogy a bemutatott hivatkozás vektor definíció felhasználásával technológiai alapú csoportosulásokat találjunk, jelen esetben például az NBER által definiált technológiai alkategóriákon belül.
[19]
7 A kutatási módszer bemutatása A munka során elsősorban a technológiák rekombinációjának következtében fellépő változások vizsgálatára helyeztük a hangsúlyt, a bemutatott hivatkozás vektor konstrukció is eköré épül. A szabadalmakat első körben két triviális osztályba sorolhatjuk: vagy mutat hivatkozás rájuk, vagy nem. A még nem hivatkozott szabadalmak technológiai hatásáról a szabadalmi hálózat alapján legfeljebb azt lehet mondani, hogy a vizsgálat időpontjáig semmilyen kézzelfogható hatást nem fejtettek ki, technológiai értékük a szabadalmi hivatkozások alapján nem minősíthető. A hivatkozott szabadalmakkal érdemesebb foglalkozni, mivel ezek technológiai hatásáról a szabadalmi hálózat már hordoz információt. A szabadalmak hivatkozás vektorainak vizsgálatával legegyszerűbb esetben két további osztályba sorolhatjuk a hivatkozott szabadalmakat. Az egyik csoportba azok tartoznak, amelyek hivatkozás vektorának minden eleme – a nem hivatkozott szabadalmakéhoz hasonlóan – nulla. Ez azt jelzi, hogy csak a saját technológiai területükről (NBER alkategóriájukból) hivatkozták őket, így a használt szabadalmi besorolási rendszer szerinti technológiák rekombinációjában nem vesznek részt. A szabadalmaknak ezt a csoportját nevezhetjük az adott technológiai terület magjának. A másik csoportba a más alkategóriából is hivatkozást kapó szabadalmak (Newman, Assortative Mixing in Networks 2002) tartoznak, ezek vesznek részt a technológiák rekombinációjában és ezeknek a vizsgálatára jó eszköz a bemutatott hivatkozás vektor. Az a feltételezésünk, hogy a technológiai területek által hasonló mértékben hivatkozott szabadalmak hasonló szereppel rendelkeznek a szabadalmak univerzumában. A hivatkozás vektorok felhasználásával lehetőség van a szabadalmak szerepeik hasonlósága alapján történő csoportosítására. A hasonlóságot definiálhatjuk például a hivatkozás vektorok által kijelölt pontok euklideszi távolságának felhasználásával, a csoportosítást pedig klaszterező algoritmusok alkalmazásával tehetjük meg. A vizsgálódás lépései az előző megfontolások figyelembe vételével a következők: (i) Egy t1 kezdési időpont kiválasztása 1975 és 2007 között és minden ennél később keletkezett szabadalom hivatkozásaival együtt történő eldobása; ennek révén a szabadalmi hálózat t1-beli pontos állapotának előállítása. (ii) Az összes megmaradt szabadalomra a hivatkozás vektorok kiszámolása. (iii) A nem hivatkozott és a csak saját alkategóriából hivatkozást kapó – azaz a csak nullát tartalmazó hivatkozás vektorú – szabadalmak eldobása. (iv) A vizsgálni kívánt alkategóriák szabadalmainak kiválogatása és a többi szabadalom eldobása. Ennek a lépésnek a szerepe a probléma méretének szabályozása. (v) A megmaradt szabadalmak páronkénti hasonlóságának kiszámolása. A hasonlóság a hivatkozás vektorok euklideszi távolsága alapján kerül meghatározásra.
[20]
(vi) Klaszterező algoritmus alkalmazásával a szabadalmak csoportosulásainak megkeresése. A klaszterezés a szabadalmak hasonlósága szerint történik. (vii) Az előző lépések megismétlése több időpontban (1975 ≤ t1 < t2 < … < tn < 2007). A leírt lépések elvégzését követően több pillanatképünk is lesz a szabadalmi hálózat vizsgált részének struktúrájáról. Ezen állapotok bár önmagukban is hordoznak információt, mégis egymással történő összehasonlításuk lehet a leghasznosabb a kiválasztott technológiák fejlődésének vizsgálata szempontjából. A kapott pillanatképek összehasonlításához alapvető fontosságú, hogy a különböző időpontokban talált technológiai alapú csoportosulásokat meg tudjuk feleltetni egymásnak (Rand 1971) és az időközben létrejövő új, vagy eltűnő régi klasztereket azonosítani tudjuk. Ennek kell lennie az első és legfontosabb feladatnak. Ezt követően lehet foglalkozni a kapott klaszterek dinamikájának vizsgálatával. Olyan eseményeket lehet megfigyelni, mint például a klaszterek egymástól történő eltávolodása vagy éppen egymáshoz való közeledése. Vizsgálhatjuk a klaszterek méreteiben bekövetkező változásokat; azt, hogy a csoportosulások átmérője nő-e vagy csökken és mindez milyen irányokban történik. Meg lehet figyelni az új technológiai ágak kialakulását megelőző folyamatokat és azt is, hogy mi vezet a már meglévő klaszterek eltűnéséhez. A látott trendek alapján képet kaphatunk arról, hogy a vizsgált technológiai ágak várhatóan milyen változásokon fognak átesni a közeljövőben.
[21]
8 Eredmények és validáció Az előző szakaszban bemutatott kutatási módszer csak akkor ér valamit, ha eredményét valamilyen módon validálni tudjuk. A klaszterezések eredményeinek ellenőrzésére a legegyszerűbb módszer a talált technológiai csoportok szabadalmainak egyesével történő megvizsgálása, és ennek eredményeként a klaszterek pontosságának értékelése. Ezzel a megoldással kapcsolatban rengeteg probléma merül fel. Egy komoly akadály például az adatok óriási mennyisége: szabadalmak tíz- vagy akár százezreinek osztályozását egyesével ellenőrizni reménytelenül nagy munka. Ez majdnem megegyezne egy új szabadalmi osztályozási rendszer elvégzett vizsgálatonkénti létrehozásával, csak az eredmények értékelésének céljából. Ráadásul akárcsak a különböző szabadalmi besorolási rendszerek, az eredmény szabadalmankénti validálása is teljesen önkényes lenne. Valamilyen módot persze mégiscsak találni kell az értékelésre. Jobb híján a meglévő szabadalmi osztályozási rendszerekhez nyúlhatunk. Mivel korábban az NBER alkategóriái alapján történő munka mellett döntöttünk, majd pedig a vizsgálódás néhány alkategóriára történő korlátozásával a megoldandó probléma méretét mérsékeltük, a kategóriák és alkategóriák szerinti validálásnak nyilván nincs értelme: ezzel legfeljebb olyan információhoz juthatnánk, amit már úgyis ismerünk, így felesleges időt áldozni az újbóli megszerzésére. Az USPTO szabadalmi osztályozási rendszere bár nem tökéletes, mégis megfelelő alap lehet az eredmények értékeléséhez. Ha a 36 NBER alkategória szintjén történő kutatás információval tud szolgálni a több mint egy tucatszor ennyi technológiai csoportot definiáló USPTO osztályokkal kapcsolatban, akkor a bemutatott módszer már eredményesnek mondható, mivel bepillantást ad a szabadalmi hálózat struktúrájának a felhasználtnál finomabb részleteibe. Ha emellett még a valós – USPTO által is felismert – technológiai változásokról is kézzel fogható eredményeket ad, akkor pedig elérte a kutatás a célját.
8.1 Modell validálási lehetőségek Korábban már volt szó arról, hogy az USPC meglehetősen gyorsan módosul annak érdekében, hogy minél inkább lépést tartson a technológiai változásokkal. Az elmúlt években nem volt ritka, hogy akár tíz USPTO osztály módosítására is sor került tizenkét hónap alatt. Ezek a változtatások jól dokumentált példákkal látnak el minket a dolgozatban bemutatott kutatási módszer validálásához. A National Bureau of Economic Research adatbázisai 1999, 2002 és 2006 végén rögzítik a szabadalmi hálózat pillanatnyi állapotát, ezért az USPTO osztályozási rendszerének olyan változásait érdemes kiválasztani a módszer értékeléséhez, amik lehetőleg ezekhez az időpontokhoz közel történtek. Emellett érdemes még odafigyelni arra is, hogy a szabadalmi osztályozási rendszer vizsgált változtatása a lehető leginkább izolált legyen, azaz olyan technológiákat érintsen, amelyek esetében a megfigyelt módosítás előtt és után huzamosabb [22]
ideig nem történt semmi. Ezen elvek betartásával minimalizálni lehet a nem teljesen aktuális adatok felhasználása által okozott pontatlanságot. 1995 és 2004 között szerencsére nem csak sok meglévő osztály módosítására került sor, hanem számos példa van új osztályok kialakítására is. Ezek azért adnak különösen jó lehetőséget a hivatkozás vektor alapú vizsgálat értékelésére, mert nem csak kisebb változásokat kell észrevenni, hanem teljes osztályok létrejöttét és ezzel együtt szabadalmak százainak, ezreinek átsorolását. A következő táblázat az említett 10 éves időszakban létrehozott USPTO osztályok sorszámát, kialakításuk évét és NBER szerinti alkategóriájukat mutatja. Év:
1995
1996
1997
Osztály:
216
218
349
386
396
399
463
508
510
438
442
701
Alkategória:
19
49
19
49
54
54
62
59
19
46
11
22
Év:
1997
1998
1999
Osztály:
704
705
707
711
519
702
706
700
708
709
710
712
Alkategória:
22
22
22
24
19
22
22
22
22
22
22
22
Év:
1999
2000
2002
2003
2004
Osztály:
713
714
703
716
717
725
715
398
718
719
720
977
Alkategória:
22
22
25
46
22
25
22
54
25
25
25
59
4. táblázat: Az 1995 és 2004 között létrehozott USPTO osztályok és NBER szerinti alkategóriáik A táblázatból látszik, hogy nem túl meglepő módon a legtöbb változás a számítástechnikai és elektronikai szabadalmakat gyűjtő kategóriák (2, 4) és alkategóriák esetében történt. A legígéretesebbnek az 1997-ben, a 11-es alkategóriában kialakított 442-es USPTO osztály megjelenésének vizsgálata tűnik. Ez egy viszonylag kisméretű, 26000 szabadalmat sem tartalmazó alkategória, aminek ráadásul a növekedési üteme is elég lassú, így a megoldandó probléma mérete szempontjából is hasznos ennek az osztálynak a választása.
8.2 Új osztályok kialakulása Mivel a módszer validálására kiválasztott osztály 1997-ben jött létre, célszerű a 2000-es NBER adatbázisok alapján dolgozni. A vizsgálatra kiválasztott első időpont 1994 eleje. Mivel a 11-es alkategória fejlődése eléggé lassú, azt remélhetjük, hogy már néhány évvel az új osztály kialakítása előtt is észre lehet venni egy csoportosulás kialakulásának előjeleit. A második vizsgálatot célszerű az új osztály létrehozásának idejében megtenni. Mivel nincs napra pontos adat az osztály kialakításának dátumáról, a vizsgálat időpontja végül 1997 eleje [23]
lett. A harmadik időpontnak 1999 utolsó szabadalma engedélyezésének dátumát választottuk, így 1994 elejétől két egyforma lépést teszünk előre az időben. A kutatási módszernek megfelelően haladva a következő teendő a hivatkozás vektorok kiszámolása a szabadalmi hálózat imént meghatározott időpontokbeli állapotai alapján. Ezt követi a 11-es alkategóriába tartozó, más technológiai területről is hivatkozott szabadalmak kiválogatása, majd páronkénti hasonlóságaik meghatározása. Az utóbbi lépés lehetőséget teremt a szabadalmak hasonlósági gráfjának elkészítésére, majd ennek felhasználásával a 36 dimenziós technológiai tér 2 dimenzióba vetítésére, a szabadalmak egymáshoz viszonyított helyzetének vizualizálására (Fruchterman és Reingold 1991).
9. ábra: A 36 dimenziós technológiai tér leképezése 2 dimenzióra A piros pontok a keresett 442-es osztály szabadalmai A kék pontok a 11-es alkategória más alkategóriákból is hivatkozott, de nem a 442-es osztályba tartozó szabadalmai Bár a két dimenzióba történő vetítéssel sok információt veszítünk – főként a pontokat elhelyező algoritmus pontatlansága miatt –, mégis látszik, hogy a 442-es osztály szabadalmai többnyire elkülönülnek a 11-es alkategória többi szabadalmától, sőt az is észrevehető, hogy 1994-től kezdődően a 442-es osztály szabadalmai elkezdtek távolodni a 11-es alkategória többi szabadalmától. Az USPTO valószínűleg ezt a folyamatot észrevéve döntött az új osztály létrehozása mellett. A szabadalmak két dimenzióban történő ábrázolása bár bíztató, de nem elég a módszer validálásához – az eredményeket számszerűsíteni kell. Ahogy a kutatási módszer leírásánál is szerepelt, a számszerűsítést például klaszterező algoritmusok alkalmazásával tehetjük meg. Az algoritmus megválasztása nagyban befolyásolhatja az eredményt. Mi végül egy hierarchikus eljárás – a Ward-módszer (Ward 1963) – mellett döntöttünk, mivel ennek nem kell megadni a kívánt klaszterszámot, ráadásul egy bináris klaszterfát (dendrogramot) ad eredményül, ami a klaszterek hierarchiáját is mutatja. A dendrogram ágainak magassága azt mondja meg, hogy az éppen összevont két klaszter mennyire hasonló egymáshoz: minél magasabb a dendrogram egy ága, annál távolabb vannak egymástól a két klaszterbe tartozó pontok. Egy fejlődő rendszer esetén a hierarchikus klaszterezést több időpontban elvégezve a fa szerkezetének változásából is következtetéseket [24]
vonhatunk le például arról, hogy a klaszterek egymáshoz viszonyítva milyen irányokba mozognak. A klaszterek megtalálása és azok egymáshoz viszonyított helyzetének változása csak abban az esetben jelent valamit, ha a talált klaszterekhez valós technológiai ágakat tudunk társítani. Ellenkező esetben a kapott eredmények semmilyen kapcsolatban nem állhatnak a valódi technológiai változásokkal. Az eredmények valósághoz fűződő kapcsolatának feltárásához az USPTO osztályrendszerét vehetjük alapul, mivel ez a szabadalmak egyetlen, az NBER besorolási rendszerénél részletesebb képet adó, elérhető csoportosítása. A 11-es alkategória hat USPTO osztályt foglal magába. 2000-ben az alkategória szabadalmainak 70-75%-át a hatból mindössze 3 osztály adta, ezek közül az egyik az 1997ben létrehozott 442-es sorszámú. A következő ábrán a szabadalmak hivatkozás vektoraik hasonlósága alapján történő klaszterezésének eredménye látható a szabadalmi hálózat 1994-es állapotának megfelelően.
10. ábra: A szabadalmi hálózat 11-es alkategóriájának 1994-es állapota a szabadalmak hivatkozás vektorai alapján Az oszlopdiagram színei az USPTO osztályoknak felelnek meg. A 442-es osztály piros színnel van jelölve. Az oszlopdiagram sorai a dendrogramon is beazonosított klasztereknek felelnek meg. Az ábráról leolvasható, hogy a három, sok szabadalmat tartalmazó osztály meglehetősen jól elkülönül egymástól már 1994-ben is; három évvel azelőtt, hogy az USPTO felismerte volna a 442-es osztály és a neki megfelelő technológiai terület létrejöttét. A kisebb osztályok szeparálása már nehezebb feladat, az ezekbe tartozó szabadalmak nagyon elvegyülnek a másik három osztály szabadalmai között. Ennek a pontatlanságnak több oka is van. (i) Nem tökéletes a szabadalmak osztályozási rendszere. (ii) A szabadalmi hálózat hivatkozásai nem tükrözik teljesen pontosan a szabadalmak technológiai hatását. Ez kiváltképp igaz a fiatal, még kevés hivatkozást begyűjtő szabadalmakra. (iii) A hivatkozás vektor sem jellemzi tökéletesen a szabadalmak technológiai szerepét. (iv) Hierarchikus klaszterezéskor, adott klaszterszám esetén nem feltétlenül az optimális csoportosítást kapjuk. [25]
Mindezek ellenére azt mondhatjuk, hogy a hivatkozás vektor alkalmas a szabadalmak technológiai ágak szerint történő részletes szeparálására, sőt a bemutatott példa alapján képes előre jelezni új területek kialakulását. A következő ábrán látható két dendrogram a szabadalmi hálózat 11-es alkategóriájának szerkezeti változását mutatja 1994-től 2000-ig. Jól látható az ábrán, hogy a hierarchikus klaszterező eljárás nem csak a klaszterek távolságának növekedését mutatja meg, hanem azt is, hogy a hálózat klaszterhierarchiájában makroszinten is lényeges változások történtek, amik részben az USPTO által is dokumentálva vannak.
11. ábra: A hierarchikus klaszterezés eredménye 1994-ben (A) és 2000-ben (B) Az 5. számú, piros színnel jelzett klaszter mindkét esetben a 442-es osztályból a legtöbb szabadalmat tartalmazó csoportosulás A bemutatott eredmények alapján azt mondhatjuk, hogy a szabadalmi hálózat hivatkozás vektor alapú elemzése alkalmas a technológiai fejlődés vizsgálatára. A módszer a szabadalmi hivatkozások felhasználásával képes betekintést adni a technológia struktúrájába; sőt amint láttuk, segítségével a mostaninál jóval korábban észlelhetők a folyamatban levő technológiai változások is.
[26]
9 A további feladatokról A dolgozatban bemutatott eredmények még nem jelentik a kutatás végét. A validáció egy viszonylag könnyű példa alapján történt; a módszer működését más, nehezebben detektálható változások esetében is értékelni kell. Miután ez megtörténik, és viszonylag pontos képet kapunk a szabadalmi hálózat hivatkozás vektor alapú vizsgálatának pontosságáról és korlátairól, akkor tovább léphetünk a már lezajlott és a még folyamatban lévő technológiai változások felkutatására. Azt reméljük, hogy az elmúlt 35 év gyors technológiai fejlődésének következményeként ez számos példát szolgáltat majd ahhoz, hogy elkezdhessük megérteni a technológiai fejlődést befolyásoló komplex folyamatokat. Ennek az új tudásnak a felhasználása remélhetőleg segíteni tud majd a döntéshozóknak a kutatási és fejlesztési célokra szánt erőforrások jobb elosztásában a technológiai fejlődés elősegítése céljából.
[27]
10 Irodalomjegyzék Berlingerio, M., F. Bonchi, és B. Bringmann. „Mining graph evolution rules.” In Machine Learning and Knowledge Discovery in Databases, szerző: W. Buntine, M. Grobelnik, D. Mladenic és J. Shawe-Taylor, 115-130. Springer, 2009. Breitzman, A. The Emerging Clusters Project. National Technical Information Service, 2007. Breschi, S., F. Lissoni, és F. Malerba. „Knowledge Networks from Patent Citations? Methodological Issues and Preliminary Results.” In Proceedings of the DRUID Summer Conference on Creating, Sharing and Transferring Knowledge: The role of Geography, Institutions and Organizations, szerző: S. Breschi, F. Lissoni és F. Malerba. 2003. Chang, S. B., és K. K. Lai. „Exploring technology diffusion and classification of business methods: using the patent citation network.” Technol. Forecast. Soc. Change, 2009: 107-117. Chen, C., és D. Hicks. „Tracing knowledge diffusion.” Scientometrics, 2004: 199-211. Cunningham, S. W. „Analysis for Radical Design.” Technol. Forecast Socail Changes, 2009: 1138-49. Csárdi, G., és T. Nepusz. The igraph library. http://igraph.sourceforge.net/. Csárdi, G., K. J. Strandburg, J. Tobochnik, és P. Érdi. „Chapter 10. The inverse problem of evolving networks - with application to social nets.” In Handbook of Large-Scale Random Networks, szerző: B. Bollabás, R. Kozma és D. Miklós, 409-443. Springer Verlag, 2009. Csárdi, G., K. J. Strandburg, L. Zalányi, J. Tobochnik, és P. Érdi. „Modeling innovation by a kinetic description of the patent citation system.” Physica A, 2007: 783-793. Ellis, P., G. Hepburn, és C. Oppenhein. „Studies on Patent Citation Networks.” Journal of Documentation, 1978: 12-20. Érdi, P. Complexity Explained. Springer Verlag, 2007. Érdi, P. „Scope and Limits of Predictions by Social Dynamic Models: Crisis, Innovation, Decision Making.” Evolutionary and Institutional Economic Review, 2010. Fleming, L. „Recombinant Uncertainty in Technological Search.” Management Science, 2001: 117-132. Fleming, L., és O. Sorenson. „Technology as a complex adaptive system: evidence from patent data.” Research Policy, 2001: 1019-1039. Fruchterman, T. M. J., és E. M. Reingold. „Graph Drawing by Force-directed Placement.” Software -- Practice and Experience, 1991: 1129-1164. Girvan, M., és M. E. J. Newman. „Finding and evaluating community structure in networks.” Physical Review, 2004. [28]
Gress, B. „Properties of the USPTO patent citation network: 1963-2002.” World Patent Information, 2010: 3-21. Griffith, H. G. „The structure of scientific literatures.” Science Studies, 1974: 17-40. Griliches, Z. „Patent Statistics as Economic Indicators: A Survey.” Journal of Economic Literature, 1990: 1661-1707. Hagedoorn, J., és M. Cloodt. „Measuring innovative performance: is there an advantage in using multiple indicators?” Research Policy, 2003: 1365-1379. Hall, B. H., A. B. Jaffe, és M. Trajtenberg. The NBER Patent Citation Data File: Lessons, Insights and Methodological Tools. National Bureau of Economic Research, 2001. Hargadon, A., és R. Sutton. „Technology brokering and innovation in a product development firm.” Administrative Science Quarterly, 1997: 716-749. Harhoff, D., F. M. Scherer, és K. Vopel. „Citations, family size, opposition and the value of patent rights.” Research Policy, 2003: 1343-1363. Henderson, R. M., és K. B. Clark. „Architectural Innovation: The Reconfiguration of Existing Product Technologies and the Failure of Established Firms.” Administrative Science Quarterly, 1990: 9-30. Hsin-Ning, Su, és Lee Pei-Chun. „Quantitative mapping of patented technology - The case of electrical conducting polymer nanocomposite.” Technological Forecasting and Social Change, 2010: 466-478. Huang, Z., és mtsai. „Longitudinal Patent Analysis for Nanoscale Science and Engineering: Country, Institution and Techonlogy Field.” Journal of Nanoparticle Research, 2003: 333-363. Jaffe, A. B., és M. Trajtenberg. Patents, Citations, and Innovations: Window on the Knowledge Economy. MIT Press, 2003. Jaffe, A. B., M. Trajtenberg, és R. Henderson. „Geographic localization of knowledge spillovers as evidenced by patent citations.” J.Econ., 1993: 577-598. Leskovec, J., J. Kleinberg, és C. Faloutsos. „Graphs over time: densification laws, shrinking diameters and possible explanations.” In Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, 177-187. ACM, 2005. Newman, M. E. J. „Assortative Mixing in Networks.” Phys. Rev. Lett., 2002. Newman, M. E. J. „Finding community structure in networks using the eigenvectors of matrices.” Physical Review E, 2006. Newman, M. E. J., és M. Girvan. „Community structure in social and biological networks.” PNAS, 2002: 7821-7826. Podolny, J. M., T. E. Stuart, és M. T. Hannan. „A Role-Based Ecology of Technological Change.” The American Journal of Sociology, 1995: 1224-1260. [29]
Podolny, J. M., T. E. Stuart, és M. T. Hannan. „Networks, Knowledge, and Niches: Competition in the Worldwide Semiconductor Industry, 1984-1991.” The American Journal of Sociology, 1996: 659-689. Pons, P., és M. Latapy. „Computing communities in large networks using random walks.” J. of Graph Algorithms and Applications, 2006: 191-218. Powell, W. W., és K. Snellman. „The Knowledge Economy.” Annual Review of Sociology, 2004: 199-220. Pyka, A., és A. Scharnhost. Innovation Networks. New Approaches in Modelling and Analyzing. Springer Verlag, 2009. Rand, W. M. „Objective Criteria for the Evaluation of Clustering Methods.” Journal of the American Statistical Association, 1971: 845-850. Saviotti, P. P. On the co-evolution of Technologies and Institutions. Berlin, Hidelberg, 2005. Saviotti, P. P., M. A. de Looze, és M. A. Maopertuis. „Knowledge dynamics and the mergers of firms in the biotechnology based sectors.” International Journal of Biotechnology, 2003: 371-401. Saviotti, P. P., M. A. de Looze, és M. A. Maopertuis. „Knowledge dynamics, firm strategy, mergers and acquisitions in the biotechnology based sectors.” Economics of Innovation and New Technology, 2005: 103-124. Schumpeter, J. Business Cycles. McGraw-Hill, New York., 1939. Small, H. „Tracking and predicting growth areas in science.” Scientometrics, 2006: 595610. Strandburg, k. J., G. Csárdi, J, Tobochnik, P. Érdi, és L. Zalányi. „Law and the Science of Networks: An Overview and an Application to the "Patent Explosion".” Berkeley Technology Law Journal, 2007: 1293. Strandburg, K. J., G. Csárdi, J. Tobochnik, P. Érdi, és L. Zalányi. „Patent citation networks revisited: signs of a twenty-first century change?” North Carolina Law Review, 2009: 16571698. Trajtenberg, M. „A Penny for Your Quotes: Patent Citations and the Value of Innovations.” RAND Journal of Economics, 1990: 172-187. Usher, A. A History of Mechanical Invention. Dover, Cambridge, MA., 1954. van Dongen, S. A cluster algorithm for graphs. National Research Institute for Mathematics and Computer Science in the Netherlands, Amsterdam, 2000. Verspagen, B. „Mapping Technological Trajectories As Patent Citation Networks: A Study On The History Of Fuel Cell Research.” Advances in Complex Systems (ACS), 2007: 93-115.
[30]
Verspagen, B., R. Fontana, és A. Nuvolari. Mapping Technological Trajectories as Patent Citation Networks. An application to Data Communication Standards. University of Sussex, SPRU - Science and Technology Policy Research, 2008. Vespignani, A. „Predicting the Behavior of Techno-Social Systems.” Science, 2009: 425428. Vicsek, G. Palla and A-L. Barabási and T. „Quantifying social group evolution.” Nature, 2007: 664-667. Vicsek, T., G. Palla, I. J. Farkas, P. Pollner, és I. Derényi. „Directed network modules.” New Journal of Physics, 2007: 186. Ward, j. H. „Hierarchical Grouping to Optimize an Objective Function.” Journal of the American Statistical Association, 1963: 236-244. Weitzman, M. L. „Hybridizing Growth Theory.” American Economic Review, 1996: 207212. Xin, L., C. Hsinchun, Zan Huang, és R. C. Mihail. „Patent citation network in nanotechnology (1976-2004).” Journal of Nanoparticle Research, 2007: 337-352.
[31]