Onderzoek naar de maximale belasting van een SFX server in een academische omgeving Stageverslag Patriek Hochstenbach* 14 september 2000
*Email:
[email protected]
1
Samenvatting Dit rapport is het resultaat van een case-study naar de populariteit van SFX-links en zijn voorganger Holdings-RUG-links binnen grote groepen eindgebruikers van RUGnet. Om te kunnen inschatten welke dimensies een SFX server moet hebben binnen een academische omgeving is zo'n onderzoek vereist. De meest opmerkelijke vaststelling van dit onderzoek is dat de populariteit van deze links fractale patronen blijkt te vertonen als de analyse wordt gericht op aantal requests per login in elektronische databanken. Hierdoor kunnen de gebruikelijke statistische methoden niet worden toegepast om een voorspelling te geven van de belasting van een SFX server gegeven het aantal eindgebruikers op een netwerk. De aanwezigheid van fractale patronen in de populariteit van SFXen Holdings-RUG-links komt overeen met resultaten van recent onderzoek naar de fractale beschrijving van netwerkverkeer op het internet. In dit rapport worden de resulaten van de case-study beschreven en wordt geprobeerd een oorzaak te vinden voor hun ongebruikelijk karakter.
2
Inhoudsopgave 1 Externe links in elektronische databanken 1.1 Holdings-RUG-link 1.2 SFX-link . . . . . . . . . . . . . . . .
4 4 4
2 Benchmarking van de SFX software
6
3 Zelf-gelijkend gedrag op het internet
10
4 Pareto distributie 4.1 Distributies met een staart . 4.2 Schatting van het staartgewicht
12 12 14
5 Methode van data collectie 5.1 Holdings requests 5.2 WebSpirs login 5.3 SFX requests ..
14 14 15 15
6 Resultaten: zelf-gelijkend gedrag van Holding en SFX eindgebruikers 6.1 Piekgedrag op elk interval 6.2 Statistische analyse . . .
16 16 20
7 Ver klaring meetresultaten
23
8
Samenvatting
30
9
Literatuur
31
3
Externe links in elektronische databanken
1 1.1
Holdings-RUG-link
In 1998 werd gestart met de koppeling van elektronische bibliografieën, geconsulteerd door middel van WebSpirs (ERL technologie), met de online Aleph catalogus (Ex Libris technologie). Deze koppeling, aangeboden als 'HoldingsR UG' link, maakt het mogelijk om vanuit bibliografieën de beschikbaarheid van tijdschriften of boeken in de online catalogus te onderzoeken. De 'Holdings-RUG'-link wordt in WebSpirs databanken geïmplementeerd als een knop onderaan elk bibliografisch record in een zoekresultaat. Wanneer een eindgebruiker deze knop aanklikt wordt met behulp van JavaScript een nieuw venster geopend met hierin de output van een ISSN of ISBN query in de Aleph catalogus. In het WebSpirs resultaatscherm wordt ervoor gezorgd dat records zonder ISSN of ISBN nummer geen Holdings-RUG-knop krijgen. Dit om zgn. dead links te vermijden. ISSN /ISBN zoekacties in de Aleph catalogus zonder resultaten zijn echter als zodanig geen dead links, aangezien deze output de eindgebruiker duidelijk maakt dat het werk wellicht niet in de bibliotheek voorhanden is. Hierbij moeten worden opgemerkt dat boeken/tijdschriften slechts vanaf 1984 worden ingevoerd in de catalogus. Dit gegeven kan een reden zijn voor de eindgebruiker om de Holdings-RUG-knop minder frequent te gebruiken voor records met oudere publikatiejaren. Klikken op de Holdings-RUG-knop kan dus de volgende resultaten opleveren: • het ISBN /ISSN nummer wordt gevonden in Aleph: het boek of tijdschrift is aanwezig in de bibliotheek, de vindplaats wordt getoond, • het ISBN /ISSN nummer wordt niet gevonden: het boek of tijdschrijft is niet aanwezig in de bibliotheek met een kans dat als het publikatiejaar vroeger dan 1984 is, het werk toch nog in de steekkaartencatalogus kan worden teruggevonden.
1.2
SFX-link
In 1999 werd een nieuwe stap genomen in de richting van een volledig geïntegreerde digitale bibliotheek door de installatie van het softwarepakket SFX
4
(Special Effects) in WebSpirs en Aleph. De SFX software werd door de auteur geschreven als onderdeel van het doctoraal onderzoek van Herhert Van de Sompel naar het dynamisch en context-sensitief linken van wetenschappelijke informatie. SFX is een uitbreiding van de Holdings-RUG-link die in elk type elektronische databank kan worden aangeboden. Deze SFX -link presenteert zich aan de eindgebruiker van elektronische informatie als een SFX -knop, die onderaan een bibliografische beschrijving wordt getoond. Wanneer de eindgebruiker deze knop aanklikt, zal het SFX -systeem dynamisch onderzoeken of er voor de bibliografische beschrijving bijzondere links gelegd kunnen worden naar gerelateerde informatie op het internet. Een van de links is de Holdings-RUG-link besproken in de vorige sectie, andere links omvatten: • links naar full text: gebaseerd op licentievoorwaarden zal een link naar full text alleen worden getoond als de eindgebruiker werkelijk toegang tot deze externe service heeft, • links naar inhoudsopgave: full text links zijn vaak aan licentievoorwaarden verboden , maar de inhoudstabellen worden vaak gratis aangeboden, • links naar de Citation Indexen van IS!: de eindgebruiker kan via deze service bekijken of een artikel (of zijn auteur) in andere wetenschappelijke literatuur geciteerd wordt , • links naar J ournal Citation Reports: hiermee kan de relevantie van tijdschriften in hun vakgebieden bekeken worden. Het bijzondere aan de SFX -link is de manier waarop deze links aangeboden worden aan de eindgebruiker. Er is geen sprake van voorgeprogrammeerde links maar van een dynamische opzet. Op het moment dat de gebruiker op de SFX -knop klikt zal de bibliografische informatie van het record onderzocht worden. Afhankelijk van zijn rechten zal er aan de eindgebruikers een bundel services worden gepresenteerd. SFX omvat dus zowel dynamisch als context sensitief linken [6, 7]:
• SFX is dynamisch: het aanbod aan services wordt pas berekend als de eindgebruiker erom vraagt , • SFX is context-sensitief: afhankelijk van de rechten van de eindgebruiker zullen bepaalde services aangeboden worden. 5
2
Benchmarking van de SFX software
Voor de commerciële exploitatie van SFX software is het van belang, op basis van het aantal eindgebruikers, een juiste schatting te kunnen maken van de dimensionering van de SFX server. Uitgaande van het aantal potentiële eindgebruikers wil men de maximale belasting op de SFX server kennen: het aantal behandelbare requests per tijdseenheid . Om de absolute prestaties van de SFX software onderzoeken werd door de auteur een softwarepakket ontwikkeld dat, onafhankelijk van het aantal werkelijke eindgebruikers, een belasting op een SFX server veroorzaakt gelijk aan k requests per minuut. Hiermee werd aangetoond dat een server met de eigenschappen: • Intel PC, • 2 Pentium III processoren (600MHz), • 320MB RAM, • Linux 2.2.14-5.0smp kernel, een maximale belasting heeft van 120 SFX requests per minuut. Deze resultaten kunnen worden gebruikt in de setup van een SFX server als de volgende vraag kan worden beantwoord: hoeveel eindgebruikers 1 kunnen gebruik maken van een SFX server met bovenstaande capaciteit? Of anders gesteld: gegeven een gemeenschap van X eindgebruikers, hoeveel SFX requests worden er naar de server gestuurd? Als het gemiddeld aantallogins in elektronische databanken en het gemiddeld aantal aangeklikte SFX -links bekend is per eindgebruiker, dan kan met behulp van eenvoudige statistische methoden een theoretische schatting worden gemaakt van het aantal requests per minuut op de server. Neem hiervoor een tijdinterval [0, T] en verdeel dit interval in p gelijke subintervallen . De kans , P, dat een belasting van N SFX -requests in een interval [0, T] een belasting van k requests per subinterval p veroorzaakt wordt dan beschreven met de kansdistributie [1]:
P(k, N,p) =
(~) (~)k(l _ ~)N-k
-----------------------1
(1)
Met eindgebruikers wordt in deze context bedoeld: het aantal onderzoekers en studenten binnen een universiteit die regelmatig, meer dan 1 keer per maand , gebruik maken van elektronische databanken
6
Het gemiddeld aantal SFX -requests per subinterval pis:
(2) met een standaarddeviatie van:
(3) Bijvoorbeeld, gegeven een belasting van N = 4000 SFX -requests per uur. Dan is het gemiddeld aantal SFX -requests per minuut (p = 60): k = 66.67 met een standaarddeviatie van O" = 8.1. Dit betekent dat we met 99.9 % zekerheid kunnen zeggen dat de belasting k van de SFX server ligt tussen k = k ± 3.290". In theorie betekent dit dat het aantal requests per minuut zeer zelden (minder dan 1 maal in de 1000 minuten = 16 uur) boven de 90 zal uitkomen. Deze belasting zit ruim onder de maximale belasting van 120 requests per minuut, gegeven de bovenstaande serverconfiguratie.
7
Gemiddelde en standaarddeviatie Het gemiddeldekvaneen set van N meetwaarden k1 , k2 , ... ,kM wordt gedefinieerd als: 1 N k = - l::ki· N i=l
(4)
Als deze meetwaarden worden uitgezet op een lijnstuk met coördinaten k1 , k2 , ... , kN als gewichten met gelijke massa, dan geeft het gemiddelde het zwaartepunt aan van de lijn. Er zijn oneindig veel verdelingen van meetwaarden mogelijk waarbij het gemiddelde van de set k oplevert. Bijvoorbeeld, 50 is het gemiddelde van de set A: [90, 0, 10, 100], maar ook van de set B: [48, 50, 49, 51]. De standaarddeviatie e5 is een maat die de spreiding in de meetwaarden aangeeft. Heeft de standaarddeviatie een hoge waarde, dan zijn de meetwaarden sterk verspreid rond het gemiddelde (set A). Heeft de standaarddeviatie een lage waarde dan zijn de meetwaarden sterk geklusterd rond het gemiddelde (set B). De standaarddeviatie wordt gedefinieerd als: 2 (5
1
= -
N
N 2::: (ki -
- 2
k)
(5)
i=l
De standaarddeviatie is van belang bij het schatten van toekomstige meetwaarden. Hiervoor is de exacte vorm van de kansdistributie nodig (zie bovenstaande kansdistributie P). Vaak kan de kansdistributie benaderd worden met de normale kansdistributie waarvoor de eigenschappen van gemiddelden en deviaties gemakkelijk toepasbaar zijn op voorspellingen van meetwaarden. Hiervoor is de kans 99.9% dat de gemiddelde waarde J-L van N metingen ligt tussen: 3.29C5 kk ---
3.29C5 +-VN
9lJ.9 %
8
(6)
Om te onderzoeken hoeveel SFX requestsper uur werkelijk te verwachten zijn werd bekeken: • hoe vaak eindgebruikers inloggen in elektronische databanken, • het aantal SFX -knoppen die binnen een loginsessie worden aangeklikt. In Tabel 1 en 2 zijn deze statistische gegevens samengevat. Eindgebruikers in deze tabellen zijn gedefinieerd als IP adressen van RUGnet die werden aangetroffen in de logfiles 2 . De resultaten tonen een onregelmatig gebruik van elektronische databanken en SFX. Opvallend is de grote spreiding in de data waardoor de gemiddelde populariteit het gebruik van SFX niet goed karakteriseert. Hoewel een gemiddelde van 1 SFX request per login wordt gemeten blijkt toch een onevenredig aantal logins (± 1 op 25 logins) tientallen SFX requests te starten. Binnen de groep eindgebruikers is het gemiddeld aantal logins per dag in elektronische databanken geen goede karakteristiek van de belasting omdat ook hier de spreiding zeer groot is. Hoewel, voor steeds grotere sets meetresultaten, het gemiddelde van beide metingen een stabiele waarde aanneemt, wordt de spreiding in de meetresultaten steeds groter. Iets wat niet te verwachten is uitgaande van kansdistributies die lijken op de normale distributie (zie kader in deze sectie). Als het niet mogelijk is om een betrouwbare schatting te geven van het aantal SFX requests per eindgebruiker, dan wordt de bepaling van de belasting op een SFX server gegeven een gemeenschap van X eindgebruikers zeer lastig. In dit rapport zal een verklaring worden gezocht voor de statistieken van SFX requests. Aangetoond zal worden dat het linkgedrag van de groep eindgebruikers wellicht een zelf-gelijkend of fractale vorm heeft. Om voorspellingen te kunnen geven van het aantal SFX requests zullen speciale dikstaartige kansdistributies gebruikt moeten worden. Dit soort kansdistributies zijn recent gebruikt om het netwerkverkeer op het internet te verklaren. In de volgende sectie zal de notie van zelf-gelijkend gedrag op het internet beschreven worden om in latere secties de dikstaartige kansdistributies 2
Uit de logs werden de IP adressen van servers verwijderd zodat elk IP adres normaliter geassocieerd kon worden met 1 simultane gebruiker. Voorts werden deze statistieken verzameld over verschillende periodes. Men kan in vakantiemaanden veel personeelsleden met vaste IP adressen verwachten en buiten vakantiemaanden meer invloed van studenten. Dit gaf geen aantoonbaar verschil in de resultaten.
9
Aantal logins in W ebSpirs
Percentage eindgebruikers
> > > >
5 (= meer dan 1x in 4 dagen) 10 ( = meer dan 1x in 2 dagen) 20 (= meer dan 1x per dag) 40 ( = meer dan 2x per dag) > 200 (= meer dan 1Ox per dag)
55% 30% 12% 4% 1%
Tabel 1: Gebruik van elektronische databanken door eindgebruikers van RUGnet in een periode van 20 dagen.
Aantal SFX req.
Percentage eindgebruikers
0 1
83.79% 6.16%
2
2.94%
3
1.43% 0.93% 0.51 % 4.13%
4 5
>5
Tabel 2: Gebruik van SFX-knoppen per login in elektronische databanken door eindgebruikers van RUGnet. toe te passen op de statistieken van SFX requests. Omdat de logfiles voor Holdings-RUG requests een zelfde soort linkgedrag vertonen zullen beide linking services onderzocht worden.
3
Zelf-gelijkend gedrag op het internet
In het begin van de jaren negentig is een opmerkelijke wijziging ontstaan in het beeld van netwerkverkeer over het internet. De gebruikelijke statistische methodes bekend uit de telecommunicatiewereld, waar gemiddelden en spreidingen betrouwbare voorspellingen geven van de netwerkbelasting, blijken niet toepasbaar op de beschrijving van netwerkverkeer over het internet [2,4]. 10
Klassieke netwerkmodellen stammen uit het begin van de 20e eeuw toen Erlang de theoretische basis legde van het gebruik van telefoonlijnen [2]. Voor dit soort netwerken, die statisch in topologie en gebruik zijn, geeft de Poisson kansdistributie (een variant van de normale distributie; zie kader vorige sectie) een eenvoudige mathematische beschrijving van netwerkverkeer. De gemiddelde netwerkbelasting gemeten over korte tijdsintervallen zal pieken vertonen. Over langere tijdsintervallen gemeten zullen de pieken verdwijnen, de netwerkbelasting zal steeds meer lijken op de gemiddelde netwerkbelasting gemeten over het gehele interval. Hier door kan men spreken over 'typische' eindgebruikers waarvan het gebruik van telefoonlijnen voorspelbaar is. Metingen van de netwerkbelasting op het internet tonen echter aan dat de piekbelasting gemeten voor korte tijdsintervallen niet zal verdwijnen bij metingen over steeds langere periodes. Op elke schaal waarop wordt gemeten zal hetzelfde piekpatroon te zien zijn. Het netwerkverkeer wordt daarom zelfgelijkend ofwel fractaal genoemd. Om dit soort gedrag te beschrijven moet de Poisson kansdistributie worden vervangen door een dikstaartige kansdistributie. Dit soort kansdistributies worden gekenmerkt door oneindige spreidingen, met in het slechtste geval , zelfs oneindige gemiddelden. Dit betekent dat gemiddelden en spreidingen geen betrouwbare beschrijving meer kunnen geven van het netwerkverkeer. Er zijn verschillende mogelijke oorzaken van dit fractaal gedrag op het internet. Door de enorme populariteit is er geen sprake meer van een statisch netwerk. De groei van het internet is onvoorspelbaar. Op deze grote schaal kunnen zeldzame gebeurtenissen toch met enige frequentie voorkomen. Vele onderdelen waaruit netwerkverkeer is samengesteld blijken fractaal gedrag te vertonen. Enkele voorbeelden [2 ,3,4,5]:
Invariant Connectie duur Populariteit van opgevraagde files Grootte van opgevraagde files FTP overdracht Aantal opgevraagde pagina's per site Tijd nodig om een pagina te lezen Duur van een sessie Internet netwerkverkeer TCP level
11
Protocol Level Applicatie Applicatie Applicatie Applicatie Applicatie Sessie Netwerk
Distributie Lognormal Zipf Lognormaal, Pareto Pareto Inverse Gaussian Dikstaartig Pareto Fr actaal
. ... .
"
...
_'
Figuur 1: Deze figuur toont het verschil in het asymptotisch gedrag van de Poisson en een dikstaartige distributi e. Bij de Poisson is de kans op een meetwaarde die sterk verschilt van het gemiddelde klein, de grafiek heeft een dunne staart. Bij dikstaartige distributies (bijv. de Pareto distributie) is die kans veel hoger, de staart is dikker. Deze opsomming laat zien dat zelf-gelijkend gedrag op elk protocollevel terug te vinden is. In dit rapport zal worden aangetoond dat ook de SFX en Holdings logs een piekpatroon laten zien wanneer de gemiddelde belasting door de eindgebruikers, het aantal requests per login in elektronische databanken, wordt gemeten over steeds langere tijdsintervallen. Om dit piekpatroon te beschrijven zal als eerste benadering gebruikt gemaakt worden van de eenvoudigste dikstaartige kansdistributie: de Pareto distributie.
4 4.1
Pareto distributie Distributies met een staart
De kansdistributies beschreven in dit rapport hebben de eigenschap erg traag de nulwaarde te benaderen voor grote waarden. Een kansdistributie wordt dikstaartig genoemd als aan de volgende conditie wordt voldaan [4]: P[X ?: x ] rv x-o:,
als
12
x ---+ oo,
0 < a < 2.
(7)
De Pareto distributie is het eenvoudigste voorbeeld van zo'n dikstaartige kansdistributie. Deze kansdistributie wordt beschreven door:
P[X ~x]= 1- (k/xY~ dF(x) - ka -a-1 dx - a x , a, k > 0,
F(x)
p(x) Het gemiddelde
x kan
(8) x
~
k.
(9)
nu worden bepaald met:
ioo xp(x)dx oo aka
x= E(x)
1 k
-dx Xa
ak
(a- 1)"
(10) (11) (12)
Met behulp van het tweede moment kunnen we de standaarddeviatie vinden: (13)
(14)
(15) Waardoor voor de standaarddeviatie geldt dat: 2 2 2 ak2 a = E( x ) - [E( x) ] = ( a-1 )2( a-2 )
(16)
Dit heeft tot gevolg dat: • als a ::; 2 dan is de standaarddeviatie van de kansdistributie onbestaande wegens singulariteit in (16) , • als a ~ 1 dan is het gemiddelde van de kansdistributie onbestaande wegens singulariteit in (12). Als a afneemt zal een groter gewicht van de kansdichtheidsfunctie zich in de staart van de kansdistributie bevinden. Dit betekent in praktijk dat een dikstaartige kansdistributie aanleiding kan geven tot extreem grote waarden met een niet te verwaarlozen kans. Wanneer a zich tussen 1 en 2 bevindt is 13
er sprake van een eindig gemiddelde met een oneindige spreiding. Narmaal gesproken zal bij een eindige spreiding een trend te bespeuren zijn dat meetwaarden zullen klusteren rond een centrale waarde, het gemiddelde. In het geval van een oneindige spreiding bestaat zo'n klustering van meetwaarden niet, op elke schaal zullen de meetwaarden even sterk verspreid zijn over het bereik.
4.2
Schatting van het staartgewicht
Voor de bepaling van het asymptotisch gedrag van de dikstaartige Pareto distributie bekijken we het gedrag van de complementaire distributie F(x) die wordt gedefinieerd als:
F(x)
= 1-
F(x)
= P[X
>x].
(17)
Op log-log schaal heeft deze functie een lineair gedrag:
dlogP
---=-a
d log x
'
x> 0
(18)
Een grafiek van deze functie heet een log-log complementaire distributie (LLCD). In de praktijk kunnen we met lineaire regressie een schatting maken van de grootte van a.
5 5.1
Methode van data collectie Holdings requests
Het gebruik van het Aleph holdings scherm kan niet direct in de Aleph logs worden getraceerd. Aleph logt geen gegevens over de aard van requests maar enkel de datum van login. Om dit te omzeilen werd het Aleph holdings scherm aangepast worden door er een leeg GIF plaatje in op te nemen dat door een CGI-script wordt gegenereerd. Dit CGI-script kan alle holdings requests traceren in de variabelen die de browser met elke connectie meestuurt. Op deze manier kan een logfile worden bijgehouden met gegevens over datum, lPadres, type request (ISBN /ISSN) en oorspong van de holdings-knop (welke databank). Om het effect van caching van het GIF plaatje tegen te gaan wordt met behulp van J avaScripting in het Aleph holdings scherm een unieke link gemaakt met behulp van random getallen en tijdfuncties. 14
Logins Unieke adressen
Aleph 139534 2354
WebSpirs 172658 3631
Tabel 3: Holdings Statistieken : 5 oktober 1998 - 22 december 1999 Aantal Holdings req.
Percentage eindgebruikers
0 1 2 3 4 5
83.50% 7.53% 3.21% 1.37% 1.08% 0.53% 2.78%
>5
Tabel 4: Aantal Holdings requests per WebSpirs sessie door eindgebruikers van RUGnet.
5.2
WebSpirs login
Voor WebSpirs werd gebruik gemaakt van de Apache HTTPD logs, die informatie bijhouden over het aantal logins in WebSpirs per IP adres. Deze logs werden verzameld in de periode van 5 oktober 1998 tot 22 december 1999. In tabel 3 en 4 zijn de statistische resultaten samengevat.
5.3
SFX requests
De SFX requests worden in een MySQL databank gelogd. Met behulp van SQL queries kunnen alle logins over een periode geëxporteerd worden. De SFX logs werden verzameld in de periode van 22 maart 2000 tot 22 augustus 2000. In tabel 5 en 6 zijn de statitische gegevens samengevat.
15
Logins Unieke adressen
SFX 20339 1181
WebSpirs (SFX-enabled) 27952 2112
Tabel 5: SFX Statistieken : 22 maart 2000 - 22 augustus 2000
Aantal SFX req.
Percentage eindgebruikers
0 1 2 3 4 5
83.79% 6.16% 2.94% 1.43% 0.93% 0.51% 4.13%
>5
Tabel 6: Aantal SFX requests per WebSpirs sessie door eindgebruikers van RUGnet.
6
Resultaten: zelf-gelijkend gedrag van Holding en SFX eindgebruikers
Als we gebruik maken van de Holdings-RUG en SFX logs uit de vorige sectie, dan kunnen we de zelf-gelijkende linkkarakteristieken aantonen van grote groepen eindgebruikes van WebSpirs databanken. Ten eerste kan grafisch worden getoond dat het gemiddeld aantal Holdings-RUG en SFX requests per eindgebruiker over steeds grotere periodes gemeten een terugkerend piekgedrag toont. Ten tweede zal worden aangetoond dat dit piekgedrag overeenstemt met een Pareto distributie met oneindige standaarddevatie.
6.1
Piekgedrag op elk interval
In Figuur 2 wordt het gemiddeld aantal Holdings-RUGrequestsper WebSpirs login getoond over een periode van 5, 10, 20 en 40 dagen. Deze grafiek toont duidelijk hetzelfde piekgedrag ongeacht de tijdschaal van de metingen. Er is op geen enkele tijdschaal sprake van een gemiddelde populariteit van Holdings-RUG links. In de volgende sectie zal worden aangetoond dat de spreiding in de populariteit van dit type links oneindig is. Opvallend is ook
16
dat de pieken in deze grafieken nooit boven de 7 Holdings-RUG requests per WebSpiTs login uitstijgen. Deze waarden moeten worden geïnterpreteerd met de uitmiddeling over elk tijdsinterval in gedachte. Tabel 4 toont aan dat slechts 3 % van de WebSpiTs logins meer dan 5 Holdings-RUG starten. In de praktijk is er een spreiding in de Holdings-RUG requests van 0 tot enkele honderden per WebSpiTs login. In Figuur 3 kunnen we hetzelfde gedrag zien bij meting van het aantal SFX requests per WebSpiTs login over dezelfde tijdsintervallen van 5, 10, 20 en 40 dagen. Hoewel een piekgedrag over elk tijdsinterval wel aanwezig is voor SFX links, zijn deze pieken toch minder frequent dan voor Holdings-RUG links. In de volgende sectie zal aangetoond worden dat ook de populariteit van SFX links een oneindige spreiding heeft , hoewel het bepalende staartgewicht van de kansdistributie minder zwaar is dan voor Holdings-RUG links. De logs geven een spreiding aan in SFX requests van 0 tot enkele tientallen per WebSpiTs login.
17
~----------------------------------------------
--
.
~
~
•.
,[
';I
." ;t
E ':1
"' 0::• :J
Figuur 2: Piekgedrag in het aantal Holdings-RUG requestsper WebSpirs la-
gin. Het gemiddeld aantal Holdings-RUGrequestsper WebSpirs login gemeten over oplopende tijdsintervallen; links boven: 5 dagen gemiddelde; rechts boven: 10 dagen gemiddelde; links onder: 20 dagen gemiddelde; rechts onder: 40 dagen gemiddelde. 18
:!
:: .'V
~
•lj
~" ~'
.,
~
...
-a
)o(
....
""
Figuur 3: Piekgedrag in het aantal SFX requests per WebSpirs login. De gemeten SFX requests per WebSpirs login worden gemiddeld over oplopende tijdsintervallen; links boven: 5 dagen gemiddelde; rechts boven: 10 dagen gemiddelde; links onder: 20 dagen gemiddelde; rechts onder: 40 dagen gemiddelde. 19
6.2
Statistische analyse
In sectie 4 hebben werd een voorbeeld gegeven van een eenvoudige dikstaartige kansdistributie: de Pareto distributie. In deze sectie wordt de Pareto distributie toegepast als eerste benadering voor de beschrijving van de statistische logs van SFX- en Holding-RUG-links. De methode die we gebruiken is die van de LLCD plot beschreven in sectie 4. Figuur 4 bevat de LLCD plot voor het aantal Holding-RUG requests per WebSpirs login in de periode 5 oktober 1998 tot 15 november 1998. Met behulp van regressie-analyse is voor deze periode een schatting gemaakt van a = 1.78 ± 0.07. Om te onderzoeken of dit gedrag stabiel is over de gehele meetperiode werd eenzelfde LLCD plot gemaakt voor de periode 12 mei 1999 tot 22 juni 1999 met a= 1.62 ± 0.09. Deze waarden tonen aan dat het asymptotisch gedrag van het aantal Holding-RUGrequestsper WebSpirs login in eerste benadering kan worden beschreven met behulp van een Pareto distributie met een a die een oneidige waarde van de spreiding aangeeft. Dit betekent dat men op basis van het aantal eindgebruikers geen betrouwbare schatting kan maken van de spreiding in het aantal Holding-RUG requests op een server. Figuur 5 bevat de LLCD plot voor SFX requests tussen 20 maart 2000 en 30 april 2000. Via regressie-analyse werd een waarde voor a gevonden van a = 1.88 ± 0.09. Meten we de a waarden voor de periode 27 april 2000 tot 7 juni 2000 dan vinden we a= 1.74 ± 0.10. Ook voor SFX geeft de Pareto distributie een goede eerste benadering van het asymptotisch gedrag van het aantal SFX requestsper WebSpirs login. Hoewel de waarde van a iets hoger is dan voor Holding-RUG requests is deze toch beduidend lager dan 2 die vereist is voor een eindige spreiding. De resultaten in deze sectie tonen aan dat de aanvraag van HaldingsR UG en SFX services in elektronische databanken beschreven moet worden met dikstaartige kansdistributies. Verwacht wordt dat de invloed van zelfgelijkend linkgedrag sterker zal worden als de belasting op de server groter wordt.
20
LLCD Plot: Holdings RUG
0
I
~
-0,5 -1
x
-
-~
-
-1 '5 -
0
-
-(]'I
(]'I
• •
A
-x
-2
-
D..
C ')
-2 '5 -
0
-3
-
-3,5 -4
• •
-
-4 '5 - ~-----~-----I o g (x)
Figuur 4: LLCD plot voor het aantal Holdings-RUG requestsper WebSpirs login in de periode 5 oktober 1998 tot 15 november 1998. Het Pareto staartgewicht van deze kansdistributie bedraagt: a = 1. 775 ± 0.07.
21
LLCD Plot: SFX
0 -0,5 -1 >< V
x
0..
C')
0
0,5
(
-~
-1 ,5
1 ,5
• • • •• ••
...,,
-2 -
,,
-2,5 -3 -
~
' ••
-3,5 -4 -4,5
'-----log(x)
Figuur 5: LLCD plot voor het aantal SFX requestsper WebSpirs login in de periode 20 maart 2000 tot 30 april 2000. Het Pareto staartgewicht van deze kansdistributie bedraagt: a = 1.88 ± 0.09.
22
7
Verklaring meetresultaten
Waarom is het linkgedrag van eindgebruikers zelf-gelijkend? De hypothese is dat dit gedrag een oorzaak heeft in het zoekgedrag van eindgebruikers in elektronische databanken. Om deze hypothese te testen wordt het gebruik van elektronische databanken onderzocht: hoe vaak starten eindgebruikers een WebSpirs sessie, hoeveel zoekresultaten hebben zoekacties in de databanken en hoeveel zoekresultaten worden doorbladerd door de eindgebruikers? De resultaten zullen aantonen dat deze distributies benaderd kunnen worden met een Pareto distributie. De eerste vaststelling is dat de overall populariteit van Holdings-RUG en SFX links niet merkbaar veranderd is over de gehele meetperiode. Figuur 6 toont het aantal logins in WebSpirs en het aantal HaldingsR UG requests in een periode van 62 weken. Hoewel het aantal logins sterke pieken en dalen vertoont over het gehele interval blijft het aantal HoldingsR UG requests dezelfde pieken en dalen volgen. Als wordt bekeken of er een stijgende of dalende trend aan te tonen is in H, het gemiddeld aantal Holdings-RUG links per WebSpirs login, dan vinden we een absoluut vlak gedrag: H = 0.78
+ (0.00 ± 0.00) * t,
waarbij t de tijd in weken is.
(19)
Figuur 7 toont het aantallogins in WebSpirs en het aantal SFX requests in een periode van 21 weken. Ook hier is geen aantoonbare stijgende trend te ontdekken in het gemiddeld aantal SFX requests per WebSpirs login: H = 0.82
+ (-0.01 ± 0.01) * t,
waarbij t de tijd in weken is.
(20)
Deze resultaten tonen aan dat het linkgedrag niet verandert in verschillende perioden van het jaar. Als we verwachten dat in de zomermaanden de invloed van studenten op de logs vermindert, dan zou het vlak gedrag kunnen betekenen dat het type eindgebruiker geen invloed heeft op de populariteit. In Figuur 8 wordt bekeken hoe vaak een WebSpirs sessie wordt opgestart vanaf een bepaald IP adres. Tabel 1 in sectie 2 heeft al aangetoond dat er een sterke spreiding is in het aantal logins. De LLCD plot in Figuur 8 laat zien dat het asymptotisch gedrag van WebSpirs logins beschreven kan worden met een Pareto distributie. Met lineaire regressie vinden we een a = 1.17 ± 0.03 wat op een oneindige spreiding in het aantal sessies duidt. Figuur 9 toont de spreiding van zoekresultaten in WebSpirs databanken. Hiervoor werd in een periode van 3 weken per eindgebruiker bekeken hoeveel 23
resultaten een zoekactie opleverde. We zien hier een kansdistributie met een sterke vertegenwoordiging van resultaten die onder de 10 records liggen maar ook een zeer lange staart. Als we met behulp van lineare regressie het asymptotische gedrag van de LLCD plot onderzoeken vinden we a = 0.357 ± 0.002. Dit resultaat geeft aan dat er niet alleen een oneindidge spreiding in het aantal zoekresultaten bestaat maar ook een oneindig gemiddelde. In Figuur 10 wordt bekeken hoeveel zoekresultaten werkelijk door de eindgebruiker worden bekeken. Net zoals bij search engines op het internet bestaat er in WebSpirs databanken een optie om pagina na pagina de zoekresultaten te doorbladeren. De LLCD plot toont aan dat de grote meerderheid van de eindgebruikers niet meer dan de eerste 10 resultaten van een zoekactie opvragen. Deze grens van 10 records is in WebSpirs databanken het standaard aantal records dat op een pagina wordt getoond. De kansdistributie van doorbladerde records heeft een lange staart. Met behulp van lineaire regressie wordt het asymptotisch gedrag bepaald met a= 1.76 ± 0.02. De bovenstaande resultaten tonen aan dat om het linkgedrag van eindgebruikers te verklaren men het gebruik van elektronische databanken moet onderzoeken. We observeren een sterke spreiding in het aantal opgestarte sessies in elektronische databanken. De zoekacties in de elektronische databanken leveren vaak een kleine set aan resultaten op, maar als er meer dan 10 resulaten worden gevonden is de spreiding enorm groot. Het aantal records dat bekeken wordt door eindgebruikers beperkt zich vaak tot de eerste 10 resultaten. Het ligt daarom voor de hand dat het aantal opgevraagde Holdings-RUGen SFX -links sterk afhangt van het aantal records die op het scherm van de eindgebruiker verschijnen.
24
Number of Holdings'WebSpirs logins in 62 weeks
tJ)
·~ 3000 ~'-+-4,14+---~1--+4-4<---------lJ'--'Mi---.!......i
.9
a~~~~~~~~~~~~~~~~~~
~~~~~~~~r?>~~~~
~rQrq
Time On weeks)
_Holdings
-
WebSpirs
Figuur 6: Grafiek van aantal het Holdings-RUG en WebSpirs logins over een periode van 62 weken. De grafiek laat een stabiele trend zien in het aantal Holdings-RUGRequestsper WebSpirs login.
25
Num ber of SFX/WebSpirs logins in 21 weeks
2500
2000
Cll
1500
c
·s, 0 ..J
1000
500
0
0'*"
~0
"
":,
~
Time (in weeks)
"\
0)
""
"":,
"~
t0
"0)
--SFX _ _ WebSpirs
Figuur 7: Grafiek van aantal het SFX en WebSpirs logins over een periode van 21 weken. De grafiek laat een stabiele trend zien in het aantal SFX requests per WebSpirs login .
26
L LCD Plot: Web S p irs logins 0 ~~
w
2,5
-0,5 -
-
-1
A
-1 '5
-
P"""''
x
>< ..... a..
C)
....
-2 -
0
'
-2,5 -
• •
-3 -
-3,5 log (x)
Figuur 8: LLCD plot voor het aantal WebSpirs logins per eindgebruiker over een periode van 40 dagen. Het Pareto staartgewicht van deze kansdistributie bedraagt: a= 1.17 ± 0.03.
27
L L C D P Io t: S e a r c h R e s u lts 0 -0 ,2 -~·
-.......
-0 ,4
A
-0 ,6 -
•
....
1
2
3
4
)(
>< ....... a..
C)
-0, 8 -
0
-1 -1 ' 2 -1 ' 4
- '--·~~--
log (x)
Figuur 9: LLCD plot voor het aantal zoekresultaten per eindgebruiker bij zoekacties in WebSpirs databanken. Het Pareto staartgewicht van deze kans distributie bedraagt: a = 0.357 ± 0.002.
28
LLCD Plot: Browsed Records per Log in 0
-0,5
••
3
4
-1 >< A
x
Q.
C'l 0
-1 '5 -2
-2,5 -3 -3,5 I o g (x)
Figuur 10: LLCD plot voor het aantal doorbladerde records per eindgebruiker bij zoekacties in WebSpirs databanken. Het Pareto staartgewicht van deze kansdistributie bedraagt: a= 1.76 ± 0.02.
29
8
Samenvatting
Dit rapport beschrijft de statistieken over het gebruik van SFX links HoldingsRUG links in de academische omgeving van de Universiteit Gent. Er werd aangetoond dat , om de benchmarkresulaten van de SFX server te interpreteren, het linkgedrag van grote groepen eindgebruikers bekend moet zijn. De SFX en Holdings-RUG logs tonen aan dat het aantalrequestsper login in WebSpirs databanken een kansdistributie heeft die niet met de gebruikelijke statistieken beschreven kan worden. Met behulp van de dikstaartige Pareto distributie werd aangetoond dat het aantal SFX en Holdings-RUG requests per WebSpirs login een oneindige spreiding heeft waardoor gemiddelden niet gebruikt kunnen worden in de bepaling van de maximale belasting van de servers. Dikstaartige kansdistributies geven aanleiding tot een piekgedrag in het gemiddeld aantal requests per login over elk tijdsinterval. Dit gedrag wordt zelf-gelijkend of fractaal genoemd. Een verklaring voor dit gedrag werd gevonden in de enorme spreiding van het aantal opgestarte WebSpirs sessies door eindgebruikers. Binnen een WebSpirs sessie worden globaal weinig zoekresultaten gevonden; het gemiddelde en de spreiding van het aantal zoekresulaten is oneindig. Van de set gevonden zoekresulaten wordt maar een klein deel bekeken. Indien meerdere pagina's zoekresulaten worden bekeken is de spreiding in het aantal oneindig. Op elke resultaatpagina heeft de eindgebruiker de keuze om de SFX of HoldingsRUG links te gebruiken indien het bibliografische record interessant genoeg is. De keuze van de eindgebruiker om resultaatpaginas te doorbladeren blijkt dezelfde kansdistributie te hebben als de keuze om externe links te gebruiken. Al deze factoren laten zien dat een kwantitatieve schatting van de maximale belasting op de SFX server een zeer moeilijke zaak is. Uit het onderzoek blijkt dat het linkgedrag van gebruikers niet enkel en alleen kan voorspeld worden op basis van het aantal gebruikers. Een beschrijving van het zoekgedrag is noodzakelijk. Deze resultaten tonen aan dat de vraag: 'hoeveel SFX -links worden gebruikt door een gemeenschap van X eindgebruikers?' geen betrouwbaar antwoord heeft. Om de configuratie van een SFX server te bepalen moet men met behulp van gegevens over het maximale aantal sessies in elektronische databanken een schatting maken van het aantal behandelbare sessies per uur. Met behulp van statistieken, die te vinden zijn op het internet, kan worden bepaald hoeveel sessies populaire sites per uur te verwerken hebben [9]. Voor grote bibliotheken is dit rond de 200 tot 300 sessies per uur (3-5 per minuut), voor de meeste populaire sites die 30
software aanbieden is dit rond de 5000 tot 15000 sessies per uur (83-250 per minuut). Er werd aangetoond dat gemiddeld één SFX request per sessie aangevraagd wordt. Het aantal SFX requests per sessie heeft wel een stabiele trend in tegenstelling tot het aantal SFX requests per eindgebruiker. Dus, met de capaciteit van de SFX server beschreven in dit rapport zal een aantal grote bibliotheken makkelijk bediend kunnen worden. De capaciteit zal echter onvoldoende zijn voor sites waarvan het aantal sessies een orde groter zijn.
9
Literatuur
1. L. Egghe, R. Rousseau. "Introduction to Informetrics" , Elsevier, 1990. 2. T.B. Fowler The Telecommunications Review (1999) , 1 3. M.J. Fisher, C.M. Harris The Telecommunications Review (1999), 15 4. M.E. Crovella, Bestavos A. IEEE ACM T Networks 5: (6) 835-846 1997 5. D. Wolfram "A Query-Level Examination of End User Searching Behaviour on the Excite Search Engine" in "CAIS 2000: Dimensions of a Global Information Science" 6. H. Van de Sompel, P. Hochstenbach D-Lib Magazine april 1999 7. H. Van de Sompel, P. Hochstenbach D-Lib Magazine oktober 1999 9. Zie o.a. http:/ /www.nedstat.com
31
Summary: On the maximum laad of an SFX server in an academie environment
Contiguration sfxserv.rug.ac.be: Intel PC, 2 Pentium 111 (600Mhz), 320MB RAM, Linux 2.2.14-5.0smp kemel Maximum load: 120 reg/minute (OpenURL without pid/sid)
Theory:
If N SFX requests are distributed in an hour accoding toa binomial distribution, then the mean number of requests per minute, k, is: N I
k =
60 ,
with a standard deviation, a, of: sqrt
a=
( N . 1/60 . 59/60).
This means that ifthe load on the server is N requestsper hour then in 99,9% ofthe time you will get a load of K requestsper minute as: K
k +/- 3,29cr.
=
Example:
E.g, you expect a maximum load of 1000 requests/hour. Th en the mean number of requests/min is: =>
N = 1000
k
16, 67 .
4000/60
The standard deviation is: a= sqrt
(1000 . 1/60 . 59/60)
=
4,01.
Then the expected number ofrequests/min with a confidence interval of99,9% is: K
=
16,67 +/- 3,29.
4,01
=
16,67 +/-
13,19.
So with 4000 request/hour there is a chance of 0,05 % you get a load less than 4 requests/minute 99,9% you get a load between 4 and 30 requests/minute 0,05% you get a load higher then 30 requests/minute
Reallife: Ifyou know the number of SFX requestsper hour, then you can give an expectation, with the metbod used above, on the load ofthe SFX server. To give an estimate on number ofSFX requestsper hour I investigated the usage of SFX buttons in Gent (I also used data I found on the Internet on the usage of other type of links in databases and search engines ). These are the results:
Experiment 1: Measure the number of logins in databases containing SFX buttons. This shows you how often your patrons use databases in your environment. The table below shows the number of logins into databases containing SFX buttons (e.g WebSpirs, ALEPH Catalogue) against the percentage of patrons. Number of logins in a SFX-enabled database 1 x in 4 days less than more than 1 x in 4 days more than 1 x in 2 days more than 1 x in 1 day more than 2 x in 1 day more than 10 x in 1 day
Percentage of patroos 45% 55% 30% 12% 4% 1%
You see here that the number ofpatrons that are frequent users ofthe available databases (login every day) is around 12 %. When doing the experiments I measured around 2000 patrons on the system, this means that 2000 * 0.12 = 240 ofthem used our databases on daily basis. Experiment 2: Measure the number of SFX buttons clicked per login in a database. Th is shows you the amount of clicks on SFX buttons when patrons are working in a database. The results are below arenotspecial for SFX. I did the same experiments for the old ' Holdings RUG'-button (2 years of data). I searched on the Internetand found the samedata in Ebsco logs on the usage of 'Full Text' links. I found the same data on usage of extemallinks in search engines. The table below shows the number ofSFX buttons (or Holdings buttons) used per session in WebSpirs or ALEPH: Number of SFX buttons clicked in a session 0 1 2 3 4 5 more than 5
For the explanation ofthis behaviour: read my paper.
Percentage of sessions 83.79% 6.16% 2.94% 1.43% 0.93% 0.51% 4.13%
Expected load on the system: Based on these results the number of SFX amount requests/hour I expect in Ghent: 2000 patrons => 2000
* 0.12 = 240 patroos who use our databases daily.
How often will these 240 patrons do a login a day? lts more than 1 and very probably less than 10. But tobeon the safe side Iets expect a very busy day, Iets say each ofthem will do 10 logins in various databases: expect 240
* 10 =
2400 database logins daily.
Based on expriment 2 I expect that only for 20 % of these logins I get clicks on SFX buttons. The mean number of clicks per login session is 1, so I expect 2400
* 0.20 = 480 SFX requests daily.
In the months October, November and December 2000 I measured in Gent a load of: 350 SFX requests daily. The server contiguration above can handle easily 1000 SFX requests in an hour so with an expectation of around 480 SFX requests a day we have a very safe configuration.
Lets do the same calculation for 20000 patrons (so an institution 10 x as big as Ghent): 20000 patrons => 20000 => 2400
* 0.12 = 2400 patrons daily
* 10 = 24000 database logins daily
=> 24000
* 0.20 = 4800 SFX requests daily
So this is stillless then 1000 requests an hour For 200 000 patrons this is 48000 SFX requests a day which results in severallOOO's requestsin an hour. In the current contiguration this is to risky to handle. Here I advice to use a cluster of servers.