STILTEMAP V1.0 NAAR EEN DUURZAME ARCHIVERING EN ONTSLUITING VAN EEN GEMENGDE EN DYNAMISCHE MULTIMEDIA SETS
AUTEUR DIRK DEROM EXPERT IN NEW MEDIA AND KNOWLEDGE MANAGEMENT BNA-BBOT LAKENSESTRAAT 119 1000 BRUSSEL 02/223.21.51
[email protected]
DRAFT - 14/02/12
INHOUDSTAFEL 1. VOORSTELLING DEELWERKING ' DUURZAME ARCHIVERING EN ONTSLUITING' ......4
1.1 HET PROJECT ........................................................................................4 1.2 DATA INGEST .........................................................................................4 1.3 DATA SETS .............................................................................................4 1.4 INSCHATTING ALGEMENE SYSTEEMVEREISTEN..........................................5 2. ICT MANAGEMENT .........................................................................................8
2.1 ORGANISATIEPLAN .................................................................................8 2.1.1 BNA ASBL & BBOT VZW ......................................................................8 2.1.2 PROJECTMEDEWERKERS ..................................................................8 3. PROJECT MANAGEMENT .................................................................................9
3.1 OVERZICHT TAKEN .................................................................................9 3.2 OVERZICHT KOSTENRAMING ................................................................. 11 4. CONTACTINFORMATIE ................................................................................. 13
Onderstaande document is in flux en kan niet vervolledigd worden gezien de hoge mate van onbekende elementen zoals de voorziene data sets, de eindgebruiker systeemvereisten, de schaal van het project en de vereisten wat betreft de ontsluiting. In wat volgt kan bijgevolg enkel een hoogst algemene raming opgesteld worden van het project en de te voorziene kosten.
STILTEMAP V1.0 PAGINA 3 VAN 13
1. VOORSTELLING DEELWERKING ' DUURZAME ARCHIVERING EN
ONTSLUITING' In wat volgt wordt de context van het project voorgesteld.
1.1 HET PROJECT Het project onder de werktitel 'Stilte, Rust en Ruimte in Brussel', onder coördinatie van Waerbeke vzw, zoekt in Brussel plekken van stile en rust naar voren te brengen en op die manier een kwaliteitsvolle omgeving op te bouwen. De nadruk ligt op de leefomgeving van de verschillende dragers (cf. bewoners, bezoekers en beheerders), de historische stiltedimensie, het verbinden van de kennis en praktijkervaring overal te lande. Evenzeer wordt een doorverwijsfunctie opgezet voor stiltezoekers. Participatie en een procesmatige aanpak liggen aan de basis waarbij een mozaiek aan organisaties elk op hun terrein meewerken aan het verbreden van het draagvlak en het verankeren van stilteplekken in Brussel. De methodologie voor elk van deze organisaties is nog niet bepaald.
1.2 DATA INGEST In het project verwachten we een aanzienlijke dataproductie, met een brede waaier aan ondersteuning en expertise wat betreft het bewaren en ontsluiten van data. De data instroom zal gezien de diversiteit gestandaardiseerd worden ofwel door middel van standaardformulieren en/of aggregatie aan de hand van gestandaardiseerde metadataschema's. Ondersteuning wordt voorzien voor organisaties met een bescheiden technische voorkennis.
1.3 DATA SETS Gezien de diversiteit van het project, het incorporeren van immaterieel erfgoed, de nadruk op de kennis- en praktijkervaring en de doorverwijsfunctie voor stiltezoekers binnen het project, is de data set geacht hoogst divers, flexibel en instabiel. Een klassiek document management systeem of rigide archiveringsprotocollen kunnen bijgevolg niet
STILTEMAP V1.0 PAGINA 4 VAN 13
uitgerold worden. Het delen van data, het doorverwijzen en het communiceren van stilteplekken en ervaringen wijzen in de richting van een informatiedoorstroming van de verzamelde informatie naar een centrale databank. Een amalgaan van audio, video, beeld en tekst zal leiden tot een hoogst gelaagd en complexe data set .Het project wordt verondersteld informatie te produceren dewelke ter wille van de vele intertekstuele elementen moeilijk te beschrijven valt. Supplementair zullen er een groot aantal derivaten bestaan en gemaakt worden van de 'ruwe data' dewelke de plaats innemen van oorspronkelijke data sets. Concreet zulenl vb. diverse video fragmenten gemonteerd worden tot een documentaire, dewelke als 'product' mogen beschouwd worden van deze of gene organisatie. Bovendien is de kans reëel dat deze assemblages evenzeer transversaal zullen gebouwd worden. Gezien de samenhang en causale efemere projecten in combinatie met permanente werkingen inclusief spontane samenwerkingen tussen diverse organisaties, is het haast onmogelijk om alle informatiedoorstromingen te bewaren. De nadruk binnen de data sets wordt bijgevolg gelegd op de resultaten van de waaier aan initiatieven en de directe data dewelke tot de resultaten leiden. Dit houdt onder meer in dat een singuliere archiefvormer het eigendomsrecht behoudt, maar dat derivaten niet noodzakelijk zijn eigendomsrecht zijn. Een hoogst flexibele benadering van data moet hiervoor ingevoerd worden. De hier voorgestelde benadering vertrekt van een stukniveau om vervolgens deze dynamisch te binden aan het collectieniveau. In concreto valt dit samen met het bewaren van de verschillende mediatypes, het binden van deze bestanden met collecties en indien nodig het herstructureren in strikt gescheiden collecties. Meer informatie over deze structuur kan men vinden in sectie "A Multimedia data management".
1.4 INSCHATTING ALGEMENE SYSTEEMVEREISTEN BNA-BBOT vzw, hierna kortwerg BNA-BBOT, kan in deze een rol spelen door grote delen van de informatiedoorstroming en bewaring voor haar rekening te nemen. Dankzij de ervaring in atypische data sets en de herstructurering van de huidige database naar een open en dynamisch management systeem, is het mogelijk om met een minimum aan kosten de diverse data sets te bewaren.
STILTEMAP V1.0 PAGINA 5 VAN 13
De vraag of BNA-BBOT de rol van een centrale dan wel niet-centrale informatiebeheerder moet opnemen is in deze nog niet bepaald. Het aanbod dat op dit moment door BNA-BBOT geformuleerd wordt is een centraal georganiseerde data bewaring, met een maximalisatie van gelijkgestemde data sets, volgens gangbare archiveringsprincipes1. De basis voor deze archivering is het vermijden van rigide annotaties aan de hand van metadata schema's en het voortdurend hergebruiken en herstructureren van bestaande data sets. Een meer gedetailleerde beschrijving wordt opgemaakt zodra er meer details bekend raken over het bredere project. A.
Multimedia data management
De basis voor het bewaren en ontsluiten van de data sets2 wordt beschreven in sectie "1.2 Data sets". Aan de basis ligt een collectieniveau en bestandsniveau. Het bestandsniveau vormt de basis voor de bewaring. Elk bestand wordt beschreven voor haar technische metadata en beschrijvende metadata. De bestanden opgegeven voor bewaring en onsluiting wordt op die rudimentair niveau verdeeld naargelang de bestandstypes, cf. audio/video/beeld/tekst. B.
Gestandaardiseerde metadata schema's voor collecties
Een secundair niveau is het collectieniveau waar gestandaardiseerde metadata schema's geconstrueerd worden op basis van de specifieke collecties. Afhankelijk van de archiefvormer spreken we hier over klassieke museale collecties, archiefcollecties… De metadata op dit tweede niveau worden opgesteld in samenwerking met Packed vzw. Dit wordt mogelijks een mozaiek van bestaande initiatieven binnen Packed vzw (cf. Cometa), bestaande internationale initiatieven (cf. OAI ORE) en meer klassieke metadata beschrijvingen (cf. METS, MODS, ISADG…).
1
De gebruikte methodologie worden opgesteld in samenspraak met Packed vzw. De structuur van deze data sets is een eerste onderzoek naar de mogelijkheden en moeilijkheden voor het bewaren van een hoogst diverse data set. Deze structuur dient verfijnd en 2 De structuur van deze data sets is een eerste onderzoek naar de mogelijkheden en moeilijkheden voor het bewaren van een hoogst diverse data set. Deze structuur dient verfijnd en verbeterd te worden, dit in samenspraak met Packed vzw. 2
STILTEMAP V1.0 PAGINA 6 VAN 13
C.
Export en import functie
De voornaamste vormvereisten voor deze bestanden is de mogelijkheid om een batch import te doen op stukniveau en een batch export op stukniveau én collectieniveau. Deze exportfunctie wordt evenzeer gebruikt in de backupstructuur van de database. D.
Open database
Gezien de draagwijdte van het project en de diversiteit van partners, zal de database opengesteld worden voor derden en zijn deze derden in staat zélf het archief te vormen zonder of met minieme tussenkomst van BNA-BBOT. Afhankelijk van het volume aan data gaat dit gepaard met een extra kost. Mogelijks wordt hier een API voorzien om de data instroom te versterken. E.
Inhoudelijke annotatie
De inhoudelijke annotatie wordt verzorgd door het toevoegen van descriptieve velden. Dit zowel op stukniveau als op collectieniveau. Deze inhoudelijke beschrijving van de data omvat zowel tekst als kernwoorden. De vraag of bezoekers deze data mogen annoteren aan de hand van kernwoorden is nog niet beantwoord. F.
Inhoudelijke associatie
Gezien de intentie de verzamelde data te structureren, organiseren en te verbinden met elkaar is er de nood om de data inhoudelijk te binden. Dit gebeurt door de inhoudelijke annotatie te structureren. Voorlopig wordt gedacht aan een initiatief zoals OpenCalais of vergelijkbare initiatieven. Deze automatische associaties kunnen vervolgens gemodereerd worden door beheerders van het systeem. Dit kan resulteren in een automatische termenaggregatie in combinatie met een gecontroleerde termenassociatie.
STILTEMAP V1.0 PAGINA 7 VAN 13
2. ICT MANAGEMENT Te vervolledigen van zodra meer details bekend zijn.
2.1 ORGANISATIEPLAN 2.1.1 BNA ASBL & BBOT VZW BNA-BBOT staat in voor het ontwikkelen en onderhouden van het bewaringssysteem en de ontsluiting van de data. De taken omvatten onder andere: •
Ontwikkeling initiële datastructuur
•
Ontwikkeling secundaire generische en project-specifieke annotatie
•
Ontwikkeling van semantische aggregatie van de inhoudelijke beschrijving
•
Ontwikkeling data management tools (cf. accounts, backup…)
•
Voorbereiding data ingest
•
Documentatie van experimentele en productiemethodieken
2.1.2 PROJECTMEDEWERKERS Medewerkers aan het project hebben in het licht van de ontwikkelde ICT structuur volgende taken: •
Toevoegen van data
•
Modereren van data sets
•
Modereren van data annotatie
STILTEMAP V1.0 PAGINA 8 VAN 13
3. PROJECT MANAGEMENT Gezien het project en de deelprojecten nog niet uitgetekend zijn, is het niet mogelijk een concrete planning en kostenraming uit te tekenen. In wat volgt wordt de context van de huidige kostenraming en planning weergegeven inclusief de verantwoordelijkheden die BNA-BBOT hierin kan opnemen. Het volledige project kadert binnen de huidige werking en expertise van BNA-BBOT en omvat de bewaring, ontsluiting en archivering van de verzamelde data.
3.1 OVERZICHT TAKEN Hieronder volgen beknopt de taken zoals ze voorspeld kunnen worden gezien de informatie die beschikbaar is over het bredere project. Een overzicht van de kostenraming is te vinden in sectie "3.2 Overzicht kostenraming". •
Datastructuur o
ondersteuning derden: organisaties met beperkte technische voorkennis en/of weinig schaalbare systemen kunnen begeleid worden om de data verzameld tijdens het project door te sturen naar de juiste kanalen. BNABBOT neemt hier ten dele de verantwoordelijkheid op om deze begeleiding te stroomlijnen.
•
Datastructuur o
Initiële datastructuur: de initiële datastructuur omvat het bewaren en annoteren van de ruwe mediabestanden. Dit omvat audio, video, beeld en tekst. De beschrijving is hier minimaal en verloopt zowel op stuk- als collectieniveau. Deze initiële datastructuur wordt door BNA-BBOT voorbereid. Supplementaire fondsen zijn nodig om deze datastructuur te vervolledigen en af te stemmen op het project.
o
Secundaire datastructuur: een secundaire datastructuur dient om de primaire datastructuur te voorzien van een context opdat latere archivering en bewaring mogelijk wordt gemaakt. Deze secundaire datastructuur vereist het nodige onderzoek, uitgevoerd door BNA-BBOT.
STILTEMAP V1.0 PAGINA 9 VAN 13
De implementatie van deze structuur, specifiek voor het project en haar deelprojecten, dient extern gefinancierd te worden. •
Semantische aggregatie: semantische aggregatie van de inhoud en de nood om data door middel van associaties aan elkaar te koppelen, vereist een sterk conceptueel kader om deze inhoudelijke beschrijvingen en verbanden te bouwen en te behouden. Ook hier neemt BNA-BBOT het onderzoek op zich en zal, in samenwerking met haar partnerorganisaties, komen tot een schaalbaar en pragmatische oplossing. Het effectief implementeren wordt ten dele door BNABBOT gedragen, maar vereist een bescheiden externe financiering.
•
Experimentele add-ons o
automatisering OCR: OCR is enkel een vereiste in het geval er analoge teksten worden gedigitaliseerd. Indien dit het geval is, kan OCR en het automatiseren van dit proces de nodige tijdswinst opleveren.
o
automatisering transscripties: gezien de ingest van audio en video en de nood om informatie semantisch te koppelen, is het opportuun om een automatisering door te voeren van transcripties. Gezien de beperkingen van bestaande initiatieven dient er voorafgaandelijk onderzoek gedaan te worden naar de mogelijkheden van de huidige systemen en de realiseerbaarheid binnen het project. Het onderzoek neemt BNA-BBOT op zich, de implementatie op grote schaal dient voorzien te worden van een extern budget.
•
Data management tools o
constructie XML containers: het opzetten van XML containers vereist een bescheiden onderzoek. De constructie van XML containers en de verankering binnen het systeem garanderen een langer termijn bewaring. Een erg klein bedrag is vereist om deze functionaliteit te voorzien.
o
constructie data conversies: data conversies zijn vereist gezien het te verwachten is dat een amalgaan aan bestandsformaten ter bewaring en ontsluiting zullen worden opgegeven. De implementatie van deze bestandsformaten vereist, afhankelijk van de omvang en diversiteit van deze bestanden, een externe financiering.
•
Data ingest
STILTEMAP V1.0 PAGINA 10 VAN 13
o
Data upload form derden: er wordt verondersteld dat enkele organisaties niet de middelen hebben om de data te bewaren. Het opladen van data binnen de huidige database vereist de constructie van een upload form voor derden. Het systeem is hierop voorzien, maar dient uitgebreid te worden met een gescheiden ingang om op die manier de eigen database te vrijwaren van fouten.
o
Ingest API: indien de dat instroom dusdanig groot is, dient er een API ontwikkeld te worden. De implementatie van deze API vereist een aanzienlijk bedrag.
•
Documentatie: een documentatie wordt voorzien wat betreft de structuur van de data set. Dit is inclusief handleidingen.
3.2 OVERZICHT KOSTENRAMING Voor elke taak is aangegeven of deze in een eerste instantie reeds voorzien moet worden (cf. fase 1) of dat ze kan uitgesteld worden tot fase 2 of fase 3. In deze is het belangrijk om weten dat fase 2 en 3 in grote mate parallel kunnen lopen met fase 1.
STILTEMAP V1.0 PAGINA 11 VAN 13
STILTEMAP V1.0 PAGINA 12 VAN 13
4. CONTACTINFORMATIE Voor meer info, gelieve Dirk Derom (BNA-BBOT) te contacteren: Dirk Derom Lakensestraat 119 1000 Brussel Tel: 02/223 21 51 Email:
[email protected]
STILTEMAP V1.0 PAGINA 13 VAN 13