Distribuovaná Analýza ATLAS dat Jiří Chudoba 4.9.2008 Fyzikální ústav AV ČR, v.v.i.
Model pro ATLAS
Distribuované zpracování dat na gridu Hierarchie výpočetních center
Tier0 – CERN Tier1 – 10 center pro ATLAS Tier2 – asi 30 center Tier3 – menší „příležitostná“ centra
Farma Goliáš na FZÚ – Tier2 centrum přiřazené do G idK regionu GridKa i (Ti (Tier1 1vK Karlsruhe) l h ) Gridový software projektů EGEE, OSG a NorduGrid Model detailně popsán v ATLAS Computing TDR TDR, CERN/LHCC/2005-022
4.9.2008
[email protected]
2
Tier2 centrum ve FZU Podepsané WLCG MoU v roce 2008
Do roku 2008 včetně větší podíl ALICE než ATLAS. ATLAS Nyní se vybírá hardware pro splnění závazků na rok 2009.
4.9.2008
[email protected]
3
Data v roce 2008 Velikosti dat v MB/případ p p TDR
Nyní
RAW
16 1.6
16 1.6
ESD
.5
1.
AOD
.1
.2
TAG
.001
.01
D1PD
.01
T0 a T1 nebudou (?) přístupná běžným uživatelům, jen pro organizované g p produkce
50,000 50 000 sec@200Hz Æ10 M případů/den 60 dní v 2008: 600M případů V T0: 960 TB RAW to tape 96 TB RAW to disk (10%) 600 TB ESD to tape 60 TB ESD to disk (10%) 120 TB AOD to disk and tape 120 TB DPD to disk and tape 6TB TAG to disk V rámci každého oblaku kompletní soubor AOD v Tier 2 centrech (plus kopie v T1) V typickém Tier2 – 25 % AOD + DPD Ve FZU: asi 5 - 10 % AOD + DPD
4.9.2008
[email protected]
4
Kam s daty – space tokens token name
storage type
used for
ATLASDATATAPE S
T1D0
RAW data, ESD, AOD from re-proc
ATLASDATADISK
T0D1
ESD, AOD from data
ATLASMCTAPE
T1D0
HITS from G4, AOD from ATLFAST
ATLASMCDISK
T0D1
AOD from MC
X
ATLASPRODDISK
T0D1
buffer for in-and export
X
ATLASGROUPDISK
T0D1
DPD
ATLASUSERDISK
T0D1
User Data
ATLASLOCALGROUP T0D1 DISK 4.9.2008
@T2
X
@T1
@T0
X
X
X
X
X X
X
X
X
X
X
X *)
X
Local User Data @T3
[email protected]
X 5
Data v typickém Tier2, Tier2 rok 2008 Typické = 500 CPU a 100 TB pro ATLAS ATLASDATADISK (60 TB) AOD a DPD dle požadavků (nebo podílu), možno i vzorky RAW a ESD ATLASGROUPDISK (6 TB) pro analýzu organizovanou fyzikálními skupinami ATLASUSERDISK S S S (5 ( TB)) scratch space for users ATLASLOCALGROUPDISK ((zdroje d j mimo i MoU) M U) permanentní prostor pro lokální uživatele Nyní y ve FZU p pro ATLAS ATLASUSERDISK – 800 GB ATLASPRODDISK – 500 GB ATLASDATADISK – 2500 GB ATLASMCDISK – 500 GB 4.9.2008
Zvětšení „space tokens“ o několik TB (dohromady) možné téměř ihned. C lk Celkem pro ATLAS zhruba h b 20 TB TB.
[email protected]
6
Datové formáty RAW = raw data ESD = Event Summary Data detaily z rekonstrukce případů, případů možno z nich dělat identifikaci částic částic, refitování drah, rekonstrukci jetů cílová velikost 500 kB, nyní přes 600 kB. calorimeter cells = 270 kB, tracking data 200 kB – pro top případy AOD = A Analysis l i Object Obj Data D vytvářeny pouze z ESD, určené pro analýzu nyní 200 kB/případ, kB/případ plus 60 kB MC truth
4.9.2008
[email protected]
7
Zkušenost z „Rome produkce“ • AOD příliš velké pro analýzu ý • Skupiny používaly hlavně ntuply vytvořené pomocí EventView, HighPtView, TopView
DPD = Derived Physics Data DPD – podmnožina obsahu ESD a AOD s možným přidáním analyzačních dat Analyzační data – veličiny vypočítané z ESD a AOD Několik verzí DPD: D1PD, D2PD, D3PD, performance DPD Redukce velikosti dat pomocí:
skimming ki i – vynechání há í celých lý h případů ří dů thinning – vynechání některých objektů slimming – vynechání části objektů
4.9.2008
[email protected]
8
Dnešní možnosti pro analýzu
4.9.2008
[email protected]
9
4.9.2008
[email protected]
10
Co je k analýze zapotřebí? UI = User Interface (třeba lxplus) a členství v ATLAS VO
Návody na spouštění analýzy na Twiki stránkách Organizují se výukové semináře Veškeré datové přenosy přes systém DQ2 Distribuce oficiálních dat pomocí „subscriptions“ na místa registrovaná v TiersOfATLAS (TOA) Uživatelské datasety nyní není možné takto distribuovat (politické rozhodnutí), ale je možné je kopírovat na vlastní disk Výstup analyzační úlohy na USERDISK, bude pravidelně promazáván Uživatel ho může dát na LOCALGROUPDISK – permanentní prostor
skupiny si mohou ve svých Tier přidat diskový prostor
Přístup k ESD zatím není vyřešen (povolit úlohy uživatelů v T1 ?) Spolehlivost gridových komponent není 100 %, problémy při velkých kolekcích úloh
4.9.2008
[email protected]
11
Zdroje
ATLAS Offline software výukový seminář:
http://indico cern ch/conferenceDisplay py?confId=39198 http://indico.cern.ch/conferenceDisplay.py?confId 39198
Distributed Analysis Workshop 25.-27.8.2008 v CERN
http://indico.cern.ch/conferenceDisplay.py?confId=38560
Ganga výuka
Pathena výuka
https://twiki cern ch/twiki/bin/view/Atlas/GangaTutorial5 https://twiki.cern.ch/twiki/bin/view/Atlas/GangaTutorial5 http://cdsweb.cern.ch/record/1118219
Analysis Model Forum Report, ATL-GEN-INT 2008-01
4.9.2008
[email protected]
12