Využití GIS v explorační analýze dat trhu nemovitostí Ing. Pavel Rieger, katedra práva, Národohospodářská fakulta, Vysoká škola ekonomická v Praze,
[email protected] Ing. Karel Jedlička, katedra matematiky, oddělení geomatiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni,
[email protected] Ing. Jan Melichar, Ph.D., Centrum pro otázky životního prostředí, Univerzita Karlova v Praze,
[email protected] Ing. Ondřej Vojáček, katedra ekonomiky životního prostředí, Národohospodářská fakulta, Vysoká škola ekonomická v Praze,
[email protected],
[email protected] Abstrakt Při řešení projektu IGA VŠE jsme analyzovali vliv různých faktorů na ceny bytů v Praze. V modelu jsme použili teorii hédonické ceny. Jako strukturální proměnnou jsme stanovili velikost bytu, jako ukazatele dostupnosti vzdálenosti od městského centra a nejbližší stanice metra. Kromě toho jsme v modelu zohledňovali také jednu environmentální charakteristiku – vzdálenost od nejbližší významné plochy veřejné zeleně. Vytvořili jsme několik regresních modelů a testovali statistickou významnost jednotlivých parametrů podle vzorku 1708 bytů, které byly v posledních letech prodány v Praze. Významnou úlohu při této analýze hrály geoinformační technologie. Nástrojů GIS jsme využili nejen pro měření vzdáleností, ale také pro ověřování věrohodnosti dat dodaných externími firmami.
Klíčová slova GIS, prostorová analýza, regresní analýza, trh nemovitostí, hédonická cena
Abstract Hedonic price model was developed to quantify the influence of different attributes on the price of housing in the city of Prague. We have considered the size of flat as structural variable, the distance from the dwelling to the city center and to the nearest tube station as accessibility variables and the proximity to the nearest urban forest as environmental variable.
We have developed several regression models and tested their robustness in terms of the significance of parameters and the amount of variability explained. The sample is made up of 1,708 observations gathered from the city of Prague. The goal of this paper was to analyze the possibilities of GIS technologies in statistical analysis. GIS played a key role in proximity analysis and in verification of parameter values that has been supplied by external companies.
Key Words GIS, spatial analysis, regression analysis, property market, hedonic price
Úvod Model hédonické ceny se používá od 60. let 20. století pro odhad vlivu různých atributů, které mohou mít vliv na cenu nemovitostí. Model vychází z Lancasterovy teorie spotřebitele [1] a vychází z faktu, že ceny domů jsou ovlivněny počtem místností, plochou bytu či zahrady, vzdáleností od centra, dopravní dostupností, případně kvalitou okolí. Cílem grantu katedry ekonomiky životního prostředí bylo provést odhad vlivu různých faktorů na ceny bytů v Praze, a to včetně faktorů environmentálních. Geografické informační systémy měly v tomto projektu několik úkolů. V první etapě analýzy bylo nutné posoudit přesnost dat. K nalezení některých nepřesností není nutné používat GIS. Třeba pro nalezení duplicitních záznamů stačí spustit databázový select, který nalezne řádky shodující se v několika atributech. Také pro nalezení chybějících anebo extrémních hodnot není nutné budovat geodatabázi. Vytvoření geodatabáze však může být dobrým pomocníkem při odhalování některých dalších nepřesností v datech, např. u chybně změřených souřadnic. Během postupného přidávání dalších proměnných do modelu jsme použili ArcGIS pro měření vzdáleností. Pomocí ArcGIS naměřené vzdálenosti mezi dvěma různými objekty (zejména ty extrémní) byly namátkově porovnávány se správnými hodnotami kontrolním měřením na plánu města, případně s popisnými údaji o konkrétní nemovitosti. Tímto způsobem bylo nalezeno několik dalších nepřesných záznamů. Celkem bylo nalezeno 279 duplicitních, neúplných anebo nevěrohodných záznamů o bytech. Po vyloučení těchto 279 záznamů bylo do poslední etapy – ekonometrického modelu – zařazeno již jen 1709 bytů.
Metodika K aplikaci modelu hédonické ceny jsme použili data o prodejích bytů do osobního vlastnictví v Praze v letech 2005-2008. Tyto údaje nám poskytla společnost reality.cz (www.reality.cz),
celkem
se
jednalo
o
1988
záznamů.
Při
volbě
proměnných
ekonometrického modelu jsme zvažovali dostupnost různých datových vrstev. Ukázalo se, že velká část využitelných datových vrstev za území ČR (např. http://geoportal.cenia.cz) je dostupná v tzv. Křovákově zobrazení. Prvním úkolem proto bylo převést data ve formátu tabulky se souřadnicemi WGS-84 v dekadickém vyjádření do vektorového formátu se souřadnicemi S-JTSK (Křovák). Z tvaru obrazce na obrázku č. 1 jsou čitelné obrysy administrativních hranic Hlavního města Prahy. To znamená, že souřadnice bytů by mohly být poměrně přesné. Tento velmi žádoucí předpoklad však bude potřebné potvrdit dalšími testy.
Obrázek č. 1: Geografická poloha bytů z původního souboru 1988 záznamů (ArcExplorer)
S ohledem na dostupnost dat a přesnost souřadnic jsme zvolili proměnné uvedené v tabulce č. 1. V navrženém regresním modelu jsme předpokládali, že závislá proměnná CENA poroste s plochou bytu; naopak bude klesat s rostoucí hodnotou vysvětlujících proměnných CENTRUM, METRO a ZELEŇ. V následující tabulce jsou shrnuty všechny proměnné, které byly zahrnuty do regresního modelu. Tabulka č. 1: Seznam proměnných v modelu, zdroje dat Proměnná Popis CENA_BYTU Cena bytu v Kč PLOCHA_BYTU Plocha bytu v metrech čtverečných CENTRUM Vzdálenost k centru města v metrech METRO Vzdálenost k nejbližší stanici metra v metrech ZELEŇ Vzdálenost k okraji lesa (lesoparku) v metrech Poznámka: ZP značí závislou proměnnou + pozitivní / - negativní vliv na cenu bytu
Očekávané znaménko ZP + -
Zdroj dat reality.cz reality.cz PLANstudio PLANstudio ZM 1:10 000
Pro potřeby měření jsme použili software ArcMap 9.2, zejména funkci Proximity pro vzdálenostní analýzy. V potaz byla brána přímá vzdušná vzdálenost bytu od ostatních objektů. Podkladovými daty byly souřadnice bytů určené navigační GPS, vrstva lesů odvozená ze Základní mapy 1 : 10 000, souřadnice stanic metra od PLANstudio s.r.o. a souřadnice bodů v centru ze stejného zdroje.
Přesnost určení jednotlivých vzdáleností se pohybuje okolo 10 až 20 m, ovšem stále je třeba počítat s tím, že se jedná o vzdušnou vzdálenost. Problematická mohou být například měření vzdálenosti od objektu, který je na opačném břehu řeky nebo je jeho skutečná dostupnost snížena jinou překážkou. Aplikace modelu hédonické ceny se v minulosti zabývaly různými proměnnými, od čistoty ovzduší přes hladinu hluku ke vzdálenosti od veřejné zeleně či vzdálenosti od městského jádra. Více než 30 různých studií potvrdilo, že lidé jsou ochotni platit více za byt v blízkosti městských aglomerací ve srovnání s byty, které tuto výhodu nemají. Až na některé výjimky [2], [3] studie prokázaly, že pozemky sousedící s lesy či přírodními parky se prodávají za ceny o 8-20 % vyšší než jiné srovnatelné pozemky v podobné lokalitě [4]. Podle jiného zdroje [5] ceny bytů lineárně klesají s každým kilometrem vzdálenosti od nejbližší zalesněné oblasti asi o 5,9 %. Další analýzy prokázaly statisticky významný pokles ceny s rostoucí vzdáleností od lesoparků [6] a volných, dosud nezastavěných pozemků [7], [8]. Během analýzy budeme hodnotit věrohodnost dat dodaných externími subjekty, a to také ověřením věrohodnosti naměřených vzdáleností. Teprve po vyloučení nevěrohodných a neúplných pozorování bude sestaven regresní model. Cílem analýzy bude ověřit, zda jednotlivé ukazatele dostupnosti a environmentální proměnné mají statisticky významný vliv na ceny bytů.
Diskuse Aby bylo možné provést měření vzdáleností pro každý ze 1988 bytů, bude nutné stanovit definice jednotlivých proměnných. •
CENTRUM (ukazatel dostupnosti): Postupně byly určeny tři různé centrální body – socha svatého Václava, vchod Staroměstské radnice a Prašná brána. Vzhledem k nepatrným rozdílům ve výsledcích modelu jsme nakonec vybrali jediný centrální bod. Vzdálenost od centra tedy v našem modelu odpovídá vzdálenosti od sochy svatého Václava.
•
METRO (ukazatel dostupnosti): Většinu stanic metra jsme se rozhodli považovat za jediný bod. Pouze u stanic, kde se vchody do metra nacházejí několik set metrů od sebe, jsme stanici považovali za dva body. Takto bylo vymezeno celkem 58 vchodů do metra, které jsou nejvýznamnější pro potřeby modelu. Vzdálenost od metra tedy v modelu odpovídá vzdálenosti od nejbližšího z 58 vybraných vchodů.
•
ZELEŇ (environmentální proměnná): Vzhledem k tomu, že přesnost souřadnic pro ostatní proměnné byla zhruba ± 15 metrů, pro vrstvu veřejné zeleně jsme vyloučili užití zdroje ArcČR500. Při vektorizaci plošných areálů 0,5 mm bychom se totiž u vrstvy zeleně dostali na několikanásobně nižší přesnost ± 250 metrů. Jako zdroj dat jsme proto zvolili Základní mapu 1:10 000. S ohledem na velkou roztříštěnost ploch zeleně a jejich různou velikost bylo zvoleno 21 nejvýznamnějších ploch na území Hlavního města Prahy, z nichž se vytvořila vrstva ZELEŇ. Vzdálenost od zeleně v našem modelu odpovídá vzdálenosti od nejbližší okrajové linie lesa či lesoparku. Definice proměnných v modelu s jejich geometrickou interpretací je shrnuta v tab. č. 2.
Tabulka č. 2: Definice proměnných v modelu Proměnná CENA_BYTU PLOCHA_BYTU CENTRUM METRO ZELEŇ
Upřesnění Cena bytu v Kč Plocha bytu v metrech čtverečných Vzdálenost od sochy svatého Václava Vzdálenost od nejbližšího vchodu do metra Vzdálenost od okrajové linie lesa (lesoparku)
Geometrická interpretace byt = bod byt = bod centrum = bod stanice = bod les = polygon
Na obrázku č. 2 je zobrazeno všech 1988 bytů, společně s datovými vrstvami Body_V_Centru, Stanice_Metra a Vegetace. Obrázek 2: Zobrazení všech datových vrstev pro účely modelu (ArcMap)
Ověření správnosti dat Pro potřeby sestavení modelu bylo nutné nalézt duplicitní záznamy, stejně jako pozorování s nevěrohodnými či neúplnými hodnotami a vyloučit je z regresní analýzy. Celkově jsme z různých důvodů vyloučili z analýzy 279 záznamů. Shodují-li se u dvou pozorování obě souřadnice i plocha bytu, nemusí se nutně jednat o duplicitu. Jestliže se však byty shodovaly i v dalších atributech (např. patro, text inzerátu, popis okolí bytu, stejné či velice podobné datum prodeje), označili jsme takové záznamy za duplicitní a pro potřeby modelu je považovali za jediný záznam. Během postupného přidávání proměnných a měřením vzdáleností byly nalezeny další podezřelé záznamy. Po přidání vrstvy veřejné zeleně se ukázalo, že dva byty leží uvnitř lesa. Porovnáním adresy bytu s naměřenými souřadnicemi byl tento předpoklad vyvrácen a oba záznamy byly z další analýzy vyloučeny. Ostatních 1986 záznamů se však vyhnulo všem lesním plochám a to znamená, že jejich souřadnice nebyly zpochybněny. Obdobným způsobem jsme prověřili záznamy s extrémně nízkou vzdáleností od stanice metra. Nízká docházková vzdálenost ke stanici metra je často vyzdvihována v inzerátech realitních kanceláří. Vzdálenost udávaná v inzerátu k nemovitosti se zpravidla lišila od naměřené vzdálenosti o ± 15 metrů. Pouze u tří záznamů (ze stejné ulice, výsledky jsou asi zatíženy stejnou chybou) byla odchylka měření vyšší a chybné záznamy proto byly vyloučeny z dalšího pozorování. Během analýzy vzdáleností od metra nebyla měřena pouze vzdálenost. Součástí geodatabáze byl také atribut, který pro každý byt uváděl vchod do metra, který je dle našeho měření nejbližší. Také zde byla správnost měření ověřena ne několika stech záznamů porovnáním poštovní adresy bytu a jeho přibližné vzdálenosti ke konkrétní stanici metra. Na obrázku č. 3 je znázorněna další metoda pro odhalování chybných měření pomocí GIS. Spuštěním geodatabázového dotazu s parametrem WHERE obvod=1 zobrazíme všechny byty, které dle dat reality.cz leží na Praze 1. Při správně uvedených souřadnicích by se vytvořil shluk žlutých bodů uvnitř hranic prvního pražského obvodu. Z obrázku č. 3 vyplývá, že některé žluté body leží mimo první pražský obvod. Tyto hodnoty je třeba prověřit a zajistit buď opravu souřadnic, anebo opravu čísla obvodu. Stejný select jsme spustili pro všech deset obvodů a zpravidla to vedlo k vypuštění záznamu z regresní analýzy.
Obrázek 3: Geodatabázový select pomáhá odhalit nepřesná pozorování
Uvažovali jsme také o zařazení dalších proměnných do analýzy. Prokládáním datové vrstvy hluku (http://geoportal.cenia.cz) vrstvou bytů jsme zjistili, že souřadnice bytů našeho modelu se zpravidla liší od okrajů ulic asi o 5-10 metrů (viz obr. 4) a jsou lokalizovány po obou stranách ulic. Obrázek 4: Zobrazení vrstvy bytů a vrstvy hluku – ulice (ArcExplorer JEfE)
Z tohoto obrázku lze odvodit závěr, že souřadnice bytů pro potřeby regresní analýzy jsou velmi přesné, takže by měla být velmi přesná také další měření.
Výsledky Různé studie v minulosti prokázaly, že environmentální charakteristiky okolního prostředí ovlivňují cenu bytu. Postupným testováním různých modelů1 pro 1708 dílčích pozorování jsme nakonec vyhodnotili jako nejvhodnější log-log model, který dokázal na základě dvou parametrů (CENTRUM, ZELEŇ) vysvětlit 75% variability v cenách bytů. Na následujícím grafu je znázorněna funkce hédonické ceny. Graf: Funkce hédonické ceny pro čtyři testované modely 5 500 000 Cena (CZK) log-linear 4 500 000 linear log-log 3 500 000 semi-log 2 500 000 0
500
1 000 1 500 2 000 2 500 3 000 3 500 4 000 Vzdálenost od nejbližší plochy zeleně (m)
Všechny statisticky významné proměnné mají očekávané znaménko. Proměnná METRO však byla vyřazena z modelu kvůli značné multikolinearitě mezi proměnnými METRO a CENTRUM.
1
Použity vzorce ze zdroje [9].
Závěr Nasazení geoinformačních technologií se ukázalo jako nezbytné pro potřeby ekonometrické analýzy. Pomocí GIS se podařilo lokalizovat všechny proměnné na mapě, změřit vzdálenosti od různých objektů a na základě měření byly nalezeny nepřesné záznamy, které byly poté z ekonometrického modelu vyřazeny. Dle výpočtů z log-log modelu (při průměrné ploše a ceně bytu): •
S každým metrem vzdálenosti od významné plochy veřejné zeleně klesá cena bytu asi o 79 Kč. Každý kilometr vzdálenosti od zeleně snižuje cena bytu asi o 1,96%. Negativní vliv rostoucí vzdálenosti od zeleně na cenu se podařilo prokázat na hladině významnosti 0.01, oproti závěrům jiných studií hédonické ceny (6-20%) je však vliv vzdálenosti od zeleně poměrně nízký.
•
S každým metrem vzdálenosti od centra Prahy klesá cena bytu o 630 Kč.
•
Každý dodatečný čtverečný metr plochy bytu by zvýšil jeho cenu o 2263 Kč.
Členům řešitelského týmu byla přislíbena další data, tentokráte ve vektorovém formátu. Nejzajímavější závěry by mohly vzniknout z analýzy ukazatelů dostupnosti (zejména vzdálenost od významných silnic, předpokládáme spíše pozitivní vliv na cenu) a dále z analýzy negativních environmentálních faktorů (hladina hluku či vzdálenost od významného zdroje znečištění, předpokládáme negativní vliv na cenu). Tento příspěvek je výstupem z grantu Aplikace teorie hedonické ceny na trhu pracovních sil a nemovitostí v ČR (IG 509037-28/07). Grant poskytla Interní grantová agentura Vysoké školy ekonomické v Praze, řešitelem grantu byl Ing. Ondřej Vojáček. Dále děkujeme prof. Wokounovi a ing. Damborskému z katedry regionálních studií za to, že se rozhodli z prostředků katedry zakoupit software ArcGIS 9.2 a umožňují k němu přístup také příslušníkům ostatních kateder Národohospodářské fakulty.
Literatura [1] Lancaster, K. J. (1966): A New Approach to Consumer Theory, Journal of Political Economy, 74, 132-157. [2] Luttik, J. (2000): The Value of Trees, Water and Open Space as Reflected by House Prices in the Netherlands, Landscape and Urban Planning, 48, 161-167. [3] Schroeder, T. D. (1982): The Relationship of Local Park and Recreation Services to Residential Property Values, Journal of Leisure Research, 14 (3), 223-234. [4] Crompton, J. L. (2001): Parks and Economic Development, Washington D. C.: American Planning Association. [5] Tyrvainen, L., Miettinen, A. (2000): Property Prices and Urban Forest Amenities, Journal of Environmental Economics and Management, 39, 205-223. [6] Bolitzer, B., Netusil, N. R. (2000): The Impact of Open Spaces on Property Values in Portland, Oregon, Journal of Environmental Management, 59 (3), 185-193. [7] Hammer, T. R., Coughlin, R. E., Horn, E. T. (1974): The Effect of a Large Park on Real Estate Value, Journal of the American Institute of Planners, 40, 274-277. [8] More, T. A., Stevens, T. H., Allen, P. G. (1988): Valuation of Urban Parks, Landscape and Urban Planning, 15, 139-152. [9] Rosen, S. (1974): Hedonic Prices and Explicit Markets: Production Differentiation in Pure Competition, Journal of Political Economics, 82, 34-55.