1 Role sociálních signálů na třídění aktuálních online informací Abstrakt The role of social signals for sorting of current online information Nárůst ...
Role sociálních signálů na třídění aktuálních online informací The role of social signals for sorting of current online information Abstrakt Nárůst míry využívání sociálních sítí má vliv i na další sektory. Text článku se zabývá zkoumáním vlivu sociálních sítí na třídění aktuálních online informací distribuovaných formou populárních článků. Analýza je prováděna prostřednictvím komparace výsledků aplikace vytvořené autorem článku a v Česku využívaných vyhledávačů. Z výsledků vyplývá, že význam sociální interakce výrazně roste i ve vyhledávání informací a záleží pouze na kvalitě algoritmu, který určí způsob třídění zobrazovaných informací.
Klíčová slova Sociální vyhledávač, společenské interakce, sociální signály
Abstract The increase in the use of social networks has an impact on other sectors. Text of article examines the impact of social networks on the classification of current online information distributed in the form of popular articles. The analysis is performed through comparison of results of application created by the author of the paper and search engines used in the Czech Republic. The results show that the importance of social interaction increases significantly in information retrieval and depends only on the quality of the algorithm, which determines a method of classification for information representation.
Key Words Social search engine, social interaction, social signals
ÚVOD S neustále se zvyšující se popularitou sociálních sítí a jiných webových nástrojů, umožňujících snazší interakci uživatele s tvůrci obsahu nebo ostatními uživateli, roste také důraz kladený na význam těchto aplikací pro jejich zpětné využití. Data, která poskytují tyto aplikace lze analyzovat a využívat pro implementaci do dalšího vývoj. Spojení kvalitních algoritmů a tzv. „sociální inteligence“ přináší v současné době nové možnosti do mnoha oborů. Tento příspěvek se chce zaměřit právě na možnosti využití sociální interakce pro zkvalitnění zprostředkovávaných informací.
CÍL A METODIKA PRÁCE Cílem článku je porovnat možnost využití dat poskytovaných reálnými uživateli Internetu pro opětovné využití v rámci třídění informací seriózních zpravodajských serverů. Následně také prozkoumat další možnosti využití těchto údajů pro vyhledávání a jiné aplikace třetích stran. Jako podklady pro zkoumání dané problematiky sloužily zdroje uvedené v seznamu literatury. Základem studie je autorem příspěvku vytvořená webová aplikace LinksTip.com, která je dostupná také v české verzi na LinksTip.cz a slovenské verzi LinksTip.sk. Tato aplikace agreguje data nově uveřejněných článků na desítkách informačních serverů v České republice, Slovensku, USA a Velké Británii. Pro usnadnění analýzy budou brány v úvahu pouze české zdroje, mezi které konkrétně patří: Aktuálně.cz, Blesk.cz, Bleskově.cz, ČeskéNoviny.cz, ČT24.cz, Deník.cz, E15.cz, EraSport.cz, EuroZprávy.cz, iDNES.cz, iHNed.cz, Lidovky.cz, MediaFax.cz, PrvníZprávy.cz, Týden.cz, Zprávy.czin.eu, AC24.cz, AHAonline.cz, Autoforum.cz, AutoRoad.cz, Autoweb.cz, ČeskáPozice.cz, Cestovatel.cz, ChytráŽena.cz, Cnews.cz, Digimanie.cz, Digitálně.cz, DIIT.cz, Dokina.cz, Doupě.cz, Euro.cz, Femina.cz, Finanční-poradenství.com, FotbalPortal.cz, FreeMusic.cz, GamePark.cz, Games.cz, HokejPortal.cz, Hratelně.cz, Hrej.cz, In-počasí.cz, Informuji.cz, ITBiz.cz, JenProMuže.cz, JustIT.cz, Loupak.cz, Lupa.cz, Maxiorel.cz, MediaGuru.cz, Médiář.cz, Měšec.cz, MobilMania.cz, MoneyMAG.cz, Moviescreen.cz, musicserver.cz, Odhaleno.cz, ParlamentniListy.cz, Prochlapa.cz, Programujte.com, RAVE.cz, Reflex.cz, Root.cz, SvětHardware.cz, t-music.cz, TN.cz, TVFreak.cz, TyInternety.cz, VideaČesky.cz, WebČesky.cz, ZaVolantem.cz, Žena.cz, Ženy.cz, Zing.cz, Živě.cz. Zahrnuty tak jsou seriózní zdroje, oborové zdroje, volnočasové zdroje a další populární zpravodajské weby, které pravidelně publikují aktuální články. Z těchto zdrojů se pravidelně, několikrát denně, integrují do aplikace LinksTip.cz pomocí RSS zdrojů základní údaje o uveřejňovaných článcích. Jedná se především o titulek článku, popis článku, datum publikování, rubrika článku a případně také doprovodný obrázek. Pokud není odkaz na obrázek obsažen přímo ve zdroji, snaží se aplikace obrázek získat přímo při návštěvě cílové URL adresy z meta dat. U všech článků se dále pravidelně aktualizují údaje ohledně sociálních interakcí uživatelů sociální sítě Facebook. Konkrétně jsou u každého článku několikrát denně aktualizovány údaje o počtu označení článku jako „To se mi líbí“, počet sdílení článku a počet komentování článku. Zaznamenávána je také návštěvnost článku skrze katalog článku LinksTip. Hlavním kritériem pro třídění článků je v aplikaci LinksTip právě počet „To se mi líbí“, které lze pracovně označit jako „likes“. Nejdříve jsou tak zobrazeny články s nejvyšším počtem „likes“ za určitý časový interval, kterým může být 12 hodin, 24 hodin, 2 dny, 3 dny, 4 dny, 5 dní nebo za celý měřený časový úsek. Zjednodušený model integrace dat ze zpravodajských webů a sociální sítě Facebook včetně zpracování dat aplikací LinksTip znázorňuje následující diagram.
Obrázek č. 1: Model zpracování dat aplikací LinksTip.com
Zdroj: Vlastní zpracování Ze získaných dat zobrazených také na LinksTip.com se vycházelo pro následnou komparaci. Výsledky zobrazované na LinksTip.com byly následně porovnávány s odhadovanou návštěvností článků. Pro srovnání byl sledován vliv na výsledky hledání ve dvou nejčastěji používaných vyhledávačích v Česku – Google a Seznam.cz.
FORMÁTY INTEGRACE DAT Současným standardem pro šíření publikovaného online obsahu se na zpravodajských webech stal XML formát RSS. Zpravidla se využívá ve verzích 0.9* nebo novější 2.0.*. RSS je formát pro syndikaci webového obsahu. RSS je zkratka Really Simple Syndication, do češtiny volně přeloženo jako Skutečně jednoduchá syndikace. Všechny RSS soubory musí splňovat kritéria specifikace XML 1.0, kterou představila organizace W3C. Na začátku RSS dokumentu se nachází element s povinným atributem určujícím verzi RSS. Dále se specifikuje zdroj dat prostřednictvím elementu , který obsahuje metainformace kanálu. Základní specifikace byla představena již v roce 1999. Následná verze RSS 0.91 byla představena již v červnu 2000. Na tuto verzi navázalo představení verze RSS 0.92 v prosinci 2000 a RSS 0.94 v srpnu 2002. Aktuálně je poslední verzí RSS 2.0.11, která byla představena
30. dubna 2009. Sami tvůrci oficiální dokumentace uvádějí, že RSS není ideální formát pro syndikaci obsahu, ovšem jeho podstatnou výhodou je jeho popularita a rozšíření. (RSS Advisory Board 2009) Mezi základní požadované prvky popisující daný kanál jsou název (), odkaz (). Volitelně lze dále definovat jazyk, copyright, editora, webmaster, datum publikování, poslední úpravu, kategorii, obrázkové logo a další charakteristiky zdroje. Hlavním přínosem RSS je možnost zveřejňovat nově přidané články, které se uvádějí do elementu . U každého článku lze dále definovat titulek, popis a odkaz. Kromě toho lze přidat i další volitelné prvky, mezi které patří zdroj (<source>), přídavný multimediální obsah (<enclosure>), kategorie (), datum publikování (), unikátní trvalý identifikátor (), komentáře () a autor (). (RSS Advisory Board 2009)
SOCIÁLNÍ SÍTĚ PRO ANALÝZU DAT Existuje velké množství internetových sociálních sítí. Pouze několik z nich má miliony aktivních uživatelů. V České republice se z mezinárodních sociálních sítí, které poskytují data pro další analýzu, nejvíce využívá sociální síť Facebook. Aby mohli být výsledky výzkumu založeny na větším množství empirických dat, využívá aplikace LinksTip právě data sociální sítě Facebook.
Facebook Facebook je nejpopulárnější sociální mediální platformou na světě. Uživatelé mohou vytvářet profily, na kterých mohou publikovat osobní informace a komunikovat s ostatními uživateli veřejně i soukromě. V České republice využívá Facebook přes 3 900 000 registrovaných uživatelů, z toho je zhruba 55 % uživatelů ve věku 18 až 34 let (Zoomsphere 2013). To značí, že tuto sociální síť dle udávaných údajů dat společnosti Facebook (Zoomsphere 2013) ve srovnání s daty ČSÚ (ČSÚ 2013) využívá přes 37 % celkové populace České republiky.
Ostatní sociální platformy pro analýzu dat Kromě sociální sítě Facebook uvolňuje data také sociální platforma Twitter, která umožňuje uživatelům publikovat zprávy o maximální délce 140 znaků. Na Twitteru se nachází více než 182 tisíc uživatelů, kteří vkládají příspěvky v českém nebo slovenském jazyce (Šlerka 2013). Určitá data uvolňuje také LinkedIn, který je největší sociální síť pro profesionály. Uživatelé mohou psát své životopisy, komunikovat s ostatními lidmi pracujícími ve stejném oboru a prezentovat se svým partnerům. Na LinkedIn je registrováno více než 535 tisíc uživatelů z České republiky (SocialBakers 2013). Určitá data poskytuje také sociální síť společnosti Google nazvaná Google Plus. Celosvětově jsou také vhodnými zdroji informací specializované sociální platformy Instagram nebo Pinterest, které zatím nejsou tolik v Česku rozšířené. Mezi dalšími aplikacemi, které uvolňují určitá data sociální interakce a mohli by být vhodným zdrojem pro analýzu dat v Česku, jsou například využívané nástroje AddThis.com, Disqus.com a další.
VYUŽITÍ SOCIÁLNÍCH INTERAKCÍ VE VYHLEDÁVÁNÍ Společnost Google Inc., která provozuje celosvětově nejpoužívanější vyhledávač současnosti, podala již v roce 2010 žádost o patent na „Sociální vyhledávač“ (Ventilla 2011). Společnost Google uvádí, že využívá mnoho sociálních prvků pro své řazení výsledků vyhledávání. Podle studie SearchMetrics jsou sociální signály v současné době nejdůležitějšími prvky, které určují pořadí výsledků ve vyhledávači Google. Konkrétně ze studie vyplývají faktory ovlivňující řazení výsledků ve vyhledávání společnosti Google včetně jejich významnosti. (SearchMetrics 2013) Obrázek č. 2: SEO hodnotící faktory – korelační hodnocení v roce 2013
Zdroj: SearchMetrics
Je patrné, že sociální faktory mají v současné době vysokou prioritu. Dle studie bere v úvahu vyhledávač Google především sociální interakce provedené na jeho vlastní sociální síti Google Plus, ale také interakce zjištěné na sociálních sítích Facebook, Pinterest i Twitter. (SearchMetrics 2013) Lze předpokládat, že i ostatní internetové vyhledávače, včetně českého fulltextového vyhledávače Seznam, uvažují ve svých vyhledávacích algoritmech se sociálními interakcemi. Kromě dat, která jsou schopny získat od třetích stran, mohou využívat i vlastní data. Za sociální interakci využívanou pro řazení výsledků lze též považovat chování uživatele při využívání vyhledávače. Tedy forma hledané fráze, počet hledání dané fráze, navštívení stránky na zadanou frázi, opětovné vyhledávání po navštívení stránky apod. Důraz na sociální faktory se zvyšuje i na úkor ostatních faktorů. Zástupci největšího ruského vyhledávače Yandex dokonce prohlásili, že od roku 2014 chtějí úplně upustit od sledování počtu zpětných odkazů jako hodnotícího faktoru (Oshkalo 2013).
AKTUÁLNÍ ZPRAVODAJSTVÍ VE VÝSLEDCÍCH HLEDÁNÍ Pro porovnání způsobu zařazování aktuálních zpráv do výsledků hledání byly využity stovky vyhledávacích dotazů na aplikaci LinksTip a ve vyhledávačích Google a Seznam. Konkrétně se tak jednalo například o porovnání výsledků na dotaz „jágr“: http://www.linkstip.com/cz/search/?q=j%C3%A1gr https://www.google.cz/search?q=j%C3%A1gr http://search.seznam.cz/?q=j%C3%A1gr Všechny porovnávané zdroje zobrazovali články pouze z vybraných zdrojů. Hlavním rozdílem byl způsob řazení. Zatímco vyhledávače řadí články pouze dle data publikování, aplikace LinksTip využívá řazení dle počtu sociálních interakcí za určitý časový úsek. To přináší nový pohled na možnosti hledání aktuálních informací v návaznosti na jejich oblíbenost přímo u čtenářů. Vyhledávač Google používá vlastní algoritmus řazení zpráv až v jeho vyhledávání zpráv dle naší studie obdobně jako aplikace LinksTip, tedy založené na významnosti článků zahrnující i sociální signály.
ZÁVĚR V našem vlastním měření prostřednictví aplikace LinksTip bylo patrné, že dlouhodobě jsou upřednostňovány články, které mají spíše volnočasový charakter. Jednalo se především o články zaměřené na film, hudbu, historické informace, sport a články z oblasti populární vědy. Články zabývající se domácím i zahraničním děním, kterých bylo nejvíce, byly na předních místech pouze v omezené míře. Politické články získaly svou oblibu pouze v případech, kdy se danému tématu věnovala většina českých médií – tedy například v období voleb. Pokud by bylo cílem vytvořit z článků klasický informační přehled, který by zahrnoval informace ze všech rubrik, bylo by příhodné do řazení článků přidat určitou váhu, která by upřednostňovala seriózní články ohledně aktuálního dění. Tyto články se zpravidla nacházejí v rubrikách domácí nebo zahraniční dění. Vyhledávání prostřednictvím aplikace LinksTip nabízí oproti klasickým vyhledávačům nový přístup k řazení aktuálních článků. Zkoumané vyhledávače Google i Seznam řadí na výsledky hledání pouze seriózní články
podle data publikování. Vyhledávání prostřednictvím aplikace LinksTip naopak řadí články z vybraných zdrojů dle oblíbenosti za určitý časový interval. Výstupní data členěná podle kategorií obsahovala vhodné informace, které by mohli využít i další zdroje zaměřené pouze na danou problematiku. Závěrem je nutné říci, že významnost faktoru sociálních interakcí se výrazně zvyšuje a je tedy důležité umožnit v co největší míře návštěvníkům stránek i vyhledávačů reagovat na vše možné.
LITERATURA ČSÚ. (12. prosinec 2013). Population change - 1st - 3rd quarter of 2013. Načteno z ČSÚ: http://www.czso.cz/csu/csu.nsf/enginformace/coby121213.docx Max Ventilla, e. a. (2011). Patent č. 2011053830. USA. Oshakalo, A. (13. květen 2013). Yandex SEO is maybe not dead, but links are. Načteno z RussianSearchTips.com: http://www.russiansearchtips.com/2013/12/yandex-seo-deallinks/ RSS Advisory Board. (30. duben 2009). RSS 2.0 Specification. Načteno z http://www.rssboard.org/rss-specification Scale, M.-S. (26. duben 2008). Facebook as a social search engine and the implications for libraries in the twenty-first century. Library Hi Tech, stránky 540 - 556. SearchMetrics. (25. prosinec 2013). SEO Ranking Factors – Rank Correlation 2013 for Google USA. Načteno z SearchMetrics.com: http://www.searchmetrics.com/en/services/ranking-factors-2013/ SocialBakers. (25. prosinec 2013). Czech Republic LinkedIn Statistics. Načteno z SocialBakers: http://www.socialbakers.com/countries/linked-in-country-detail/czechrepublic Šlerka, J. (25. prosinec 2013). Český a slovenský Twitter v číslech. Načteno z Klaboseni.cz: http://www.klaboseni.cz/vyvojpoctu.php ZoomSphere. (25. prosinec 2013). Facebook Users from "Czech Republic". Načteno z ZoomSphere: http://www.zoomsphere.com/charts/facebook/countries/cz