Co jsou to big data a odkud se berou

Ve statistice a informatice se termínem big data - "velké masy dat" - obecně označuje soubor informačních dat, který je tak velký co do objemu, rychlosti a rozmanitosti, že vyžaduje specifické technologie a analytické metody k získání hodnoty nebo znalostí. V literatuře se tedy vysvětluje, co to big data jsou a k čemu slouží, přičemž se používají termíny, které mohou pro nezasvěcené znít příliš odborně. Ve skutečnosti se jedná o jednu z nejhlubších a nejpronikavějších evolucí digitálního světa, která bude trvat dlouho a zásadně ovlivní náš každodenní život i produktivní činnosti firem.

Jde o vliv, který můžeme pociťovat každý den a který prakticky radikálně změnil mnoho základních činností naší existence. Stejně jako svět kolem nás. Proto zejména v posledních dvaceti letech slyšíme v tištěném i internetovém tisku stále častěji o megadatech, a ještě častěji na stránkách věnovaných marketingu a IT. V tomto průvodci společně zjistíme, jakou mají hodnotu, k čemu se používají a odkud mohou velká data pocházet.


Velká data: co jsou a k čemu se používají

Velká data jsou trendem, který je nejen silný, ale, jak jsme již zmínili, také předurčený k tomu, aby trval delší dobu. Navíc se neustále zlepšuje z hlediska aplikací. Jak jste jistě pochopili, tento termín se používá v souvislosti se schopností - vlastní vědě o datech - analyzovat, extrapolovat a propojovat velmi velké množství různorodých dat, strukturovaných i nestrukturovaných. To vše díky sofistikovaným metodám statistického a počítačového zpracování, jejichž cílem je odhalit souvislosti a korelace mezi různými jevy a následně předpovídat budoucí jevy.

Uveďme několik příkladů: z obchodního hlediska lze big data využít k různým účelům, včetně měření výkonnosti organizace nebo obchodního procesu. Abychom však plně pochopili, co jsou to velká data, můžeme si v každodenním životě vzpomenout na interakci na sociálních sítích, navigaci na libovolné webové stránce nebo na nejmodernější chytré telefony, které jsou prakticky neustále propojené, a nesmíme zapomenout ani na kreditní karty používané při nakupování, televizi, úložiště potřebná pro počítačové aplikace, infrastrukturu chytrých měst a senzory umístěné na budovách a ve veřejné i soukromé dopravě.

Ve všech těchto případech se setkáváme se skutečně působivým množstvím generovaných dat, které je samozřejmě mnohem vyšší než před několika desetiletími. Dnes lze velká data analyzovat v reálném čase. Kromě toho se zdrojem dat postupem času stal také člověk, stejně jako vzniká nezanedbatelné množství dat v hodnotovém řetězci jakéhokoli odvětví. V roce 2011 společnost Teradata uvedla, že "systém velkých dat překračuje/překračuje/překonává hardwarové a softwarové systémy běžně používané k zachycení, správě a zpracování dat v rozumném časovém horizontu pro komunitu/populaci uživatelů, a to i masivní."

Další návrh na charakteristiku velkých dat uvedl McKinsey Global Institute: "Systémem velkých dat se rozumí datové soubory, jejichž velikost/objem je tak velký, že překračuje kapacitu relačních databázových systémů pro zachycení, uložení, správu a analýzu." Ve skutečnosti pouhá definice velkých dat nestačí k tomu, aby poskytla úplný a optimální obraz o tak významném fenoménu. Ve skutečnosti se nejedná pouze o velké množství dat: změnil se také proces sběru a správy dat a vyvinuly se technologie podporující životní cyklus dat a jejich využití.

Velká revoluce, o které mluvíme, když hovoříme o velkých datech, je tedy především schopnost využít všechny tyto informace ke zpracování, analýze a nalezení objektivních důkazů o různých otázkách. To se promítá do toho, co všechno lze s takovým množstvím dat udělat, tj. algoritmy schopné vypořádat se s tolika proměnnými v krátkém čase a navíc s několika málo dostupnými výpočetními prostředky - třeba i s jednoduchým notebookem pro přístup k analyzované platformě. Velká data, zjednodušeně řečeno, předpokládají nové a dokonalejší schopnosti propojování informací, které umožňují skutečně vizuální přístup k datům a navrhují vzorce a modely interpretace, které si dosud nebylo možné ani představit.

Velká data jsou tedy obecně definována třemi V. Prvním z nich, velmi velkým objemem dat, je objem, tj. množství dat (strukturovaných i nestrukturovaných) generovaných každou sekundu z různorodých zdrojů - za všechny jmenujme například senzory, logy, e-maily, GPS, sociální média a tradiční databáze. Máme také Variety, což se týká různých typů dat, která se generují, hromadí a používají, a nakonec Velocity - protože velká data vznikají v reálném čase. Postupem času bylo zavedeno čtvrté V, Pravdivost, a poté páté V, Hodnota.

Různá využití velkých objemů dat

Analýza velkého množství dat nám umožňuje získávat nové poznatky užitečné pro přijímání informovanějších rozhodnutí, a to nejen v oblasti podnikání. Nyní, když víme, co jsou big data a k čemu se používají, je stejně tak nutné si uvědomit, jak se používají v různých odvětvích. To vše je možné a zcela dostupné díky technologiím, které umožňují správu nestrukturovaných dat a zpracování velkých objemů dat v reálném čase, ale také díky rozšíření sofistikovanějších algoritmů a značně inovativních metodik analýzy.

Tyto nástroje mohou a měly by samostatně extrapolovat informace skryté v datech. Ve skutečnosti se promítají do nekonečného množství aplikací, které jsou v moderním světě viditelné každý den. Především v marketingu nacházejí megadata nejužitečnější a nejrozšířenější využití, neboť se hojně využívají při konstrukci takzvaných doporučovacích metod, které používají například giganti v oblasti zábavy a elektronického obchodu - například Netflix a Amazon - k vytváření návrhů na nákup na základě zájmů konkrétního zákazníka a milionů dalších. Vnímání a následné omezení podvodů je dalším příkladem toho, jak lze velká data využívat na každodenní bázi k vytváření produktivní hodnoty a zlepšování jakéhokoli druhu zkušeností uživatelů služby nebo platformy. Přední společnosti vydávající kreditní karty, jako jsou Visa nebo American Express, nepřekvapivě analyzují miliardy transakcí z celého světa každý den, aby identifikovaly neobvyklé pohyby a vzorce a výrazně tak snížily počet a výskyt podvodů v reálném čase.

Není bez využití ani v tzv. prediktivní údržbě. Tento termín označuje společnosti, které využívají data shromážděná o provozu k analýze výkonnosti a předvídání možného výskytu budoucích problémů dříve, než nastanou. Odborníci zjistili, že společnosti, které jsou lídry v oblasti velkých dat, jsou schopny generovat v průměru o 12 % vyšší zisk než společnosti, které hodnotu těchto datových hvězd naší doby nevyužívají.

Ve veřejné sféře existuje mnoho dalších typů využití velkých dat: v posledních letech využívají policejní složky velké množství dat v reálném čase k předvídání, kde a kolik trestných činů se s největší pravděpodobností stane; přesnější studie provádějí sdružení odpovědná za korelaci mezi zdravím a kvalitou vzduchu, který dýcháme; existuje také možnost provádět genomickou analýzu pro zlepšení odolnosti rýže vůči suchu; nebo dokonce vytváření modelů pro analýzu dat z živých bytostí v biologických vědách a v lékařském výzkumu, a to jak diagnostickém, tak farmakologickém.

Ve všech těchto oblastech je samozřejmě naprosto nezbytné, aby bylo legitimní využívání velkých dat regulováno, protože mají neuvěřitelnou hodnotu. Nezákonné nebo příliš rušivé využívání údajů může v méně závažných případech podkopat důvěru zákazníků ve společnosti. V závažnějších případech však může způsobit škody občanům, kteří mohou být pacienty, voliči a spotřebiteli, což je definováno jako nejslabší článek hodnotového řetězce. Jak je zdůrazněno v obchodní literatuře a právních předpisech, ochrana jednotlivců zahrnuje právo na soukromí a osobní svobody: aby byla tato ochrana zaručena, je třeba posílit kontrolní a sankční činnost příslušných státních orgánů a přizpůsobit ji pokročilejším regulačním a finančním nástrojům.