Data

Data se vztahují k odlišným informacím, obvykle formátovaným a uloženým způsobem, který odpovídá konkrétnímu účelu. Data mohou existovat v různých formách: jako čísla nebo text zaznamenaný na papír, jako bity nebo bajty uložené v elektronické paměti nebo jako fakta žijící v mysli člověka. Od příchodu počítačové vědy v polovině 1900. století se však data nejčastěji odkazují na informace, které se přenášejí nebo ukládají elektronicky.

Gramaticky jsou data množným číslem jednotného čísla, ale v praxi jsou data široce používána jako hromadné podstatné jméno, jako je písek nebo voda. Například by se dalo říci, že data v tomto případě dokazují něco pravdivého, „data“ označují mnoho informací, které se kolektivně používají k ověření nároku. Ne všichni autoři však akceptují použití populárního hromadného jména. Někteří akademičtí a techničtí redaktoři jsou neoblomní ohledně latinského množného a singulárního rozlišení („sada údajů dokazuje“ a „jeden údaj dokazuje“).


Strojově čitelná vs. člověkem čitelná data

Všechna data lze kategorizovat jako strojově čitelná, čitelná pro člověka nebo obojí. Data čitelná člověkem využívají formáty přirozeného jazyka (například textový soubor obsahující kódy ASCII nebo dokument PDF), zatímco data čitelná strojově používají formálně strukturované počítačové jazyky (Parquet, Avro atd.) Ke čtení počítačovými systémy nebo softwarem. Některá data jsou čitelná stroji i lidmi, jako v případě CSV, HTML nebo JSON.

Hranice mezi strojově a člověkem čitelnými daty se stále více stírá, protože tolik formátů, které dnes převládají, je dostatečně přístupných pro navigaci člověkem, ale dostatečně strukturovaných pro zpracování strojem. To je do značné míry výsledkem umělé inteligence, strojového učení a automatizace, která zefektivňuje úkoly a pracovní toky, takže ruční zadávání a analýzu dat provádí spíše stroj než člověk. Tyto procesy si však musí zachovat svou lidskou čitelnost pro případ, že by bylo nutné upravit programování. Většina dat v těchto případech existuje také ve vakuu a bez kontextu z lidského hlediska nemá velký význam.

Datové fráze v technologii

Data se stala v popředí mnoha mainstreamových rozhovorů o technologiích. Nové inovace neustále čerpají komentáře k datům, jak je používáme a analyzujeme, a širší důsledky pro tyto efekty. Výsledkem je, že populární IT lidová mluva začala obsahovat řadu nových i starých frází:

  • Velká data: Obrovský objem strukturovaných a nestrukturovaných dat, který je příliš velký na zpracování pomocí tradičních databázových a softwarových technologií.

  • Big data analytics: Proces shromažďování, organizování a syntézy velkých sad dat za účelem objevování vzorů nebo jiných užitečných informací.

  • Datové centrum: Fyzická nebo virtuální infrastruktura používaná podniky k ukládání počítačových, úložných a síťových systémů a komponent pro potřeby IT společnosti.

  • Integrita dat: Platnost dat, která může být ohrožena mnoha způsoby, včetně lidské chyby nebo chyby přenosu.

  • Data miner: Softwarová aplikace, která sleduje a / nebo analyzuje aktivity počítače a následně jeho uživatele za účelem shromažďování informací.

  • Data mining: Třída databázových aplikací, které hledají skryté vzory ve skupině dat, které lze použít k předvídání / předvídání budoucího chování.

  • Datový sklad: Systém pro správu dat, který k podpoře business intelligence využívá data z více zdrojů.

  • Databáze: Soubor datových bodů uspořádaný způsobem, který lze snadno manévrovat počítačovým systémem.

  • Metadata: Souhrnné informace o datové sadě.

  • Nezpracovaná data: Informace, které byly shromážděny, ale nebyly naformátovány nebo analyzovány.

  • Strukturovaná data: Jakákoli data, která se nacházejí v pevném poli v záznamu nebo souboru, včetně dat obsažených v relačních databázích a tabulkách.

  • Nestrukturovaná data: Informace, které se nenacházejí v tradiční databázi se sloupcovými řádky, jako jsou strukturovaná data.