Co jsou strukturovaná data?

Strukturovaná data označují všechna data, která se nacházejí v pevném poli v záznamu nebo souboru. To zahrnuje data obsažená v relačních databázích a tabulkách.


Charakteristiky strukturovaných dat

Strukturovaná data nejprve závisí na vytvoření datového modelu, modelu typů obchodních dat, která budou zaznamenána, a způsobu, jakým budou uložena, zpracována a zpřístupněna. To zahrnuje definování, jaká pole dat se budou ukládat a jak se budou data ukládat: datový typ (číselný, měnový, abecední, název, datum, adresa) a veškerá omezení pro zadávání dat (počet znaků; omezeno na určité výrazy, například jako pan, paní nebo dr .; M nebo F).

Výhodou strukturovaných dat je snadné zadávání, ukládání, dotazování a analýza. Najednou z důvodu vysokých nákladů a omezení výkonu úložiště, paměti a zpracování byly jediným způsobem, jak efektivně spravovat data, relační databáze a tabulky využívající strukturovaná data. Cokoli, co se nevejde do úzce organizované struktury, bude muset být uloženo na papíře v kartotéce.

Správa strukturovaných dat

Strukturovaná data jsou často spravována pomocí strukturovaného dotazovacího jazyka (SQL), programovacího jazyka vytvořeného pro správu a dotazování na data v systémech správy relačních databází. Původně vyvinut společností IBM na začátku 1970. let a později komerčně vyvinutou společností Relational Software, Inc. (nyní Oracle Corporation).

Strukturovaná data byla obrovským zlepšením oproti přísně papírovým nestrukturovaným systémům, ale život ne vždy zapadá do úhledných malých krabiček. Výsledkem bylo, že strukturovaná data musela být vždy doplněna papírovým nebo mikrofilmovým úložištěm. Vzhledem k tomu, že se výkon technologie stále zlepšoval a ceny klesaly, bylo možné do výpočetních systémů vnést nestrukturovaná a polostrukturovaná data.


Nestrukturovaná a polostrukturovaná data

Nestrukturovaná data jsou všechny ty věci, které nelze tak snadno klasifikovat a zapadnout do přehledné krabice: fotografie a grafické obrázky, videa, data o streamovaných nástrojích, webové stránky, soubory PDF, prezentace v PowerPointu, e-maily, položky blogů, wiki a dokumenty pro zpracování textu .

Polostrukturovaná data jsou křížencem těchto dvou. Je to typ strukturovaných dat, ale postrádá přísnou strukturu datového modelu. S polostrukturovanými daty se tagy nebo jiné typy značek používají k identifikaci určitých prvků v datech, ale data nemají rigidní strukturu. Například software pro zpracování textu nyní může obsahovat metadata zobrazující jméno autora a datum vytvoření, přičemž převážnou částí dokumentu je pouze nestrukturovaný text. E-maily obsahují odesílatele, příjemce, datum, čas a další pevná pole přidaná k nestrukturovaným datům obsahu e-mailové zprávy a jakýchkoli příloh. Fotografie nebo jiné grafiky lze označit klíčovými slovy, jako je tvůrce, datum, umístění a klíčová slova, což umožňuje organizovat a vyhledávat grafiku. XML a další značkovací jazyky se často používají ke správě polostrukturovaných dat.


Standardy technologie strukturovaných dat

SQL je standardem Amerického národního normalizačního institutu od roku 1986. Je řízen Mezinárodním výborem pro standardy informačních technologií (INCITS) Technická komise DM 32 Správa a výměna dat. Výbor má dvě pracovní skupiny, jednu pro databáze a druhou pro metadata. Účastní se společnosti HP, CA, IBM, Microsoft, Oracle, Sybase (SAP) a Teradata a také několik federálních vládních agentur. Oba dokumenty projektu výboru mají odkazy na další informace o každém projektu. SQL se stal standardem Mezinárodní organizace pro standardy (ISO) v roce 1987. Publikované standardy jsou k dispozici ke koupi v Obchod ANSI eStandards, podle klasifikace INCITS / ISO / IEC 9075.