Počítačové vidění

Počítačové vidění je multidisciplinární obor, který se pokouší pomoci počítačům číst a porozumět digitálním obrazům podobně jako v lidském optickém systému. Obecně řečeno zahrnuje výpočetní inteligenci a strojové učení. Je založen na porozumění vizuálnímu kontextu, nejen na psaném nebo katalogizovaném obsahu obrázku nebo videa (například uměle vytvořený textový popis vložený do obrázku nebo videa, který jej pomůže najít v počítačovém systému). O počítačovém vidění se ve vědeckých komunitách diskutuje od šedesátých let, ale snažil se dosáhnout významného pokroku, hlavně proto, že obrazová analýza a kontext jsou velmi složité a lidský optický systém daleko předčí jakoukoli výpočetní schopnost.

Hluboké učení v poslední době umožnilo počítačovým systémům lépe analyzovat obrázky tím, že jim zobrazovaly obrázky. Počítač se postupem času naučí identifikovat podrobnosti z obrázků, které mu pomohou zaznamenat tyto podrobnosti v jiných obrázcích (rozpoznávání obrázků). Celkovým cílem počítačového vidění je, že počítač je schopen porozumět podrobnostem obrazu a interpretovat ho nebo vysvětlit lidem. Hluboké učení pomáhá tomuto cíli stát se realističtějším, ale počítačové vidění je stále daleko od místa, kde by si to vědci přáli.

Díky dvěma hlavním problémům s počítačovým viděním je jeho implementace náročná. Vizuální svět má ve své podstatě mnoho změn a rozmanitosti. Je to také velmi složité. I když je lidský mozek navržen tak, aby rychle, nedobrovolně analyzoval nejmenší podrobnosti o obrazu nebo jiném vizuálním médiu, počítače tomu tak není. Zadruhé, počítačové vidění je obecně založeno na lidském optickém systému a ani vědci mu nerozumí natolik dobře, aby se ho pokusili adekvátně znovu vytvořit.