Pokročilé neuronové reprezentace pro rekonstrukci obrazu

Vyvíjíme novou generaci metod umělé inteligence pro rekonstrukci obrazu z neúplných nebo degradovaných dat. Zaměřujeme se na případy, kdy je potřeba z „raw“ vstupů (např. z Bayerovy masky na čipu fotoaparátu) dopočítat plnobarevný ostrý obraz. Náš přístup reprezentuje obraz pomocí neuronových sítě jako spojitou funkci, což umožňuje efektivně odstranit šum či rozmazání a obnovit jemné detaily. Tyto pokročilé neuronové reprezentace tak dokážou automaticky vylepšit kvalitu obrazu i v náročných podmínkách.

Obrazové informace, které snímáme, jsou často neúplné nebo znehodnocené a je potřeba je zpětně rekonstruovat do použitelné podoby. Typickým příkladem je demosaicking – rekonstrukce plnobarevné fotografie z dílčích barevných dat, která zaznamenal senzor fotoaparátu přes Bayerovu masku. Tradiční algoritmy i běžné hluboké neuronové sítě mívají s takovou úlohou potíže a ve výsledku se mohou objevovat artefakty, zvláště pokud vstup obsahuje i další vady (například rozmazání). Náš projekt tyto výzvy řeší pomocí pokročilých metod AI, které využívají inovativní reprezentace neuronových sítí k získání ostřejšího a věrnějšího obrazu z hrubých vstupů.

Hlavní novinkou je využití implicitních neuronových reprezentací. Na rozdíl od běžných konvolučních sítí, které upravují mřížku pixelů, představuje implicitní reprezentace obraz jako spojitou matematickou funkci, naučenou neuronovou sítí. Konkrétně námi navržená metoda NeRD (Neural field-based Demosaicking) popisuje obraz pomocí souřadnicové neuronové sítě (MLP), která pro libovolné souřadnice pixelu přímo generuje jeho barvy. Tato síť je doplněna dalším modulem – enkodérem, jenž do MLP vnáší naučené rysy z trénovacích dat a zajišťuje, aby byly přesně rekonstruovány i jemné detaily a textury. Díky tomuto přístupu dokáže NeRD dosáhnout kvality srovnatelné se špičkovými metodami, a v mnoha případech překonává tradiční postupy i dosavadní hluboké sítě, přičemž se svým výkonem blíží i moderním modelům založeným na transformerech.

Architektura neuronové sítě NeRD

Zatímco NeRD se učí z množství trénovacích obrázků, naše navazující metoda INRID (Implicit Neural Representation for Image Demosaicking) posouvá tuto myšlenku ještě dál – vystačí si totiž pouze s jediným vstupním snímkem. INRID je samoadaptivní přístup, který pro každý jednotlivý snímek optimalizuje vlastní souřadnicovou neuronovou síť. V praxi to znamená, že do systému vložíme libovolný raw obraz ze senzoru a INRID se sám “vyladí” tak, aby u tohoto konkrétního snímku dopočítal chybějící barvy a zároveň potlačil například i rozmazání či šum. To vše probíhá bez potřeby dalších trénovacích dat – síť si potřebné rysy obrazu naučí sama za pochodu přímo z daného vstupu a z prvotního odhadu. Tato strategie samostatného učení umožňuje, že si INRID poradí i se situacemi výrazně odlišnými od běžných tréninkových podmínek a poskytne vysoce kvalitní výstup i u snímků s netypickými vadami.

Náš výzkum navazuje na širší snahu propojit moderní AI s klasickými postupy zpracování obrazu. Například dřívější projekt D3Net (Deep Demosaicking, Deblurring and Deringing Network) zkombinoval fyzikální modely s hlubokou sítí pomocí techniky zvané deep unrolling. Tím dokázal v jedné neuronové síti simultánně provést odstranění rozmazání i demosaicking a vystačil si přitom jen s minimem trénovacích dat. Další metoda, Dual-Cycle, využila princip cyklické konzistence (CycleGAN) pro rekonstrukci ve fluorescenční mikroskopii pomocí metody „self-supervised learning“. Dvě neuronové sítě se naučily vzájemně převádět ortogonální pohledy mikroskopu, takže bylo možné spojit dva různě orientované záběry do jednoho ostrého 3D obrazu bez potřeby párových trénovacích snímků. Právě tyto zkušenosti připravily půdu pro NeRD a INRID, které představují další krok kupředu díky využití implicitní reprezentace. Celkově tak naše metody posouvají trend směrem k AI řešením, která jsou však datově úsporná a zároveň vysoce přizpůsobivá novým problémům v obrazové rekonstrukci.

Neuronové sítě učíme nejen obraz vylepšit, ale v podstatě ho nově reprezentovat – což otevírá cestu k nové generaci inteligentního zpracování obrazu. Díky těmto pokročilým neuronovým přístupům náš projekt ukazuje, jak může AI účinněji řešit dlouhodobé výzvy rekonstrukce obrazu - ať už jde o data z běžné kamery nebo měření z vědeckého přístroje.

ZOI_project4_img1

Schéma metody INRID: Samoadaptivní přístup, který z jednoho raw snímku optimalizuje neuronovou síť pro automatickou rekonstrukci chybějících barev a odstranění rozmazání.

Související publikace:

KEREPECKÝ, Tomáš; ŠROUBEK, Filip. D3Net: Joint demosaicking, deblurring and deringing. In: 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021, pp. 1–8.
KEREPECKÝ, Tomáš; LIU, Jiaming; NG, Xue W.; PISTON, David W.; KAMILOV, Ulugbek S. Dual-Cycle: Self-Supervised Dual-View Fluorescence Microscopy Image Reconstruction using CycleGAN. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023.
KEREPECKÝ, Tomáš; ŠROUBEK, Filip; NOVOZÁMSKÝ, Adam; FLUSSER, Jan. NeRD: Neural field-based demosaicking. In: 2023 IEEE International Conference on Image Processing (ICIP). IEEE, 2023, pp. 1735–1739.
KEREPECKÝ, Tomáš; ŠROUBEK, Filip; FLUSSER, Jan. Implicit Neural Representation for Image Demosaicking. Digital Signal Processing, 2025, 159: 105022.

Kontaktní osoba

Tomáš Kerepecký