Tömörítő leképezés, avagy egyetlen pixeles kamera

0

A 2006. évben a texasi Rice Egyetem kutatói (a kutatócsoport vezetői Richard Baraniuk és Kevin Kelly) több nemzetközi konferencián ismertették újszerű, egyetlen optikai érzékelőt (fotodiódát) tartalmazó fényképezőgépük konstrukcióját és lehetséges alkalmazásait, képekkel is bemutatva gépük „deszkapéldányával” elért leképezések eredményét. Előadásaik nagy érdeklődést váltottak ki az optikával, képfeldolgozással foglalkozó szakemberek körében. A New Scientist honlapján 2006. október 5. keltezéssel „Egypixeles kamera egyszerűsítheti a leképezést (Single-pixel camera could simplify imaging)” címmel közöl az eljárásról rövid ismertetést. A Fizikai Szemle 2006/11 számában magyarul is megjelent róla egy rövid hír.

Analóg jelek feldolgozása elméletben

A digitális jelfeldolgozás iskolában régóta tanított dogmája szerint egy analóg jelből a torzítások elkerülése érdekében legalább kétszer akkora frekvenciával kell mintát venni, mint a jel összetevői között jelen levő (megőrzendő) legnagyobb frekvencia (Shannon-tétel – a szerk.). A HiFi hangzás eléréséhez hozzávetőlegesen 20 kHz frekvenciáig terjedő sávszélességhez az audio CD 44,1 kHz frekvenciás mintavétellel készül. A digitális képalkotásban a képérzékelő pixelszámának az elérni kívánt felbontással arányban álló, több milliót kitevő nagysága biztosítja a mintavétel elegendően nagy (térbeli) frekvenciáját. Ezt a dogmát kérdőjelezték meg a kutatók az utóbbi néhány évben, arra hivatkozva, hogy az analóg jelek (hang, kép) fenti dogmának megfelelő, igen nagy felbontású digitalizálását követően az így előállított, óriási adathalmazt rendszerint radikális tömörítésnek vetik alá (pl. MP3 hang- és JPEG képtömörítés). A tömörítő algoritmusok eldobják a korábban előállított információ jelentős (de az eredményt hallva-látva kevéssé lényeges) részét, gyakran akár 90, sőt 99%-át. Az eredmény természetesen bizonyos információ-vesztés, de ha jó tömörítő algoritmust alkalmazunk, amely kiválasztja az információ-halmazból azokat a törölhető összetevőket, amelyekre hallásunk, látásunk kevéssé érzékeny, az információ törlés hatását nem, vagy alig vesszük észre. Az emberi érzékelés számára kicsiny veszteség árán az információ mennyiségét akár 1-2 nagyságrenddel (1/10, 1/100 részére) csökkenthetjük. (Bár két nagyságrendes tömörítést a minőségromlás miatt a gyakorlatban azért ritkán használunk. – a szerk.) Ezt mindenki tudja, aki MP3 hangfájlokban tárol zenét, vagy képeit JPEG fájlokban menti. De ha ezt megtehetjük, akkor az eredeti hatalmas tömegű információ előállítása rendkívül pazarló munkamódszer. Optimálisabbnak tűnik, ha már a jelfeldolgozás kezdeti szakaszában megkíséreljük kiválogatni az érzékelésünk számára fontos összetevőket, és eleve kihagyjuk a kevésbé lényegeseket. A kutatási terület elnevezése: tömörített érzékelés vagy tömörítő mintavétel (még az angol terminológia sem egységes, a szakirodalomban használt megnevezések: compressed sensing, compressive sensing, compressive sampling, signal sketching). Jelentőségét (egyelőre) nem is az emberi (pl. vizuális) érzékelésre szánt információ (pl. kép) gyűjtés, hanem a jelek automatikus feldolgozása (pl. alakfelismerés) esetében látják a kutatók. Kezdetben a kutatások az elméleti megalapozásra, az adatfeldolgozás hatékony algoritmusainak kidolgozására irányultak.

Az új megközelítés

A Rice Egyetem kutatóinak új megközelítése abban áll, hogy a korábban elért eredményekre, a kidolgozott algoritmusokra támaszkodva, már a kép digitalizálását megelőzően, az analóg jeleknek tömörített formába történő közvetlen átalakítását végzik el, nonlineáris módszerek alkalmazásával. A működés matematikai alapjainak leírása meghaladja ennek a rövid ismertetőnek a terjedelmét. Fogadjuk el, hogy az alább vázlatosan bemutatásra kerülő mérőrendszerrel, a kutatók által tömörítő leképezési eljárásnak (compressive imaging) nevezett folyamatban gyűjtött információból, számítógépen, megfelelő matematikai algoritmus alkalmazásával előállítható a kép (egyelőre meglehetősen szerény minőségben – de emlékezzünk vissza: Nicéphore Niépce vagy Louis Daguerre korai analóg képei (1820-30 körül), vagy az 1970-es évek közepén, CCD-vel előállított korai digitális képek sem voltak tökéletesek). Baraniuk és Kelly fényképezőgépével előállított, rekonstruált képeket lásd alább (a képeket, valamint a fényképezőgép felépítésének blokkvázlatát a szerzők, a Rice Egyetem szíves engedélyével közöljük):

Az egypixeles (tömörítő) kamera vázlatos elrendezése

Az ábrán alkalmazott rövidítések jelentése: RNG – véletlenszám generátor (Random Number Generator); PD –fotodióda (Photo-diode); DMD – Digitális mikrotükör készülék (Digital Micromirror Device); A/D –Analóg-digitál átalakító; RF – rádiófrekvenciás; DSP – digitális jelfeldolgozó (Digital Sygnal Processor).

Az egypixeles fényképezőgépben az objektív a képet nem apró fényérzékelő elemekből, hanem (a kísérleti berendezésben 1024×768 darab) mikrotükrökből álló lapra vetíti. Minden egyes tükörnek két állapota van, távvezérelve fordítható egyikből a másikba: az egyik állapotukban a rájuk eső fényt egy gyűjtőlencsén keresztül annak fókuszpontjában elhelyezett egyetlen fotodiódára továbbítják, míg a másik állapotba fordított tükrökről a fény oldalra kerül, nem hasznosul. A fényképezőgép a tükröket véletlenszerűen kapcsolgatja a két állapot között, és minden beállításban a fotodióda bizonyos, véletlenül kiválasztott képpontokhoz tartozó fény összegével arányos jelet ad. Másodpercenként 1000 különböző képpont-kombináció összesített jele kerül továbbításra a számítógépbe. Már néhány száz jelből felismerhető kép állítható vissza (lásd a fenti képeket – ezek készítésekor nem használták ki a mikrotükör készülék csaknem 1 Mpixel felbontását, mindössze 64×64=4096 pixeles felbontást alkalmaztak), de a minták számát növelve valamelyest javul a kép minősége. A kép-rekonstrukciós algoritmusok fejlesztésétől a hasonló tömörségű érzékelésből rekonstruált képek minőségének javulása remélhető.

A módszer előnyei: az adatfájlok mérete jelentősen kisebb, ami az átviteli csatornával kapcsolatos követelményt mérsékli; a jelfeldolgozás a kamerán kívül történik, így a fényképezőgépben sokkal kisebb az energiafelhasználás (az egyetlen fotodióda fogyasztása is elhanyagolható a CCD/CMOS-hoz képest); automatikus képfeldolgozáshoz (pl. alakfelismeréshez) nem kell feltétlenül visszaállítani a vizuálisan értékelhető képet, az a jóval kisebb mennyiségű eredeti adathalmazon is elvégezhető. Azt remélik, hogy ennek a kamerának a jeleire alapozva például a különböző alakfelismerő feladatok elvégzése jelentősen felgyorsítható lesz. Mindezeken kívül a módszer legfontosabb előnyét abban látják, hogy az egyetlen érzékelő olyan frekvencia-tartományban is működik (vagy sokkal olcsóbb), amelyben multipixeles érzékelők nem, vagy csak rendkívül drágán állíthatók elő (ultraibolya, távoli infravörös, vagy pl. az infravörös sugárzás és a rádióhullámok közötti terahertzes, azaz 1012 Hz frekvencia-tartományban).

Az új leképező rendszer sémája, működésének rövid ismertetése és teljesítőképességét illusztráló bőséges képanyag található a Rice Egyetem honlapján, ahonnan az elméleti hátteret és a fényképezőgép működését szakszerű részletességgel ismertető publikációk is letölthetők.