Scillain: Neurális hálózati architektúra a képfelismeréshez
A Scillain egyfajta neurális hálózati architektúra, amelyet képfelismerési feladatok kezelésére terveztek. A Scale-Invariant Feature Transform (SIFT) algoritmuson alapul, amely egy széles körben használt módszer a képek jellemzőinek észlelésére.
A SIFT algoritmus úgy működik, hogy észleli a kép kulcspontjait, majd ezeket a kulcspontokat jellemzőleírók segítségével írja le. . Ezeket a jellemzőleírókat azután arra használják, hogy a képet összehasonlítsák az adatbázisban lévő többi képpel. A Scillain egy lépéssel továbbviszi ezt az ötletet: neurális hálózat segítségével tanulja meg a jellemzőleírókat, ahelyett, hogy előre meghatározott készletet használna. Ez lehetővé teszi a hálózat számára, hogy bonyolultabb és absztraktabb jellemzőket tanuljon meg, amelyeket a hagyományos jellemzőészlelési módszerekkel nem lehet könnyen megragadni. A Scillain architektúra több rétegből áll, köztük egy bemeneti rétegből, egy konvolúciós rétegből, egy gyűjtőrétegből és egy teljesen összekapcsolt rétegből. A bemeneti réteg a nyers képadatokat veszi fel, míg a konvolúciós réteg szűrők sorozatát alkalmazza a képre a kulcspontok és jellemzők észlelése érdekében. A gyűjtőréteg csökkenti a tereptérképek térbeli méreteit, és a teljesen összekapcsolt réteget használják az osztályozáshoz.
A Scillain hatékonynak bizonyult számos képfelismerési feladatban, beleértve a tárgyfelismerést, az arcfelismerést és a jelenetek megértését. Ezenkívül viszonylag gyors és hatékony más neurális hálózati architektúrákhoz képest, így jó választás a valós idejű képfelismerő alkalmazásokhoz.



