Разбиране на LSTMs: Силата на селективната памет в дълбокото обучение

LST означава Long Short-Term Memory. Това е тип архитектура на повтаряща се невронна мрежа (RNN), която е предназначена да се справи с проблема с изчезващите градиенти в традиционните RNN. LSTM въвеждат клетка с памет, която позволява на мрежата избирателно да запомня или забравя информация с течение на времето, което ги прави особено полезни за задачи като езиково моделиране и прогнозиране на времеви редове.

По-подробно LSTM мрежата се състои от няколко компонента:

* Вход порта: Този компонент приема входните данни и решава каква информация да позволи в клетката с памет.
* Клетка с памет: Този компонент съхранява информацията, която е разрешена в клетката с памет.
* Изходна врата: Този компонент приема информацията от клетката с памет и го извежда като краен резултат.
* Порта за забравяне: Този компонент определя каква информация да се изхвърли от клетката с памет.

LSTM се обучават с помощта на обратно разпространение във времето, което е начин за прилагане на алгоритъма за обратно разпространение към RNN. По време на обучението мрежата се представя с поредица от входни данни и извежда поредица от прогнози. Грешките се изчисляват на всяка времева стъпка и градиентите се разпространяват назад във времето, за да актуализират теглата на мрежата.

LSTM са станали популярен избор за много NLP задачи, като езиково моделиране, машинен превод и класификация на текст. Те са използвани и в други области като разпознаване на реч, надписи на изображения и прогнозиране на времеви серии.