장단기 기억 신경망(Long Short-Term Memory(LSTM))란 무엇인가? RNN의 특별한 종류이다. 긴 시퀀스 훈련 동안 역전파에서 기울기 소멸 또는 폭발 문제를 해결하기 위해 만들어진다. 또한 LSTM은 장기적인 종속성 문제를 피하기 위해 명시적으로 설계되었다고 말할 수 있다. 많은 작업에서 표준 버전의 RNN보다 더 나은 결과를 얻었기 때문에 그것을 연구하는 것은 큰 의의가 있다. 이전 연구를 통해 RNN이 CNN과 마찬가지로 완전히 연결된 네트워크의 변형임을 알 수 있다. 그들은 모두 자신의 독특한 결과를 발표했다. 예를 들어 CNN은 부분 연결(수용 필드)과 가중치 공유의 개념을 제안했다. RNN은 시간 단계와 '장기 기억'의 개념을 제시했다(사실 장기기억의 효과는 이루지 못하므로 단기기억이라고 부르는 것이 더 정확하다). LSTM은 진정한 의미의 '장기 기억'을 구현하고 '단기 기억'을 유지한다. 여기에는 게이트(Gate \(\Gamma\))와 셀 상태(Cell state \(c_i\))라는 두 가지 중요한 개념이 있다. 제가 알기로는 단순 RNN 네트워크의 '장기 기억'과 구별하기 위해 'Cell state'라는 새로운 이름을 붙였다. 즉, 단순 RNN에서 달성될 것으로 예상되는 "장기 기억"이 실제로 LSTM에서 구현되어 셀 상태\(c^i\)라는 새로운 이름이 부여된다. 먼저 'Gate'(문)이라는 개념을 이해해야 한다. Gate의 개념 다음 세 가지 임계값이 Forget Gate, Update Gate 및 Output Gate가 포함된다. 그것들은 현재 입력이 받아들여졌는지, 장기기억인지, 또는 메모리의 입력이 현재 출력되는지 여부를 결정하는 데 사용된다. 이 세 개의 문을 통해 뉴런의 상태를 보호하고 제어한다. '역치'라고 해서 이해하는 것이 좋을 것 같다. 이 '밸브'를 통해 게이트 조건을 만족하는 부분이 출력되고, 만족하지 못한 부분은 차단된다. 첫 번째는 망각의 문이다. 이전 타임 스텝에서 전송된 정보의 스크리닝을 완료한다. 1.망각 게이트(Forget Gate) 주로 0과 1 사이의 값을 제어하는 'sigmoid' 활성화 함수로 구성된다. 이는 '선택적 기억' 기능을 구현하는 데 도움이 된다. 0을 곱한 숫자는 0이기 때문에 값이 사라지거나 잊혀진다. 그리고 1을 곱한 데이터가 저장된다. 물론 절대적인 0과 1은 아니다.…