Transformer- 특정 문장이 등장할 확률을 계산해주는 모델- Attention의 병렬적 사용을 통해 효율적인 학습이 가능한 구조의 언어 모델- 내부에 input 정보를 처리하는 인코더 파트와 처리 완료된 단어를 출력하는 디코더 파트가 존재하며 이 둘 사이를 이어주는 연결고리가 존재 - 작동 원리는 강의자료와 유튜브 영상 보기https://www.youtube.com/watch?v=Yk1tV_cXMMU https://www.youtube.com/watch?v=xhY7m8QVKjo&t=4528s Time-Series Transformer (TST)- Transformer의 Encoder 구조만 사용- Pre-training 과업을 위하여 연속적인 길이의 Input Masking 사용- Layer N..