Naver Boostcamp AI Tech 7기 Week 6 회고록

Naver Boostcamp AI Tech 7기 Week6 회고록

2024-09-10

항상 “왜”라는 질문을 던지자

예를 들어 지금 MLOps 스터디를 하고 있는데, “왜” 배우고 싶은지, “왜” k8s를 중점적으로 배워야하는지에 대해서 이유를 항상 묻자

K

  • 프로젝트에 대해 깊게 고민해보게 된 점, 어떻게 정리를 해야할지 감을 찾고 있다는 점
  • 뭘 해야할지 알게 되었다는 점!!!!!!

P

  • 강의 2강까지 못들은건 ……. 많이 게으르다고 생각한다..
  • 점심 식곤증을 버티지 못하는 것 같다, 커피로 도핑을 하건 서서 하건 최대한 버티자

T

  • Pytorch Lightning 공부해보기
    • Baseline 코드이지만 최근 자주 사용한다고함

2024-09-11

4세대의 LLaMA를 이해해야한다.

2024-09-12 & 2024-09-13

12일에 처음으로 팀원 두분과 오프라인 모각공을 했다. 아무래도 실제로 만나서 하니까, 이상하게 집중 안되던 것도 잘되고, 졸지도 않고.. 이것저것 빨리 정해지게 된다.

Level2때 새로운 팀을 꾸리게 되는데, 가까운 사람들과의 팀도 생각을 해봐야겠다. 그리고 이제 서버를 사용할 수 있게 되어서, 여러가지 서버 세팅을 하다가 매번 사용하던 명령어를 또 까먹었었다… 까먹지 않게 다시 기록해두자

watch -n [time] [명령어] 주로 명령어는 df -hnvidia-smi를 주로 사용한다. (time초 마다 명령어를 수행)

생각보다 서버를 세팅하는데 큰 어려움도 없었고, 환경 자체도 이미 구성된 터라 작업하기 수월한 것 같다.

그리고 이제 본격적으로 시작하기 전에 데이터부터 살펴보았다.

당연히 데이터는 따로 전처리된 상태가 아니었기에, 추가로 전처리가 필요했다. 그런 필요한 전처리 작업들을 기록하고자 한다.

  • 특수문자, 이모지 제거 (클렌징 작업
    • 이 과정은 문장들을 분석하는데 필요하지 않은 문자들을 제거하는 작업이다.
    • 처음에는 그냥 re 명령어로 정리해가면 될 것 같다라는 생각을 했는데, 피어세션에서 이모티콘과 같은 기분을 나타내는 문장들도 토크나이징 해주는 토크나이저들이 있다고한다. 이에 대해서는 추가적으로 알아보자
  • Normalize
    • ㅋㅋㅋㅋㅋㅋ,ㅎㅎㅎㅎㅎ 이런것처럼 반복되는 단어들에 대해 normalize하는 작업
      from soynlp.normalizer import * 
      repeat_normalize(text, max_repeat=N)
      
  • 맞춤법 검사, 띄어쓰기 체크

  • 어휘정규화

  • 불용어제거
    • 불용어제거의 경우 의미가 변질될 수 있으니 데이터를 잘 살펴보고 작업해야한다.
    • 추후에 성능 개선 때 제대로 할 것

이번 주는 강의를 최우선적으로 빠르게 듣는 것을 목적으로 하고, 그 후에 프로젝트를 집중하는 것에 하다보니, 강의 일정은 뭔가 꼬이지 않았는데 프로젝트에 더 많은 시간을 쏟지 못하는 것에 아쉬움이 있다. 더군다나 과제도 있기에… 최대한 오늘 안에 과제를 끝내보자 이번주 되게 뭔가 바쁘게 흘러갔다.