전체 글 53

[번역] Practical advice for analysis of large, complex data sets(By PATRCK RILEY) - PART 2

안녕하세요 제이덥입니다! 오늘은 The Unofficial Google Data Science Blog에 올라와 있는 Practical advice for analysis of large, complex data sets 번역 글의 두 번째 파트로 Process, Social 및 Conclusion의 내용을 다룹니다. The Unofficial Google Data Science Blog는 구글에서 구글 외부의 데이터 과학자들에게 인사이트를 공유하고 싶은 데이터 과학자들이 게시한 비공식 블로그인데요. 제가 참여했던 네이버 부스트캠프의 마스터로 활동하신 안수빈 님께서 해당 글을 데이터 분석을 위한 필독 글이라고 캐글 코리아에서 소개해주셔서 읽게 되었습니다. 데이터를 분석하기 위해 확인해야하는 기초적인 뼈대..

Data Science 2023.12.24

[번역] Practical advice for analysis of large, complex data sets(By PATRCK RILEY) - PART 1

안녕하세요 제이덥입니다! 오늘은 The Unofficial Google Data Science Blog에 올라와 있는 Practical advice for analysis of large, complex data sets라는 글을 소개해 드릴까 합니다. The Unofficial Google Data Science Blog는 구글의 일부 데이터 과학자들이 구글 외부의 데이터 과학자들에게 인사이트를 공유하기위해 게시한 비공식 블로그인데요. 제가 참여했던 네이버 부스트캠프의 마스터로 활동하신 안수빈 님께서 해당 글을 데이터 분석을 위한 필독 글이라고 캐글 코리아에서 소개해주셔서 읽게 되었습니다. 해 당 글은 데이터를 분석하기 위해 확인해야하는 기초적인 통찰을 제공하다고 생각하며, 깊게 공감하며 읽어 해당 글..

Data Science 2023.12.10

[서평] 캐글 메달리스트가 알려주는 캐글 노하우

AI에 입문하고 AI 부트캠프 과정에서 리더보드를 활용한 프로젝트를 진행하며 자연스럽게 Dacon 및 Kaggle과 같은 AI 대회형 플랫폼에 관심을 갖게 되었습니다. 캠프가 마무리될 무렵 길벗 출판사에서 "캐글 메달리스트가 알려주는 캐글 노하우"라는 책을 출판했다는 소식을 접했습니다. 제가 참여했던 부트캠프에서 강사님으로 강의를 해주셨던 안수빈님과, 머신러닝/딥러닝 커뮤니티에서 활발하게 활동하시는 많은 뛰어난 실력자분들이 함께 책을 집필하였기에 그들의 노하우를 배우고 싶은 마음에 해당 책을 구매해서 읽어야겠다고 마음을 먹었습니다. 그러던 중 "21차 개발자 리뷰어"를 모집한다는 공고를 보고 해당 도서를 선택하여 신청서를 제출하였는데, 운이 좋게 리뷰어로 선발되어 도서를 지원받아 서평을 작성할 기회를 얻..

Book Review 2023.08.30

[NaverBoostCamp] 4월 18주차 학습회고

1. What I Learned... 이번주는 최종프로젝트의 오랜만에 Project Manager를 맡아 대회의 전반적인 회의를 진행했다. 서비스 기획, GitHub 사용 관련 협업 내용 협의, 전체적인 Ground Rule 설정 등을 잘 마무리 했다. 또한 React.js의 핵심적인 개념인 Hook, component 개념을 재정리하면서 웹 페이지 구상을 마무리 하였다. 2. Study Evaluation 이번 주차에서도 학습의 관점에서, 소통의 관점에서도 기술하려고 한다. +)잘했던것, 좋았던 것, 계속할 것😊😄 학습 부분 : 이번주에 추가로 스터디 활동을 시작했는데, 스터디 활동에서 Bellman Ford Algorithm, Dijkstra Algorithm에 대해서 정리하고 관련 문제를 풀었다. ..

[NaverBoostCamp] 4월 10주차 학습회고

1. What I Learned... 이번주는 NLP 도메인의 Level 2 대회의 2번째 주가 진행되었다. 대회가 시작되기 이전에 관련 KLUE 관련 논문 및 세미나를 찾아보고, 데이터 분석 방법에 대해서 찾아보는 등 광범위한 자료조사를 진행했다. 이후에 error analysis 내용을 발견하여 우리 Task에 맞는 error 분석을 할 수 있는 모듈을 개발했다. 또한 대회를 진행하는 과정에서 다른 K digital HACKATHON이라는 대회를 참여하기 위해 아이디어 회의를 진행하고 구체화하여 아이디어 기획안을 마무리하고 대회에 참가 신청서를 제출했다. 아쉽게도 시간이 안되어 Pytorch-lightning으로 만드는 베이스라인 코드를 시간안에 마무리 짓지 못했지만, 한정적인 시간에도 많은 것을 시..

[NaverBoostCamp] 4월 9주차 학습회고

1. What I Learned... 이번주는 NLP 도메인의 Level 2가 시작되었다. KLUE 관련 대회인데 주제는 "문장 내 개체간 관계 추출"이다. Level 2에 새롭게 편성된 조도 있지만 우리 조는 Level 1 그대로 가게 되었다. 따라서 이번주에 "우팀소(우리 팀을 소개합니다)"를 진행했는데, 기존에 활동했던 내용을 반영해 팀 목표 & 개인 목표를 설정해 빠르게 팀소개를 준비를 했고, 발표자로써 무난히 발표를 마무리 지었다. 또 프로젝트가 시작했기에 1차 NLP 프로젝트에서 나왔던 개선점을 반영해서 팀적인 프로세스를 정비하는 시간을 가졌다. 그리고 Github Readme와 팀 노션 프로젝트 페이지를 만들어 협업을 위한 초기 설정을 마무리 했다. 그리고 이번주에는 자연어 전처리, BERT..

[NaverBoostCamp] 4월 8주차 학습회고

1. What I Learned... 이번주는 NLP 도메인의 Level 1 기초 대회가 마무리되었다. 마무리를 장식한 내용은 모델 서빙이었다. 서빙은 다른 부트캠프에서 경험할 수 없는 네이터 부스트캠프 AI-Tech의 장점이라고 생각되어 설레는 마음으로 수강하였다. 이번 강의에서는 소프트웨어 엔지니어링, 파이썬 버전 관리방법, 리눅스, MLOPs개론, 프로토타입 방법인 streamlit에 이르기까지 모델 서빙에 대한 전반적인 내용을 한번 훑을 수 있도록 구성되어있었다. 전반적으로 강의 내용이 쉽게 구성되어 있어 듣기도 쉬웠고, 서빙 실습도 유익하면서 재미있었다. 또한, 팀원들과 코드 리팩토링 + Readme.md 파일 작성을 함께 진행했는데, 리팩토링도 깔끔하게 되어서 좋았고 Readme 파일도 이쁜 ..

[NaverBoostCamp] 4월 7주차 학습회고

1. What I Learned... 이번주는 NLP 도메인의 Level 1 기초 대회가 마무리되었다. STS(semantic Textual Similarity)라는 Task의 NLP 도메인 대회를 ai.stages에서 Kaggle과 Dacon과 유사한 플랫폼에서 진행했는데, public 전체 2위 private 전체 1위를 달성하였다. 대회를 진행하며 팀장으로 Github관리 및 Notion 관리를 하고 데이터에 대한 EDA를 진행하고 end-to-end로 Hugging Face 모델을 이용해서 학습하고 튜닝을 진행했다. 그리고 팀에서 내가 한 EDA를 바탕으로 데이터 증강을 진행했는데, 해당 증강으로 성능에 유의미한 향상에 기여한 것 같아 의미가 있는 대회였다. 2주간 많은 노력을 했고, 협업이나 모..

[NaverBoostCamp] 4월 6주차 학습회고

1. What I Learned... 이번주는 NLP 도메인의 Level 1 기초 대회가 시작되었다. 따라서 부스트캠프에서는 NLP 대회에 참여할 수 있도록 전반적인 NLP Task에 대해서 강의를 제공해주었다. 정상근 마스터님 수업을 들었는데, NLP에서 문제를 어떻게 정의하고 어떻게 추상화하고 구조화하여 정리할 수 있는지 N21, N2N, N2M Task로 나누어서 설명해주셨다. 그리고 이후에 Pytorch Lightning, Hugging Face와 같이 모델의 기본적인 베이스라인을 작성해줄 수 있는 툴을 알려주었다. 그리고 N21, N2N, N2M 각 테스크별로 어떻게 다뤄야할지 상세하게 강의해주셨고, 실습을 진행했다. 그리고 스페셜 미션을 통해서 데이터 분석 방법(EDA), 하이퍼파라미터 튜닝 ..

[NaverBoostCamp] 4월 5주차 학습회고

1. What I Learned... 이번주는 도메인 관련 NLP 강의를 듣는 두번째 주였다. 이번주 강의에서는 Seq2seq 모델 부터 BERT 모델까지 많은 내용의 모델에 대해 배웠다. sequence to sequence 모델의 기본적인 구조인 Encode, Decoder 구조, 그리고 발전된 seq2seq with Attention 모델까지 공부하였고, 최근에 가장 각광받고 기본이 되는 모델인 Transformer 모델과 Attention module 그리고, multi head Attention의 연산방식까지 학습했다. 이후에는 GPT-1, BERT 등 새롭게 출시된 다양한 모델의 기본적인 컨셉에 대해서 학습을 한 뒤 2주간의 짧지만 긴 커리큘럼이 마무리 됬다. 특히 이번주에는 과제가 어려웠는데..