전체 글 68

Kaggle 플랫폼의 모든 것 :: 똑똑하게 Kaggle 사용하기

안녕하세요, 제이덥입니다. 오늘은 세계 최대의 데이터 사이언스 커뮤니티 플랫폼인 Kaggle에 대해 이야기하려고 합니다. 일반적으로 많은 사람들이 Kaggle을 리더보드형 인공지능 경진대회 플랫폼으로만 인식하고 있습니다. 하지만 Kaggle은 경진대회 이외에도 디스커션, 코드, 데이터셋, 강의 등 다양한 기능을 제공하는데요. 따라서 이번 포스팅에서는 Kaggle을 보다 폭넓게 활용할 수 있는 여러 방법에 대해 소개하고자 합니다. Kaggle이란? 캐글(Kaggle)은 앞서 말씀드린 것 처럼 데이터 사이언스 & AI 커뮤니티 플랫폼입니다. 이 플랫폼에서 전 세계에 있는 데이터 과학자, 분석가, 그리고 ML/DL 학습자들이 모여 데이터 분석 경험을 쌓고, 자신의 프로젝트를 진행하고, 지식을 공유하며 경쟁하고..

Kaggle 2024.03.31

HuggingFace 모델에 RAG 적용하기(Feat. langchain)

안녕하세요! 제이덥입니다. 오늘은 오픈소스인 HuggingFace Hub에서 LLM을 다운받아 LangChain 라이브러리를 이용해 RAG를 적용해보는 방법에 대해 포스팅합니다. RAG, HuggingFace, LangChain에 대해서 간략한 개념 설명과 함께, 실습 코드를 올려두었으니 LLM 모델의 성능 향상에 대해 고민하고 있는 분들께 도움이 되었으면 하네요.0️⃣ RAG란 무엇인가요? 언제 사용할까요?.LLM(Large Language Model)은 방대한 양의 언어 데이터로 학습되어, 다양한 분야에 대한 지식과 추론 능력을 갖춘 거대한 언어 모델입니다. ChatGPT, Gemini, Copilot 같은 서비스는 이러한 LLM을 기반으로 출시되어 뛰어난 성능을 보여줍니다. 그러나 도메인 특화된 영..

NLP 2024.03.17

[서평] 데이터 과학자의 가설사고

안녕하세요, 제이덥입니다! 오늘은 Data-Driven 사고 방식과 관련된 유익한 인사이트를 제공하는 『데이터 과학자의 가설사고』 라는 책에 서평을 포스팅하려고 합니다. AI를 공부하며 제가 느꼈던 점은 ‘데이터도 모델만큼 중요하다’였습니다. 데이터를 얼마나 잘 분석하고 정제하는지에 따라 성능이 크게 달라졌기 때문이죠. Open Ko LLM 보드에서 상위권 모델들의 백본 모델을 만든 업스테이지의 기술 블로그 글에서 ‘AI 서비스를 출시 할 때 데이터가 모델만큼 중요하고, 데이터가 모델보다 중요하다’라고 언급했던 것을 보면 오히려 데이터가 더 중요해보이기도 합니다. 하지만, 시중에 있는 대부분의 강의는 데이터보다 모델 또는 AI 기법에 집중하고 있어 갈증을 느끼고 있었던 찰나에 ‘데이터 과학자의 가설사고’..

Book Review 2024.03.12

Cosine Similarity와 Large Language Model

안녕하세요! 제이덥입니다. 최근에는 Dacon 대회에 참여하여 특정 도메인에 적합한 LLM(Large Language Model)을 구축하는 Task를 진행했습니다. 이 과정에서 구축한 모델의 평가지표로 코사인 유사도(Cosine Similarity)를 사용했습니다. 코사인 유사도의 기본 개념은 이해하고 있었지만, 언어모델을 평가할 때 구체적으로 어떤 의미를 가지는지 명확히 알지 못했습니다. 따라서, 코사인 유사도가 무엇인지, 언어모델을 평가할 때의 장점 및 한계점은 어떻게 되는지 이번 포스팅을 통해 정리해보고자 합니다. 1️⃣ 코사인 유사도란 코사인 유사도(― 類似度, 영어: cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미합니다.(..

카테고리 없음 2024.03.03

[ 혼공단 11기 회고 ] 꾸준함의 미학

안녕하세요! 제이덥입니다. 오늘은 제가 1월 2일 월요일~2월 12일 월요일까지 진행했던 혼공학습단 11기 활동에 대한 회고를 진행해보려고 합니다.. 혼공학습단 11기 과정을 통해 어떤 것을 배워나갈 수 있었는지, 어떤 점을 느낄 수 있었는지 정리해보려고 합니다. 0. How I participated 페이스북에서 개발 도서와 관련된 페이지를 찾아보던 중 "혼공 학습단"이라는 프로그램이 있다는 것을 알게 되었습니다. 혼자 공부하는 도서 시리즈 중 한 권의 책을 골라 블로그 포스팅을 하며 공부할 수 있는 프로그램이었는데, 마침 구매해둔 “혼자 공부하는 컴퓨터구조 운영체제” 라는 책도 있었고, CS 면접 스터디를 통해 관련 내용을 공부하고 있었기에 참여를 결심하게 되었습니다. 1. How I studied ..

혼공단 11기 6주차 미션

📌 5주차 미션 진도 : Chapter 14~15 기본미션 : p. 400의 확인 문제 1번 풀고 인증하기 선택미션 : Ch.14(14-3) 프로세스가 사용할 수 있는 프레임이 3개 있고, 페이지 참조열이 '2313523423' 일 때 LRU 페이지 교체 알고리즘으로 이 페이지를 참조한다면 몇 번의 페이지 폴트가 발생하는지 풀어보기 1️⃣ 기본 미션 p. 400의 확인 문제 1번 풀고 인증하기 : 문제 : 메모리 할당 방식에 대한 설명으로 올바른 것을 다음 보기에서 찾아 쓰시오 ✅ 보기 : 최초 적합, 최적 적합, 최악 적합 ( ① ) : 최초로 발견한 적재 가능한 빈 공간에 프로세스를 배치하는 방식 ( ② ) : 프로세스가 적재될 수 잇는 가장 큰 공간에 프로세스를 배치하는 방식 ( ③ ) : 프로세스..

혼자 공부하는 컴퓨터 구조 + 운영체제 Chapter 15

안녕하세요! 제이덥입니다~ 저는 학부 때 공부했던 CS 기초 내용을 Wrap-Up 하기 위해 혼공학습단 11기 활동을 진행해왔는데 이제 6주차로 마지막이네요. 개발 도서를 개발이나 프로젝트를 할 때 참고하기 위해 봤었지, 개인적으로 이렇게 오랜 기간 동안 나눠서 공부해본건 처음이었는데요. 주마다 일정 부분 나눠서 공부하니 지식을 쌓아가는 느낌이 들어서 좋았고, 이외에도 여러 관점에서 많은 것을 배우고 성장할 수 있었던 것 같습니다. 이번 포스팅에서는 Chapter 15파일 시스템에 대해서 다룹니다. 파일과 디렉토리가 무엇이며 어떠한 방식으로 저장되는지 살펴보시면 좋을 것 같습니다. 해당 도서는 제가 직접 구매하여 글을 작성한 것이며, 혼공단 11기 활동의 일환으로 학습 내용에 대한 공유 글을 작성하게되었..

혼자 공부하는 컴퓨터 구조 + 운영체제 Chapter 14

안녕하세요! 제이덥입니다~ 저는 학부 때 공부했던 CS 기초 내용을 Wrap-Up 하기 위해 혼공학습단 11기 활동을 진행해왔는데 이제 6주차로 마지막이네요. 개발 도서를 개발이나 프로젝트를 할 때 참고하기 위해 봤었지, 개인적으로 이렇게 오랜 기간 동안 나눠서 공부해본건 처음이었는데요. 주마다 일정 부분 나눠서 공부하니 지식을 쌓아가는 느낌이 들어서 좋았고, 이외에도 여러 관점에서 많은 것을 배우고 성장할 수 있었던 것 같습니다. 이번 포스팅에서는 Chapter 14 가상메모리에 대해서 다룹니다. 지식과 논리를 잘 결합해야 되는 과목이라 어려운 만큼 면접 질문에서 자주 등장합니다. 스와핑, 페이징, 페이지 교체 알고리즘 등의 개념과 어떻게 구현이 되는지 잘 살펴보시면 좋을 것 같습니다. 해당 도서는 제..

[Weight & Bias] wandb를 이용하여 학습파이프라인 구축하기

안녕하세요! 제이덥입니다~ 요즘 dacon에서 딥러닝 관련 대회에 참여하여 열심히 학습 파이프라인을 구축하고 있는데요. 학습파이프라인을 구축할 때 사용했던 Weight & Bias(wandb) 플랫폼이 무엇이고 이를 어떻게 활용할 수 있는지 포스팅하려고 합니다. 함께 살펴볼까요? 1️⃣ Weight & Bias란? Weight & Bias(줄여서 wandb)는 AI developer platform으로 머신러닝/딥러닝 모델의 학습을 도와주는 다양한 기능(시각화, 로깅 등)을 제공합니다. 그리고 Weight & Bias에서 크게 W&B Models, W&B Prompts, W&B Prompts 총 세가지 형태로 기능을 나눌 수 있는데요. W&B Models 머신러닝 실무자들을 위해 학습/미세 조정(fine..

카테고리 없음 2024.02.04

혼공단 11기 5주차 미션

📌 5주차 미션 진도 : Chapter 12~13 기본미션 : p. 363의 확인 문제 1번 풀고 인증하기 선택미션 : Ch.12(12-1) 임계 구역, 상호 배제 개념을 정리하기 1️⃣ 기본 미션 p. 363의 확인 문제 1번 풀고 인증하기 : 📌 문제 : 뮤텍스락과 세마포어에 대한 설명으로 옳지 않은 것을 고르시오 ① : 뮤텍스락은 임계 구역을 접근 뒤 임계 구역에 진입함으로써 상호 배제를 위한 동기화를 이룹니다. ② : 세마포는 공유 자원이 여러 개 있는 상황에서도 이용할 수 있습니다. ③ : 세마포를 이용해 프로세스 실행 순서 제어를 위한 동기화도 이룰 수 있습니다. ④ : 세마포를 이용하면 반드시 바쁜 대기를 해야합니다. 정답 : ④ 풀이 : 뮤텍스락은 상호 배제를 위한 동기화를 이루고, 카운팅..