2024/03 4

Kaggle 플랫폼의 모든 것 :: 똑똑하게 Kaggle 사용하기

안녕하세요, 제이덥입니다. 오늘은 세계 최대의 데이터 사이언스 커뮤니티 플랫폼인 Kaggle에 대해 이야기하려고 합니다. 일반적으로 많은 사람들이 Kaggle을 리더보드형 인공지능 경진대회 플랫폼으로만 인식하고 있습니다. 하지만 Kaggle은 경진대회 이외에도 디스커션, 코드, 데이터셋, 강의 등 다양한 기능을 제공하는데요. 따라서 이번 포스팅에서는 Kaggle을 보다 폭넓게 활용할 수 있는 여러 방법에 대해 소개하고자 합니다. Kaggle이란? 캐글(Kaggle)은 앞서 말씀드린 것 처럼 데이터 사이언스 & AI 커뮤니티 플랫폼입니다. 이 플랫폼에서 전 세계에 있는 데이터 과학자, 분석가, 그리고 ML/DL 학습자들이 모여 데이터 분석 경험을 쌓고, 자신의 프로젝트를 진행하고, 지식을 공유하며 경쟁하고..

Kaggle 2024.03.31

HuggingFace 모델에 RAG 적용하기(Feat. langchain)

안녕하세요! 제이덥입니다. 오늘은 오픈소스인 HuggingFace Hub에서 LLM을 다운받아 LangChain 라이브러리를 이용해 RAG를 적용해보는 방법에 대해 포스팅합니다. RAG, HuggingFace, LangChain에 대해서 간략한 개념 설명과 함께, 실습 코드를 올려두었으니 LLM 모델의 성능 향상에 대해 고민하고 있는 분들께 도움이 되었으면 하네요.0️⃣ RAG란 무엇인가요? 언제 사용할까요?.LLM(Large Language Model)은 방대한 양의 언어 데이터로 학습되어, 다양한 분야에 대한 지식과 추론 능력을 갖춘 거대한 언어 모델입니다. ChatGPT, Gemini, Copilot 같은 서비스는 이러한 LLM을 기반으로 출시되어 뛰어난 성능을 보여줍니다. 그러나 도메인 특화된 영..

NLP 2024.03.17

[서평] 데이터 과학자의 가설사고

안녕하세요, 제이덥입니다! 오늘은 Data-Driven 사고 방식과 관련된 유익한 인사이트를 제공하는 『데이터 과학자의 가설사고』 라는 책에 서평을 포스팅하려고 합니다. AI를 공부하며 제가 느꼈던 점은 ‘데이터도 모델만큼 중요하다’였습니다. 데이터를 얼마나 잘 분석하고 정제하는지에 따라 성능이 크게 달라졌기 때문이죠. Open Ko LLM 보드에서 상위권 모델들의 백본 모델을 만든 업스테이지의 기술 블로그 글에서 ‘AI 서비스를 출시 할 때 데이터가 모델만큼 중요하고, 데이터가 모델보다 중요하다’라고 언급했던 것을 보면 오히려 데이터가 더 중요해보이기도 합니다. 하지만, 시중에 있는 대부분의 강의는 데이터보다 모델 또는 AI 기법에 집중하고 있어 갈증을 느끼고 있었던 찰나에 ‘데이터 과학자의 가설사고’..

Book Review 2024.03.12

Cosine Similarity와 Large Language Model

안녕하세요! 제이덥입니다. 최근에는 Dacon 대회에 참여하여 특정 도메인에 적합한 LLM(Large Language Model)을 구축하는 Task를 진행했습니다. 이 과정에서 구축한 모델의 평가지표로 코사인 유사도(Cosine Similarity)를 사용했습니다. 코사인 유사도의 기본 개념은 이해하고 있었지만, 언어모델을 평가할 때 구체적으로 어떤 의미를 가지는지 명확히 알지 못했습니다. 따라서, 코사인 유사도가 무엇인지, 언어모델을 평가할 때의 장점 및 한계점은 어떻게 되는지 이번 포스팅을 통해 정리해보고자 합니다. 1️⃣ 코사인 유사도란 코사인 유사도(― 類似度, 영어: cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미합니다.(..

카테고리 없음 2024.03.03