본문 바로가기

분류 전체보기14

글또 10기 회고: 나의 나이테를 남기는 과정 글또 10기 회고: 나의 6개월 간의 나이테 2024년 10월부터 함께했던 글또 10기가 어느덧 마무리되었다. 나는 글또 9기,10기를 활동했었는데, 9기 활동 당시에는 "일단 완주하자"라는 목표가 최우선이었다. 글을 쓸 여유가 없을 때도 패스를 쓰기보다는, 글의 퀄리티를 흐린눈으로 넘기고서라도(?) '아무튼 제출'을 목표로 했었다. 10기는 글또의 마지막 기수라는 이야기를 듣고 망설임 없이 참여했다. 그렇게 6개월 동안 2주마다 글을 썼고, 총 11개의 글과 1회의 패스로 마무리했다. 10기 참여 당시 올렸던 자기소개를 다시 읽어봤다.참여 당시 첫번째 목표가 나의 인사이트를 담은 글 쓰기, 두번째 목표가 커피챗 신청해보기였다!절반정도 지킨 것 같다.. 전기수보다 나의 인사이트를 담은 글을 쓰려고 노력은.. 2025. 3. 30.
성균관대학교 대학원 데이터사이언스융합학과 2025 전기 준비 및 합격 후기 안녕하세요 오니입니다! 🐰  저는 대학 졸업 후 바로 입사하여 2년정도 근무하였고, 재직하며 병행할 수 있는 성대 데이터사이언스 융합학과룰 지원 및 합격하였습니다. 해당 학과에 관심 및 지원 예정인 분들께 도움이 되고자 성균관대학교 데이터사이언스융합학과 서류 준비, 면접, 합격 후기에 대해 다뤄보겠습니다. 🍀🔎  대학원 준비과정성대의 경우 서류 1차심사후 면접을 통해 최종합격이 결정되었습니다.*성대는 특히 타 데이터사이언스대학원 보다 모집시기가 빠른 편이니 지원시 모집일정에 유의하세요!🔎 서류 준비 과정필수 준비 서류는 입학원서, 학업계획서, 대학 성적증명서, 대학 졸업증명서, 재직증명서(재직시)이고 선택 서류는 어학성적표, 자격증 입니다.서류를 인터넷으로 제출하는 것이 아닌 우편물로 직접 발송해.. 2025. 3. 16.
텍스트 전처리 및 토큰화:BPE, wordpiece, unigram 을 중심으로subword tokenization 비교 1주차 OT를 마치고, 이번주부터 자연어처리 강의의 본격적인 수업이 시작되었다! 이번주는 텍스트 전처리 및 토큰화-BPE, wordpiece, unigram 을 중심으로subword tokenization에 대해 다루었다.1.텍스트 전처리 과정텍스트 전처리는 보통 텍스트정제, 토큰화, 불용어 제거, 정규화, 서브워드 토큰화 과정을 거친다.(순서는 바뀔 수 있음) 대표적으로 사용하는 전처리 패키지는 다음과 같다.기본전처리:re, string토큰화 및 NLP 전처리:PyKoSpacing, NLTK, spaCy, Mecab, SOYNLP서브워드 토큰화:SentencePiece, BERT Tokenizer추가 기능 : TextBlob(감성분석), fastText(단어 임베딩), word2vec텍스트 정제텍스트 .. 2025. 3. 16.
효과적으로 ML기반 수요예측하는 방법(feat. data leakage) 안녕하세요 오니입니다 🍀🐰이번 포스팅은 효과적으로 ML기반 수요예측을 적용할 때 주의해야할 점에 대해 다뤄보도록 하겠습니다. 수요 예측 방법 및 종류수요예측을 위한 방법은 크게 3가지로 나눌 수 있습니다. 통계적 방법규칙 기반 및 휴리스틱머신러닝 및 딥러닝 예시- 시계열 모델(이동평균, 지수평활, ARIMA)- 회귀분석- 비즈니스 룰 기반- 도메인 전문가의 판단 - 트리기반 (랜덤포레스트, XGBoost, LightGBM 등)- LSTM특징✔ 해석이 쉬움✔ 비교적 적은 데이터로도 사용 가능❌ 비선형 패턴(트렌드 변화)에 취약✔ 데이터가 부족할 때도 적용 가능✔ 특정 상황(이벤트, 정책 변화 등)에 유연하게 대처 가능❌ 주관적 판단에 의존 → 객관성이 떨어질 수 있음✔ 비선형적인 복잡한 패턴 학습 가.. 2025. 3. 2.
LangGraph 기본 구조 알아보기:언제 LangGraph를 사용하는 것이 좋을까? 안녕하세요 오니입니다 🍀🐰요즘은 회사에서 LangGraph를 사용하여 챗봇관련 과제를 하고 있는만큼 LangGraph의 구조에 대해 포스팅해보겠습니다. 🕸️ LangGraph의 특징:LangChain VS LangGraphLangChain과  비교했을 때 LangGraph의 가장 큰 차이는 구현하는 방식, 즉 구조입니다.LangGraph는 그래프 기반 구조이고, LangChain은 체인기반 구조를 사용합니다. LangChain은 순차적으로 실행하지만 LangGraph는 보다 모듈화되어 여러 분기 조건에 대한 비선형적인 구조를 반영하기에 유리합니다.   이러한 구조의 차이로 인해 LangChain은 LLM 기반 간단한 애플리케이션을 빠르게 만들기에 좋고 LangGraph는 상태 기반 복잡한 워크플로우.. 2025. 2. 16.
추천시스템 협업필터링 Memorial Based:유사도 계산 방식 및 surprise 패키지를 활용한 평점 예측 방법 안녕하세요 오니입니다🐰1. 추천시스템 종류추천시스템의 종류는 크게 다음과 같이 나눠볼 수 있습니다. 이번 포스팅에서는 Collaborative Filtering(협업필터링)에서도 Memorial Based에 대해 집중적으로 다뤄보겠습니다. 2. 협업필터링 구현 방식 및 종류 2-1. Memorial Based  기억기반 방식은 유사도 기반방식입니다. 코사인 유사도나 피어슨 상관계수 유사도를 사용해 비슷한 사용자 혹은 아이템을 찾습니다.평점 예측시에는 가중치를 사용한 평균을 사용합니다.이해하기 쉽고 설명하기 쉬우나, 스케일하기 힘듭니다.(평점데이터의 부족)기억기반 방식은 다시 사용자 기반, 아이템 기반으로 나뉩니다.사용자기반나와 비슷한 평점 패턴을 보이는 사람들을 찾아서 그 사람들이 높게 평가한 아이템 .. 2025. 2. 2.