프로젝트
ChatGPT에게 야구 지식 가르쳐주기 (1) - LangChain을 활용하여 RAG 구성하기
개요 LLM 기술의 발전과 함께, ChatGPT와 같은 언어 생성 모델은 사용자와 자연스러운 대화를 나눌 수 있는 능력을 갖추고 있다. 하지만 이러한 모델은 때로는 종종 의미 없거나 입력과 상관없는 텍스트를 생성하곤 한다. 이 현상은 "hallucination"이라고 부르며, 사용자가 질문한 내용과 관련 없는 정보를 생성하는 문제를 나타낸다. 이 "hallucination" 문제를 극복하고 LLM의 성능을 향상시키기 위해 RAG(Retrieval-Augmented Generation) 기술을 도입할 수 있다. RAG를 통해 특정 도메인에 대한 정보를 전달하면 해당 도메인에 대해 전문적인 LLM이 될 수 있다. 본 프로젝트에서는 야구에 대한 정보를 전달하여 야구와 관련된 질문에 더 정확하고 유용한 답변을 ..
KBO 타자 대시보드 시각화 프로젝트
크롤링 KBO 공식 홈페이지와 스탯티즈를 활용하여 크롤링을 진행하였다. 스탯티즈 크롤링 1982년부터 2023년까지 타자의 기록을 크롤링한다. 1. Import Library from tqdm import tqdm import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import pandas as pd 크롤..
2023 KBO 선발투수 HEATMAP 시각화 프로젝트 (2) - 시각화
아래 글에서 이어집니다. 2023 KBO 선발투수 HEATMAP 시각화 프로젝트 (1) - 데이터 크롤링 및 전처리 2023 KBO 선발투수 HEATMAP 시각화 프로젝트 (1) - 데이터 크롤링 및 전처리 시작하기 앞서... 2023 프로야구가 어제 LG 트윈스의 우승으로 끝났다. (롯데는 언제쯤...) 기념으로 간단히 10구단의 대표 투수들을 임의로 선정해서 각 이닝별 실점에 관련된 히트맵을 태블로로 lottegiantsv3.tistory.com 데이터 전처리 및 크롤링 수정 앞선 글에서 데이터 크롤링과 전처리를 수행했지만, 미흡했던 부분이 있어 그 부분을 수정하고 진행했다. 1. 데이터 전처리 KBO 사이트에서 받은 날짜를 (ex. 04.01) DATE의 형식 (ex. 2023-04-01) 으로 바..
2023 KBO 선발투수 HEATMAP 시각화 프로젝트 (1) - 데이터 크롤링 및 전처리
시작하기 앞서... 2023 프로야구가 어제 LG 트윈스의 우승으로 끝났다. (롯데는 언제쯤...) 기념으로 간단히 10구단의 대표 투수들을 임의로 선정해서 각 이닝별 실점에 관련된 히트맵을 태블로로 시각화하는 프로젝트를 진행하려고 한다. 진행 단계는 다음과 같다. 1. 데이터 크롤링 및 전처리 selenium, pandas 등을 활용하여 스탯티즈와 kbo사이트 등을 통해 원하는 데이터를 크롤링한다. 그 후, 크롤링 과정에서 데이터를 시각화하고자 하는 데이터로 전처리한다. kbo 사이트를 통해 경기별 데이터를 크롤링했고 이닝별 실점과 같은 좀 더 구체적인 데이터를 얻을 수 없어서 스탯티즈 사이트를 통해 추가적으로 데이터를 크롤링하고 전처리를 진행하였다. 2. 태블로로 시각화하기 태블로를 활용하여 히트맵을..
[프로젝트] numpy, pandas로 신경망 구현하여 프로야구 순위 예측하기
1. 들어가기전에 내 코딩실력에 환멸을 느껴서, 가벼운 프로젝트부터 진행하고자 했다. 우선 해당 글을 참고하여 신경망을 스크래치로 구현하기로 마음먹었다. 그렇다면, 좀 더 흥미로운 주제를 하면 재밌을것 같아서 스탯티즈를 참고하여 각팀의 타율, 출루율, 장타율, 방어율, FIP, WHIP를 활용하여 프로야구 순위를 예측하는 프로그램을 만들기로 했다. 2. 뉴럴 네트워크 구성 위와 같이 뉴럴 네트워크를 구성하였다. 인풋 레이어와 히든 레이어 2개를 거치고 softmax 연산을 통해 최종 확률을 계산하게 된다. loss function은 cross entrophy를 사용하였고, activation function은 sigmoid를 사용하였다. 3. 코드 살펴보기 3가지 파일로 구성된다. main.py: 메인 ..