-
My Project
[데이콘] 모델 튜닝 챌린지 : RF 하이퍼파라미터 최적화 경진대회
프로젝트 소개데이콘 유저 데이터로 유저의 로그인 여부를 예측하는 프로젝트!이때 RandomForest 만으로 하이퍼 파라미터를 최적화시켜 성능을 높여야 하는 프로젝트 새로 배운 점하이퍼 파라미터 최적화 방법프로젝트 특성상 하이퍼 파라미터 최적화가 주가 되는 프로젝트였다.그동안은 그리드 서치만 알고 사용해왔는데,이번에 하이퍼 파라미터 최적화 방법에 대해 더 검색해보면서 AutoML을 새로 배우게 되었다! optuna, pycaret, h2o 등의 방법이 있는 것 같고어떤 블로거에 따르면 최근에는 optuna가 많이 쓰인다고 한다. 랜덤포레스트의 하이퍼 파라미터랜덤포레스트를 사용해본 적은 많지만 하이퍼 파라미터에 대해 열심히 살펴본 적은 처음이다어떤 하이퍼 파라미터가 있는지, 어떤 의미인지 다시 한번 공부..
-
Study
파이썬) 파일과 폴더 다루기(2)
[서울 ICT 데이터 중급(분석)] 아래 글에 이어서 작성합니다! 파이썬) 파일과 폴더 다루기(1)[서울ICT 데이터 중급(분석) 과정] 파일과 폴더를 다루는데 사용하는 라이브러리들은 아래와 같습니다.1. osos 모듈은 폴더(디렉토리)를 생성하거나 경로(path)를 다룰 때 사용합니다.https://docs.pythonleehyeeee.tistory.com 파일 읽기/쓰기 1. open() 함수를 호출하여 file 객체 얻기 f = open(path, mode, encoding='utf-8') - path : 경로가 포함된 파일이름, 파일이름만 적으면 현재 경로 - mode : 읽기(r), 쓰기(w), 추가(a) - 'wt' : 덮어쓰기 (텍스트 파일일 경우 t 생략가능) -..
-
Study
파이썬) 파일과 폴더 다루기(1)
[서울ICT 데이터 중급(분석) 과정] 파일과 폴더를 다루는데 사용하는 라이브러리들은 아래와 같습니다.1. osos 모듈은 폴더(디렉토리)를 생성하거나 경로(path)를 다룰 때 사용합니다.https://docs.python.org/ko/3/library/os.html2. shutilshutil 모듈은 파일을 복사하거나 이동시킬 때 사용합니다.3. globglob 모듈은 패턴을 사용하여 현재 폴더(디렉토리)는 물론 하위 경로의 파일들을 검색할 때 사용합니다. 현재 작업 위치import osos.getcwd() #현재 디렉토리 폴더 생성#현재 드라이버의 루트 폴더 생성os.mkdir('/test_dir' )#현재 작업디렉토리 내에 폴더 생성os.mkdir('./test_dir1' )#폴더 이어서 생성os..
-
Study
파이썬) 예외 처리
[서울ICT 데이터 중급(분석) 과정] 프로그램 실행도중 발생하는 예외들을 처리하면 발생오류들을 쉽게 파악하는데 도움이 됩니다.try ~ except 문법을 사용하여 예외 처리를 합니다.try: 실행문1except 발생오류: 예외처리문예외 상황 처리예시1) 인덱스 에러flist = ['img1.png','img2.png','img3.png']flist[3]예외 처리 후에는 예외 상황을 쉽게 알 수 있다.flist = ['img1.png','img2.png','img3.png']try: flist[3]except: #예외 상황이 발생했다면, 아래 코드 실행 print('인덱스 에러가 발생했습니다.')에러를 구체적으로 명시해 예외 처리할 수도 있다.flist = ['img1.png..
-
Study
데이터 전처리 - 스케일링
[서울ICT 데이터 중급(분석) 과정] 데이터 분석을 하면서 가장 중요하고 많은 시간이 들어가는 과정은 데이터 전처리 과정이다.전처리 방법에는 여러 방법이 있는데, 이번 포스트에서는 스케일링에 대해 살펴보겠습니다. 스케일링표준화, 정규화는 KNN,서포터 벡터 머신(SVM)과 같은 거리, 수치계산 기반 알고리즘에 필수이다. Q. 언제 MinMax, Standard, Robust를 선택하나요?A. (1) 이상치가 없으면 MinMax(2) 이상치에 영향이 있을 것 같으면 Standard(3) 이상치에 영향이 너무 가면 대안으로 Robust Min-Max Scaling: 정규화(Normalization) 모든 데이터를 0~1사이로 꾸겨넣어 버림일반적인 상황에 사용박스플롯 상에 이상치가 없거나, 있어도 uppe..
-
Study
데이터 전처리 - 결측치 처리(1)
[서울 ICT 데이터 중급(분석) 과정] 데이터 분석을 하면서 가장 중요하고 많은 시간이 들어가는 과정은 데이터 전처리 과정이다.전처리 방법에는 여러 방법이 있는데, 이번 포스트에서는 결측치 처리에 대해 살펴보겠습니다. 결측치 처리결측치란 데이터 내에 비어있는 값을 말한다.결측치를 처리하기에 앞서 결측치가 있는지를 확인해야 한다.df.isnull().sum() # 결측치 수만 확인df.loc[df['col_name'].isnull(),:] # 결측치 포함 데이터 보기 만약 결측치가 있다면,1) 결측치가 있는 행 또는 열을 제거할 수도 있고,2) 결측치를 어떠한 값으로 채울 수도 있다. 제거할지, 채울지는 결측치의 수와 기초 통계 등을 확인한 뒤 분석자 재량으로 선택한다. 결측치 제거결측치 수가 많다면 컬..
-
Study
광학문자판독기 : OCR
[서울 ICT 데이터 중급(분석) 과정] easyocr 라이브러리를 설치한다. %pip install easyocr https://pypi.org/project/easyocr/ 위의 사이트에 가면 easyocr에 대한 정보들이 있다. 사이트 내의 supported languages 을 클릭하면 지원하는 언어와 코드를 알 수 있다. 기본 코드 import easyocr reader = easyocr.Reader(['ko','en'], gpu=False) result = reader.readtext('image.jpg') result
-
My Project
로드킬 예방을 위한 생태통로 설치 및 수정 제안
첫 팀 프로젝트를 진행해봤다! 프로젝트 소개 로드킬 데이터, 생태통로 데이터, 도로 데이터, 종 분포 데이터를 활용하여 생태통로가 없어서 로드킬이 발생하는 곳과 생태통로가 있지만 로드킬이 발생하는 곳을 찾아내 생태통로 추가 설치 및 수정을 제안하는 프로젝트. 새로 배운 점 1. 지리 데이터 분석 주제 특성 상, 그리고 팀원 분이 지리 데이터 전공이셔서 처음으로 지리 데이터를 다뤄보게 되었다. 인터넷에 지리 데이터에 대한 정보가 적어 시간이 많이 걸렸지만 결국에는 성공! - 지역을 그리드 단위로 나누어 분석하기 - moran I, 자기상관분석으로 핫플레이스와 로우플레이스 찾기 위의 과정을 해보면서 지리 데이터 분석과 시각화가 데이터 분석에 있어 유용하겠다고 생각했다. 2. DBSCAN 밀도 기반 클러스터링..