첫 팀 프로젝트를 진행해봤다!
프로젝트 소개
로드킬 데이터, 생태통로 데이터, 도로 데이터, 종 분포 데이터를 활용하여
생태통로가 없어서 로드킬이 발생하는 곳과 생태통로가 있지만 로드킬이 발생하는 곳을 찾아내
생태통로 추가 설치 및 수정을 제안하는 프로젝트.
새로 배운 점
1. 지리 데이터 분석
주제 특성 상, 그리고 팀원 분이 지리 데이터 전공이셔서 처음으로 지리 데이터를 다뤄보게 되었다.
인터넷에 지리 데이터에 대한 정보가 적어 시간이 많이 걸렸지만 결국에는 성공!
- 지역을 그리드 단위로 나누어 분석하기
- moran I, 자기상관분석으로 핫플레이스와 로우플레이스 찾기
위의 과정을 해보면서 지리 데이터 분석과 시각화가 데이터 분석에 있어 유용하겠다고 생각했다.
2. DBSCAN
밀도 기반 클러스터링. 지금까지 지도학습 프로젝트만 해봤기 때문에
클러스터링을 공부하면서 kmeans만 사용해봤었다.
그런데 이번에 팀원 분이 DBSCAN을 언급하셔서 이번 기회에 새로 배우게 되었다.
느낀 점 & 어려운 점
1. 데이터 부족 및 부재
로드킬 데이터가 부족했고 종 분포 데이터가 없어서 곤란했다.
그래서 로드킬 데이터는 Randomforest로, 종 분포 데이터는 SDM으로 예측하여 만든 데이터를 사용했지만
실제 데이터가 아닌 예측 데이터를 사용해 리스크가 있고
데이터를 만드는 것에도 시간을 들여보면서 데이터 유무의 중요성을 느꼈다.
2. 새로운 방법
새로 배운 점에서 언급한 것들을 새로 공부하고 시도해봤다.
정해진 공모전 시간 동안 공부도 하고 적용도 하고, 중간에 에러나면 왜 나는지 이유 찾느라 시간이 오래 걸렸다.
그래도 새로운 것들을 많이 배우고 적용해봐서 즐거운 공모전 경험이었다.
3. 시각화의 중요성
다른 데이터도 그렇겠지만 지리 데이터 특성상 시각화가 큰 도움이 됐다.
생태통로 위치와 로드킬 발생 위치를 시각화해서 보면서
어떤 지역이 로드킬이 빈번한지, 그리고 생태통로는 어디 부족한지 확인할 수 있었다.
어떻게 하면 더 보는 사람이 보기 좋을지 생각하면서 여러 방법으로 시각화를 시도했는데
그 과정이 재밌고 뿌듯했다.
'Project > My Project' 카테고리의 다른 글
[데이콘] 모델 튜닝 챌린지 : RF 하이퍼파라미터 최적화 경진대회 (0) | 2024.05.16 |
---|