본문 바로가기

KT AIVLE SCHOOL

[6주차] 2차 미니프로젝트

목차

1. 공공데이터를 활용한 미세먼지 농도 예측

2. 장애인콜택시 대기시간 예측

3. 후기 및 발표자료

 

 

1. 공공데이터를 활용한 미세먼지 농도 예측

2021년 미세먼지 데이터와 날씨 데이터를 학습 데이터로, 2022년 미세먼지와 날씨 데이터를 테스트 데이터로 사용해 2022년 미세먼지 농도를 예측하는 프로젝트

전처리를 하고 머신러닝을 이용했으며 시계열 데이터인만큼 데이터의 특성을 제대로 이해하고 전처리를 진행해야 머신러닝모델을 학습시켰을 때도 성능이 좋게 나왔다.

특성 중요도를 확인하거나 데이터가 많지 않으므로 GridSerach를 진행한 것이 도움이 되었다.

# Feature의 중요도 확인 코드
import matplotlib.pyplot as plt

# 특성 중요도 추출
feature_importance = model.feature_importances_

# 특성 중요도를 특성 이름과 함께 정렬
feature_importance_sorted = sorted(zip(feature_importance, train_x.columns), reverse=True)

# 특성 중요도 출력
for importance, feature_name in feature_importance_sorted:
    print(f'{feature_name}: {importance}')

 

 

2. 장애인콜택시 대기시간 예측

전 날 콜택시 운행이 종료되었을 때, 다음 날 대기시간을 예측

주어진 데이터는 장애인 콜택시 운행정보와 서울시 날씨 데이터 (날씨 데이터는 실제 측정값이지만, 다음 날에 대한 예보 데이터로 간주)

대기시간 컬럼을 shift를 이용하여 다음날의 대기시간으로 새로운 컬럼을 만들고, 이 컬럼을 target으로 설정

딥러닝과 머신러닝을 둘 다 진행했지만 머신러닝에서는 LinearRegression과 SVR에서 kernel='linear'로 설정했을 때 가장 성능이 잘 나왔다. 또한 딥러닝은 머신러닝보다 성능이 안나왔으며 레이어를 더 단순하게 쌓았을 때 성능이 비교적 좋았다.이를 통해 단순한 시계열 데이터는 선형관련 모델 혹은 단순할수록 성능이 더 높게 나올 수 도 있다는 것을 알았다.

 

 

 

3. 후기 및 발표자료

팀원 분들이 전부 잘하시는 능력자 분들로 구성되어서 과제가 주어지면 보통 그 날 다 끝냈다. 그래서인지 코드 작성에 시간을 더 쓰지 않고 각자 수행한 방법을 토의하면서 더욱 성능이 높은 방법을 찾았는데 매우 뜻깊었다고 생각한다.

혼자서 과제를 수행하는 것보다 팀원들과 각자 수행한 결과를 얘기하면서 최적의 결과를 도출하는 것이 더욱 좋다는 것을 깨달았다.

많은 것을 느끼게 해주고 열심히 해주신 4조 팀원분들 정말 감사합니다.

 

미세먼지 농도예측.pdf
0.40MB
장애인콜택시 대기시간예측.zip
1.90MB