4. 모델 및 결과
4.1. GBT(Gradient Boosting Tree-머신러닝 알고리즘)
이 연구에서는 예측모델을 만들기 위해 경사 부스팅 알고리즘(Friedman, 2001)을 사용한다. GBT는 통계적 기계학습 기술을 사용하는 분류 및 회귀 트리 유형의 하나이다. 경사 부스팅은 간단하게 매개 변수화되어 있는 함수를 순차적으로 적용하여 가법 회귀 모델을 구성한다. 반복할 때마다 현재 잔차와 다음 잔차를 기준으로하여 개선이 이루어진다(Friedman, 2002). GBT는 알고리즘이 학습 과정에 따라 각 노드에서 분류 결정을 내리는 조각별 구조를 포함하고 있다. 훈련 데이터의 모든 데이터 지점은 트리 구조를 통과하는 것으로 모델에서 평가된다.
트리 구조에서 그 값이 다양한 지엽(枝葉)을 통과하고 주어진 속성의 값에 기초하여 결정이 내려질 때 데이터의 분류가 생성된다. 알고리즘 모델 중에서 GBT는 예측의 정확도와 모델 해석의 목표를 모두 달성한다는 점에서 독특하다. 또한 이 방법은 데이터 전처리 및 매개 변수 조정이 거의 필요하지 않는다. GBT는 다양한 응답 분포의 분류 또는 회귀 문제에 적용할 수 있다. GBT 알고리즘에서 복잡한 상호작용은 모델링되고, 예측변수의 결측값과 같은 여러 복잡성은 거의 정보손실 없이 관리된다.
특성을 선택하는 것은 매개변수(예: 트리 구조물에 대한 반복 횟수, 학습 속도, 계층 수)와 훈련 데이터에 있는 각 속성의 고유한 조합에 의해 수행된다. 이 외에도 예측에는 기능적 형식이 부과되지 않으며, 트리를 구성하는 것에 있어서는 변수 간 상호작용이 허용된다(Elith, Leathwick, & Hastie, 2008). 이러한 속성을 통해 GBT는 저비용 예측 모델을 보장하는 좋은 후보로 고려될 수 있다(Guelman, 2012).
4.2. 데이터 분할 및 결과 검증
여기서는 전체 데이터 자료를 두 개의 하위 집합으로 분할한다. 즉, 모델을 훈련하기 위한 훈련 자료와 훈련된 모델의 성능을 테스트하기 위한 테스트 자료이다. 훈련 자료의 크기는 전체 데이터의 70%로 간주되어 전체 데이터 자료를 대표하고 통계적으로 의미 있는 결과를 산출할 수 있을 만큼 충분히 크다. 나머지 30%의 데이터는 훈련된 모델의 예측 성능을 평가하기 위한 테스트 자료로 사용된다. 예측모델의 정확성을 검증하기 위해 "k-fold 교차 검증"(James, Witten, Hastie, & Tibshirani, 2013; Kohavi, 1995) 알고리즘을 사용하였다. 이 알고리즘은 훈련 데이터를 k개의 동일한 크기를 갖는 상호 배타적인 부분 집합으로 나눈다. 모델은 k번 훈련되고 테스트 된다. 매번 k-1번 중첩을 하여 모델을 학습한 다음 나머지 중첩 부분에 대해서 테스트한다. 모델의 정확도는 R2 및 MSE 값과 같은 통계 메트릭을 사용하여 측정된다.
4.3. 결과
정확성과 해석 가능성은 예측 학습의 두 가지 중요한 목표이다. 그러나 이 두 가지 목표가 항상 일치하지는 않는다. 신경망 및 지원벡터 머신과 같이 매우 정확한 결과를 제공하는 다른 통계학습 방법과 달리, 경사 부스팅(Gradient Boosting) 알고리즘은 결과를 쉽게 해석할 수 있다. 해석을 위해 종종 유용하게 사용되는 중요한 척도는 결과값에 대한 입력변수의 상대적 영향력이다(Guelman, 2012).
GBT에서 사용되는 매개 변수값은 표2에 나와 있다. 구현된 모델에서 정확한 결과를 얻기 위해 반복 횟수를 최대로 설정했다. 또한 데이터의 과적합(overfitting)을 방지하기 위해 최대 깊이 및 최소 행의 값을 각각 10과 1로 설정했다. 또한 표2는 구현된 모델의 통계결과를 보여준다. 훈련 자료의 데이터 포인트는 R2값 0.933과 MSE값 124.641에 적합함을 확인할 수 있다. 실험에서 라벨값이 0에서 100까지 측정되기 때문에 최대 MSE는 10,000이 된다. 관찰된 MSE와 최대 MSE를 비교해보면 모델 결과의 오류가 매우 적어 그 성능이 우수함을 확인할 수 있다. 그림 11은 예측모델의 계산 과정을 분석하기 위해 MSE(평균제곱오차)에 대한 반복 횟수를 보여준다. 이 그림은 음의 선형 관계를 보여준다. 즉, 반복 횟수가 증가하면 MSE는 선형적으로 감소하는 것이다. 이제 반응 변수의 값을 예측하기 위해 테스트 데이터 집합에 모형을 구현시킨다. 그런 다음 예측된 값은 그림 12에 표시된 것처럼 NFIRS에서 직접 가져온 실제 값과 비교할 수 있다. 이 그림에서 실제손실인 R2값 0.9765는 예측된 손실값과 높은 일치율을 보이는 것을 관찰할 수 있다.
4.4. 추론
표3에서 데이터는 생성된 모델에 영향을 주고 있으며, 여기에 사용된 각각의 변수는 통계적 유의성이 있음을 보여준다. 사고가 접수된 상태가 가중치의 큰 비중을 차지하고, 비슷한 중요성을 가진 두 가지(발생 월과 평균풍속)가 그다음 비중을 나타내고 있다. 이 속성에서 강수량은 가장 적은 비중을 차지하며, 각 온도 속성은 유사한 중요성을 갖는다.
해당 주는 화재위험을 결정하는 데 중요한 역할을 한다. 환경적 조건, 풍부한 가연물 및 생활비 수준으로 인해, 섹션2에 명시된 대로 일부 주에서는 다른 주에 비해 화재로 인한 손실이 더 많이 발생하는 경향이 있다. 날씨와 직접적으로 관련된 각 변수의 영향은 아주 심오하다. 온도는 화재의 시작 및 확산 시 지속되도록 하는데 중요한 역할을 한다. 더 높은 온도라는 것은 결국 더 높은 연료온도를 의미한다. 연료의 온도가 높을수록 인화점에 더 가까워지고 훨씬 더 도달하기가 쉽다. 반면 바람은 화재 확산에 중요한 역할을 한다. 바람은 연소 중인 화재로 공급되는 산소량을 늘리거나 줄이는 것에 영향을 줄 수 있으며, 가연물이 풍부한 방향으로 또는 반대 방향으로도 이동시킬 수 있다. 한편 강수량은 연료 온도도 제어하고 연료가 노출되는 수분의 양도 제어한다. 연료의 습기가 적을수록 연소하기가 더 쉬우며, 강수량은 온도의 하락을 의미하기 때문에 연료 온도에도 이것을 적용할 수 있다(Fire Science, n.d).