"8조- ∞"의 두 판 사이의 차이
2021adenv08 (토론 | 기여) (→개념설계안) |
2021adenv08 (토론 | 기여) (→상세설계 내용) |
||
395번째 줄: | 395번째 줄: | ||
===상세설계 내용=== | ===상세설계 내용=== | ||
− | + | ◇ 데이터 수집<br/> | |
+ | 딥러닝 기반 조류예측 모델을 개발하기 위하여 낙동강 수계를 대상으로 녹조 수질, 수위, 유량, 기상 데이터를 수집하였다. 기상 데이터는 기관에서 제공하는 OPEN API를 이용하여 수집하였으나 녹조 수질 자료의 경우 제공되는 OPEN API가 없어 웹 크롤링을 이용하여 수집하였다. 데이터별 제공기관은 다음과 같다.<br/> | ||
+ | - 기상 데이터 : 공공데이터 포털(기상청) | ||
+ | - 수위, 유량 데이터 : 물환경정보시스템 | ||
+ | - 녹조 수질 데이터 : 물환경정보시스템 | ||
+ | |||
+ | ◇ 대상 지점 및 기간<br/> | ||
+ | 물환경정보시스템은 낙동강 유역 8개 보의 수질 자료를 제공하고 있다. 우리는 이중 2020년 6월 조류경보제 운영지점 녹조 분석 결과를 바탕으로 낙동강 유역 중 유해 남조류 수가 조류경보제 기준을 초과한 지점을 집중적으로 살펴보고자 한다. ‘관심’ 단계가 발령된 지점은 ‘칠서’와 ‘물금매리’였으며 ‘칠서’는 구 ‘창녕함안보’에 해당하고 ‘물금매리’는 시범운영을 거쳐 올해 5월부터 운영되고 있다. 따라서 ‘창녕함안보’와 ‘경계’기준을 1회 초과한 ‘강정고령보’를 대상지점으로 선정하였다. 자료 수집 기간은 2012년 8월부터 2021년 4월까지이다. 아래 지도는 낙동강 유역 내의 보와 개방 현황이다(Fig 4). | ||
+ | |||
+ | [[파일:13. 낙동강 수계 보 현황.png]]<br/> | ||
+ | Fig 4. 낙동강 수계 보 현황 | ||
+ | |||
+ | ◇ 데이터 수집<br/> | ||
+ | - 녹조 수질 데이터 및 수리·수문 데이터<br/> | ||
+ | 물환경정보시스템에서 제공하는 보 데이터에는 여러 측정망에 따라 다양하게 구성되어있다. ‘창녕함안보’의 데이터의 경우 크게 조류, 유속, 수질, 보 운영현황으로 나뉘며 각 분야에서 측정망에 따라 원하는 변수를 구할 수 있다. 조류 분야에 해당하는 조류경보제를 통해서 수온, pH, 용존산소 등과 더불어 유해남조류 수와 각각의 유해 남조류 속에 따른 세포 수도 확인이 가능하다. 유속 분야에 속하는 자동유속관측망의 경우 평균유속과 일 평균 유량 정보를, 수질자동측정망의 경우 수온, 수소이온농도, 전기전도도, 용존산소량, 총유기탄소, 탁도, 총질소, 총인, 암모니아성 질소 등 총 12개의 변수 데이터를 제공한다. 수질측정망을 통해서는 수온, 수소이온농도 등을 제공하나 이는 수질자동측정망과 일부 겹친다. 더불어 수질예보제를 통해서 수온, pH, 용존산소, 총인, 클로로필-a, 유해남조류 수, 우점조류 확인이 가능하다. 데이터의 주기는 각 측정망과 측정 항목에 따라서 차이를 보이는데 이는 데이터 대체 방법론을 통하여 일 단위 데이터로 일괄적으로 변환하였다. 데이터 대체 방법론으로는 Kalman filter imputation을 사용하였다. | ||
+ | |||
+ | [[파일: 14. Kalman Filter 대체전후.png|50픽셀]]<br/> | ||
+ | Fig 5. 창녕함안보의 Kalman filter imputation 대체 전후 비교 | ||
+ | |||
+ | - 기상 데이터 | ||
+ | 기상 데이터는 보 지점과 인접한 기상 관측 지점의 것을 사용하였고 자료는 기상청에서 제공하는 종관기상관측(ASOS) 데이터를 사용하였다. 종관기상관측 데이터는 일 단위로 제공되며 총 59가지이다. 이중, 한 지점에서라도 결측값이 30%를 넘는 경우 제외하였다. 제외 후 남은 데이터는 다음과 같으며 결측치의 경우 Kalman filter imputation을 통하여 데이터 대체를 진행하였다. | ||
+ | |||
+ | 평균 기온 | ||
+ | 최저 기온 | ||
+ | 최고 기온 | ||
+ | 일강수량 | ||
+ | 최대 풍속 | ||
+ | 최대 풍속 풍향 | ||
+ | 평균 풍속 | ||
+ | 풍정합 | ||
+ | 최다 풍향 | ||
+ | 평균 이슬점온도 | ||
+ | 최소 상대습도 | ||
+ | 평균 상대습도 | ||
+ | 평균 증기압 | ||
+ | 평균 현지기압 | ||
+ | 최고 해면 기압 | ||
+ | 최저 해면기압 | ||
+ | 평균 해면기압 | ||
+ | 가조시간 | ||
+ | 합계 일조 시간 | ||
+ | 평균 지면온도 | ||
+ | 최저 초상온도 | ||
+ | |||
+ | 대상 지점으로 선정한 강정고령보와 창녕함안보 데이터를 바탕으로 데이터 대체 방법론을 적용하여 모델링을 진행하였다. 독립변수는 측정일자, 수온, 일 복사조도, 주간평균 체류시간, 일 강우량, 용존산소, 생화학적 산소 요구량, 총질소, 총인, 총대장균군이며 종속변수로는 유해 남조류 수를 사용하였다. | ||
+ | |||
+ | 데이터는 스케일 조정과 데이터 대체를 통하여 전처리를 진행하였으며 스케일 조정은 변수 간 상대적 스케일 차이에 따른 모델 성능 평가 저하를 방지하기 위하여 측정일자, 수온을 제외한 독립/종속 변수의 로그 스케일 변환으로 이루어졌다. 데이터 대체 방법론은 앞서 언급한 MICE와 Kalman Filter 가 후보로 사용되었다. 사용 모델은 LSTM과 ConvLSTM으로 데이터 대체 방법론과 모델의 조합을 통하여 4가지의 모델링 아이디어를 생성했다. | ||
==결과 및 평가== | ==결과 및 평가== |
2021년 12월 16일 (목) 02:12 판
프로젝트 개요
기술개발 과제
국문 : 대상 수계에 적합한 녹조 관리를 위한 모델링 및 관리 프로토콜 제시
영문 : Modeling algae management suitable and proposal of management protocols for target water systems
과제 팀명
∞
지도교수
이상철 교수님
개발기간
2021년 9월 ~ 2021년 12월 (총 4개월)
구성원 소개
서울시립대학교 환경공학부 20188900** 이**(팀장)
서울시립대학교 환경공학부 20188900** 김**
서울시립대학교 환경공학부 20188900** 박**
서울시립대학교 환경공학부 20168900** 이**
서론
개발 과제의 개요
개발 과제 요약
◇ 이상기후와 지구 온난화 등의 녹조 성장에 영향을 미치는 기상현상이 급격하게 변함에 따라 정확도 높은 실시간 녹조 현상 분석의 필요성이 요구되고 있다. ◇ 낙동강 유역의 보에서 녹조 현상이 증가하며, 녹조 발생을 유발시키는 유해 남조류가 독성물질 배출 및 이취미 유발 등을 통해 인체에 미치는 악영향이 우려된다. ◇ 정확도가 떨어지는 기존의 녹조 발생 경보제, 녹조 발생 예측 모형의 한계를 극복하며 실시간 녹조 모니터링이 가능한 모델을 구축하여, 보다 효율적인 관리가 이루어지는 것을 목표로 한다. ◇ 기존의 특허와 비교하여 프로젝트의 높은 정확성과 신속성 및 범용 가능성을 특허전략으로 설계하였으며, 현재 녹조 모니터링에 사용되는 수리·수문 모델과 머신러닝, 딥러닝 방법론 비교를 통하여 프로젝트의 경쟁력을 확보하였다.
개발 과제의 배경
매년 계속되는 이상기후 현상과 지구 온난화로 인한 녹조 발생이 증가함에 따라 녹조 방제 사업, 녹조 제거제 및 지속적인 녹조 예찰 활동 등 녹조현상에 대응하는 사업이 지속되고 있다.
높은 기온에 영향을 받는 녹조가 우리나라 평균 기온의 상승으로 활발하게 증식하고 있다. 녹조류가 물의 표면을 뒤덮으면 햇빛이 차단되어 산소의 유입이 감소하며 물의 용존산소량이 줄어들고, 수중생물들이 죽게 된다. 이는 수질 오염을 나타내는 중요한 척도 중 하나로 녹조현상 해결을 통한 수질관리가 필요한 실정이다.
수질 예측 모형에는 대표적으로 EFDC, QUAL2K, WASP 등이 있는데, 이중 국립환경과학원과 환경부에서는 EFDC 기반 모형과 유해 남조류의 실측치를 통하여 조류경보제를 시행하고 있다. 하지만 이러한 물리 모형만을 활용하여 녹조를 예측하고 이에 대비하는 것에는 문제점이 있다. 가장 주요한 이유는 다음과 같다. 물리 모형은 질량 보존 법칙을 기반으로 하지만 생물인 조류는 계속 증식하거나 제거되어 해당 모형을 이용하여 예측하는 데에 한계가 있다. 따라서 기존의 물리 수질 예측 모형과 더불어 최근에 여러 분야에서 주목받는 AI 기반의 딥러닝 알고리즘을 사용하여 한계점을 보완해 주는 것이 하나의 해결책이 될 수 있다.
EFDC와 같은 물리 예측 모형은 단기 예측보다는 장기 예측에 더 강점을 갖는다. 단기 예측은 순간의 변화에 의해 불확실성을 갖지만 장기 예측은 충분한 분석 기간이 그 변화를 희석시키기 때문이다. AI 알고리즘을 이용한 모형은 변화에 의해 발생하는 오차를 고려하여 결과를 산출하기 때문에 위의 문제점을 보완할 수 있다. 따라서 단기간에도 수질 개선이 가능하도록 하는 모형을 설정할 수 있다. 다만, 충분히 큰 데이터를 확보하는 것이 선행되어야 한다.
개발 과제의 목표 및 내용
1. 녹조 발생 예측력 향상
현재 「물환경보전법」 제21조에 의한 녹조 경보 발령 기준은 아래와 같다. 발령 기준은 유해 남조류의 수에 따라 3단계로 나뉘는데 관심, 경계, 대발생 순이다.
발령단계 | 관심 | 경계 | 대발생 |
유해남조류(세포수/mL) | 1천 이상 | 1만 이상 | 1백만 이상 |
Table 1. 녹조 경보 발령 기준
발령 단계에 따라 우려되는 위험성 및 관리 방법에 차이가 있기 때문에 우리는 대상 수계의 녹조 경보 발령 단계를 예측하고 각 단계에 적합한 관리 프로토콜을 제시 및 적용함에 따라 4대강 보 구간 목표 수질 설정 관리를 통해 상수원으로 이용되는 16개 보의 총인 농도 또는 남조류 세포수를 일정 수준 이하로 유지함을 목표로 한다.
더불어 현재 녹조 관리 과정에서 대두되는 문제는 다음과 같다. - 조류경보제의 신속한 남세균 세포수 측정을 위한 기계적 측정법 도입 및 남세균의 Biomarker 등 target 물질을 활용한 정량 측정법 기술 개발 필요 - 조류발생 예측을 위한 정확한 기상, 영양염류, 유량 변동 등 관련된 모든 요소의 예측 기술 필요 - 유수역 녹조 발생 증가에 대한 현장 적용 가능한 근본적 해결책 필요 - 대규모 유수역에 현장 적용이 가능한 고효율 녹조 제거 기술 필요
따라서 신속하고 정밀한 측정 및 모니터링, 수생태계 유입 유해 물질에 대한 예측 및 오염원 추적에 기여할 수 있는 모델을 구성하고자 한다. 더불어 초기 대상 수체뿐만 아니라 수체에 적합한 모델 구조 수정을 통해 빠른 시간 내에 넓은 범위의 수체에 적용 및 활용이 가능한 범용성 높은 모델을 설계하고자 한다.
2. 기존의 수질 관리 시스템 대비 녹조 관리에 더 적합한 모델 구축
우리나라는 통합 물관리 지원을 위한 분석 및 진단 의사결정 지원 모형인 ‘K-series’를 구성하여 보다 합리적인 의사결정 및 관리를 지원한다. 기존 물리·화학적 모형과 빅데이터 분석 기반의 데이터 기반 모형을 융합한 하이브리드 모형이며 유역을 비롯한 저수지, 하천, 하구, 지하수, 정수처리, 하수처리, 관로 분야를 포함하고 있다.
수자원 분야에서는 수리 구조물의 영향을 고려한 하천 흐름 해석 소프트웨어인 ‘K-River’를 비롯해 홍수 피해 분석을 위한 ‘K-Flood’, 단기 유출 해석을 위한 ‘K-DRUM’, 장기 유출 해석을 위한 ‘K-Basin’, 수위-유량 관계 곡선 식 산정을 위한‘K-HQ’, 저수지 운영 시 계획 수립 지원을 위한 ‘K-RSIM’ 등이 개발되었다.
Fig 1. K-series 구성도
하지만 현재 4대강 전역에서 발생하는 녹조에 대한 예측이 불가능한 상황으로, 녹조 예측 및 모니터링 분야에 있어 국내 출현 유해 남조류의 거동 특성 규명 및 예측 모델 고도화를 목표한다. 남조류의 거동 특성 및 농도 예측에 적합한 모델링을 위해 충분한 문헌 조사를 거쳐 모델 선정을 진행한다. 이를 통해 기후변화, 생활 및 산업 활동 변화로 다양화, 다변화되고 있는 수생태계 건강성 위협 요인의 관리 핵심기술 개발 및 현장 적용과 수생태계 건강성 증진을 목표로 한다.
3. 녹조 관리 정책 의사결정을 위한 근거 제시
다양한 유해 녹조의 위험들을 모두 관리하기에는 인적·물적 자원의 한계가 있으므로, 다양한 위험들의 상대적 중요도를 파악하고 각각의 위험 특성을 잘 반영한 녹조 예측 모델이 필요할 것으로 보인다. 최근 소득 증가에 따른 국민의 친수활동 수요 증가와 하천 및 수변공간의 생태·문화적 이용을 위한 기반 시설이 재정비되면서, 공공수역 내의 친수활동을 통한 잠재적 유해 녹조의 위험성이 증가하고 있다. 그러므로 음용수 중심의 유해녹조 위험관리 체계에서 한발 나아가 친수활동 시 위험성도 함께 고려하여 관리체계 및 정책 수립을 해야 할 것으로 보인다.
4. 녹조 예측을 통한 경제적, 사회적 이점 달성
녹조 및 남조류 독소에 대한 국민적 우려가 고조되고 있다. 특히 경제적 및 사회적으로 취수 안정성, 어류 안정성, 담수 녹조의 연안 확산, 농산물 안정성, 친수활동 안정성 등에 대한 문제가 제기되고 있는 상황이다. 따라서 녹조 문제의 해결은 녹조의 제거를 통한 지역 경제적 손실, 농업용수, 산업용수의 부족으로 인한 경제적 손실뿐만 아니라 사회적 문제로서의 국민들의 인식의 전환을 통하여 불안감 해소에 기여할 수 있다.
관련 기술의 현황
관련 기술의 현황 및 분석(State of art)
- 전 세계적인 기술현황
1. 물리 모형
물리 모형에는 EFDC, WASP, QUAL2K 등이 있으며, 현재 국립환경과학원에서는 EFDC를 기반으로 한 모형을 사용하고 있다. - EFDC (Environmental Fluid Dynamics Code) 3차원 수리·수질 동역학 모델이다. EFDC 모형은 하천, 호소, 해안 등 여러 유형의 수계에서 사용 가능한 장점을 가진다. - WASP (Water quality Analysis Simulation Program) 1983년 호수의 부영양화와 PCB의 오염을 예측하기 위하여 처음 개발되었다. 보완된 모형은 시간에 따른 데이터 입력치의 변화를 고려할 수 있어 연중 변화뿐 아니라 상대적으로 짧은 시간 간격 사이의 수질 성분 변화를 분석하는 데에도 유용하다. 국내에서는 주로 환경영향평가에 사용된다. - QUAL2K QUAL2K는 강과 하천을 다루는 수질 모델인 QUAL2E(Q2E)의 최신 모형이다. QUAL2K 모형에서 모의 가능한 수질 항목에는 조류 외에도 DO, BOD, 클로로필a 등이 있다. 또한 여러 수질항목이 서로 반응하여 상호 작용을 모의하는 것도 가능하다.
2. 머신러닝 모형
머신러닝은 수많은 데이터 속에서 패턴을 발견하여 분류를 통해 예측하는 기술이다. 보통 지도 학습(supervised learning)과 비지도 학습(unsupervised learning) 두 가지로 나눌 수 있다. 이들 간의 가장 큰 차이점은 학습할 타겟 변수의 유무이다. 지도 학습은 학습하고 예측할 타겟 변수가 있으나 비지도 학습은 그렇지 않다. 최근에 AI 기술이 급성장함에 따라 매우 다양한 분야에서 머신러닝을 기반으로 한 기술을 사용하고 있다.
- MLP (Multiple Layer Perceptron) 인체의 신경전달 과정을 본따서 만든 것으로 특히 신경망의 뉴런과 시냅스를 모방한 모형이다. Input layer(입력층), Output layer(출력층), Hidden layer(은닉층)로 구성되고, 특히 Hidden layer는 여러 층을 이루고 있으며 모형에서 가장 중요한 역할을 한다.
- RNN (Recurrent Neural Network) MLP가 단순히 한 방향으로만 학습을 진행한다면, 순환신경망인 RNN은 신경 흐름의 반대 방향으로도 피드백이 이루어지는 모형이다. 예를 들어 L1, L2, L3의 순서로 학습이 이루어진다고 하자. RNN은 학습이 이루어진 후 오류가 난 부분을 잡아내고 이를 다시 L3, L2, L1의 방향으로 피드백이 전달된다. 이 피드백을 이용하여 파라미터들을 재조정하게 된다. 이를 역전파 학습(Backpropagation)이라고도 한다.
- LSTM (Long Short Term Memory) 1997년 Hochreiter과 Schmidhuber에 의해 처음 제안된 딥러닝 기법으로 기존의 RNN에서 한층 더 발전되었다. 주로 시계열 데이터 예측을 진행하는 데 이용한다. 또한 시간적으로 연속적인 데이터의 분석에 주로 사용되며 오차 경사의 기울기(SGD) 소실과 최적화 오류를 해결한다.
Fig 4. LSTM 모형의 모식도
(모식도에서 는 sigmoid(시그모이드) 함수를 나타낸다. 입력된 값은 이 함수를 통해 0과 1 사이의 값이 출력되는데, 0과 가까울수록 버려야 할 데이터로 지정하고 1과 가까울수록 기억해야 할 데이터로 분류한다.)
- SVR (Support Vector Regressor) 서포트 벡터 머신(SVM)은 3차원 공간에 벡터들이 있을 때 각 벡터들과의 거리를 모두 계산하여 최솟값을 가지는 초평면을 찾아내는 방법이다. 하지만 앞선 내용과 같이 선형으로 분류가 불가능할 때는 커널함수를 도입하여 데이터의 차원을 낮추는 과정을 진행한 후 분류한다. SVM은 분류 모형으로 벡터들을 클래스로 구분하지만, SVR은 클래스로의 분류가 아닌 실수값까지 예측 가능하게 하는 회귀 모형이다. SVM에 -intensive loss 함수를 적용하여 모델을 회귀 분석할 수 있게 만들 수 있다.
3. SWAT (Soil Water Assessment Tool)
미국 농무성 농업연구소에서 개발된 유역 모델이다. 공간적으로는 대규모의 복잡한 유역, 시간적으로는 장기간에 걸친 데이터를 기반으로 하여 토지관리방법의 영향을 예측하기 위하여 개발되었다. 앞서 소개했던 물리적 이론과의 차별점으로는 유역 내의 기상자료, 토양 특성 자료, 지형, 식생 등에 대한 구체적이고 넓은 범위의 정보가 필요하다. SWAT의 장점에는 여러 가지가 있다. 먼저 하천수위자료 등의 유역자료가 없는 지역에서도 모형화가 가능하다는 것이다. 또한 어떠한 입력 자료를 선택하느냐에 따라 미치는 영향이 상대적인데, 이 영향에 따른 수질과 같은 변수들에 대해서 정량화가 가능하다. 마지막으로 계산이 효율적이며 추가 비용 없이 수행할 수 있다.
- 특허조사 및 특허 전략 분석
명칭 | 조류 대증식을 예측하기 위한 웨이블릿 기반 자동회귀 퍼지 모델링 방법 |
특허 등록번호 | 10-1585545-0000 |
등록일자 | 2016.01.08 |
대표도 | |
요약 | 대조류 활동을 예측하기 위한 웨이블릿 기반 자동회귀 퍼지 모델링 방법으로 7단계로 구성된다. 다양한 변수의 대조류 활동을 효율적으로 예측하여 하천 및 저수지의 수질을 관리할 수 있다. |
◇ 정확성 본 과제에서 조류 대발생 예측을 위해 사용되는 모델은 이전에 사용되었던 모델보다 정확도가 향상된 모델로 수질, 토양, 기상 데이터를 기반으로 정확도 높은 예측값을 생성할 수 있다.
◇ 신속성 및 범용 가능성 구축하고자 하는 모델은 실시간 수질 모니터링에 따른 수질 데이터를 입력 데이터로 사용하여 모델 내 최적화를 통해 결과를 도출할 수 있다. 이전에 특허에서 사용된 수질 측정과 예측이 동시에 진행되는 모델에서 데이터베이스 구축 및 전달 과정 생략이 가능하며 하나의 알고리즘 생성을 통한 빠른 결과 도출이 가능하다. 무엇보다 수질 데이터가 있는 광범위한 수계를 대상으로 사용 가능하다.
- 기술 로드맵
1. 국내 수질모델 개발현황
개발연도 | 개발자 | 모델명 | 주요 특징 |
1987 1988 |
한국건설기술연구원 | KICT-QUAL | • QUAL2E 모델 활용을 위한 입력모듈 개발 • 사용상 오류방지기능 향상 • 시간변화 부하량 고려 • 그래픽 표현방식 구현 |
1991 | 박석순 등 | STREAM | • 탈질화, 부착조류 및 수초의 광합성 고려 • SOD 추가 |
1993 | 박석순 등 | STRESS | • STREAM 모델에 Monte Carlo 불확실성 분석 포함 |
1997 | 박석순 등 | KQUAL | • QUAL2E에 부유조류 사멸시 발생유기물, 탈질화 및 수초에 의한 DO 변화 등 고려 • GUI 포함 • 대형 수계 적용 가능토록 구간 수 증가 |
2000 | 한건연 등 | UUWQM | • 2차원 이송확산을 고려한 2차원 동수역학 수질모델 • 계수의 변동성 및 불확실성 고려 |
2000 | 김경섭 등 | KICT-QUAL | • QUAL2E 모델 활용을 위한 입력모듈 개발 • 사용상 오류방지기능 향상 • 시간변화 부하량 고려 • 그래픽 표현방식 구현 |
2001 | 공동수 등 | QUALKO | • QUAL2E에 조류생산 유기물 및 탈질화과정 고려 • Bottle BOD 포함 |
2001 | 김종구 등 | 수정 QUAL2E | • QUAL2E에 자생 BOD 고려 |
2003 | 서동일 등 | CAP | • 소하천용 1차반응의 간편모델 • 완전혼합과 플러그 흐름으로 구분 |
2010~ 현재 |
국립환경과학원 | EFDC-NIER | • 보 모듈 개발 • 남조류 수직이동 기작 등 조류관련 모듈 개발 |
2. 딥러닝 선행연구
연도 | 저자 | 연구방법론 | 변수 |
2011 | 국립환경과학원 | MLP | 추소수역의 수심, 수온, pH, DO, 전기전도도, 투명도, Chl-a, TN, TP |
2017 | 한국정보화진흥원 | RNN | 기상데이터(기온, 일조량, 풍속, 습도, 기압, 강우량 등) 수질(수온, pH, BOD/COD, SS, TP, Chl-a, 남조류 세포수 등) 수문(지점별 수위, 유량 등) |
2018 | Cho et al | LSTM | 수온, pH, DO, EC, TOC, TN, TP |
2020 | Marndi and Patra | Moving Window LSTM | 해수면 온도, 해수면 염도, 해면고도 |
시장상황에 대한 분석
- 선행연구 조사 비교
◇ 딥러닝 기반 수질오염 통합예측
본 연구는 녹조의 발생 현상 중 하나인 HAB(Harmful Algal Bloom)의 해결하기 위한 방안으로 대한민국 4대강에 위치한 수질자동측정망의 각 측정망에 대해 통합예측 모델을 구성하여 HAB의 발생을 예측하였다. 톻합예측을 수행하는 과정에서 각 측정망 간 상관성과 측정망 간의 근접도를 고려하여 다양한 모델을 설계하고 딥러닝 분석 방법에도 여러 방법론을 적용하여 HAB통합예측 CNN 모델을 도출했다. 측정소 간 1)상관계수 행렬, 2)최근접 거리 행렬, 그리고 3)time step을 고려한 클로로필-a 예측, 4)상관계수 행렬, 최근접 거리 행렬, time step을 전부 고려하는 아키텍처 4가지를 설계하였고 3)time step을 고려한 예측 중 5일 전 데이터를 적용하였을 때 RMSE 5.5310으로 가장 우수한 결과를 산출하였다. 전국에 위치한 수질자동측정소의 각 측정소에 대한 통합예측 모델을 구성하여 측정소 간 상관성과 근접도를 고려한 모델을 설계하고 시계열을 고려한 여러 모델을 구성하여 비교하였다. 활용한 데이터는 결측치를 갖는 측정소로 인해 총 70개 측정소 중 29개만을 활용했다.
◇ EFDC모델을 이용한 한강 수질 및 녹조현상 예측에 관한 연구
EFDC는 3차원 수리동역학 모델로 수체의 3차원 이송확산, 염료, 온도, 염분, 퇴적물, 독성물질 및 수질 등의 모의가 가능하며 연속방정식과 운동량 방정식 등을 지배 방정식으로 한다. 본 연구는 2013년부터 2015년까지 3년간 유량자료, 수질자료, 기상자료 등의 데이터를 이용하여 한강 모델링을 수행하였다. EFDC 수질 모델의 한계를 보완하기 위해 지역에 따른 조류의 최대 성장률을 다르게 설정하여 모의한 결과, TN, TP의 경우 이전과 거의 유사하였고 TOC, Chl-a는 이전보다 재현성이 높게 나타났다. 결과적으로 지역에 따라 조류의 최대 성장률을 다르게 적용하는 것이 수질 모의와 녹조현상을 재현함에 가장 효과적인 방법이라고 도출되었다. 그러나 지역에 따른 조류의 최대 성장률 적용은 반복수행을 통한 값 도출로, 조류 성장에 관한 인과관계를 일반화하여 제시할 수 없는 어려움을 가지고 있다.
◇ 기계학습 기법을 활용한 낙동강 지역 클로로필-a 농도 예측 연구
본 연구는 시계열 자료 예측에 장점을 보이는 딥러닝 모형(RNN, LSTM, SVR, SGboost, 랜덤포레스트, 배깅)을 활용해 클로로필-a 농도 예측을 시행하여 녹조로 인한 수질오염을 방지하며 수질 환경 개선 대책 마련에 도움을 주는 것을 목표로 하였다. 통계적 기법인 전진선택법을 활용하여 예측에 적합한 변수를 선택하였으며 시간의 경과에 따라 훈련 자료를 추가하여 새로운 모형을 구축 후 예측을 시행하는 1단계 선행 재귀 예측을 함께 활용했다. 활용한 딥러닝 모형 중 RNN 모형은 가장 좋은 예측 성능을 보였지만 이전 시점 클로로필-a 농도에 영향을 받은 예측결과가 일부 나타났다. RNN의 경우 시계열 자료의 기간이 방대해지면 모형의 훈련과정에서 기울기 벡터의 값이 크게 감소하거나 증가할 수 있는데 이로 인해 RNN 모형은 매우 먼 과거 정보를 반영하는 데에 어려움이 있다.
- 마케팅 전략 제시
매해 정도가 극심해지는 녹조 현상에 따라 여러 기업 및 정부의 녹조 원인 물질인 ‘인’ 제거 및 회수 기술과 빅데이터를 활용한 하천 녹조 발생 예측기술을 접목한다면 녹조 제어를 위한 사전·사후처리 기술을 개진할 수 있을 것이다.
㈜에코피스의 ‘에코봇’은 인공지능형 무인 녹조 제거 장비로, 녹조 발생 예상 지역을 스스로 움직이며 수질을 측정하고 분석하여 수질 정화 및 녹조 제거 작업을 동시에 진행한다. 또한 ’한국건설기술연구원‘과 ’한국과학기술연구원(KIST)’의 소금쟁이는 낙동강 녹조 제거를 위해 국내 과학기술 분야 정부출연연구기관들이 개발한 녹조 제거선이다. 이처럼 상기한 업체들의 녹조 제거선에 낙동강 유역 수계의 특성 데이터가 학습된 딥러닝 모델을 적용한다면, 기존의 녹조 예측 시스템과 비교했을 때 높은 정확도를 보이기 때문에 효과적인 관리를 기대할 수 있다.
구축한 딥러닝 모델은 각 유역의 수질 측정 지점에서 측정된 수질 데이터를 갱신할 때마다 모델링에 사용할 학습 데이터가 업데이트되어, 최근의 추세를 반영한다는 장점을 가지며 이로 인해 예측력을 한층 더 높일 수 있다. 또 우리가 딥러닝 모델로 구축한 녹조 예측 모델 또는 예측의 결과를 해당 업체들에 제공하고, 업체는 수질 정화와 녹조 제거 작업에 집중함으로써 서로의 전문성을 극대화하는 경제적 효율을 낳을 수 있다.
개발과제의 기대효과
기술적 기대효과
◇ LSTM, SWAT과 같은 모델을 사용하여 기존의 장기 예측의 성능을 향상시킬 뿐 아니라 SVR, RNN과 같은 딥러닝 모형을 이용해 단기 예측에도 강점을 보일 수 있다. ◇ 대상 수체로 선행연구와 데이터가 많은 낙동강 유역을 지정하였으며, 낙동강 유역 모델링을 통해 유요한 인자를 추출하여 유해 남조류와 상관성이 높은 환경변수를 확인할 수 있다. 이는 다른 유역의 녹조 모델링에서도 유용하게 사용될 수 있을 것으로 기대할 수 있다. ◇ 추후 환경부와 국립환경과학원에서 운영하는 물환경정보시스템과의 연동을 통해 자동측정망 자료를 제공받아 실시간 데이터베이스를 구축한다면, 조류 현상을 시시각각 예측하고 적절한 대비를 기대할 수 있다.
경제적, 사회적 기대 및 파급효과
◇ 조류 현상 중 녹조 문제의 해결은 지역 경제적 손실, 농업용수, 산업용수의 부족으로 인한 경제적 손실에 대한 개선뿐만 아니라 국민들의 인식 전환을 통하여 사회적 불안감 해소에도 기여하고자 한다. ◇ SWAT 모델의 경우 추가 비용은 들지 않으며 딥러닝 모델은 상대적으로 적은 비용이 소요된다.
기술개발 일정 및 추진체계
개발 일정
2021.09 ~ 2021.12
구성원 및 추진체계
◇ 김** : 현황 파악 및 문헌 조사, 설계 프로토타입 제시 ◇ 박** : 개념 설계 및 모델 선정 및 구성 ◇ 이** : 모델 성능 향상 및 관리 프로토콜 구성 ◇ 이** : 데이터 수집 및 전처리, 경제성 및 적용 가능성 분석
설계
설계사양
제품의 요구사항
번호 | 요구사항 | D or W | 비고 |
1 | 데이터 전처리 (결측치 대체 및 보완) | D | 大 |
2 | 하이퍼 파라미터 설정 | D | 大 |
3 | 모델의 성능 | D | 大 |
4 | 실시간 데이터베이스 구축 | W | 中 |
5 | 경보 알람 | W | 中 |
설계 사양
내용
개념설계안
가. 모델링 아이디어
◇ 데이터 대체 방법론 사용여부 + LSTM/CNN-LSTM/Convlutional LSTM
먼저 데이터 전처리에서 데이터 대체 방법론 사용 여부에 따른 성능을 평가한다. 데이터 대체를 통해서 주 단위의 수질 데이터를 일 단위로 변환하여 적용할 수 있는데, 이 과정을 통해 보완된 데이터와 그렇지 않은 데이터를 각각 정규화하여 모델에 적용할 경우를 비교한다. 모델의 경우 장·단기 기억이 가능하여 시계열 데이터의 변동성 파악에 용이하다는 장점을 가진 LSTM모델만을 사용한 경우와 CNN과 LSTM 모델을 결합하여 사용한 경우로 나누어 성능을 비교하여 모델을 선정한다. 따라서 전처리 방법과 모델 선택에 따라 총 4가지 경우에 따른 모델을 제시하고, 선택된 모델로부터 산출된 미래의 예측값을 받아 조류 경보 단계를 결정하고 이를 아두이노를 통해 가시화한다.
◇ CNN-LSTM
CNN과 LSTM의 기본 모형을 활용하여 신경망 계층 차원의 결합 없이 인터페이스로 연결된 구조를 의미한다. CNN 모델의 구조는 시계열 예측에서 확장된 합성곱 또는 필터를 사용하여 각 셀 간의 확장을 계산할 수 있는 특징을 가져 신경망이 시계열에서 서로 다른 관측치 간의 관계를 더 잘 이해할 수 있다. LSTM은 장/단기 기억이 가능하도록 설계된 신경망 구조로 시계열 데이터 사용에 적합하다.
* 모델의 학습 방법과 순서 i. 전체 데이터 중 유해 남조류를 제외한 데이터를 CNN 모델의 입력값으로 넣고 해당 시간의 유해 남조류 수 증감 추세를 예측값으로 하여 CNN 모델을 학습한다. ii. CNN 모델을 통해 유해 남조류의 증감 추세를 출력한다. iii. 측정된 시계열 데이터와 CNN을 통한 출력값을 녹조 오염도로 변환하여 LSTM 모델의 입력 데이터를 생성한다. iv. 생성된 입력 데이터로 LSTM 모델을 학습하고 이를 토대로 예측한다.
◇ Convolutional LSTM(ConvLSTM)
Convolutional LSTM(ConvLSTM)은 기존 Fully Connected LSTM(CNN+LSTM)이 공간적 특성을 반영하지 못하는 단점을 보완한 모델로 학습 방법은 LSTM과 동일하지만 내부 구조의 입력, 출력, 상태 레이어의 구성이 3차원의 벡터 형태로 연산되며, 일반 행렬곱이 합성곱(Convolutional operator)으로 이루어져 각 ConvLSTM 셀 자체에서 시공간적인 특성을 동시에 학습할 수 있다. LSTM 셀 자체에서 공간적인 의미와 시간적인 의미를 모두 생각할 수 있다. 구조는 아래와 같다(Fig 3).
이론적 계산 및 시뮬레이션
내용
상세설계 내용
◇ 데이터 수집
딥러닝 기반 조류예측 모델을 개발하기 위하여 낙동강 수계를 대상으로 녹조 수질, 수위, 유량, 기상 데이터를 수집하였다. 기상 데이터는 기관에서 제공하는 OPEN API를 이용하여 수집하였으나 녹조 수질 자료의 경우 제공되는 OPEN API가 없어 웹 크롤링을 이용하여 수집하였다. 데이터별 제공기관은 다음과 같다.
- 기상 데이터 : 공공데이터 포털(기상청) - 수위, 유량 데이터 : 물환경정보시스템 - 녹조 수질 데이터 : 물환경정보시스템
◇ 대상 지점 및 기간
물환경정보시스템은 낙동강 유역 8개 보의 수질 자료를 제공하고 있다. 우리는 이중 2020년 6월 조류경보제 운영지점 녹조 분석 결과를 바탕으로 낙동강 유역 중 유해 남조류 수가 조류경보제 기준을 초과한 지점을 집중적으로 살펴보고자 한다. ‘관심’ 단계가 발령된 지점은 ‘칠서’와 ‘물금매리’였으며 ‘칠서’는 구 ‘창녕함안보’에 해당하고 ‘물금매리’는 시범운영을 거쳐 올해 5월부터 운영되고 있다. 따라서 ‘창녕함안보’와 ‘경계’기준을 1회 초과한 ‘강정고령보’를 대상지점으로 선정하였다. 자료 수집 기간은 2012년 8월부터 2021년 4월까지이다. 아래 지도는 낙동강 유역 내의 보와 개방 현황이다(Fig 4).
◇ 데이터 수집
- 녹조 수질 데이터 및 수리·수문 데이터
물환경정보시스템에서 제공하는 보 데이터에는 여러 측정망에 따라 다양하게 구성되어있다. ‘창녕함안보’의 데이터의 경우 크게 조류, 유속, 수질, 보 운영현황으로 나뉘며 각 분야에서 측정망에 따라 원하는 변수를 구할 수 있다. 조류 분야에 해당하는 조류경보제를 통해서 수온, pH, 용존산소 등과 더불어 유해남조류 수와 각각의 유해 남조류 속에 따른 세포 수도 확인이 가능하다. 유속 분야에 속하는 자동유속관측망의 경우 평균유속과 일 평균 유량 정보를, 수질자동측정망의 경우 수온, 수소이온농도, 전기전도도, 용존산소량, 총유기탄소, 탁도, 총질소, 총인, 암모니아성 질소 등 총 12개의 변수 데이터를 제공한다. 수질측정망을 통해서는 수온, 수소이온농도 등을 제공하나 이는 수질자동측정망과 일부 겹친다. 더불어 수질예보제를 통해서 수온, pH, 용존산소, 총인, 클로로필-a, 유해남조류 수, 우점조류 확인이 가능하다. 데이터의 주기는 각 측정망과 측정 항목에 따라서 차이를 보이는데 이는 데이터 대체 방법론을 통하여 일 단위 데이터로 일괄적으로 변환하였다. 데이터 대체 방법론으로는 Kalman filter imputation을 사용하였다.
convert: Image height exceeds user limit in IHDR `/var/www/capstone/env/images/c/c5/14._Kalman_Filter_대체전후.png' @ warning/png.c/MagickPNGWarningHandler/1672.
convert: Invalid IHDR data `/var/www/capstone/env/images/c/c5/14._Kalman_Filter_대체전후.png' @ error/png.c/MagickPNGErrorHandler/1646.
convert: corrupt image `/var/www/capstone/env/images/c/c5/14._Kalman_Filter_대체전후.png' @ error/png.c/ReadPNGImage/4095.
convert: no images defined `/tmp/transform_884f008b650a.png' @ error/convert.c/ConvertImageCommand/3210.
Error code: 1
Fig 5. 창녕함안보의 Kalman filter imputation 대체 전후 비교
- 기상 데이터 기상 데이터는 보 지점과 인접한 기상 관측 지점의 것을 사용하였고 자료는 기상청에서 제공하는 종관기상관측(ASOS) 데이터를 사용하였다. 종관기상관측 데이터는 일 단위로 제공되며 총 59가지이다. 이중, 한 지점에서라도 결측값이 30%를 넘는 경우 제외하였다. 제외 후 남은 데이터는 다음과 같으며 결측치의 경우 Kalman filter imputation을 통하여 데이터 대체를 진행하였다.
평균 기온 최저 기온 최고 기온 일강수량 최대 풍속 최대 풍속 풍향 평균 풍속 풍정합 최다 풍향 평균 이슬점온도 최소 상대습도 평균 상대습도 평균 증기압 평균 현지기압 최고 해면 기압 최저 해면기압 평균 해면기압 가조시간 합계 일조 시간 평균 지면온도 최저 초상온도
대상 지점으로 선정한 강정고령보와 창녕함안보 데이터를 바탕으로 데이터 대체 방법론을 적용하여 모델링을 진행하였다. 독립변수는 측정일자, 수온, 일 복사조도, 주간평균 체류시간, 일 강우량, 용존산소, 생화학적 산소 요구량, 총질소, 총인, 총대장균군이며 종속변수로는 유해 남조류 수를 사용하였다.
데이터는 스케일 조정과 데이터 대체를 통하여 전처리를 진행하였으며 스케일 조정은 변수 간 상대적 스케일 차이에 따른 모델 성능 평가 저하를 방지하기 위하여 측정일자, 수온을 제외한 독립/종속 변수의 로그 스케일 변환으로 이루어졌다. 데이터 대체 방법론은 앞서 언급한 MICE와 Kalman Filter 가 후보로 사용되었다. 사용 모델은 LSTM과 ConvLSTM으로 데이터 대체 방법론과 모델의 조합을 통하여 4가지의 모델링 아이디어를 생성했다.
결과 및 평가
완료 작품의 소개
프로토타입 사진 혹은 작동 장면
내용
포스터
내용
관련사업비 내역서
내용
완료작품의 평가
내용
향후계획
내용
특허 출원 내용
내용