인공지능 데이터 및 알고리즘 유형 : [연재기고 (6)]김병학 한국생산기술연구원 연구위원

■ 인공지능 기술 개발의 시작과 끝, 데이터와 알고리즘 최근 세계적으로 전체 산업 분야에서 인공지능(AI) 기술이 확대 적용되고 있으며, 국내 산업계의 생산/제조 기업들도 세계적인 AI 기술의 발전에 따라 경쟁적으로 제품개발 및 제조공정에 AI 기술을 적용하고 있다.

비록 많은 제조 산업에서 스마트(Smart) 또는 AI 기술이 적용된 지능형 제품의 개발과 스마트 팩토리(Smart factory), Industrial 4.0 개념이 적용된 공정자동화 기술의 적용을 위한 도전을 이어가고 있지만, 제품개발 및 제조공정에 AI 기술을 적용하여 제품의 성능개선, 공정 수율 향상, 서비스의 개선 등을 유효한 수준으로 도출하는 것은 결코 쉬운 일이 아니다. 국내외 대학 또는 정부 주도 연구기관에서도 다양한 분야의 전문가들이 AI 기술에 대해 활발히 선행연구를 진행하고 있지만, 협력 프로젝트 수행 및 기술이전 등을 통해 각 산업체의 실무와 AI 선행연구 기술의 접목하는 부분에서 항상 많은 이슈가 발생한다. 그 원인은 기존의 기술(AI 활용하지 않는 일반적인 디지털신호처리, 영상처리기법, 공정제어/필터설계)과 AI 기술의 개발 work-flow의 차이점에 있다.

기존의 기술은 입력되는 데이터로부터 출력데이터를 적합하게 도출하기 위해 알고리즘 형태로 기술을 개발하고, 기술 적용을 위해 실제 제품/공정과 상호 약속된 프로토콜로 데이터를 연결하기만 하면 쉽게 개발된 알고리즘 기술의 적용이 가능했다. 하지만 AI 기술은 학습(Training)과 검증(Validation), 추론 입력(Inference test)을 위한 세 가지 이상의 복잡한 데이터 형태로 개발이 시작되며 알고리즘 모델의 최적화 작업이 완성되는 형태로 work-flow가 수행된다.

AI 기술 개발을 위한 데이터 및 알고리즘은 실제 제조 산업 현장에서 사용되는 데이터에 따라서 AI 알고리즘의 유형이 변화되어야 하며, 마찬가지로 AI 알고리즘의 유형 변화에 따라 제조 산업 현장에서 입력되는 데이터의 유형도 변경되어야 한다.

이러한 이유로 제조 분야의 AI 기술 개발은 제조 산업 현장의 전문가가 다루는 데이터 관리/개발 기술과 연구 전문가들이 다루는 AI 알고리즘 개발의 긴밀한 협력이 가능한 형태로 진행되어야 AI 연구 기술의 실무 적용 단계에서 발생 되는 문제점이 성공적으로 해결될 수 있다.

■ 인공지능 기술 개발을 위한 데이터 유형

(1) 정형 데이터(Structured Data): 가장 상세하고 명확하게 데이터 개체, 속성, 관계 등의 정보를 포함하는 데이터 스키마(Data Schema)가 정의된 유형으로 메타 데이터(Meta Data)로 설명되기도 한다.

대표적인 예로 관계형 데이터베이스 관리시스템(Relational Database Management System, RDBMS)의 행과 열로 구분되는 테이블 형식의 정보를 가지고 있는 데이터가 있으며, 정형 데이터를 다루기 위한 대표적인 소프트웨어 도구로는 Oracle, MySQL, PostgeSQL, Sybase(SAP) 등이 있다.

(2)비정형 데이터(Unstructured Data): 데이터 스키마가 정의되지 않은 임의로 수집된 영상, 비디오, 텍스트를 비롯하여 제조공정에서 센서를 사용하여 측정된 전압, 전류, 디지털데이터(비트, 패킷) 등 다양한 유형이 존재한다. 하지만 이러한 비정형 데이터는 AI 알고리즘의 활용 시 추론(Inference) 과정에서 사용될 수는 있으나, AI 알고리즘의 개발을 위한 학습용 데이터로는 부적합한 유형으로 구분할 수 있다.

(3)반 정형 데이터(Semi-Structured Data): 비정형 데이터를 AI 알고리즘 개발에 활용하기 위한 목적으로 데이터 개발자가 데이터에 대한 구조 및 속성을 표현하는 방법으로 가공된 데이터 유형이 반 정형 데이터로 설명될 수 있다. 이 유형은 데이터 개발자가 데이터 AI 알고리즘에서 입력받을 수 있는 데이터 인터페이스를 고려하여, 데이터 스키마를 추가 정의하고, 설명 테그 정보를 가진 파일 등이 추가된 데이터 유형이다.

반 정형 데이터를 위해 추가되는 테그 정보의 대표적인 유형은 XML, JSON, TXT 등이 가장 많이 활용되며, 이전 연재 기고문에서 언급된 데이터 가공의 중요성 설명과 제조 현장에서 쉽게 작업할 수 있는 엑셀의 CSV 파일의 유형도 많이 활용되며, 데이터가 저장된 폴더(Directory)에 정보를 추가하는 형태로 개발되기도 한다.

이상 설명한 (1)~(3) 각 데이터 유형은 <그림1>과 같이 요약될 수 있으며, AI 알고리즘에서 활용될 수 있는 데이터로 변환하는 데이터 개발 작업에 대한 부분의 work-flow를 동시에 도식화 하였다.

앞서 AI 기술 개발을 위한 과정에서 제조 산업 현장 전문가와 알고리즘 연구자의 긴밀한 협력의 중요성을 강조한 바 있으며, 현장 전문가의 어려움은 제조 현장에서 획득할 수 있는 데이터 대부분이 비정형 데이터의 유형이며, 해당 데이터를 가공하여 반 정형 데이터 또는 정형 데이터 유형으로 변환(데이터 개발)하는 작업을 현장 전문가가 직접 수행할 수 없다는 부분이다.

또한 AI 알고리즘 연구자는 제조 현장에서 획득되는 데이터만을 이용하여 데이터의 성격을 정확히 판단하고 스키마를 정의하여 데이터를 가공하기 어렵다. 최근에는 제조 현장의 스마트화 지능화 등의 기술 도입을 위해 AI 알고리즘 개발자의 현장 전문가와의 소통 및 협력능력은 물론이며, 데이터 개발의 중요성 강조에 따라 △데이터 분석 전문가 △ADP(Advanced Data Analytics Professional) 또는 데이터 분석 준전문가 △ADsP(Advanced Data Analytics Semi-Professional) 등의 전문자격 분야의 기술이 AI 연구자들의 핵심역량으로 요구되는 경우가 많아지고 있다.

■AI 알고리즘 유형 및 데이터와 인터페이스

제조 산업 현장의 AI 기술 응용 분야는 설계, 설비진단, 공정지능화, 결함품질검사, 물류지능화 5개 분야로 나눌 수 있으며, 제조 산업 특성에 따라 각 5개의 분야에서 많은 유형의 알고리즘이 활용된다.

알고리즘의 유형은 알고리즘이 사용하는 데이터의 유형으로도 구분될 수 있다. 예를 들어 비전 데이터 기반의 AI 알고리즘과 시계열 데이터 기반의 AI 알고리즘 유형으로 구분되며, 사용되는 소프트웨어 기술 방식으로 전반적 인공지능(AI) 범주에서도 머신러닝(ML), 딥러닝(DL)으로 분류된 알고리즘을 AI 기술 범위 내에서 구분하기도 한다.

본 기고문에서는 제조 산업 분야의 제품 설계, 지능화, 품질검사, 설비진단 등의 실제 사례에서 발생된 문제점을 극복하기 위해 적용된 AI 알고리즘의 예시와 알고리즘과 산재되어 있는 데이터를 수집또는 추가 획득하여 반 정형 데이터로 개발한 사례에 대해 유형별로 나누어 기술하였다.

<표 1>은 제조 산업 각 분야에서 활용된 데이터의 실제 예시와 적용된 AI 알고리즘의 설계 개념도를 표현하였으며, 적용 알고리즘에 해당되는 데이터를 연결하기 위한 상호 간의 인터페이스를 설명하는 내용을 설명하였다. 또한 각 유형에서 개발된 결과물(AI 모델)이 어떠한 분야에서 어떤 목적으로 사용되었는지 참조 설명을 추가하였다.

▷<유형1>: 국방/보안 분야의 정찰감시(search and surveillance)를 위한 광학 및 비전센서를 개발하는 국방 산업분야에서는 일반적인 주간(낮) 환경에서 촬영이 가능한 카메라 센서 이외에도 야간 또는 시정이 확보되지 않는 상황에서 여러 임무 장비가 정상적인 성능으로 동작할 수 있도록 하는 레이더 및 열화상 영상 장비(Infra-red Imaging system)가 개발 및 생산된다.

유형1은 열화상 카메라 장비의 설계 과정에서 열악한 환경에서 카메라가 운용될 경우 발생되는 영상의 고정 패턴 열화(fixed pattern noise, FPN)현상의 발생을 해결하기 위한 수단으로 적용된 영상 화질 개선(Image quality improvement) 목적의 AI 알고리즘 예시이다.

해당 알고리즘은 입력되는 FPN 영상(데이터 예시 b)으로부터 화질이 개선된 열화상 원본 영상(데이터 예시 a)으로 출력하는 기능을 하며, 알고리즘 모델의 학습을 위한 데이터는 이상적인 화질의 a 데이터와 FPN이 포함된 b 데이터의 차분(subtraction) 성분을 손실함수(loss function)로 설정하며, 해당 손실 값을 모델에 역 전파하는 연산으로 학습과정을 수행한다.

이러한 유형의 알고리즘을 위한 데이터 개발 과정에서는 FPN 영상 발생 운용환경에서 불균일 보정(Non-uniformity correction, NUC)을 수행하여 FPN 영상(b)과, 이상적인 화질의 영상(a)을 한 쌍으로 획득하는 작업이 필요하다. 이러한 유형의 알고리즘의 데이터 인터페이스는 폴더(directory) 구분 방식으로 train 폴더에 a1, b1의 하부 폴더를 구성하여 쌍으로 획득된 각 영상을 저장하는 형태로 데이터가 개발되면 알고리즘에 적용가능하다.

▷<유형2>: 가전제품을 개발하는 산업체에서 제품의 지능화를 위해 AI 알고리즘을 활용하는 예시로써, 고전력이 소모되는 냉난방 가전(에어컨)이 사람의 활동 공간을 지능적으로 분석하여 해당 영역에 한정하여 온도를 제어함으로써 운용 효율화 기능을 추가하는 AI 알고리즘 기술이다. 이와 같은 알고리즘의 데이터 개발을 위해서는 장기간 제품에 부착하여 데이터를 획득할 수 있는 임베디드 형태의 센서를 활용하여 천정각도 촬영영상(top-view)을 데이터로 확보할 수 있으며, 추가적인 데이터 가공으로 사람분포 영역에 대한 확률 맵(saliency)을 다중 특징으로 활용하여 사람의 활동 공간 탐지 정확도를 향상하는 기법을 사용하였다. 본 알고리즘의 데이터 인터페이스는 TXT 레이블 방식으로 학습데이터의 파일명의 리스트를 담고 있는 train.txt 파일과 각 레이블(사람 종류) 정보를 담고 있는 obj.names, 그리고 사람의 영역을 4개의 점 좌표로 표현한 값이 저장되어 알고리즘의 훈련용 스크립트와 인터페이스 연동된다.

▷<유형3>: 자동차 및 기계용 부품을 주조 공정으로 제조하는 산업체에서 주형의 불균일 특성 및 주조 공정에서 발생되는 기포/이물질 등의 영향으로 제품의 표면 불량이 발생되는 문제점을 해결하기 위하여 사용된 품질 검사용 AI 알고리즘의 적용예시이다. 금속 주조물의 크기가 크고 표면 불량의 크기는 상대적으로 작은 특성을 가질 경우, 일반적인 AI 탐지알고리즘으로 충분한 표면 결함 검출 성능을 구현하기 쉽지 않다. 그 원인으로 주조물의 표현에 발생된 미세한 결함(높이굴곡, 작은 흠집 등)은 평면 촬영 데이터에서 해당 특성이 영상 정보에 포함되지 못하는 경우가 많다. 이러한 데이터획득의 한계사항을 극복하기 위해 산업 공정 전문가와 협력하여 다중 특성 조명 장치를 고안하여 표면반사 특성(in_f), 거칠기 특성(in_r), 기울기 특성(in_s)에 대한 데이터를 개발할 수 있다. AI 알고리즘은 3가지 특성을 통합하여 입력받아 결함 영역을 탐지하는 다중 도메인 알고리즘(Multi-domain defect detection)으로 구성하여 품질검사 공정에 활용할 수 있도록 하였다. 해당 알고리즘의 인터페이스는 XML 레이블 방식으로, 각 특성 이미지를 분할하여 저장하는 폴더와 파일명, 그리고 결함의 영역을 (xmin, ymin), (xmax, ymax) 두 점으로 정의하여 알고리즘과 연동하였다.

▷<유형4>: 건설기계의 지능화를 위한 AI 기술의 적용사례로, 크레인을 활용하여 중량물을 인양하는 작업의 위험 및 안전사고 발생을 예방하기 위하여 인양작업 중인 중량물과 주변 객체의 위치를 인지하여 안전성을 향상하는 인공지능 활용 사례이다. 건설 현장에서 크레인으로 인양되는 건설용 자재들은 가로 세로의 크기가 매우 불 균일한 특성을 가지며 사람 및 차량과 같이 너비, 높이 비율이 일정하지 않은 객체들이다. 따라서 일반적으로 사각형 박스(bounding box) 형태로 객체 영역을 탐지하고 및 종류를 인식하는 인공지능 알고리즘으로 객체의 정확한 위치 및 중심점을 파악하기 어렵다. 이러한 한계 사항을 극복하기 위하여 탐지영역(bounding box)의 회전이 고려된 회전형 탐지(rotational detection) 알고리즘이 활용되며, 해당 알고리즘은 인터페이스 되는 데이터 또한 각도 정보 전달이 필요한 다소 복합한 형태의 데이터 개발 작업이 필요하다. 해당 유형의 데이터는 TXT 레이블 방식으로 총 8개의 좌표점(x1,y1, x2,y2, x3,y3, x4,y4)과 객체 이름(classes), 레이블 번호(labels)로 알고리즘과 인터페이스 되며, 8개의 좌표 점을 따로 지정하는 방식을 사용하므로 탐지영역의 기준데이터(ground truth)는 다양한 각도로 기울임 표현이 가능하며, 기준 좌표의 데이터 좌표 표시 작업에서 직사각형 좌표가 아닌 다각형 형태의 좌표가 되지 않도록 주의해야 한다.

▷<유형5>: 기계장치 및 설비의 동작 상태를 모니터링 하여 시간에 따른 센서 신호 변화 예측에 따라 모터의 동작 특성 및 상태를 예측하기 위한 인공지능 적용 알고리즘 예시로써, 앞서 유형1-4에서 설명한 비전 기반의 데이터와는 차별화된 시계열 순서로 여러 개의 센서로부터 획득되는 데이터를 하나의 인공지능 알고리즘으로 예측하여 상태진단의 효율을 향상한 기술이다.

사용된 데이터는 모터의 이동 위치 센싱 데이터로 X-axis, Y-axis 변위에 대한 시간변화 정보이며, 알고리즘의 출력은 모터의 이동 위치 예측 값이 된다. 알고리즘은 시계열 단위의 데이터 예측 방법으로 순환신경망(Recurrent Neural Network, RNN)의 개선 모델인 장단기메모리(Long Short-Term Memory, LSTM)를 기반으로 수정 개발된 다 채널 신호 입력이 가능한 단위 시간 학습 형태로 동작하는 알고리즘을 활용하였다. 이러한 모델은 기존의 기계장치 특성 로깅데이터를 사용한 사전 학습이 어려운 특성을 가진 조건에서 여러 개의 센서 신호를 동시에 예측해야 하는 상황에서 활용될 수 있다. 해당 모델의 데이터 인터페이스는 기계장치로부터 출력되는 BNC신호를 DAQ와 같은 장치로 신호처리장치에 저장하여, CSV 형태로 알고리즘에서 입력받을 수 있도록 설계되었다. 테이블형태의 CSV 데이터는 첫 번째 열에 time 테그 정보를 가지고 있고, 순서대로 X, Y 센싱 데이터를 포함하고 있다.

본 기고문에서는 이론적으로 구분되는 전반적 AI 알고리즘의 모든 종류를 구분하고 특성을 설명하는 것은 생략하였으며, 실제 제조 산업 현장의 문제 해결 과정에서 활용되었던 AI 알고리즘의 사례와 사용된 데이터의 유형, 그리고 데이터와 알고리즘을 인터페이스 하여 AI 알고리즘의 추론 성능을 활용한 사례를 위주로 설명했다.

설명된 내용이 국내 제조 산업 현장의 어려움과 문제점을 해소하기 위한 AI 기술의 활용이 확대되고, 각 산업체 전문가분들을 비롯한 산·학·연 AI 알고리즘의 연구자들이 성공적으로 협업하는 과정에 조금이나마 도움이 되기를 희망한다.

Leading Company seoul, korea

인공지능 데이터 및 알고리즘 유형 : [연재기고 (6)]김병학 한국생산기술연구원 연구위원

최근 게시물

Comentários