[편집자] 4차 산업혁명은 모든 사물과 인간을 연결하여 빅데이터를 모으고, 이를 이용하여 인공지능으로 학습하여, 결국 인공지능이 인간을 대체하는 시대를 말한다. 이러한 4차 산업혁명의 물결이 산업뿐만 아니라 경제, 사회, 정치 등 전 분야에 걸쳐서 막대한 변화를 일으키고 있다.
글로벌뉴스통신사 뉴스핌은 '김정호의 4차혁명 오딧세이' 칼럼을 매주 연재하여 4차 산업혁명의 본질과 영향, 그리고 전망을 독자들에게 쉽게 소개하고자 한다. 4차 산업혁명의 핵심은 바로 인공지능, 빅데이터, 클라우드 컴퓨팅으로 표현할 수 있으며 그 핵심 부품이 반도체이다. 이들 핵심 기술의 개념과 원리, 응용을 설명하여 일반 독자들이 4차 산업혁명에 대해서 공감하고 이해하며 더 나아가 개인과 기업, 국가의 미래를 계획하는 것을 돕고자 한다.
김정호 카이스트(KAIST) 전기 및 전자공학과 교수는 서울대 전기공학과를 졸업하고 미국 미시건대에서 박사 학위를 받았다. AI대학원 겸임교수, IEEE펠로우, 카이스트 ICT석좌교수, 한화 국방 인공지능 융합연구 센터장, 삼성전자 산학협력 센터장 등을 겸하고 있다.
딥러닝에 반영된 인간의 가치
최근 연구가 활발하게 진행, 개발되는 인공지능(Artificial Intelligence, AI)은 '기계학습(Machine Learning)'이라고 불리는 인공지능이고, 더 세부적으로 이야기하면 '딥러닝(Deep Learning)'이다.
김정호 교수 |
인공지능은 데이터로부터 학습하며, 특히 그 구조의 층(Layer)이 깊어 '심층기계학습'이라고 부르기도 한다. 여기서 인공지능이 똑똑해지는 이유는 바로 학습의 능력에 뿌리를 두기 때문이다. 데이터를 이용해 학습하는 것이 경쟁력의 원천이다.
이 학습 방법 중에 정답을 알려주면서 학습하는 방법을 '지도학습(Supervised Learning)'이라고 부른다. 예를 들어, 이미지를 인식하는 CNN(Convolution Neural Network)의 경우 수백만 장의 사진을 보여주면서 각각 사진에 설명을 붙여야 한다. 동물이라면 사자인지 호랑이인지 고양이인지 알려줘야 한다. 이 작업을 인식표(Label) 혹은 태그(Tag)라고 한다.
학습을 위해서는 수많은 사진도 모으고 태그도 붙여야 한다. 이 작업이 인공지능 학습에 들어가는 노고이고 비용이다.
그런데 데이터를 이용해 학습하는 과정에서 입력하면 결과(Classification)를 하게 되는데, 정답과의 차이를 비용함수(Cost Function)로 규정한다. 이렇게 학습 과정에서 이 비용함수를 최소화하기 위해 인공지능 신경망의 변수(Variables)들을 조정해간다. 이러한 변수 최적화 과정을 다른 말로 학습이라고 한다.
그런데 이 비용함수를 정하는 것이 중요하다. '정답률(Mean Square Error, MSE)'로 할 수 있고, '엔트로피'라 불리는 정보량을 기준으로 할 수도 있다. 다르게는 비용, 시간, 거리, 에너지, 수율 등 인공지능망 설계자가 의도한 방향으로 정할 수가 있다. 단지 그 수학적 표현이 미분 가능해야 한다. 공학에서는 비용함수가 정확성이나 효율을 강조한다.
반면, 여기에 더해서 주관적인 감정이나 변화, 차이, 차별, 신뢰, 도덕, 인성, 재현성, 생산성 측면뿐만 아니라 인간적, 도덕적, 추상적 가치를 비용함수에 넣을 수 있다.
이처럼 인간이 어떤 가치를 최고로 삼느냐에 따라 인공지능을 다르게 학습할 수 있다. 그래서 인간의 가치와 생각이 인공지능에 그대로 반영된다.
한편, 인공지능이 학습을 빠르게 수렴하도록 하기 위해 정답과 오답 사이에 확률 차이를 최대한으로 하는 경우도 있다. 양극화를 추구해서 정답과 오답을 갈라놓는다. 그래야 분명한 답을 얻기 때문이다.
이때 소프트맥스(Softmax) 함수가 마지막 인공지능 신경망의 출력 함수로 사용되기도 한다. 그래서 인간이 원하는 차별적인 요구가 인공지능 학습 과정에 반영되기도 한다. 단지 수학 수식을 통해서 전달할 뿐이다.
GAN 인공지능과 강화학습에 더해진 인간의 가치
인공지능으로 창작 작업을 할 수 있는 GAN(Generative Advisory Network)이 있다. 모방을 통해서 창작하는 인공지능 신경망이다. 인간의 규범으로는 도덕적 논란의 소지가 있다. 원본 이미지에 최대한 짝퉁 이미지를 만들어 둘 사이의 구별 확률이 50%가 될 때까지 창작 인공신경망(Generator)을 학습하기 때문이다. 그래서 구별기(Discriminator)를 속이려 한다.
이 과정에서 모방을 통한 창작의 힘을 기른다. 하지만 인간의 도덕 기준으로 보면, 모방을 계속해서 판별기를 속일 수 있을 때까지 모방을 계속한다. 짝퉁 작가인 셈이다. 그래도 창작 작업의 본질은 인간 세계에서도 모방으로 배운다는 점이다.
표절을 명확히 구분하기도 어렵다. 몇 소절, 몇 문장이 같다거나 비슷하다고 해서 표절로 단정하기 어렵다. 이처럼 GAN 인공지능에는 모방을 통한 창작의 발전이라는 인간의 가치가 담겨 있다.
데이터 없이 인공지능이 학습하는 방법으로는 강화학습(Reinforcement Learning)이 있다. 다양한 시도를 스스로 하고 반응을 보면서 최적의 정책(Policy)을 세우는 방법이다.
게임이나 주식 투자와 같이 환경에서 직접 행동과 반응을 보고, 최적의 전략을 정해가는 방법이다. 알파고 바둑 게임에서도 사용된 학습 방법이다. 역시 가장 큰 장점은 데이터 없이도 학습할 수 있다는 점이다.
그런데 이 학습과정에서 보상(Reward)을 정하고 이를 수학적으로 표현한 가치함수(Value Function)를 사용한다. 이 보상체계에 따라 인공지능 신경망을 최적화해 간다. 이를 강화학습이라고 부른다.
그러니 바로 보상을 정하는 것이 인공지능의 가치체계를 결정한다. 알파고에서는 승률이 되고 주식투자에서는 이익률이 될 수 있다.
여기에는 강화학습 설계자의 의도와 가치 체계에 맞게 얼마든지 정할 수 있다. 효율이 될 수도 있고, 협력, 신뢰와 같은 주관적인 가치 체계일수도 있다. 가치함수로 표현하기만 하면 된다. 종족 보존, 지속률 자유도도 보상이 될 수 있다.
어떤 경우는 돈, 명예, 권력보다 공생이나 상생이 보상으로 정해질 수 있다. 이렇게 강화학습은 인간이 정한 보상 체계를 따른다. 생각보다 인공지능이 상당히 가치 지향적으로 만들어질 수 있다.
인공지능도 인간의 가치 체계를 따른다
그래서 가치가 올바른 인공지능을 개발하기 위해서는 먼저 인간 자체의 가치관이 잘 확립되어야 한다. 그러려면 믿음, 신뢰, 사랑, 배려, 공정, 정의, 평등, 공존, 협력, 평화, 자유 등 기초 가치가 우리 사회에서 흔들리지 않았으면 한다. 그러면 인공지능도 이를 그대로 따라간다.
토트넘의 손흥민 선수는 지난 7일 열린 츠르베나 즈베즈다(세르비아)와의 2019~2020시즌 유럽축구연맹(UEFA) 챔피언스리그(UCL) 조별리그 B조 4차전 원정전에 선발 출전해 팀의 4대0 승리를 이끌었다. 그리고 두 골을 넣었다.
인상적이게도 손흥민 선수가 골을 넣은 후 고메스 선수의 쾌유를 비는 세리머니 모습을 보도 사진에서 보았다. 인공지능도 이런 '손흥민의 기도하는 마음'을 같이 학습하면 좋겠다.
고메스의 쾌유를 비는 손흥민의 기도 세리머니. [사진= 로이터 뉴스핌] |
김정호 카이스트 전기 및 전자공학과 교수 joungho@kaist.ac.kr