양희철 법무법인 명륜 파트너변호사
![]() |
▲양희철 법무법인 명륜 파트너변호사 |
인공지능 열풍의 진원지가 된 챗GPT- 3.5는 무려 1750억개의 매개변수를 사용해 입력한 정보를 바탕으로 최대한 실제 정보와 일치하는 정보를 출력하는 과정을 거치는 초거대 AI다. 챗GPT-4는 이 보다 더 많은 매개변수에, 텍스트는 물론 영상과 이미지까지 처리할 수 있는 멀티모달(복합 정보처리) 모델로 그 활용도가 획기적으로 넓어졌다. 미세 조정(Fine-tuning)만 하면 다양한 용도로 활용해 전이 학습이 가능하다. 이른바 기초 모델(Foundation Model)이 본격 출현했다.
최근 인터넷에 챗GPT-4를 이용하면 이용자가 제시한 내용을 알아서 정리해 발표 자료를 작성해준다는 뉴스가 올라왔다. 많은 시간과 노력이 필요했던 발표 자료 준비가 한결 편해질 것이라는 기대에 많은 사람이 환호하는 분위기다. 그 며칠 후에는 챗GPT 이용자들이 입력한 내용에 회사 기밀이나 민감한 개인정보도 많은 데, 이런 내용을 운영사인 오픈AI가 볼 수 있다는 보도가 나왔다. 이탈리아 데이터보호청이 유럽연합 개인정보 보호규정(GDPR) 위반 조사를 위해 챗GPT 접속을 일시 차단한다고 발표해 챗GPT 이용 관련 보안 우려도 커지고 있다.
인공지능의 발달은 이처럼 개인정보 보호와 충돌하는 면이 있다. 국가별로 개인정보로 보호하는 데이터의 범위나 규제 정도는 다르지만, 인공지능을 학습시키기 위해 수집·활용하는 많은 데이터에는 개인정보가 포함된다. 개인정보 보호를 위해 2020년 개인정보의 식별이 어려운 가명정보 개념이 도입됐지만, 실무에서는 가명 처리 비용이나 혹시라도 있을지 모를 재식별 위험성으로 인해 애초 기대보다 활용도가 낮다.
정보주체의 권리의식이 강해지면서 개인정보 보호 규제 역시 강화되고 있지만, 개인정보를 활용한 사회적 편익과 비례성도 유지돼야 한다. 허용하는 것을 제외하고는 모두 금지하는 포지티브 규제라면 더욱 명확히 할 필요가 있다. 개인정보 침해 문제를 피하고자 원본 데이터의 통계적 변수 분포와 상관관계만 모방한 재현 데이터(합성 데이터)를 만들어 새롭게 생성된 가상의 데이터로 인공지능을 학습시키는 방법도 있다. 미국에서는 이런 재현 데이터를 주문 제작 방식으로 생산해 제공하는 기업도 생겨나고 있다. 다만 여러 데이터 항목이 조합되거나 원본 데이터 자체 분포가 편중된 경우에는 아직 정보 주체의 재식별률이 높은 편이라 재현 데이터를 활용한 인공지능 학습도 완전히 안전하다고 보기는 어렵다.
또 인공지능이 학습하는 데이터에 저작권을 침해하는 데이터도 있어 논란이 되고 있다. GPT 개발사인 오픈AI에서 내놓은 DALL-E 2나 스태빌리티AI사의 스테이블 디퓨전은 이용자가 텍스트로 지시하면 그 내용에 따라 이미지를 생성해준다. 그런데 이렇게 이미지를 생성하는 알고리즘을 만들기 위해 학습한 데이터 세트에 인터넷에서 수집한 이미지들이 포함돼 있었다는 점이 문제다. 이런 이미지 중에는 저작권이 인정되는 이미지가 있고, 심지어 상업적으로 판매되고 있는 이미지도 있기 때문이다.
이에 따라 세계 최대 이미지 제공업체인 게티이미지는 스테이블 디퓨전이 인공지능 학습 과정에서 자신들의 이미지를 무단으로 사용했다고 미국 델라웨어 법원에 스테이블 디퓨전을 상대로 소를 제기한 상황이다. 이런 법적 혼란을 해결하기 위해 우리 국회에서도 인공지능의 학습 데이터에 포함된 저작물에 적법하게 접근해 창작성을 향유하지 않으면 저작권 침해로 보지 않는 개정안이 발의돼 있다. 인공지능 학습 데이터에 있는 개인정보의 침해 문제나 저작권 위반 문제는 그런 법 제도가 현재처럼 인공지능이 발달할 것을 예상하지 못한 상황에서 만들어졌기 때문이다. 이제 개인정보 전송요구권을 행사할 수 있는 상황에서 개인정보의 의미를 다시 살펴보고, 출판업자들이 독점 출판권을 확보하기 위해 주장했던 저작권의 기원도 되돌아볼 필요가 있다. 그런 규범이 만들어진 취지를 감안해 새로운 시대에 맞는 새로운 제도를 설계해야 할 시점이다.