인간 vs. 아틀라시안 인텔리전스

누가 가장 먼저였는지는 잘 기억 나지 않지만 ChatGPT의 인상이 워낙 강하게 남아 있어 대략 그 즈음부터 ‘말하는 기계’에 관심을 가지기 시작했습니다. ‘말하는 기계’는 흔히 글이나 그림, 음악, 영상을 만들어 주는 소프트웨어를 인공지능이라고 부르는 모습이 마음에 안 들어 글을 생성해 주는 서비스를 인공지능이라고 부르는 대신 붙인 이름입니다.

사람들은 사람처럼 행동하는 뭔가에 쉽게 인격을 부여하곤 하며 사람과 가까이 지내는 뭔가에도 인격을 부여하곤 합니다. 가령 가장 자주 사용하는 물건에 이름을 붙이고 소중히 다루기도 하고 화재로 전소되는 자동차를 앞에 두고 눈물을 흘리는 모습을 보이기도 하고요. 이런 특징의 연장으로 사람이 하는 말과 비슷한 말을 만들어내는 소프트웨어는 순식간에 ‘인공지능’의 영역에 진입했습니다.

하지만 기술적으로 이 사람이 말하는 것과 비슷하게 말하는 이 소프트웨어는 What Is ChatGPT Doing … and Why Does It Work?에서 설명한 대로 입력에 따른 통계적으로 유의한 결과에 기반한 문자의 나열을 만들어내고 있을 뿐입니다. 여전히 지능의 정의가 모호한 상황에서 인공지능이라고 부르기도 어렵습니다. 하지만 이전에 만들어진 다른 말하는 기계와 달리 꽤 그럴싸한 결과를 내놨기 때문에 큰 주목을 받았을 뿐 아니라 사람과 비슷한 결과를 내놓은 덕분에 마치 사람과도 비슷한 대우를 쉽게 획득한 것 같아 보입니다. 개인적으로 여전히 이 소프트웨어는 통계적으로 유의한 문자의 나열을 만들어내는 역할을 하며 지능의 정의가 모호한 이상 이를 함부로 인공지능이라고 불러서는 안 된다고 생각합니다. 어느 시점에는 인간의 지능 역시 그런 통계적인 동작에 불과함이 입증될 수도 있는데 그때 가서 인공지능이라는 대단한 이름을 붙여도 늦지 않습니다.

한편 노션에 인공지능 기능이 도입될 때 기분이 썩 좋지 않았습니다. 몇 년 째 메인으로 사용하는 위키는 컨플루언스 였는데 컨플루언스는 한동안 온프레미스 버전의 개발과 판매, 그리고 지원을 중단하고 클라우드 제품군으로 완전히 마이그레이션 하기 위해 고객들이 온프레미스에서 만족하던 컴플라이언스를 지원하는데 집중해 뒤떨어진 기능이 제대로 업데이트 되지 않고 있었을 뿐 아니라 새 기능 추가 역시 더딘 상황이어서 불만이 많았습니다. ‘개인 위키에 컨플루언스 추천해요’라고 말하곤 했지만 다른 한 편으로는 ‘CLOUD-6999’의 미래에 대한 암울한 생각 같은 10년 넘게 방치된 요구사항들 때문에 과연 앞으로 이 서비스에 미래가 있는지 의심해 보기도 했습니다. 이런 상황에서 요즘 한참 너무 잦은 오동작으로 밉상이던 노션에 최첨단 기능이 들어간다는 이야기를 보니 답답했습니다.

Team '23 | Impossible Alone: Charting a new era of teamwork

그런데 몇 달을 기다린 끝에 지난 Team 23 키노트에서 아틀라시안 제품군 전체에 걸쳐 동작하는 말하는 기계 기능이 도입될 예정이며 우선 컨플루언스에 먼저 도입될 거라는 발표는 노션에 도입된 말하는 기능에 내던 샘을 좀 줄여 줬습니다. 아틀라시안 클라우드의 중요한 세 가지 새 기능 소개를 한 지 석 달 만에 컨플루언스 위키에 화이트보드, 데이터베이스, 그리고 아틀라시안 인텔리전스가 모두 알파 혹은 베타 수준으로 사용 가능한 상태가 되었습니다.

물론 화이트보드는 영어 이외의 언어를 사용하는 사용자들에게 잘 동작하지 않으며 처음 약속했던 지라 태스크 연동 기능 따위를 아직 사용할 수 없고 k15t의 Orderly Database for Confluence를 거의 그대로 만든 것 같은 컨플루언스 데이터베이스는 이제 간신히 k15t가 만들었던 수준에 도달한 것이 전부이고 컨플루언스 오토메이션 같은 시너지를 낼 수 있는 기능과 통합되지 않았습니다. 컨플루언스 데이터베이스에 대한 실망은 다른 글에서 소개할 작정입니다. 마지막으로 아틀라시안 인텔리전스를 사용할 수 있게 되었는데 맨 나중에 사용할 수 있게 된 만큼 다른 두 가지 기능에 비해 더 큰 기대를 했습니다.

아틀라시안 인텔리전스는 여전히 말하는 기계 수준을 벗어나지 못할 것이 틀림 없었지만 ‘버추얼 팀메이트’라는 컨셉은 꽤 잘 잡았다고 생각합니다. 무엇이든 물어봐도 될 것처럼 행동하지만 결국 어느 것 하나 제대로 답하지 못하는 노션의 말하는 기계에 비해 컨셉이 확실해 질문의 범위를 좁혀 의미 있는 답변을 하는데 집중해 개발할 수 있을 거라고 예상합니다. 특히 시연에서 매뉴얼을 잘 만들어 두면 매뉴얼을 읽지 않고 질문하는 사용자에게 기계가 매뉴얼을 읽은 다음 대신 대답해 주는 시연은 그들이 소개한 대로 온보딩 할 때 정말 큰 도움이 될 겁니다.

또 개인적으로 컨플루언스 위키에 개인 작업, 회사 일 등 온갖 정보를 기입하고 있어 만약 이 정보를 모두 말하는 기계가 학습하게 한 다음 이를 기반으로 텍스트를 만들어낸다면 꽤 재미있지 않을까 싶었습니다. 저는 무슨 일을 하든 컴퓨터 앞에서 그 일을 한다면 일단 컨플루언스 페이지를 하나 만들고 맨 위에 ‘상황’ 단원을 만든 다음 그 밑에 이 일을 해야 하는 맥락과 주변 상황, 각자가 이 일에 하는 기대 따위를 제가 아는 선에서 기입하고 그 다음에는 ‘할일’ 단원 밑에 상황에 따라 실제로 수행해야 하는 결과물을 정의한 다음 ‘진행’ 단원 밑에 실제 그 일을 진행하며 만든 메모, 다른 문서 따위를 기입하고 마지막으로 ‘결과’ 단원에 이 일의 결과물, 이 결과를 전달할 대상, 전달 결과를 기입하는 식으로 정보를 쌓아 왔습니다. 몇 년에 걸쳐 온갖 할일을 이렇게 정의해 둔 상태여서 기계가 이 정보를 읽고 제대로 답하기 시작하면 단순 검색에 비해 시너지를 낼 수 있을 거라고 기대했습니다.

하지만 글을 작성하는 현재 아틀라시안 인텔리전스는 그냥 말 그대로 ‘동작하지 않는’ 상태입니다.

결과를 이야기하면 아틀라시안 인텔리전스는 적어도 영어가 아닌 언어를 사용하는 사람 입장에서는 의도한 대로 잘 동작하지 않는데 이는 노션의 말하는 기계와 크게 다르지 않은 수준입니다. 사람들이 열광하던 말하는 기계가 하는 말을 조금만 뜯어 보면 의미가 있을 것 같기도 한 말을 늘어 놓는 것 같은 첫 이미지를 벗어나면 서로 다르기는 하지만 의미 없는 말을 반복하는 수준을 벗어나지 못합니다. 또한 단답형 질문에는 가끔 올바른 답변을 할 때도 있지만 페이지를 ‘정리’하거나 ‘할 일 도출’을 요구하면 마치 동작하는 것처럼 보이지만 실제로는 의미 없는 결과물을 보여줘 당혹스럽게 만들고 또 이 기능을 과연 신뢰할 수 있을지 심각하게 고민하게 만듭니다.

이 경험은 좀 미묘한 감정이 들게 만들었는데 결국 문서 내용을 인간이 요약해야 그 요약 작업을 수행한 인간이 문서 내용을 기억하고 그로부터 파생되는 업무를 도출할 수 있다고 생각합니다. 그런데 기계가 문서를 읽고 도출한 ‘할 일 목록’을 문서를 읽지 않은 인간이 이 목록만으로 충분하다고 믿어도 될지 모르겠습니다. 이 ‘액션 아이템’을 만드는 기능은 재미있긴 하지만 아틀라시안 인텔리전스가 만들어낸 체크박스 목록에 나타난 할 일을 수행하면 정말 이 문서가 요구하는 업무를 모두 수행했다고 할 수 있을까요. 이런 텍스트 생성 기능은 일관성, 항상성 이외에도 그저 통계학에 기반을 둔 언어 모델이 문서의 맥락을 ‘이해하는 것처럼’ 보이지만 이 상태가 인간에게 요구하는 ‘이해’와 같은 요구인지도 잘 모르겠습니다.

사람의 이해, 판단은 결국 글 모양으로 표현할 수 있고 또 그런 글과 아주 비슷한 텍스트를 만들어내는 소프트웨어를 만들어내기는 했지만 인간의 이해와 판단이 한 텍스트로부터 또 다른 텍스트를 생성하는 통계 모델과 서로 비슷하다고 말하기는 쉽지 않습니다. 아틀라시안 인텔리전스를 통해 개인 위키의 모든 문서를 기계가 읽게 한 다음 여러 문서의 내용에 기반한 질문을 하고, 지금 작성 중인 페이지 요약을 요청하고 또 이 페이지의 내용에 기반한 할 일 목록처럼 보이는 것을 만들 수는 있지만 이는 그저 통계에 기반한 글자의 나열, 할 일 목록처럼 보이는 글자의 나열, 요약처럼 보이는 글자의 나열에 가깝고 실제 할 일이나 요약과는 많이 다르다는 느낌을 받았습니다. 분명 재미있는 기능이기는 하지만 이 기능 때문에 원래 이 작업을 수행하던 인간이 이 일로부터 자유로워지지는 못할 것 같아 보입니다.

혹은 이 모든 비관적인 생각이 통계에 기반한 말하는 기계가 말 비슷한 것을 만들어낼 뿐이라는 생각을 너무 강하게 가지고 있기 때문에 그 결과를 일방적으로 신뢰하지 않는 것일 가능성도 없지 않습니다. 사람이 글을 읽고 이를 이해하거나 요약하거나 글로부터 할 일 목록을 도출하는 행동은 그저 말하는 기계가 기반한 통계 모델과 사실 별로 다르지 않을 수 있습니다. 사람 역시 긴 텍스트를 잘 읽지 못하고 이해하지 못하며 잘 요약하지 못합니다. 훈련되지 않은 사람의 요약은 기계가 통계적으로 수행한 연산 결과와 별로 다르지 않을 수 있습니다. 어쩌면 블라인드 테스트를 하면 사람의 요약과 기계의 요약을 구분하지 못할 지도 모릅니다.

한국어 사용자 입장에서 아틀라시안 인텔리전스에게 거의 만 가지 페이지에 달하는 주제를 읽혀 봤는데 Chat GPT 때와 같이 잠깐 동안은 재미있었지만 결국 지속적으로 인상적인 결과를 만들어 주지는 못했습니다. 기능이 동작한다는 사실과 키노트에서 소개한 기능을 실제로 사용 가능한 상태로 출시했다는 건 알겠는데 그 결과를 신뢰하고 사용할 수 있을지 여부는 완전히 다른 이야기입니다. 이 기능이 실제로 의미 있게 동작하기 위해서는 일관성, 항상성 따위를 보강하고 인간으로부터 지속적인 신뢰를 쌓는 과정이 필요해 보임입니다.

앞에서 설명한 만 가지 주제에 달하는 위키 페이지와 내용의 맥락을 설명하기 위해 서로 꽤 잘 연결된 관계를 읽히면 뭐가 나올 지 궁금해서 아틀라시안 인텔리전스에 큰 기대를 가졌지만 같은 날 발표된 화이트보드, 데이터베이스 마냥 실망스럽습니다. 제가 원한 것은 맥락을 이해하는 인텔리전스였는데 아틀라시안이 만든 기능은 여전히 Chat GPT와 별로 다르지 않은 말하는 기계일 뿐이었습니다. 노션의 같은 기능과 비교하면 개인적인 사용 경험 안에서는 노션이 훨씬 더 어처구니 없는 이상한 말을 마구 뱉어내지만 그렇다고 컨플루언스 쪽이 더 의미 있는 사용 경험을 주지도 못했습니다. 노션은 그냥 사용 불가능한 수준이고 컨플루언스는 이보다는 조금 낫지만 여전히 이 작업을 직접 수행할 인간의 수고를 전혀 줄여 주지 못합니다.

다만 여러 페이지에 걸친 정보를 단순 검색 이상으로 맥락을 유지한 채 조회하고 문서 내용을 요약하고 문서 내용으로부터 할 일 목록을 만들어내는 기능은 만약 근미래에 이들이 제대로 동작할 때 인간의 문서에 대한 이해를 도와줄지 아니면 더 이상 문서를 읽는 행동에 의미를 없앨 지는 한번 생각해볼 문제입니다. 인간이 문서를 통해 수행하는 일은 문서를 작성하고 그 문서 내용을 이해하고 요약을 통해 이를 증명 및 검증하고 마지막으로 문서 내용으로부터 할 일을 도출하는 것입니다. 그런데 이 과정 중 요약과 할 일 목록 도출을 기계가 수행한다면 그 문서를 작성한 인간 외에는 그 문서의 내용을 이해하는 다른 인간이 존재할 수 있을까요. 그래서 문서를 요약하는 기능이 근미래에 일관성, 항상성을 갖춰 신뢰할 수 있게 되면 한 사람이 작성한 문서의 의미는 이전과 많이 달라질 수 있습니다.

결론. 이전부터 몇 년에 걸쳐 컨플루언스 위키에 ‘모든’ 일을 수행하며 맥락, 목표, 과정, 결과를 기록한 꽤 많은 문서를 남겨 이 문서를 기계가 읽고 답변하기 시작하면 시너지를 낼 거라고 기대했습니다. 아틀라시안 인텔리전스가 처음 발표되고 나서 석 달 만에 실제로 컨플루언스 위키에서 이 기능을 사용할 수 있게 되었습니다. 노션에 비해서는 좀 더 나아 보이고 또 질문의 다양성을 자연스럽게 제한하는 ‘버추얼 팀메이트’라는 똑똑한 설정 덕분에 더 잘 동작하는 것처럼 보일 여지가 있지만 일관성, 항상성 측면에서 문제가 있습니다. 적어도 비 영어권 사용자 관점에서 아틀라시안 인텔리전스를 신뢰해 업무에 적용하기는 어렵습니다.

또한 만약 이 기능이 잘 동작한다고 가정하면 문서를 작성한 사람은 그 내용을 직접 이해했겠지만 이 문서를 아틀라시안 인텔리전스를 통해 요약하고 할 일 목록을 뽑아 사용하는 사람들 입장에서 그 문서의 맥락과 내용을 제대로 이해하고 있을지 의심스럽습니다. 아직 제대로 동작하지 않아 다행?이지만 이 기능이 잘 동작하게 되면 말하는 기계에 의한 검색 서비스와 웹사이트 사이 관계 변화 예상에서 소개한 검색 서비스가 가지는 의미 변화를 예상한 것처럼 글을 쓰는 사람과 읽는 사람 사이에 글이라는 매개가 가지는 의미와 역할이 꽤 달라질 수 있을 지도 모르겠습니다. 여튼 지금은 신뢰하고 사용할 수 있는 수준은 전혀 아닙니다.