연산, 데이터, 자동화된 추론을 수행하는 알고리즘

(대한뉴스 김건기 기자)=MBC 라디오 프로그램 여성시대 ‘아침 창가에서’ 이런 구절이 나온다. “요 몇 년 사이에는 오래전의 노래가 갑자기 인기를 모으는 일이 종종 일어납니다. 노래를 발표했을 때는 반응이 그저 그랬는데 이제 와 갑자기 찬사를 받기도 해서 노래 부른 가수가 어리둥절해 하는 경우도 보입니다”며 “이런 흐름은 팬들이 내가 좋아하는 가수의 영상과 노래를 편집해서 다른 사람들과 나누면서, 공감과 동감이 모인 결과이고, 과거의 영상도 언제든 불러내 데려올 수 있는 ‘무료 동영상 공유 사이트’가 등장하면서 생긴 일이다”며 “사람들이 많이 본 영상을 추천해주는 기술인 ‘알고리즘’이 더해진 결과라고 합니다”고 했다. 데이터가 되기만 하면 과거는 언제든 현재로 불려올 수 있으니 또 다른 의미의 타임머신이라는 것이다.

인공지능 기술 발달로 유투브 머신러닝 이용한 알고리즘 도입

인공지능은 여러 학문이 연계된 전형적인 융합 학문이다. 컴퓨터과학, 수학, 통계학을 중심으로 철학, 심리학, 의학, 언어학 등 실존하는 모든 학문이 광범위하게 연계돼 있다. 인류 역사상 가장 오래된 학문 중 하나인 철학은 2,000년 이상 사람은 어떻게 인지하고 배우고 기억하고 추론하는지에 대해 고민해 왔다. 철학에서는 기원전 400년경 이미 인공지능의 개념을 상상했다. 그것은 다름 아닌 마인드라는 것이다. 철학에서는 마인드를 사람 안에 어떤 언어로 인코딩된 지식을 조작하는 일종의 기계 같은 개념이라고 생각했다.

1943년 미국에서는 신경외과 의사인 워렌 맥컬록과 논리학자 월터 피츠의 역사적인 연구에서 인공신경망이 시작된다. 그들은 마치 전기 스위치처럼 ‘온’, ‘오프’하는 기본적인 기능이 있는 인공 신경을 그물망 형태로 연결하면 그것이 사람의 뇌에서 동작하는 아주 간단한 기능을 흉내 낼 수 있다는 것을 이론적으로 증명했다. 이 연구는 신경망 기반의 인공지능 연구에 서막을 올리는 사건이었고 향후 1958년 코넬 대학교의 심리학자인 프랭크 로센블래트의 연구에 결정적인 영향을 준다. 그가 발표한 페셉트론은 사람의 시각 과정을 시물레이션하는 물리적인 기구를 만들면서 인공신경망을 실제로 구현한 최초의 모델이다.

그 후 컴퓨터의 개발은 실생활에서 필요한 문제를 해결할 수 있는 실용적인 머신러닝 연구가 주류를 이뤘다. 머신러닝이란 기계학습을 뜻하며 사람이 규칙을 집어넣는 것이 아니라 컴퓨터가 스스로 규칙을 형성해 데이터를 분류하거나 값을 예측하도록 만드는 것이다. 머신러닝에는 크게 지도 학습과 비 지도 학습이 있는데, 지도 학습이란 입력값과 정답을 주어 기계를 학습시키고 미래의 값을 예측하도록 한다. 비 지도 학습은 입력값만으로 컴퓨터 스스로 학습을 통해 패턴이나 특성을 찾아내 예측하도록 한다. 이렇게 다양한 분야에서 서로 다른 목적으로 진행됐다. 어떤 특정한 기능을 수행하기 위해 컴퓨터와 알고리즘이 일체형으로 동작하는 형태로 개발되기도 했고, 사람 대신 많은 분량의 숫자를 빠르게 계산하려는 목적으로 설계하기도 했다.

그렇다면 유투브 알고리즘은 어떻게 구현되는 것일까. 유투브가 동영상을 업로드한 2005년부터 2012년까지는 조회 수와 시청 시간과 같은 단순한 알고리즘으로 동영상을 추천한 것으로 보고 있다. 시청자가 많이 본 동영상이라고 반드시 재미있고 유익할 것이라는 추측은 옳지 않았다. 동영상을 올리는 사람들이 자극적인 제목을 쓰거나 내용과 어울리지 않는 일명 낚시성 동영상을 올려 얼마든지 조회 수만 늘릴 수 있기 때문이다. 제목과 미리보기 이미지인 섬네일에 이끌려 영상을 재생한 시청자는 조악한 영상을 보고 실망이 컸다. 그래서 대안으로 등장한 알고리즘이 시청 시간이다. 어떤 동영상에서 시청 시간이 길다는 것은 그 동영상이 시청자들이 원하고 보고 싶어 하는 동영상일 확률이 높다. 이때부터 유투브는 크리에이터들에게 동영상을 짧게 하거나 제목을 자극적이게 하는 식으로 알고리즘에 맞추려 하지 말고 시청자들이 원하는 콘텐츠를 만드는 게 도움이 된다고 조언하기도 했다.

한국언론진흥재단의 ‘유투브 추천 알고리즘과 저널리즘’

보고서에 따르면 알고리즘의 공통 목적은 유투브 이용자들을 유투브에 오래 체류시키기 위함이다. 유투브에 체류하는 시간이 늘어날수록 프리뷰나 중간광고를 통한 유투브 수익이 증대되기 때문이다. 이용자는 다양한 정보를 접하는 대신 익숙하게 느끼고 본인이 좋아할 만한 콘텐츠를 주로 접하게 된다. 일각에서는 이를 두고 ‘필터 버블’이라며 지적하고 있다. 그러나 실제 국내 이용자들은 필터 버블을 잘 느끼지 못하는 것으로 통계상으로 나타났는데, 스스로 추천 영상을 컨트롤할 수 있다고 밝힌 응답자가 42.3%에 해당한다. 뉴스나 정치 관련 영상은 비교적 한국에서는 신뢰도가 낮은 편인데, 사용자가 정보의 타당성을 판별할 수 있다고 믿는 것이다.

유투브 이용 형태는 응답자 65.6%는 스마트폰과 같은 이동형 기기를 주로 활용하여 하루에도 여러 번 영상을 시청한다. 남성보다 여성, 고연령보다 저연령에서 모바일 이용이 높다. 집에서 아무 일도 하지 않고 쉬고 있을 때 유투브를 이용한다. 자주 시청하는 영상 종류는 생활 정보, 뉴스 시사, 예능 오락이다. 유료 가입자는 전체 13% 수준으로 아직 높지 않다. 시청 경로는 채널을 통한 직접 선택이나 검색이 높은 수준이며, 알고리즘 추천 기반 시정은 자주 이용한다는 응답과 이용하지 않는다는 응답이 비슷한 수준으로 나타났다.

알고리즘 신뢰도에 대해서는 유보적인 판단을 취한 응답자가 많았으며 절반 이상의 응답자는 정확성과 개인 정보 활용에 대한 우려를 표명했다. 다양한 우려에도 불구하고 알고리즘이 좋은 서비스를 위해 필요하다고 공감하는 이용자는 45.9%로 나타났다. 실제 영상 시청 시 자신이 직접 검색해서 보는 방식의 이용자는 84.6%, 반면 추천 영상 시청을 선호하는 응답자는 15.4%에 불과했다. 이용자는 유투브 추천 영상 평가에서 알고리즘이 다양한 영상을 제공하고 우연한 발견을 돕는다는 측면에서 긍정적인 평가를 내렸다. 온갖 영상이 유투브에 올라오고 있다. 맞춤 추천 영상 외에도 왜 이런 게 추천 영상에 떴을까 싶은 뜬금없는 영상도 올라온다. 유투브 측은 추천할 영상 목록을 만드는 알고리즘과 그 목록에서 추천 순위를 정하는 알고리즘으로 구성돼 있다는 정도만 밝혔다. 어떤 데이터를 중요하게 보는지에 대한 구체적인 원리를 외부에 공개하지 않았다.

뉴스 AI 알고리즘 함정에 빠지지 않으려면

최근 국내 주요 포털사이트는 이용자가 원하는 언론사를 직접 골라서 뉴스 화면을 구성할 수 있도록 하는 서비스를 제공한다. ‘콘텐츠 기반 필터링’과 ‘협업 필터링’으로 나눠 이용자 취향과 반응을 분석해 만족도가 높을 법한 콘텐츠를 골라내 제공한다. 네이버는 2019년 4월부터 AI 알고리즘 기반 뉴스 추천 시스템 ‘에어스(AiRS)’를 도입했다. 카카오는 2015년부터 포털 ‘다음’과 모바일 메신저 카카오톡 뉴스 페이지를 AI 알고리즘 ‘카카오i’를 이용해 편집하고 있다. 뉴스 AI 알고리즘은 이용자가 특정 기사를 본 시간이나 순서 등을 파악하고, 그가 선호하는 언론사와 기자 등에 대해서도 파악한다. 또 해당 이용자와 비슷한 관심사를 가진 다른 사람이 많이 본 뉴스도 검토한다. 이런 정보를 결합해 추천 기사를 선택하고 배열하는 것이다. 그래서 AI 알고리즘이 추천해 주는 대로 뉴스를 클릭할 게 아니라 내가 직접 언론사를 선정해 뉴스를 보는 게 중요하다. 이러한 뉴스 소비 습관을 들이고 꾸준히 노력해야 뉴스 AI 알고리즘의 함정에 빠지지 않을 수 있다.

한편. 이런 방법을 추천하는 것도 있다. 알고리즘이 파악할 수 있는 모든 기록을 지우는 가장 기초적인 방법으로 매번 시청 기록과 검색 기록을 삭제한다. 그것이 귀찮다면 로그아웃 상태에서만 유튜브를 이용한다. 알고리즘을 역이용하기도 한다. 계정을 여러 가지로 구분한 뒤 상황에 따라 필요한 계정에 접속하는 방식이다. 유튜브용 계정을 학습, 게임, 음악 듣기용 등으로 나눠 관리하면 뜬금없는 광고나 콘텐츠가 적어 유용하게 시청할 수도 있다. 그 외 추천 영상 목록이나 광고를 아예 노출하지 않도록 작동하는 별도 프로그램을 설치하는 것도 꿀팁이다.

추천기사

연산, 데이터, 자동화된 추론을 수행하는 알고리즘

21세기 타임머신이라는데 무슨 말인가!

김건기 기자

화제의 동영상