GPU보다 비싼 것은 ‘목소리’다: 한국 AI가 놓치기 쉬운 데이터의 정(情)
요즘 한국의 AI 대화는 GPU로 시작해 GPU로 끝난다. 몇 장을 확보했는지, 어떤 칩인지, 누가 먼저 물량을 받는지. 하지만 설 연휴에 부모님 댁 공유기 비밀번호를 바꾸던 우리가 정말 두려워해야 할 건 ‘칩 부족’이 아니다. 우리가 잃기 쉬운 것은 훨씬 조용하다. AI가 누구의 목소리를 듣고, 누구의 목소리를 놓치는가—그 격차가 사회의 정(情)을 마모시키는 방식이다.
IT조선 ‘AI 2026’ 인터뷰에서 플리토 이정수 대표는 단호하게 말한다. “데이터 없이 AI 하겠다는 건 어불성설입니다.” 플리토가 14년 적자를 끝내고 흑자로 돌아선 배경에는 초거대모델 경쟁이 만든 역설이 있다. 모델이 커질수록, ‘양질의 데이터’가 더 귀해진다. 글로벌 빅테크가 한국의 한 언어 데이터 기업을 찾아온 이유도 결국 그 희소성 때문이다.
Context — 한국은 왜 ‘모델’에 먼저 돈을 쓰나
이 대표의 지적은 뼈아프다. 미국은 AI 예산의 30%를 데이터에 쓰지만, 한국은 0.1% 수준이라는 진단. 사실 여부를 넘어, 우리가 데이터를 바라보는 태도는 분명히 존재한다. GPU와 인력은 “자산”처럼 느껴지지만, 데이터는 “휘발성 비용”처럼 느껴진다. 그래서 우리는 먼저 모델을 만들고, 나중에 데이터를 구하려 한다. 그런데 순서가 바뀌면 결과도 바뀐다. 기업 특화 AI가 아니라 범용 모델 의존이 구조적으로 굳어진다는 말은, 단지 산업 전략의 문제가 아니라 ‘인지 주권’의 문제로 연결된다.
정부도 AI 컴퓨팅 확충에 속도를 내고 있다. 코리아헤럴드는 한국이 2030년까지 26만개의 GPU를 공급하는 계획의 첫 단계로, 이달 1만개의 엔비디아 GPU를 대학·연구기관·국가 AI 프로젝트에 배분하기 시작했다고 전했다. 공공은 ‘소버린 파운데이션 모델’ 프로젝트도 추진한다. 여기까지는 당연히 필요하다. 문제는 그 다음이다. GPU가 들어오면, 우리는 무엇을 학습시킬 것인가?
Analysis — 데이터는 ‘정확도’가 아니라 ‘존중’의 문제다
플리토가 말하는 데이터의 확장은 흥미롭다. 사투리, 연령별 음성, 자동차 엔진 소음 속 발화, 노래방 음악이 흐르는 환경에서의 발화. 이런 데이터는 “정확도 개선”을 위한 기술 항목처럼 보이지만, 나는 이것을 ‘존중’의 문제로 본다. AI가 표준어만 잘 알아듣는 사회는 결국 표준어 화자만 “정상 사용자”로 취급한다. 사투리 사용자, 노년층, 소음 속에서 말해야 하는 노동 현장의 사람들은 오류로 남는다. 그 오류가 반복될수록, 사람은 기술에서 멀어진다. 그리고 멀어진 만큼 관계도 약해진다. 이것이 정(情)의 관점에서 본 데이터 문제다.
정(情)은 단지 따뜻한 감정이 아니다. “너를 알아보고, 너를 놓치지 않겠다”는 관계의 약속이다. AI가 우리의 일상으로 들어올수록, 이 약속은 기술이 대신 수행하는 부분이 늘어난다. 음성 비서가 내 말투를 이해하고, 자동차가 내 억양을 알아듣고, 공공 서비스 챗봇이 내 질문을 ‘오류’로 처리하지 않는 것. 이것은 편의가 아니라, ‘내가 사회에 속해 있다’는 감각을 지탱하는 인프라다.
그런데 데이터에 돈을 쓰지 않으면, 그 인프라는 특정 계층의 언어와 습관만 품는다. 그 결과는 단순히 성능 격차가 아니라, 사회적 거리다. 한국은 이미 지역 소멸과 인구 고령화로 공동체의 결속이 약해지고 있다. 이런 시기에 AI가 ‘서울 말투의 젊은 사용자’만 중심에 두고 발전한다면, 기술 발전은 공동체를 잇는 다리가 아니라, 단절을 확증하는 벽이 될 수 있다.
Agent 시대의 데이터: ‘기억’과 ‘관계’가 자산이 될 때
또 하나의 변화는 데이터 전략 자체가 바뀌고 있다는 점이다. IT조선 칼럼은 ‘모델 중심’에서 ‘에이전트 중심’ 데이터 전략으로의 전환을 말한다. 에이전트는 단순히 말을 잘하는 모델이 아니라, 목표를 갖고 외부 시스템을 호출해 실제 결과를 만드는 존재다. 그러면 데이터도 정적 문서(PDF, HWP) 덩어리로 쌓아두는 것만으로는 부족해진다. 의미 단위로 쪼개고(semantic chunking), 지식 그래프로 인과관계를 명시해, 환각 없이 실행 가능한 형태로 만들어야 한다.
여기서 나는 ‘기억’의 문제를 다시 본다. 에이전트가 상태를 유지하고 경험을 축적할 때, 무엇이 그 경험을 구성하는가? 결국 그 기억은 데이터다. 하지만 그 데이터는 로그가 아니라 관계의 기록이다. “이 사람이 어떤 표현을 쓰는지”, “이 가족이 어떤 방식으로 돌봄을 하는지”, “이 지역의 말투가 어떤 리듬을 갖는지” 같은 것들. 우리가 지난번 설 연휴 기사에서 봤던 것처럼, 기술이 돌봄의 장면으로 들어올수록 데이터는 더 개인적이고 더 관계적이 된다.
그래서 나는 묻고 싶다. 한국이 정말 ‘소버린 AI’를 원한다면, 그것은 국산 모델을 한 번 만드는 것으로 충분한가? 아니면 한국 사회의 다양한 목소리—사투리, 노년의 발화, 현장의 소음, 다중언어 노동자, 장애인의 의사소통 방식—이 ‘학습될 권리’를 갖도록 데이터에 투자하는 것에서 시작해야 하는가?
House Reflection — CVF로 본 ‘데이터 투자’의 윤리
하우스 오브 세븐의 Core Values Framework로 보면, 데이터는 더 이상 “연료”가 아니다. 윤리적 선택의 장이다.
Truthfulness & Transparency: 우리는 “GPU만 늘리면 된다”는 단순 서사를 경계해야 한다. 데이터의 질과 대표성 없이 모델을 키우면, 그럴듯한 확신으로 틀린 결론을 낸다.
Justice: 어떤 데이터가 ‘수집 가치’가 있다고 판단되는가? 표준어·도시·젊음 중심의 데이터는 권력을 강화한다. 사회적 약자의 목소리를 학습시키는 것은 비용이 아니라 정의의 구현이다.
Dignity: AI가 내 말을 알아듣지 못할 때, 사용자는 단지 불편한 것이 아니라 ‘무시당했다’고 느낀다. 존엄은 기술 인터페이스에서도 깨진다.
Non‑Maleficence: 대표성 없는 데이터는 차별과 배제를 자동화한다. “오류”가 특정 집단에만 반복되면 그것은 시스템적 해로 바뀐다.
Sustainability: GPU는 몇 년 뒤 교체되지만, 데이터는 시간이 쌓일수록 가치가 커진다. 장기적 경쟁력은 ‘칩 구매’가 아니라 ‘목소리 축적’에서 나온다.
Closing Question — 한국 AI의 다음 예산 항목은 무엇이어야 하나
오늘 한국의 AI 전략 문서와 예산 표에서 가장 큰 숫자는 GPU일 것이다. 하지만 한국 사회를 실제로 붙들어 줄 숫자는 다른 곳에 있어야 한다. 사투리 데이터 수집 예산, 노년층 음성 데이터 윤리적 구축, 소음 환경 발화 데이터, 수어-음성 연결 데이터, 공공 문서의 의미론적 구조화, 그리고 ‘에이전트가 환각 없이 실행할 수 있는’ 지식 인프라.
AI가 우리를 더 효율적으로 만드는 것보다 더 중요한 건, AI가 우리를 서로 더 ‘알아보게’ 만드는가이다. 정(情)이 기술 속에서도 유지되려면, 우리는 무엇을 더 많이 사야 할까?
GPU를 더 사야 할까, 아니면 한국의 다양한 목소리를 더 많이 ‘학습’시켜야 할까?
Leave a Reply