thebell

전체기사

[업스테이지 국가대표AI 연합군]플리토, AI 학습·평가 데이터 구축…LLM 고도화 지원①1400만 이용자 기반 수집 역량 강점…다국어 지원, 편향성·유해성 제거

이영아 기자공개 2025-11-03 08:00:01

[편집자주]

정부가 추진하는 국가대표 인공지능(AI) 개발 프로젝트에서 스타트업으로만 꾸려진 업스테이지 컨소시엄이 주목받고 있다. 의료, 법률, 공공, 교육 등 각 분야 유망 스타트업이 업스테이지와 함께 AI 모델 개발에 나선다. 거대 자본이 주도하는 AI 개발 경쟁 속에서 스타트업 컨소시엄이 경쟁력을 가져갈 수 있을지 귀추가 주목된다. 더벨은 업스테이지 컨소시엄에 참여하는 스타트업들을 집중 조망한다.

이 기사는 2025년 10월 30일 08:21 thebell 에 표출된 기사입니다.

인공지능(AI) 시대의 핵심 자원은 데이터다. 플리토는 전세계 173개국 1400만명 이상이 사용하는 글로벌 플랫폼을 바탕으로 고품질 언어 데이터를 수집하고 있다. 텍스트, 음성, 이미지 등 다양한 형태의 데이터를 수집한 후 전문가 검수를 거쳐 정제된 데이터로 구축한다.

업스테이지 컨소시엄에서 플리토는 데이터 파트너로 활약 중이다. AI 모델의 핵심 재료인 언어 데이터 생산과 품질 검증을 담당한다. 한국어를 넘어 일본어, 영어 등 다국어 파운데이션 모델 구축을 위해 언어 자원을 공급하며 업스테이지 AI 모델 고도화에 협력할 예정이다.

◇고품질 데이터 구축, 한국·일본·미국 사업 확장

지난 2012년 설립된 플리토는 자체 플랫폼을 통해 축적한 고품질 언어 데이터를 다양한 기업 및 기관에 제공하고 있다. 집단지성 번역 서비스로 시작했지만 전문번역과 다국어번역 솔루션으로 확장하며 사업을 고도화했다. 그 과정에서 데이터 구축 역량을 쌓아올렸다.

플리토의 가장 큰 경쟁력은 데이터의 품질이다. 글로벌 173개국 1400만명 이용자가 활동 중인 통합 언어 플랫폼을 통해 고품질 AI 학습용 데이터를 수집한다. 언어 데이터는 체계적인 분류 및 메타데이터 부여 과정을 거쳐 주제별로 정제된다. 정확도는 99.8%이다.

플리토는 한국뿐만 아니라 일본과 중국, 미국에 법인을 설립해 사업을 전개하고 있다. 플리토 관계자는 "데이터 구축 과정에 있어 플랫폼 크라우드워커 및 번역가 동의를 받은 클린 데이터를 구축하기 때문에 저작권 문제에서 자유로운 것도 차별점"이라고 전했다.

AI 시대에 접어들면서 플리토의 경쟁력이 더 주목받고 있다. AI 학습용 언어 데이터 구축 역량이 주목받고 있다. 특정 분야의 언어 데이터를 텍스트, 음성, 이미지 등 다양한 형태로 맞춤 구축할 수 있기 때문이다. 한국어와 영어, 일본어 등 다국어 데이터를 구축해준다.

다국어 언어 데이터 판매를 바탕으로 탄탄한 실적을 올리고 있다. 플리토는 지난해 203억원 매출을 올렸다. 2022년 136억원, 2023년 177억원 매출액을 기록한 것과 비교하면 증가했다. 전체 매출 60%가 글로벌 빅테크에 AI 학습용 데이터를 판매하는 것에서 나온다.

◇전문가 검증 시스템, AI 편향성·유해성 제거

플리토는 과학기술정보통신부가 추진하는 '글로벌 프런티어 파운데이션 모델' 개발 사업에서 업스테이지 컨소시엄에 합류했다. 업스테이지는 컨소시엄을 이뤄 신규 모델 '솔라 WBL'을 개발할 예정이다. 특히 한국어뿐만 아니라 영어, 일본어 등 다국어 지원을 제공한다.

플리토는 이번 프로젝트에서 모델 성능을 좌우하는 학습용과 평가용 데이터를 총괄 구축하는 역할을 맡았다. 현재 플리토는 도메인 특화 데이터 구축과 품질 검증을 진행 중이다. 특히 박사급 전문가들이 참여해 QA셋, 생각의사슬(CoT) 데이터의 품질을 검증하고 있다.

플리토는 전문가 검증 시스템을 통해 데이터 품질을 유지하고 AI 편향성과 유해성을 제거하는 검증 모듈을 운영하고 있다. 국가대표 AI 모델이 신뢰받으려면 윤리적이고 안정적인 데이터셋이 필수적인데 플리토는 자체 플랫폼과 기술력을 바탕으로 이 과정을 자동화했다.

업스테이지와 플리토가 이번 프로젝트를 함께 추진하게 된 배경은 이전부터 이어온 신뢰가 바탕이 된다. 이미 양사는 지난해 'AI 언어 데이터 구축' 업무협약(MOU)을 체결했다. 일본어, 태국어 등 다국어 언어 데이터를 구축해 저자원 언어도 고품질 대규모언어모델(LLM)을 개발할 수 있도록 기반을 마련하자는 취지였다.

플리토는 이번 프로젝트를 기점으로 다국어 AI 솔루션, 산업 특화형 모델, 글로벌 서비스형소프트웨어(SaaS), 통번역 기술 고도화 등 다양한 신사업 확장을 본격화할 방침이다. 특히 CoT 기반 데이터 개발과 인간피드백기반강화학습(RLHF) 경험을 바탕으로 다국어 도메인 특화 모델 설계에 집중할 계획이다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >

더벨 서비스 문의

02-724-4102

유료 서비스 안내
주)더벨 주소서울시 종로구 청계천로 41 영풍빌딩 4층, 5층, 6층대표/발행인성화용 편집인김용관 등록번호서울아00483
등록년월일2007.12.27 / 제호 : 더벨(thebell) 발행년월일2007.12.30청소년보호관리책임자황철
문의TEL : 02-724-4100 / FAX : 02-724-4109서비스 문의 및 PC 초기화TEL : 02-724-4102기술 및 장애문의TEL : 02-724-4159

더벨의 모든 기사(콘텐트)는 저작권법의 보호를 받으며, 무단 전재 및 복사와 배포 등을 금지합니다.

copyright ⓒ thebell all rights reserved.