[업스테이지 국가대표AI 연합군]플리토, AI 학습·평가 데이터 구축…LLM 고도화 지원①1400만 이용자 기반 수집 역량 강점…다국어 지원, 편향성·유해성 제거
이영아 기자공개 2025-11-03 08:00:01
[편집자주]
정부가 추진하는 국가대표 인공지능(AI) 개발 프로젝트에서 스타트업으로만 꾸려진 업스테이지 컨소시엄이 주목받고 있다. 의료, 법률, 공공, 교육 등 각 분야 유망 스타트업이 업스테이지와 함께 AI 모델 개발에 나선다. 거대 자본이 주도하는 AI 개발 경쟁 속에서 스타트업 컨소시엄이 경쟁력을 가져갈 수 있을지 귀추가 주목된다. 더벨은 업스테이지 컨소시엄에 참여하는 스타트업들을 집중 조망한다.
이 기사는 2025년 10월 30일 08:21 thebell 에 표출된 기사입니다.
인공지능(AI) 시대의 핵심 자원은 데이터다. 플리토는 전세계 173개국 1400만명 이상이 사용하는 글로벌 플랫폼을 바탕으로 고품질 언어 데이터를 수집하고 있다. 텍스트, 음성, 이미지 등 다양한 형태의 데이터를 수집한 후 전문가 검수를 거쳐 정제된 데이터로 구축한다.업스테이지 컨소시엄에서 플리토는 데이터 파트너로 활약 중이다. AI 모델의 핵심 재료인 언어 데이터 생산과 품질 검증을 담당한다. 한국어를 넘어 일본어, 영어 등 다국어 파운데이션 모델 구축을 위해 언어 자원을 공급하며 업스테이지 AI 모델 고도화에 협력할 예정이다.
◇고품질 데이터 구축, 한국·일본·미국 사업 확장
지난 2012년 설립된 플리토는 자체 플랫폼을 통해 축적한 고품질 언어 데이터를 다양한 기업 및 기관에 제공하고 있다. 집단지성 번역 서비스로 시작했지만 전문번역과 다국어번역 솔루션으로 확장하며 사업을 고도화했다. 그 과정에서 데이터 구축 역량을 쌓아올렸다.플리토의 가장 큰 경쟁력은 데이터의 품질이다. 글로벌 173개국 1400만명 이용자가 활동 중인 통합 언어 플랫폼을 통해 고품질 AI 학습용 데이터를 수집한다. 언어 데이터는 체계적인 분류 및 메타데이터 부여 과정을 거쳐 주제별로 정제된다. 정확도는 99.8%이다.
플리토는 한국뿐만 아니라 일본과 중국, 미국에 법인을 설립해 사업을 전개하고 있다. 플리토 관계자는 "데이터 구축 과정에 있어 플랫폼 크라우드워커 및 번역가 동의를 받은 클린 데이터를 구축하기 때문에 저작권 문제에서 자유로운 것도 차별점"이라고 전했다.
AI 시대에 접어들면서 플리토의 경쟁력이 더 주목받고 있다. AI 학습용 언어 데이터 구축 역량이 주목받고 있다. 특정 분야의 언어 데이터를 텍스트, 음성, 이미지 등 다양한 형태로 맞춤 구축할 수 있기 때문이다. 한국어와 영어, 일본어 등 다국어 데이터를 구축해준다.
다국어 언어 데이터 판매를 바탕으로 탄탄한 실적을 올리고 있다. 플리토는 지난해 203억원 매출을 올렸다. 2022년 136억원, 2023년 177억원 매출액을 기록한 것과 비교하면 증가했다. 전체 매출 60%가 글로벌 빅테크에 AI 학습용 데이터를 판매하는 것에서 나온다.
◇전문가 검증 시스템, AI 편향성·유해성 제거
플리토는 과학기술정보통신부가 추진하는 '글로벌 프런티어 파운데이션 모델' 개발 사업에서 업스테이지 컨소시엄에 합류했다. 업스테이지는 컨소시엄을 이뤄 신규 모델 '솔라 WBL'을 개발할 예정이다. 특히 한국어뿐만 아니라 영어, 일본어 등 다국어 지원을 제공한다.
플리토는 이번 프로젝트에서 모델 성능을 좌우하는 학습용과 평가용 데이터를 총괄 구축하는 역할을 맡았다. 현재 플리토는 도메인 특화 데이터 구축과 품질 검증을 진행 중이다. 특히 박사급 전문가들이 참여해 QA셋, 생각의사슬(CoT) 데이터의 품질을 검증하고 있다.
플리토는 전문가 검증 시스템을 통해 데이터 품질을 유지하고 AI 편향성과 유해성을 제거하는 검증 모듈을 운영하고 있다. 국가대표 AI 모델이 신뢰받으려면 윤리적이고 안정적인 데이터셋이 필수적인데 플리토는 자체 플랫폼과 기술력을 바탕으로 이 과정을 자동화했다.
업스테이지와 플리토가 이번 프로젝트를 함께 추진하게 된 배경은 이전부터 이어온 신뢰가 바탕이 된다. 이미 양사는 지난해 'AI 언어 데이터 구축' 업무협약(MOU)을 체결했다. 일본어, 태국어 등 다국어 언어 데이터를 구축해 저자원 언어도 고품질 대규모언어모델(LLM)을 개발할 수 있도록 기반을 마련하자는 취지였다.
플리토는 이번 프로젝트를 기점으로 다국어 AI 솔루션, 산업 특화형 모델, 글로벌 서비스형소프트웨어(SaaS), 통번역 기술 고도화 등 다양한 신사업 확장을 본격화할 방침이다. 특히 CoT 기반 데이터 개발과 인간피드백기반강화학습(RLHF) 경험을 바탕으로 다국어 도메인 특화 모델 설계에 집중할 계획이다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >
best clicks
최신뉴스 in 전체기사
-
- 현대건설, 올해 첫 녹색채권…ESG 조달 전략 이어간다
- [구다이글로벌 IPO]"협업 원하는 깐부 써라" 제안서 황당 요구
- [케이뱅크 IPO]40% 확약룰 첫 적용…셈법 복잡해진다
- [HD현대로보틱스 IPO]두산·레인보우 멀티플 과도, 해외기업도 피어 '물망'
- SKC 회사채 발행, 석유화학·2차전지 디스카운트 '돌파'
- LX하우시스 회사채 발행 템포 올리나…3년 연속 '등판'
- 주관사 늘린 SKC, 앱솔릭스 앞세워 회사채 흥행 겨냥
- [i-point]제이엘케이, 중앙대학교병원에 뇌졸중 AI 솔루션 공급
- [i-point]닷밀, 강화도에 AI 실감미디어 복합문화공간 조성
- [2026 엔터산업 지형도]F&F, '아홉'에 건 승부수…엔터 도전 3년차 분수령
이영아 기자의 다른 기사 보기
-
- [벤처 4대 강국]자본 확대 속 회수 시장은 공백
- [VC 투자기업]문제연 바이버 대표 "다음 목표는 ‘실물자산 플랫폼’”
- [thebell League Table]코오롱인베, 투자·회수 ‘쌍끌이’…펀딩도 풀사이클
- [thebell League Table]아이디벤처, 지배구조 변화 속 펀딩·투자·회수 삼박자
- SJ투자, '토모로우' 투자 단행…퍼스트무버펀드 소진 속도
- [thebell League Table]'문화투자 뚝심' 미시간벤처, AUM 4000억대 중견사 도약
- [thebell League Table]신한벤처, 은행계열 VC ‘톱2’ 수성…펀딩은 과제
- [VC 인사 풍향계]신한벤처, 본부장급 전진 배치…'외형 확장' 속도전
- [2026 AC 로드맵]박준상 시리즈벤처스 대표 “로컬에서 글로벌 모델 만든다”
- 컨트로맥스, '85억' 시리즈B 라운드 클로징






















