thebell

전체기사

[옥석 가리기 시작된 AI]크라우드웍스, '데이터 라벨링' 에서 '맞춤형 LLM' 까지소형언어모델, 웍스원 시장 공략

이종현 기자공개 2024-07-17 08:46:04

[편집자주]

"인공지능(AI)의 역사는 '챗GPT' 이전과 이후로 나뉜다." 생성형 AI가 처음 등장했던 시절 나왔던 말이다. '챗GPT' 이후 시대는 AI 일상화를 곧 앞둔 것처럼 여전히 분주하다. 산업군의 변화가 무쌍하다. 특히 글로벌 시장에선 하드웨어와 소프트웨어 산업이 보조를 맞추며 진화를 거듭하고 있다. 국내는 어떨까. 전통의 반도체가 여전히 주목받고 있는 반면, 소프트웨어 산업군은 저평가 속에 머무르고 있다. 실질적인 수요찾기에 시간이 걸린 탓에 매출 발생이 지연되는 모양새다. 더벨이 AI 소프트웨어 기업의 실체와 과제를 들여다봤다.

이 기사는 2024년 07월 15일 16:10 thebell 에 표출된 기사입니다.

인공지능(AI) 시대가 도래하면서 데이터 확보의 중요성이 부쩍 커졌다. 우수한 AI를 만들기 위해 양질의 데이터를 직접 거래하거나, 가공을 맡기는 유형의 사업도 활황을 띄고 있다. 데이터 전문 기업으로 코스닥에 상장한 크라우드웍스에 거는 기대가 커지는 배경이다.

크라우드웍스는 2017년 설립한 기업이다. 지난해 스팩합병을 통해 코스닥에 입성했다. 다방면의 데이터를 AI가 학습할 수 있도록 가공하도록 하는 것이 초창기 사업 핵심 모델이다. 데이터에 '라벨'을 붙여준다는 의미에서 '데이터 라벨링'이라고 부른다. 크라우드웍스는 프로젝트 단위로 작업자를 모집하는 크라우드 소싱 방식을 무기로 내세워 눈길을 끌었다.


설립 7년 차 기업인 크라우드웍스는 그동안 굵직한 호재를 맞이했다. 첫 번째는 2020년 코로나19 대유행 이후 발표된 정부의 '디지털 뉴딜' 정책과의 시너지다. 디지털 뉴딜에는 데이터를 수집·가공해 디지털 기반을 다지는 '데이터댐'이 핵심 사업이 됐는데, 관련 사업을 영위하던 크라우드웍스가 직접적인 수혜를 누리며 급부상했다. 2019년 27억원대였던 매출액은 2020년 73억원으로 뛰었다.

크라우드웍스는 데이터가 필요한 기업에게는 데이터를, 전 처리나 가공이 필요한 경우 관련 작업을 수행을 수행하도록 지원했다. 데이터 수집·가공에 드는 시간과 비용을 줄여줘 많은 기업과 기관들에게 러브콜을 받았다. 이 과정에서 데이터와 노하우가 축적하며 미래 사업을 위한 기틀을 다졌다.

두 번째 기회는 2022년 11월 오픈AI가 '챗GPT'를 발표하자 찾아왔다. 대규모언어모델(LLM)을 기반으로 한 서비스가 기존에는 상상도 할 수 없었던 혁신을 보여주자 전 세계가 떠들썩해졌다. AI로 그래픽처리장치(GPU) 기업인 엔비디아가 수혜를 누렸듯, 데이터 기업인 크라우드웍스도 급성장했다. 2022년 118억원이었던 매출액은 2023년 239억원으로 늘었다.

달라진 것은 '지원자' 역할에 머물렀던 크라우드웍스가 보다 적극적으로 AI 최전선에 뛰어들었다는 점이다. 미세조정(파인튜닝), 검색증강생성(RAG) 등 기법을 바탕으로 기업(B2B) 환경에 적합한 '맞춤형 LLM'을 공급하기 시작했다. 메타 등이 공개한 파운데이션모델(FM)과 크라우드웍스의 데이터를 융합한 것으로, 생성형 AI를 사용코자 하는 기업들을 직접 돕기 시작했다.

지난 4월에는 소형언어모델(SLM) '웍스원'도 발표했다. 크라우드웍스는 웍스원을 "국내 비즈니스 용어를 가장 잘 이해할 수 있는 언어모델"이라고 소개했는데, 영어를 중심으로 학습한 LLM과 달리 국내 비즈니스 환경에 최적화한 것이 특징이다.


오픈소스 FM을 사용함으로써 AI 성능의 품질은 보장받았다. 현재는 메타의 '라마(Llama)'를 기반으로 한다. 보다 높은 성능의 FM이 출시될 경우 곧바로 교체 가능해 기술적으로 뒤처질 우려가 적다. 만약 고객이 선호하는 AI 모델이 있다면 그를 이용하는 것도 가능하다.

웍스원과 같은 특화 AI 모델은 챗GPT 등과 비교할 경우 범용성이 떨어지는 것처럼 비친다. 다만 챗GPT 등 일반 사용자용 생성형 AI 서비스는 사실이 아닌 정보를 사실처럼 말하는 '환각 현상' 등으로 인해 엔터프라이즈 환경에서 곧바로 적용할 수 없다는 문제점이 있다. 반면 웍스원은 금융과 유통, 공공기관 등 크라우드웍스가 직접 구축한 분야별 데이터가 활용해 정확도와 전문성을 높였다.

크라우드웍스 관계자는 "기업 도메인이나 환경에 따라 LLM을 통해 얻고자 하는 결과물의 형태가 모두 다르다"며 "웍스원은 숫자 표현형식, 문장, 글 등 개별 기업이 선호하는 답변 형식이나 잘 사용하는 동사 등 기업에서 선호하는 표현으로 답할 수 있도록 설계한 데이터셋을 학습했다"고 말했다.

크라우드웍스는 웍스원을 바탕으로 올해 1분기 개념증명(PoC)을 포함한 다수 LLM 사업 레퍼런스를 확보했다고 밝혔다. 다수 기업이 상반기 LLM 도입을 테스트했고, 하반기 본사업을 검토할 것으로 예상되는 만큼 사업이 호황기를 맞을 것으로 전망된다.

크라우드웍스 관계자는 "AI 산업은 아직 극히 초기 시장이다. 조금 더 긴 호흡으로 봐야 한다"면서 "영업 공급망 확보를 위해 주요 기업과 파트너십을 체결하는 중"이라고 전했다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >

더벨 서비스 문의

02-724-4102

유료 서비스 안내
주)더벨 주소서울시 종로구 청계천로 41 영풍빌딩 5층, 6층대표/발행인성화용 편집인이진우 등록번호서울아00483
등록년월일2007.12.27 / 제호 : 더벨(thebell) 발행년월일2007.12.30청소년보호관리책임자김용관
문의TEL : 02-724-4100 / FAX : 02-724-4109서비스 문의 및 PC 초기화TEL : 02-724-4102기술 및 장애문의TEL : 02-724-4159

더벨의 모든 기사(콘텐트)는 저작권법의 보호를 받으며, 무단 전재 및 복사와 배포 등을 금지합니다.

copyright ⓒ thebell all rights reserved.