크라우드웍스, 비즈니스 특화 소형언어모델 ‘웍스원’ 개발 기업별 특징 반영한 맞춤형 데이터셋, 문맥 불일치·번역오류 등 해결
성상우 기자공개 2024-04-25 15:29:33
이 기사는 2024년 04월 25일 15:28 thebell 에 표출된 기사입니다.
AI 테크 기업 크라우드웍스는 소형언어모델(SLM)을 활용한 기업 맞춤형 생성형AI 수요가 늘어남에 따라 비즈니스 환경에 특화된 SLM '웍스원(WorksOne)'을 개발했다고 25일 밝혔다.국내 여러 기업들이 요구하는 LLM을 구축하는 과정에서 여러 가지 취약점을 발견한 게 이번 SLM 개발의 배경이 됐다는 설명이다. 영어 중심으로 학습된 LLM이 한국어를 비롯해 국내 비즈니스 용어를 원활히 이해하지 못한데서 나오는 오류가 자주 포착됐다. 웍스원은 영어로 학습된 LLM에서 발생하는 데이터 격차의 문제를 해결하는 데 초점을 맞췄다.
웍스원은 국내의 비즈니스 환경에 최적화된 모델이라는 설명이다. 70억 매개변수를 가진 오픈소스 모델과 1만개의 고품질 데이터셋으로 구현했다. 기업에서 선호하는 비즈니스 친화적(Business-friendly)인 답변을 제공한다는 점이 차별화점이다.
이를 위해 크라우드웍스는 비즈니스 맞춤형 데이터셋을 직접 구축했다. 비즈니스 맞춤형 데이터셋은 금융, 유통, 공공기관 등 업종별·기업별 데이터 특징을 분석해 비즈니스 특화 용어와 문체, 보고 유형 등을 분석해 반영했다.
영어를 그대로 번역한 데이터가 많고 학습 데이터의 원본에서부터 한국어로 된 고품질 데이터를 찾아보기 힘들었던 문제를 해결한 셈이다. 번역 오류가 포함될 수 있고 모델이 문맥을 잘못 이해하거나 부정확한 판단을 내릴 수 있는 오류가 대부분 해소됐다.
문제 해결을 위해 크라우드웍스는 데이터셋 구축 과정에서부터 공을 들였다. 국내 최대 규모인 60만 데이터 작업자 풀을 기반으로 전문 역량을 가진 고급 데이터 작업자를 선발한 게 그 일환이다. 이를 기반으로 비즈니스 언어 활용과 표현력, 문서 구조화 능력 등 자체 검증도 실시했다. 검증에 통과한 평균 경력 15년 이상의 대기업 기획 업무 경험을 가진 전문가들이 데이터셋 구축에 참여해 고품질 데이터를 최종 완성했다.
기업 내부 시스템과 연동이 원활하다는 점도 크라우드웍스의 강점이다. 웍스원은 지정한 키(Key) 값과 구조를 갖춘 JSON 형식의 답변을 안정적으로 출력할 수 있다. 사내 레거시 시스템과 쉽게 통합하고 확장하는 것이 용이해 시스템간 데이터 교환 및 상호운용성도 향상시킬 수 있다.
자체 테스트 결과, GPT를 포함한 타 모델들의 경우 JSON 답변에 노이즈가 포함되거나 항목이 누락되는 결과를 확인했지만 웍스원은 요청한 키 값에 따라 안정적으로 답변을 생성했다. 띄어쓰기나 오타 하나만 발생해도 사용자가 전후처리에 상당한 리소스를 소모할 수 있기 때문에 정확한 답변을 안정적으로 출력할 수 있는 역량이 중요하다는 게 회사 측 설명이다.
이형주 크라우드웍스 최고기술책임자(CTO)는 “웍스원은 비즈니스 용어 및 문서 환경에 대한 이해도가 높은 전문가가 직접 만든 한국어 데이터로 학습시킨 비즈니스 특화 모델로, 고품질 데이터로 학습한 모델은 업계에서 유일하다”면서 “앞으로도 AI 데이터부터 LLM까지 기업 혁신에 필요한 모든 것을 제공할 것”이라고 전했다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >
관련기사
best clicks
최신뉴스 in 전체기사
-
- 수은 공급망 펀드 출자사업 'IMM·한투·코스톤·파라투스' 선정
- 마크 로완 아폴로 회장 "제조업 르네상스 도래, 사모 크레딧 성장 지속"
- [IR Briefing]벡트, 2030년 5000억 매출 목표
- [i-point]'기술 드라이브' 신성이엔지, 올해 특허 취득 11건
- "최고가 거래 싹쓸이, 트로피에셋 자문 역량 '압도적'"
- KCGI대체운용, 투자운용4본부 신설…사세 확장
- 이지스운용, 상장리츠 투자 '그린ON1호' 조성
- 아이온운용, 부동산팀 구성…다각화 나선다
- 메리츠대체운용, 시흥2지구 개발 PF 펀드 '속전속결'
- 삼성SDS 급반등 두각…피어그룹 부담 완화
성상우 기자의 다른 기사 보기
-
- [IR Briefing]벡트, 2030년 5000억 매출 목표
- [i-point]'기술 드라이브' 신성이엔지, 올해 특허 취득 11건
- [Company Watch]HVM, 올해 연매출 500억대 진입 '총력'
- [Company Watch]'소프트웨어 솔루션 재편' 핀텔, 흑자전환 여부 ‘촉각’
- 폴라리스오피스의 '성공적' M&A 행보
- [i-point]신성이엔지 김제사업장, 고용노동부 위험성평가 대상
- [i-point]엔젤로보틱스, 상이유공자에 재활로봇 지원
- [i-point]소니드에이아이, 자율주행 폭발물·지뢰 탐지 로봇 개발
- [i-point]케이웨더, LH 아파트에 천장형 환기청정기 공급
- [미래컴퍼니 장비 국산화 40년]“백투더 베이직, 다운사이클 없는 포트폴리오 구축”