thebell

인베스트

[스타트업 피칭 리뷰]'신속 웹 크롤링' 유펜솔루션, 가격 경쟁력 압권'빠른 데이터 수집' 해외 기업과 차별화, 간편 솔루션 구축

양용비 기자공개 2020-10-13 15:28:53

[편집자주]

피칭(Pitching)은 스타트업 창업자가 디데이 등을 통해 투자자에게 기업 잠재력을 알리는 일이다. 성공 여부에 따라 투자 유치 성패가 좌우된다. 5분 남짓한 창업자의 피칭에 기업의 역사와 청사진이 고스란히 담겨있다. 창업 생태계에 등판한 각 유망 스타트업의 로드맵을 살펴보고 투자자들의 반응을 들어본다.

이 기사는 2020년 10월 12일 15:00 더벨 유료페이지에 표출된 기사입니다.

바야흐로 빅데이터의 시대다. 빅데이터의 중요성이 부각되면서 데이터를 수집하는 웹 크롤링 기술의 필요성도 점점 커지고 있다. 해외 뿐 아니라 국내에서도 웹 크롤링에 대한 수요도 증가 추세에 있다.

다만 수요자들의 만족도를 높여줄 수 있는 서비스는 아직 부족하다. 웹 크롤링이 필요한 기업들은 이를 외주로 맡길 경우 비용 문제가 따른다. 직접 개발에 나서려는 기업은 지식과 노하우가 부족해 제대로 된 솔루션을 만들 수 없는 한계에 직면한다.

2018년 설립된 유펜솔루션은 간편한 조작만으로 양질의 데이터 수집이 가능한 서비스형 소프트웨어(SaaS) 솔루션 ‘스파이더킴’을 개발했다. 스파이더킴을 이용하면 누구든지 웹에서 방대한 양의 데이터를 안정적이고 정확하고 신속하게 수집할 수 있다.

지난달 디캠프가 진행한 ‘디데이’에서 마이크를 잡은 김재훈 대표는 스파이더킴의 차별성과 청사진을 공개했다.

◇데이터 수집 속도·저렴한 서비스 가격 차별화

김 대표는 건설사에서 근무하는 가상의 인물 A 대리의 사례를 들어 서비스를 소개했다. A 대리는 신축 건물 부지 선정에 필요한 서울시 전체 아파트 정보가 필요한 인물이다.
<김재훈 유펜솔루션 대표>

A 대리가 서울 아파트 정보를 모으기 위해 웹에서 수집해야하는 데이터는 1370만개에 달한다. 복사·붙여넣기 ‘신공’을 펼쳐도 한 달에 2000개 밖에 수집을 못한다. 이 속도대로라면 1876년 걸려 작업을 마무리 할 수 있다고 김 대표는 설명했다.

그는 “18대 후손까지 붙어야 완료되는 작업을 우리에게 의뢰하면 자체 개발한 웹 크롤링 솔루션을 통해 3일 만에 끝낼 수 있다”고 말했다.

조작법은 간단하다. 사용자가 수집할 대상 사이트의 URL을 입력하면 원하는 데이터만 선택해서 가져올 수 있다. 데이터 수집이 완료되면 미리보기를 통해 데이터 테이블 구조에 문제가 없는지 확인하고 실행 버튼을 누르면 끝이 난다. 이후 데이터는 엑셀이나 API 형태 등 다양한 파일로 다운로드 할 수 있다.

경쟁사 대비 차별성도 두드러진다. 웹 크롤링 속도와 비용적인 측면에서 확실한 강점을 보유했다. 김 대표는 웹 크롤링 분야 글로벌 매출 1위 Import.IO 서비스와 크롤링 속도를 비교한 결과 자사의 솔루션이 더욱 신속하게 데이터를 수집 했다고 밝혔다.

그는 “우리 솔루션이 페이지 로딩까지 평균 4~5초가 걸리는 반면 Import.IO는 5~7초 정도 걸렸다”며 “수집 속도는 로딩 속도에도 영향을 미치는데 1만건의 데이터를 수집하는 평균 시간이 1시간 이상 차이가 났다”고 말했다.

비용 절감과 관련해선 “기업이 크롤러 개발자를 월 300만원에 채용해도 수집할 수 있는 사이트 수가 약 2개에 불과하다”며 “우리는 한 달에 50만원만 지불하면 최대 50개 사이트의 데이터 수집이 가능하다”고 덧붙였다.

이미 이커머스 기업과 글로벌 시장 조사 기업, 대학과 관공서 등 다양한 분야의 고객들이 스파이더킴을 활용해 데이터 수집을 하고 있다. 향후 5년 뒤엔 전체 시장 규모(8688억원)의 10% 수준인 875억원을 매출 목표로 삼고 있다.

그는 “데이터 수집에 안주하지 않고 2023년까지 경제분석 시각화 분야의 데이터 플랫폼으로 발전 시킬 것”이라며 “2024년 2월부터는 해외 시장을 본격적으로 공략할 것”이라고 얘기했다.

◇저작권·영업방해 대비 철저…빠른 속도 비결 눈길

유펜솔루션의 웹 크롤링 솔루션에 심사위원의 시선이 집중됐다. 경쟁사보다 속도가 빠른 이유와 법적 문제 해결 방법, 시장 규모 산출 근거 등 다양한 질문이 쏟아졌다.

특허청 특허사업화담당관 최병석 과장은 경쟁사 대비 빠른 서비스 속도의 비결을 물어봤다. 이에 김 대표는 “HTML 태그의 구조를 분석하면서 불필요한 데이터를 모두 제거하고 수집할 때 필요한 정보들은 클러스터링(데이터 분류 기법) 해 놨기 때문에 속도가 빠르다”고 답변했다.

이어 “우리는 한 국가의 단일 서버만 쓰는 게 아니라 글로벌 망을 사용한다”며 “지역에 따라 접속을 하면 자동으로 근처에서 연결이 되기 때문에 네트워크 손실이 없어 수집 속도가 빠르다”고 덧붙였다.

박성호 케이그라운드 대표는 웹 크롤링 분야에서 끊이지 않는 불법과 합법 문제의 해결 방안을 물었다. 김 대표는 불법으로 볼 수 있는 영업 방해와 저작권 문제에 철저히 대비하고 있다고 답했다.

그는 “과도하게 수집 대상 사이트에 접근해서 서버를 다운시키면 영업 방해가 된다고 판결난 사례가 있다”며 “이를 방지하기 위해 데이터 수집 시 트래픽이 느려지거나 위험해 보이는 경우 크롤링을 멈추고 사람들이 접속하지 않는 새벽 시간을 이용해 진행한다”고 대답했다.

저작권 문제에 대해선 “남이 만들어 놓은 데이터를 가져다 상업적으로 쓰면 안 된다”며 “그래서 처음 가입할 때 약관에 (유펜솔루션은) 데이터 활용에 책임이 없다고 명시해 놨다. 그 부분에 대해서는 지속적으로 안내 자료를 발전시켜 나가고 있다”고 강조했다.

시장 규모 산출 근거를 질의하는 심사위원도 있었다. 송은강 캡스톤파트너스 대표는 김 대표가 내년 시장 규모를 3000억원으로 추산한 근거를 궁금해 했다. 김 대표는 현재 데이터 크롤링이 음성적으로 이뤄지는 탓에 시장 규모 산출에 어려움을 겪었다고 토로했다.

김 대표는 “2018년 사업을 시작하면서 외부에서 들어온 의뢰 건을 바탕으로 분석했다”며 “의뢰처는 B2B와 B2C, B2G 등으로 나눠지는데 이들의 모수를 모두 뽑아서 시장 규모를 잡았다”고 설명했다. 이어 “예상 고객 수는 영리 법인 전체에서 7%만 잡아도 5만개 정도”라며 “기업과 대학교, 공공기관이 50만원 요금제로 2개 계정을 쓴다고 가정해서 규모를 산출했다”고 덧붙였다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재 및 재배포 금지 >

더벨 서비스 문의

02-724-4127

유료 서비스 안내
주)더벨 주소서울특별시 중구 무교로 6 (을지로 1가) 금세기빌딩 5층대표/발행인성화용 편집인이진우 등록번호서울아00483
등록년월일2007.12.27 / 제호 : 더벨(thebell) 발행년월일2007.12.30청소년보호관리책임자이현중
문의TEL : 02-724-4100 / FAX : 02-724-4109서비스 문의 및 PC 초기화TEL : 02-724-4103기술 및 장애문의TEL : 02-724-4159

더벨의 모든 기사(콘텐트)는 저작권법의 보호를 받으며, 무단 전재 및 복사와 배포 등을 금지합니다.

copyright ⓒ thebell all rights reserved.