[THE NEXT]"증권소송, 소장의 '단어'가 합의·기각의 키워드"아담 바다위 교수, 알고리즘 통한 판단은 아직 예측 확률 높지 않아
허인혜 기자공개 2019-09-20 17:40:26
이 기사는 2019년 09월 20일 17시39분 thebell에 표출된 기사입니다
"증권 집단소송에서는 소장의 '단어'가 합의와 기각의 결과를 도출하는 키워드다. 합의와 기각의 결과는 주식시장에 유의미한 영향을 미친다. 펀드 운용사들이 텍스트 분석을 선제적으로 활용한다면 수익률을 끌어낼 수 있다."아담 바다위 미국 버클리대학교 교수(사진)는 20일 더벨과 한국기업지배구조원이 '기업지배구조의 현안'을 주제로 공동주최한 '2019 더벨 글로벌 컨퍼런스 THE NEXT'에서 이같이 밝혔다.
증권 집단소송에서 반복되거나 새롭게 등장한 단어가 소송의 결괏값을 예측하는 데에 활용된다는 분석이다. 예를 들어 합의라는 단어는 원고 입장에서는 긍정적이다. 바다위 교수는 "기본적으로는 단어의 수를 카운트한다. 특정 단어가 몇 번 나오고 특정 단어의 결합이 몇 번 나오는 지를 센다"며 "특정 문서에만 나오는 단어에는 가중치를 준다"고 했다.
|
이때 단어를 추출하는 문서는 소장이 기본이다. 소장 안에는 원고가 무엇을 주장하는지, 소인은 무엇인지에 대한 중요한 내용이 집약돼 있다는 관점이다. 연구의 기본 데이터값은 스탠퍼드에서 따왔다. 바다위 교수는 "스탠퍼드 지역 집단소송 센터에는 모든 증권소송의 데이터가 집약돼 있다"며 "웹 스크리핑 등의 기술을 통해 소장과 내부의 내용, 예컨대 어디에 제출이 됐는지, 어떤 로펌이 관련됐는지 등의 구조화된 데이터를 추출하는 클리닝 작업을 치렀다"고 부연했다.
증권 소송 결과에 영향을 미치는 단어는 1만5000개 가량이다. 1차 소장에서는 기본적으로 9000개의 단어가, 1차소장 이후 개인이 모여 만든 집단소장에는 2만5000개의 단어가 들어있다. 이 단어들을 대차 비교해 예측 결괏값을 추출한다.
데이터 분석의 정확도를 높이는 기술은 90%의 원본 자료와 10%의 예측이다. 데이터 분석에서 원본 자료만을 100% 활용해 정량화하면 예외값의 영향으로 오히려 정확도가 떨어진다는 이야기다. 바다위 교수는 "좋아할 만한 영화를 100% 예상하기 위해서는 여러분이 본 영화만을 첨부하는 게 아니라, 데이터의 90%만 가져온 뒤 10%를 예측하고 곱하기 10을 해서 10회를 반복하는 방법이어야 정확도가 높아진다"고 설명했다.
소송의 결과가 주가에 반영되는 방식도 연구 영역 중 하나다. 소송이 기각되면 주가에 별다른 영향을 미치지 않지만 합의금을 지급한다면 주가가 급락하는 현상이 일어난다고 바다위 교수는 말했다. 또 1차 소장과 집단 소장의 결과도 주가에 다른 영향을 미친다. 1차 소장은 시장에 알려지지 않은 내용을 담아 주가 변동률이 높지만 집단소송은 새로운 주장이 없다면 주가 그래프를 바꾸지 않는다는 해석이다.
증권 소송 텍스트 연구는 펀드 수익률을 전망하는 데에 쓰일 수 있다는 게 바다위 교수의 주장이다. 소장 속 단어와 결과의 상관관계, 또 증권소송의 결론이 주식시장에 미치는 효과를 교차 분석한다면 펀드 운용사들이 수익을 얻게 된다는 의미다. 바다위 교수는 "다만 알고리즘을 통한 판단은 아직까지 예측 확률이 높지 않고 소장의 내용을 알고리즘에 맞춰 작성할 수도 있어 시장에 바로 적용하기는 빠르다"고 짚었다.
<발표 전문>
집단소송의 결과를 예측하는 데에 소송의 내용이 얼마나 영향을 미치는 지에 대해 연구해 왔다. 앞서 증권 집단소송에 대한 발표가 이미 이뤄져 간략하게만 말하자면, 증권 집단소송은 기본적으로 기업이 허위, 기만적인 진술을 하지 못하는 것을 목표한다. 소송의 근거가 있느냐, 타당한 소송이냐는 우려 역시 연구의 중요한 영역으로 남아있다.
특정 소송의 이유를 추론하는 일은 쉽지 않다. 근거와 원인을 판단하는 과정에서 판사의 판단을 고려해야 하는지, 또 정확한 지에 대한 구분이 선행돼야 한다. 이 분야에 대한 연구는 많이 진행돼 있다. 여기에 개정 공시나 해당 사건에 대한 조사가 여전히 진행되고 있다던지 하는 몇 가지 복잡한 변수들이 존재한다.
학계에서는 데이터 분석을 많이 진행 중이다. 최근에는 소장에 들어있는 텍스트를 분석하고자 한다. 소장 안에는 원고가 무엇을 주장하는지, 소인은 무엇인지가 들어있다. 이처럼 소장은 상당히 중요한 내용을 담는데, 이 소장의 텍스트를 분석하면 해당 소송이 유효한지를 알 수 있는 지를 연구하고자 한다.
합의라는 ‘단어'는 원고 입장에서는 긍정적이다. 만약 합의가 된다면 합의금을 지급하는지, 그렇지 않은 지에 대한 분석이다. 소장 이후에는 집단 소송도 가능한데 머신러닝을 통해 이 분야의 텍스트 분석도 가능하다. 소장 결과를 예측한 뒤에는 주가 수익률과도 비교한다. 소장의 결과가 주가에 어떤 영향을 미치는 지를 본다.
2002년 증권소송 개혁법으로 증권 집단소송의 기준이 더욱 강화된 한편 변호사들의 기준점이 됐다. 해마다 많을 때에는 120건 가량의 증권 집단소송이 연방에 신청된다.
우리가 일상생활에서 e메일이 스팸메일인지 아닌 지를 구분하는 게 머신러닝의 한 단면이다. 머신러닝은 e메일함에 받는 메일을 알고리즘으로 분류한다. 이처럼 공식을 구축해 소장의 합의와 기각 여부를 예측해보자는 의미다. 이를 통해 과도한 증권 연계소송이 이뤄지지 않도록 하는 게 목표다. 증권소송 개혁법도 경쟁적인 소송을 줄여보자는 취지다.
연구 배경은 소송의 절차를 개선하고자 하는 것이었다. 소송의 효과가 있는지 없는 지에 대한 분석이지만 연구의 결과는 아직까지는 다소 모호하다. 기본 목표는 기관투자자의 관여도를 높이자는 것인데, 성공적인지 여부도 가르기 어렵다. 어떤 소송 케이스가 정당한지 아닌지를 시장이 늘 정확히 판단하지는 못하지만, 기각된 소송의 경우 주가가 떨어지지 않아도 합의금이 지급된 소송은 주가가 뚝 떨어지는 것을 볼 수 있다.
데이터 추출은 스탠포드 지역 집단소송 센터에서 따왔다. 모든 증권소송 데이터가 여기에 집합된다. 이 데이터를 가지고 웹 스크리핑을 통해 소장과 내부 내용, 예컨대 어디에 제출됐는지, 어떤 로펌에 관여됐는지 등의 구조화된 데이터를 추출하는 클리닝 작업을 했다.
기본적으로는 단어의 수를 카운트한다. 특정 단어가 몇 번 나오고 특정 단어의 결합이 몇 번 나오는 지를 센다. 특정 문서에만 나오는 단어에는 가중치를 준다.
기계학습 관련 알고리즘은 여러 변수들을 데이터 섹터에서 추출한 뒤 모델을 만든다. 데이터 분석은 가지고 있는 데이터만을 100% 정량화하면 예측성이 떨어지게 된다. 좋아할 만한 영화를 100% 예측하기 위해서는 여러분이 본 영화만을 첨부하는 게 아니라, 데이터의 90%만 가져온 뒤 10%를 예측하고 곱하기 10을 해서 10회를 반복하는 방법이어야 정확도가 높아진다.
'디시전 트리'(머신러닝 알고리즘을 활용한 데이터마이닝 기법)은 잘 알려진 방법론인데, 예를 들어 타이타닉을 본다면 누군가 죽을 확률이 높은지 낮은지를 판단하려면 여성과 아동이 먼저 구조가 된다는 조건 하에 성별은 사망률에 주요한 요건이 된다. 이런 식으로 텍스트를 두고 분석을 하는 일이다.
증권관련 소장에서 특정 단어가 반복될 때에 해당 단어가 합의 확률이 높은지, 기각 확률이 높은 지를 알려주는 변수들이다. 1만5000개에 달하는 가장 관련성이 높은 단어들이 있다. 배경 통계만 말해보자면 기본적인 통계 하에 가장 중요한 건 합의금이다. 44% 정도는 금전적인 합의가 나타나고 71%는 (소송)통합이 이뤄진다. 대표 변호인단이 소집돼 더 자세한 소장이 작성된다. 1차에는 9000개 정도, 집단소장은 2만5000개 단어로 구성된다. 예측 정확도로는 55%정도가 기각이 된다.
이 부분이 주가에 반영되는 순서는, 소장이 제기 되는 즉시 예측이 가능하다. 상위 20% 정도를 추출해 합의 가능성과 기각 가능성을 봤고 소장이 제출된 다음날을 기준으로 주가 영향도 살펴봤다. 결론적으로 시장은 잘 판단했지만 약간의 시차를 뒀다.
기각이 된 소송은 주가가 하락되지만 크게 하락하지 않는다. 금전적 합의가 이뤄진 사례에서는 0~10일 정도 지나면 주가가 하락하는 걸 볼 수 있다. 집단 소장의 경우 기본 내용은 이미 알려진 부분이고 새로운 부분은 일부기 때문에 반 정도는 오르고 반은 내린다.
이 예측을 위한 리서치에서 소장이 유의미하다. 소장이 사용한 단어들에 따라 소송 결과와 수준이 달라진다. 소인, 변호사의 수준 등이 영향을 주는 요소다. 이 결과에 따라 헤지펀드들이 자체 분석을 한다면 수익을 얻을 수도 있다. 다만 알고리즘을 통한 판단은 아직까지는 시기상조다. 예측 확률이 높지 않고 소장의 내용을 알고리즘에 맞춰 작성할 수도 있어서다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >
관련기사
best clicks
최신뉴스 in 전체기사
-
- 청약증거금 2조 몰린 쎄크, 공모청약 흥행 '28일 상장'
- [영상/Red&Blue]겹경사 대한항공, 아쉬운 주가
- [i-point]모아라이프플러스, 충북대학교와 공동연구 협약 체결
- [i-point]폴라리스오피스, KT클라우드 ‘AI Foundry' 파트너로 참여
- [i-point]고영, 용인시와 지연역계 진로교육 업무협약
- [i-point]DS단석, 1분기 매출·영업이익 동반 성장
- [피스피스스튜디오 IPO]안정적 지배구조, 공모 부담요소 줄였다
- 한국은행, 관세 전쟁에 손발 묶였다…5월에 쏠리는 눈
- [보험사 CSM 점검]현대해상, 가정 변경 충격 속 뚜렷한 신계약 '질적 성과'
- [8대 카드사 지각변동]신한카드, 굳건한 비카드 강자…롯데·BC 성장세 주목
허인혜 기자의 다른 기사 보기
-
- [LIG넥스원은 지금]'수긍되는' 고PER, 천궁-II에 기대 쏠렸다
- [thebell note]한화그룹의 '시나리오'
- [LIG넥스원은 지금]포트폴리오 더 탄탄해졌다...떠오르는 'C4I'
- [한화그룹 승계 로드맵 점검]그룹내 자금 에어로 투입, 투자자 달랠수 있을까
- [조선 기자재 키플레이어선]경영승계는 차남…오너일가 '못지않은' 박세철 존재감
- '승계 논란' 차단 나선 한화…유상증자 설계도 다시 짰다
- [Red & Blue]유상증자부터 승계까지 '요동친' 한화에어로스페이스
- [상호관세 후폭풍]조선업, 미국 제조공백에 '전략적 가치' 부상
- [2025 서울모빌리티쇼]HD현대사이트솔루션 대표 "북미 매출목표 유지한다"
- [조선 기자재 키플레이어]오리엔탈정공, 실적·배당 확대 불구 여전한 저평가