Search
👀

우리가 AI 기술을 활용하는 법

대한민국 인공지능 전망 2022 웨비나, 박찬용 대표

IHFB의 비전ㅣ00:41 사실 요즘 학생들이 생각보다 부모님 소득이나 자기 집값이 얼마인지 이런 걸 굉장히 잘 알더라고요. 그래서 과외 아니면 더 비싼 학원에서 교육을 받고 싶지만, 가정 형편에 맞는 교육을 받는 경우가 많이 있는데요. 저희 회사는 바로 이러한 문제를 해결하기 위해서 서비스를 만들고 발전시켜 왔습니다. 저희 회사의 비전은 ‘질 높은 교육 기회의 평등’인데요. 사실 제가 방금 말씀드린 목표가 단지 이제 저희 회사만의 목표는 아닌 것 같습니다. 어떻게 보면 굉장히 많은 에듀테크 회사들은 비슷한 비전과 목표를 가지고 있다고 생각을 해요.
어뎁티브 러닝의 출현ㅣ01:36 2010년에 어뎁티브 러닝(Adaptive Learning)이라는 단어가 나왔어요. 글로벌하게 많이 사용되던 단어인데요. 이 단어가 나올 때 AI라는 단어는 없었습니다. 그때는 빅데이터라는 단어가 있었고요. 이런 단어가 나오게 된 이후에 2000년대 중반 정도부터 온라인 교육이 활성화되기 시작했어요. 사람들이 온라인으로 학습하기 시작하면 데이터가 굉장히 많이 나오는데, 이 데이터를 기반으로 맞춤형 학습을 해준다면 과외와 같은 개인화 서비스를 기술로 대체할 수 있지 않을까? 그렇다면 비싼 서비스인 과외를 굉장히 저렴하게, 평등하게 제공해줄 수 있지 않을까라는 꿈을 가진 서비스들이 어댑티브 러닝 서비스였습니다. 그런데 혹시 지금 머릿속에 떠오르시는 어댑티브 러닝 회사가 있으세요? 아마 없으실 거예요. 대략 2010년도부터 이런 흐름이 있었으니까 한 10년, 12년 동안 엄청나게 많은 회사들이 대규모 투자를 받고 이런 문제들을 해소하기 위해서 노력을 했는데 결국 어떤 회사도 이 문제를 풀지 못한 거거든요. 10년 해서 안 되면 정말 안 되는 걸 수도 있는데요.
교육 서비스의 특이점ㅣ03:26 저희 회사도 사실 이러한 어려움에 직면해 있었습니다. 왜 어댑티브 러닝 회사들이 성공할 수 없었는지를 분석을 해 보면요. 결국은 교육 서비스의 몇 가지 특징 때문입니다. 첫 번째로 교육 서비스는 사실 혼자서 지속하기 되게 어렵습니다. 어떻게 보면 운동이랑 비슷한데요. 누가 옆에서 도와주지 않으면, 부모님이 계속 잔소리를 한다든지, 학원 선생님, 과외 선생님이 강하게 푸시하지 않으면 스스로 공부하기가 어렵다는 부분이 있고요. 구매 관점에서 놓고 봐도 굉장히 독특한 특징을 가집니다. 일반 소비재를 예로 들면요. A라는 상품이 100만 원에 100의 효율을 가지고 있고, B라는 상품이 50만 원에 90의 효율을 가지고 있다면 일반 소비자 관점에서는 B라는 상품을 더 사고 싶을 겁니다. 하지만 교육 서비스의 소비 패턴은 다른데요. 자기가 쓸 수 있는 교육비 범위 안에서는 가장 좋은 걸 고르려고 합니다. 교육 서비스에서 내가 100만 원을 투자하겠다고 하면 대부분의 사람들은 A를 고르게 되는 거죠.
어뎁티브 러닝은 왜 실패했는가ㅣ04:21 여기서 생각해봐야 될 포인트가 바로 나오는 건데요. 어댑티브 러닝이 결국 데이터를 기반으로 맞춤형 학습을 해주겠다는 건데 그 얘기를 뒤집어서 얘기하면 데이터가 없으면 깡통이라는 얘기입니다. 아무리 서비스가 저렴하다 할지라도 자신의 자녀를 아직 학습되지 않은 AI에게 맡길 부모는 거의 없고요. 설령 맡겼다 할지라도 단순 온라인 학습만으로는 학습을 지속시키기가 굉장히 어렵습니다. 결국은 사람이 직접 관리를 해주지 않으면 학습 동기가 저하되고 학습 동기가 저하되면 데이터가 부족해지고 데이터가 부족해지면 당연히 개인화가 안 되기 때문에 학습 성과가 좋게 나올 수 없어요. 이 악순환 고리를 어떠한 회사도 풀지 못했던 겁니다. 저희 회사도 사실은 이 부분에서 비슷한 길을 거의 한 5~6년 정도 갔던 것 같아요.
IHFB가 이를 극복한 방법ㅣ05:24 저희의 ‘밀당’이라는 서비스는 2013년도에 처음 런칭했는데 2017년 상반기까지도 이 문제를 해결하지 못했습니다. 그러다가 결국 저희가 관심을 가진 건 온라인 교육 시장이랑 오프라인 교육 시장의 차였어요. 결국 두 시장이 가지고 있는 가장 큰 차이는, 온라인 시장에는 관리 선생님이나 선생님이라는 역할이 없더라고요. 그냥 강사만 인터넷 강의 형태로 존재하고 있었고 오프라인에서는 과외 선생님이 학원 선생님이 학교 선생님이 직접 학생들을 관리해줬던 거죠. 결국은 공부를 지속하게 하는 건 결국 사람이다. 사람이 직접 관리를 해줘야 이 공부를 지속할 수 있게 만들 수 있다라고 생각을 했어요.
교육시장의 현재ㅣ06:16 그리고 나서 교육 시장을 봤더니 아니나 다를까 교육 시장 대부분은 다 오프라인 학원, 과외였습니다. 교육 시장이 한 15조 정도 되는데요. 이 중에서 92%가 오프라인 학원 과외 시장, 그러니까 관리 선생님이 관리를 해주는 선생님이 있는 마켓이고요. 온라인은 전체 시장의 3% 정도밖에 되지 않았습니다. 그래서 저희가 깨달은 게 결국은 공부를 시키려면 오프라인 시장을 대체하고 또 데이터를 제대로 얻으려면 사람이 여기에 들어가야 된다라는 생각을 했어요. 그래서 저희가 분석을 해본 게 사람이 들어가서 가장 좋은 퍼포먼스를 내는 교육 서비스가 뭐지라고 보니까 과외라는 서비스였어요. 그래서 과외라는 서비스를 한번 분석해 봤습니다. 사실 과외가 별게 없잖아요. 영어 과외만 놓고 보면, 처음에 선생님이 단어 시험 보고 그다음 정해진 교재로 강의해주고 강의하고 나서 이제 학생들한테 문제를 풀게 한다든지 해석을 시키면 그 부분을 관찰하고 있다가 질문을 한다든지 막히는 부분들을 답변을 해주는 게 일반적인 과외 프로세스더라고요.
과외의 특징과 모니터링의 핵심 가치ㅣ07:33 근데 여기서 되게 재밌는 점은 과외가 되게 비싼 서비스인데 ‘모니터링’이 전체 시간의 40% 정도를 차지한다는 점이었어요. 어떻게 보면 과외가 되게 비싼데 단순히 관찰하는데 전체 시간의 40%가 쓰인다고 하면 뭔가 좀 아깝다고 느껴지실 수도 있는데요. 하지만 이 모니터링은 굉장히 중요한 두 가지 가치를 갖습니다. 첫 번째로는 학생의 공부를 강제합니다. 요즘 학생들이 사실 책상에 앉아서 30분 이상을 못 있는데 어찌 됐건 선생님이 앞에 앉아서 지켜봐주면 그 시간만큼 공부를 한다는 거죠. 두 번째, 공부를 아주 잘하는 이상한 학생들은 어려운 문제가 나오면 즐거워합니다. 하지만 대다수의 공부를 어려워하는 학생들은 어려운 문제가 나오면 사실 책을 덮고 학습을 포기하게 되는데요. 이러한 부분에 있어서 과외 선생님은 문제를 즉시 해결해 주기 때문에 공부를 지속시킬 수 있는 또 다른 가치를 가지고 있습니다. 결국 첫 번째, 학생의 공부를 강제한다는 점, 두 번째, 학생의 질문을 즉시 해결해 준다는 점 이렇게 두 가지가 이 모니터링이 주는, 그리고 과외만이 줄 수 있는 굉장히 중요한 강점인 거죠.
선생님의 업무를 대체하는 기술ㅣ08:47 저희 밀당 서비스 같은 경우는 저희가 자체적으로 개발한 리얼타임 러닝 애널리틱스라는 엔진이 모니터링 부분, 사람이 직접 관리하는 부분을 대신합니다. 그리고 강의는 대학생 과외 선생님보다 1타 강사의 인강이 더 퀄리티가 우수하죠. 저희는 1타 강사의 인강과 자체적으로 개발한 액티비티 시스템을 통해서 이 강의 부분을 대체하고 있기 때문에 기술이 선생님의 업무 약 90% 정도를 대체하고 있습니다. 기존 강사가 혼자 하던 일을 강의나 콘텐츠 제작, 학습 관리 각각 전문화된 분들로 분업해서 일을 하고 있는 구조이고요. 리얼타임 러닝 애널리틱스가 학생이 지금 제대로 공부를 하고 있는지, 학습을 어떻게 하고 있는지, 어떤 콘텐츠에서 뭐가 취약한지 등을 실시간으로 분석해주고 여기서 나온 데이터를 기반으로 AI를 활용해서 콘텐츠를 추천해 주는 모델을 가지고 있습니다. 과외는 보통 주 2회 정도 관리를 해주고 있는데 저희 서비스는 온택트 선생님과 리얼 타임 러닝 애널리틱스라는 엔진, 그리고 AI의 도움을 통해서 주 4회 하루에 1시간 30분에서 2시간씩 학습하는 전체의 시간을 관리해주는 그런 서비스를 운영하고 있다라고 말씀을 드릴 수 있을 것 같아요.
밀당 서비스의 기술 이야기, CMS와 LMS란ㅣ10:28 이제 조금 더 기술적인 얘기로 좀 딥하게 들어가면, 데이터에는 크게 두 가지 속성이 있다고 생각을 합니다. 하나는 정형 데이터, 또 다른 속성은 비정형 데이터인데요. 아무래도 이제 정형 데이터는 수로 명확하게 표현될 수 있는 데이터라고 말씀드릴 수 있을 것 같고 비정형 데이터는 영상이나 이미지, 텍스트 같이 수로 표현될 수 없는 그런 데이터들을 비정형 데이터라고 부르고 있습니다. 추가로 또 하나 말씀드려야 될 것은 에듀테크 서비스, 그러니까 온라인 교육 서비스를 만든다고 했을 때 기본적으로 두 가지 기술을 기본적으로는 가지고 있어야 됩니다. 첫 번째는 CMS라는 건데요. 이 CMS는 콘텐츠 매니지먼트 시스템(Contents Management System)입니다. 온라인으로 교육을 한다고 했을 때 콘텐츠가 온라인상에 존재해야 되는데요. 콘텐츠를 존재하게 하는 제작 툴이나 저장 방식, 저장 도구들을 CMS라고 얘기하고요. LMS 같은 경우는 그렇게 올라간 콘텐츠를 학습하게 하는 시스템이라고 할 수 있습니다.
정형 데이터와 비정형 데이터의 차이ㅣ11:39 CMS만 놓고 봤을 때 CMS를 통해서 저장되는 데이터가 비정형이냐 정형이냐로 서비스들을 나눠볼 수 있습니다. 저희가 익히 알고 있는 일반적인 인강 회사들 같은 경우는 데이터를 주로 비정형으로 저장하고 있는 대표적인 곳들이라고 보시면 됩니다. 동영상 강의가 대표적으로 비정형 데이터고요. 물론 객관식 문제 같은 경우는 번호나 이런 부분에서 일부 정형성을 띠지만, 그 문제가 가지고 있는 고유한 여러 가지 특징들은 대부분 다 비정형 데이터, 주로 이미지 혹은 일반적인 텍스트로 저장되고 있다고 보시면 됩니다. 그리고 이제 굉장히 유명한 LMS 서비스인 구글 클래스 같은 경우도, 주로 구글 닥스나 구글 폼 등을 이용해서 콘텐츠를 배포하기 때문에 전형적인 비정형 데이터로 CMS가 구축되어져 있다라고 말씀드릴 수 있을 것 같습니다.
기존 에듀테크 서비스와 밀당의 차별점ㅣ12:38 하지만 최근의 에듀테크 스타트업들은 굉장히 정형성을 띠는 데이터를 활용한 CMS를 사용하는 방향으로 진화하고 있고요. 예를 들면 이런 겁니다. 지금 보이는 이 지문이 일반적인 영어 수능 지문이라고 놓고 보시면, 일반적인 이러닝 회사에서 취득할 수 있는 정보는, 33번의 정답이 3번인데 이 학생은 5번을 골랐고 평균적인 정답률은 몇 퍼센트고 주로 고른 오답은 뭐고 푸는 데 몇 분이 걸렸다. 이제 이 정도 데이터를 얻을 수 있다고 말씀드릴 수 있는데요. 이 콘텐츠를 정형화한다는 게 무슨 얘기냐면, 밀당은 이렇게 지문을 넣으면 자연어 처리 기술을 활용해서 단어들을 다 토큰화하고 어떤 신택스(Syntax) 구조가 사용됐는지, 원형이 무엇인지 이런 부분들을 자동으로 분석을 해냅니다. 추가적으로 문장에 포함되어 있는 문법이나 끊어 읽기 요소들은 저희가 사람이 직접 수동으로 태그를 다는 일들도 같이 병행하고 있습니다.
CMS에 정형 데이터가 저장된다면ㅣ13:50 이러한 형식으로 CMS에 정형 데이터가 저장되었을 때 할 수 있는 일은, 학습자가 해당 지문을 공부했을 경우에 어떤 단어를 읽어봤는지, 또 어떤 단어를 몰라서 눌러보게 되었는지 어떤 신택스 구조를 몇 번 읽어봤는지, 어떤 문법을 알고 어떤 문법을 모르는지를 정형화된 데이터로 애널리틱스가 판단할 수 있게 되고요. 또한 이 데이터를 기반으로 다양한 학습 액티비티들을 생성시킬 수 있는, 콘텐츠 생산 차원에서도 굉장히 긍정적인 요소를 만들 수 있습니다. 이러한 데이터들을 기반으로 학생들이 어떤 지식을 알고 어떤 지식을 모르는지에 대한 분석 역시도 AI의 도움을 통해서 진행할 수 있습니다. 이 CMS를 통해서 데이터를 정형적으로 저장하면 저장할수록 이 러닝 애널리틱스라는 부분에서 더 양질의 데이터, 실제로 학습에 굉장히 도움이 되는 데이터들을 생산해 낼 수 있고요. 이 러닝 애널리틱스가 있어야지만 콘텐츠 추천 모델을 만들 수 있습니다.
밀당 LMS의 차별성ㅣ15:05 LMS에 대해서도 저희는 좀 더 차별성을 가지고 있습니다. 국내에 있는 대부분의 에듀테크 회사들은 LMS에서 사람이 들어가는 모델이 아니었어요. 굉장히 많은 어댑티브 러닝 회사들이 어려움을 겪은 이유는 사람이 들어가 있지 않은 온라인 교육이었기 때문에 학생들이 학습을 지속할 수 없고, 학습을 지속하지 않는다고 했을 때 의미 있는 데이터를 많이 확보할 수 없다는 문제점을 가지고 있었기 때문인데요. 저희는 사람이 들어갈 수 있는 LMS를 구축함으로써 이 부분에 있어서 굉장히 양질의 데이터를 얻을 수 있는 기반을 만들었습니다.
교수자가 들어갈 수 있는 LMSㅣ15:46 결국 교수자가 들어갈 수 있는 LMS를 구축한 건데요. 그럼 결국 구글 클래스와 밀당의 차이는 뭐냐를 말씀드리면, 저희가 제공하고 있는 스터디 액티비티나 여러 가지 모듈들을 다 유튜브나 pdf로 제공한다고 했을 때 구글 클래스를 통해서도 서비스가 가능합니다. 하지만 이랬을 때, 저희는 한 명의 선생님이 하루에 한 50명 정도의 학생을 관리한다고 말씀드리고 있는데 이 서비스를 구글 클래스의 일반적인 LMS로 진행한다고 했을 때, 동일한 퀄리티로는 하루에 많아야 10명에서 12명 정도밖에 관리할 수 없습니다. 결국 이제 BM이 나오지 않는 문제들이 좀 생길 수 있다라고 말씀을 드릴 수 있고요. 학습 경로를 최적으로 알려주기 위해서는 아까도 말씀드린 콘텐츠 추천 모델을 잘 만들어야 되는데, 이러한 부분들은 밀당이 강점으로 가지고 있는 부분들입니다.
데이터 기반 콘텐츠 추천 및 제작ㅣ16:43 기존의 인강 회사나 오프라인 학원 같은 경우는 강사의 경험 기반으로 콘텐츠를 만들어 왔다면 저희 밀당은 굉장히 데이터 드리븐하게 콘텐츠를 만들고 있습니다. 데이터가 기존에는 경험이라는 단어로 포장돼서 강사의 머릿속에 쌓이고 있었다면, 저희 밀당은 DB에 데이터들이 쌓이고 있기 때문에 학습자의 상태 파악이 훨씬 더 구체적이고 객관적입니다. 학원 선생님들이 이런 말 많이 하실 수 있어요. “이 학생은 단어는 좀 많이 하는 것 같은데 문법은 너무 모르네” 그런데 ‘조금 많이 안다’는 건 뭐고 ‘너무 모른다’는 건 뭘까요. 굉장히 주관적이고 추상적인 단어인데요. 저희 밀당은 이 부분을 명확하게 파악합니다. ‘수능을 만점 맞기 위해서 알아야 할 단어는 약 2만 개인데 이 학생은 1만1271개의 단어를 알고 있네? 문법은 250개의 포인트가 있는데 왜 47개밖에 모르지?’ 이렇게 굉장히 구체적으로 학습자의 상태를 파악할 수 있고요. 당연히 좀 더 최적화된 학습 경로를 제공해 줄 수 있고, 콘텐츠를 생산하는 관점에서도 저희가 생산하는 콘텐츠들이 학습자들을 어떻게 변화시키고 있는지를 트래킹함으로써 콘텐츠 발전을 수치적으로 검증된 방향으로 진행할 수 있습니다.
지식벡터란ㅣ18:03 이 얘기를 좀 더 자세히 설명을 드리면, 저희는 이 개념을 ‘지식 벡터’라고 얘기하는데요. 지식 벡터의 정의는 학습을 나눌 수 있는 최소 단위라고 말씀드릴 수 있을 것 같습니다. 일단 영어만 놓고 말씀드리면 단어 하나도 지식 벡터일 수 있고요. 문법 역시도 지식 벡터인데, 예를 들어서 to 부정사라고 하면 너무 큰 개념이잖아요. 이걸 좀 더 줄이면 to 부정사의 명사적 용법, 여기서 더 줄이면 to부정사의 명사적 용법의 보어 자리. 거기서 더 줄이면 보어 자리를 어떻게 해석하는지, 보어 자리의 용법이 뭔지.. 이렇게 굉장히 구체적이고 세분화할 수 있을 때까지 세분화한 요소를 지식 벡터로 봤을 때 이를 통해 학습자의 현재 학습 상태를 파악할 수 있습니다.
지식 벡터를 활용한텐츠 제작 프로세스ㅣ18:36 여기에 여러 가지 AI 기술이 들어갈 수 있는 부분들이 있고요. 이걸 추론하는데 학습자의 현재의 상태를 파악할 수 있는 부분이 있고, 여기에 더해서 저희가 제공하는 콘텐츠 세트들이 어떤 지식 벡터들을 포함하고 있는지도 당연히 숫자적으로 표현할 수 있습니다. 그리고 이 두 개를 더했을 경우에는 기대될 수 있는 학생의 지식 벡터를 구할 수 있고, 여러 가지 방법론을 통해서 이 학습자의 현재 지식 벡터 값들을 추론해낼 수 있습니다. S 기대 벡터에서 S 실제 벡터를 뺀다는 얘기는, 결국 여기서 숫자 0이 남아 있다고 하면 이 부분을 콘텐츠를 통해서 가르쳤는데 이 학생이 이제 모르고 있는 상태기 때문에 이 부분에 대해서는 당연히 추가 콘텐츠를 제공해야 되는 부분이 당연히 생기고요. 콘텐츠를 생산하는 관점에서도, 예를 들어 100명의 학생 혹은 1천 명의 학생에게 이 콘텐츠를 줬는데 계속 절반 이상이 0이 남아 있다고 하면 해당 콘텐츠를 새롭게 만들어야 되는 그런 과제를 주면서 끊임없이 콘텐츠를 발전시키고 있다라고 말씀드릴 수 있습니다.