자연어처리는 사업아이템이 될 수 있을까?


우리나라에 자연어처리를 전문으로 하는 회사들이 여럿 있어왔었습니다. 1990년대 중반에 나름데로 활황이었는데, 그 당시에는 기계번역 소프트웨어가 주축이 되어서 투자도 활발하게 받았었고, 제품도 출시되었었습니다. 그러나 기계번역 품질 - 특히나 사용자 니즈가 높은 영한기계번역, 한영기계번역 소프트웨어 -이 기대한 것보다 상당히 낮아서 2000년 초반기에는 거의다 사라져버렸습니다. 2000년이 넘어가면서 자연어처리는 검색엔진의 색인어 추출, e-CRM (고객 응대) 등의 주요 부품으로써 위치하게 되지만, 독립적인 회사의 위상이라기 보다는 커다란 시스템의 일부를 담당하는 담당팀 수준의 굴레를 벗어나지 못하고 있습니다. 2010년이 되어도 그런 위상으로 밖에는 존재할 수 없는 것인지 하는 문제에 대해서 생각을 해보기로 했습니다.

자연어처리를 전문으로 하는 회사가 성립될 수 있을지에 대한 문제는 회사가 운영되고 이익을 창출할 수 있을 정도의 수익원을 확보할 수 있는지에 대한 것으로 치환하여 볼 수 있겠습니다. 자연어처리 분야는 그 차제로 응용소프트웨어를 만들기는 어렵다고 생각이 듭니다. 단지 중요한 부품으로서의 역할에 그치고 있습니다. 그러한 맥락에서도, 검색 엔진의 색인 혹은 문서 가공이라던가, 대용량의 문서에서 중요한 정보를 추출하는 등의 기능, 혹은 언어처리 라이브러리를 라이센싱하는 기능을 어느 한 회사에 소속되지 않고 여러 회사에 공급하는 것이 가능하다면 하나의 Resource로 여러 곳의 needs를 충족시켜서 투입된 Resource의 운영비용보다 더 많은 수익을 얻어서 이익을 창출할 수 있겠습니다. 앞으로도 인터넷은 UCC라는 종류의 Text 정보들이 빠른 속도로 늘어날 것이고, 누군가는 그렇게 모이는 Text에 무엇인가 가공하는 일을 원하게 될 가망성이 높습니다. 그러므로 사업 아이템으로서의 가능성은 지속적으로 높아지고 있지 않나 싶습니다.

반면에, 현재의 파라다임은 "양이 질을 담보한다" 즉, 양이 너무 많으면 대충 처리해도 품질은 어느 정도 나올 수 있다는 수준에 있습니다. 다른 하나의 현상은 독점적 사업자가 존재한다는 것도 있습니다. 즉, "네이버"가 검색 시장을 70%정도 점유하고 있기 때문에 네이버의 언어처리팀이 전체 자언어 처리 산업의 대부분의 니즈를 충족시키고 있는 것으로 볼 수도 있겠습니다. 독점적 사업자가 없고 다수의 사업자가 경쟁을 하는 체제라면 다수의 기업에 서비스를 제공하는 전문기업이라는 입지가 생성될 수도 있을텐데 하는 아쉬움도 있습니다.

지난 4년 정도를 자연어처리 전문 회사라는 position으로 회사를 운영해 보았습니다. 크게 시작하지 못하고 아주 작은 규모로 회사를 운영하고 있습니다. 사실 과거에 조금이라도 크게 - 10명 규모 수준이라도 - 사업을 했던 회사들은 지금 찾아 볼 수가 없습니다. 그나마 4년 정도를 견딘것도 크기를 키우지 않아서 가능하지 않았는가 하는 생각도 듭니다. 왜 작은 회사로 시작했더라도 그 과정에서 회사의 크기를 키우지 못했는가 하는 자책감도 들지만, 크기를 키운 상태로 올해와 같은 최악의 상황을 맞이했다면 지금의 상황이 어떠했을까 싶습니다.

지난 4년동안 다양한 자연어처리 응용에 대한 니즈를 접했었고, 기대에 부합해보려고 애를 써보았는데, 고객을 만족시키는 품질을 제공하였는가 생각해보면, 아찔합니다. 그렇다고 최고의 품질을 제공하기 위해 많은 비용을 요청하였더라면 고객에게 쉽게 외면당했을 것입니다.

자연어 처리 분야는 소프트웨어 프로그램과 더불어 언어지식의 중요성이 매우 강조되는 분야입니다. 언어지식을 최근에는 통계적인 기법 등을 통해서 비교적 쉽게 획득할 수는 있지만, 사람이 결과를 필터링해주지 않으면 이물질이 너무 많은 결과물이라서 제대로 사용할 수가 없습니다. 그래서 프로그래밍 부분과 언어지식 부분의 인력이 조화롭게 운영되어야만 하는 것입니다.

자연어처리 사업의 현상태는 형태소 분석기를 응용하거나 잘 하면 청킹, 부분파싱 정도의 기술을 보유한 상태에서 고객의 유사문서 검색이라던가, 온라인 리퓨테이션 파악이라던가, 수능 시험 답안지 채점이라던가, UCC의 핵심단어 추출이라던가 등의 솔루션 기반 용역 수준입니다. 솔루션 기반의 용역 사업인데 수요처가 매우 한정되어 있는 것이지요. 이러한 분야의 채산성은 매우 낮아서 매번 새로운 프로그램을 작성하는 일의 반복이 됩니다. 프로그램은 한번 작성되어서 여러번 팔려야 이익이 남는 것인데, 상황마다 다르게 프로그램을 작성하여야 하니까 채산성이 떨어집니다. 난이도는 높은데 재활용이 잘 안되는 지경이지요. 검색엔진 사업에 새롭게 도전하는 경우도 적어져서 재활용성이 높은 검색엔진용 색인어 추출기의 수요도 거의 없어진 것 같습니다.

그래도 희망은 있지 않나 생각합니다. 앞으로 자연어처리 사업의 킬러 서비스가 기업/인력/소문/트랜드 등의 정보 제공업이 아닐까 싶습니다. 인터넷이 미디어화되면서, 사람의 언어적 대화 방법이 구두 대화 보다는 Text 대화로 변경되고 있습니다. Text로 저장된 사람의 대화에서 여러가지를 추출하거나 정리하거나 하는 작업은 자연어처리 분야가 전공인 셈이지요. 유사한 아이디어로 이미 몇년전부터 이러한 서비스를 제공하겠다고 나선 회사들이 있었는데, 아직도 좋은 소식은 들리고 있지 않습니다. 아직은 열리지 않은 것 같습니다. 그래도 니즈가 있을 수 있는 분야이니까 희망을 걸어 봅니다. 

"니즈가 있을 수 있는 분야"라는 생각은 사업하는 사람이 절대로 해서는 안되는 것인데, 어쩔 수 없이 기대해볼 수 밖에 없는 것 같습니다. 여전히 당분간은 생존을 위한 기술기반의 용역 사업에 기댈 수 밖에 없는것 아닌가 하는 생각이 듭니다. 미래에 대해서 준비는 하여야 하지만, 판을 벌리는 것은 조심스럽습니다.


누가 21세기를 정보의 시대라고 했는지, 아직도 데이타의 시대에 머물러 있는 것 같은데.... 그 정보가 이 정보가 아니고 그냥 정보였나 봅니다. 앞으로는 이 정보이기를....


어제 우연히 TV 프로그램에서 "땅에서 넘어진 자, 땅을 짚고 일어나라."라는 말을 들었습니다. 씁쓸했는데, 그것이야말로 유일한 해결책이겠구나 하는 생각이 들었습니다.


人因地而倒者 因地而起 離地求起 無有是處也 迷一心而起無邊煩惱者 衆生也 悟一心而起無邊妙用者 諸佛也 迷悟雖殊 而要由一心 則離心求佛者 亦無有是處也(勸修定慧結社文) - 普照國師

 

땅에서 넘어진 자, 그 땅을 짚고 일어서라

땅을 떠나 일어서려 한다면 있을 수 없는 일이다.

 

자기 마음이 미혹하여 번뇌를 일으킨 자가 바로 중생이요

그 마음을 깨달아 무한한 신통묘용을 발휘한 이는 곧 부처이다

 

미혹함과 깨달음은 비록 다르지만

이는 모두 일심에서 나왔으므로

마음을 떠나 엉뚱한 곳에서 부처를 구하는 자는

역시 땅을 떠나 일어서려는 자와 같다




by 하니가모 | 2009/07/11 14:36 | NLP | 트랙백(4) | 덧글(6)

◀ 이전 페이지          다음 페이지 ▶