2007년 03월 11일
검색엔진과 통합검색 서비스 그리고 블로그 검색
정보검색(Information Retrieval)은 전산학의 일부라기 보다는 Full Text Retrieval이라는 응용분야에서 시작된 것 같습니다. 상품이 먼저 있었고, 나중에 그것에 대해서 연구하는 사람들이 생겨난 것이라고 봐야 할 것 같네요. 1995년엔가 인터넷 접속 서비스가 나오면서 검색엔진이라는 단어를 듣게 된것 같습니다. 그래서 한때에는 검색 업계에서는 검색엔진은 당연히 검색 솔루션이다라고 생각했었습니다.
검색엔진(Search Engine)은 우리가 만든 말이 아닙니다. 우리 친구들이 만든 말도 아니고, 나중에 듣게 되어 오해가 있었던 단어 같습니다. 요즘도 가끔 대화중에 혼동이 있는데, 검색엔진은 인터넷, 더 좁혀야될 터인데, WWW의 HTML 문서를 찾아주는 프로그램입니다. 그것도 해당 페이지로 가기 위해 사용하는 엔진입니다. 이 원칙의 대명사가 야후와 구글인 것 같습니다.
검색엔진에 대해서 우리가 받아 들인 (오해한) 것은 검색 솔루션이었습니다. 검색 솔루션에서 검색의 대상이 되는 한 무리의 문서집단을 보통 Collection이라고 하는데, 웹 검색은 단지 HTML 문서 Collection으로 인식되었었습니다. 이런 관점에서 뉴스도 하나의 Collection이고 이미지, 블로그, 도서, Q&A 모두가 단지 하나의 Collection입니다. 웹 검색을 HTML Collection으로 보았기 떄문에 우리의 머리에서는 도대체 internet topology의 개념이 없었습니다. 당연히 Page weight는 검색결과의 Sorting시에 사용하는 다른 공간으로 생각되었던 것 같습니다. 구글이 Page Weight를 가지고 나왔을 때에도, 예전 정보학에서 언급되었던 citation weight (논문 Colllection에서 reference에 많이 나온 논문이 중요한 논문이다)로 인식하여, 그다지 중요한 것으로 인정하지 않았던 것 같습니다.

우리가 가지고 있는 검색 솔루션 기술로는 HTML Collection에 "청와대"라고 입력해 검색을 했을때 "청와대 홈페이지"가 검색 결과의 1등으로 나오게 할 수 있는 방법이 없었습니다. 그러나 우리가 가지고 있었던 Goto Database 혹은 바로가기 Data base에는 "청와대"라는 단어에 "청와대 홈페이지 URL"이 저장되어 있었기 때문에 바로가기 서비스는 홈페이지 URL을 찾는 검색의 경우에 적합한 Collection이었습니다. 그러므로 검색엔진이 검색 서비스라는 관점에서 자연스럽게 통합검색이 나온 것 같습니다.
검색 엔진의 관점을 Skip해 버린 통합검색의 관점에서는 단지 사용자의 만족도를 높이기 위한 다양한 데이타베이스를 Collection으로 만들어 검색해주면 되니까, 우리의 검색 서비스는 컨텐츠 확보로 눈을 돌리게 된 것 같습니다. 아마도 검색 엔진이라는 개념에 집착하고 그것을 완전하게 하려고 시도하였더라면, 지금은 우리도 구글 검색엔진을 사용하고 있을 지도 모릅니다. 관점이 달라서 나타난 재미있는 현상이 아닐까 생각됩니다.
웹에 모든 것이 있다고 생각하는 관점이 있지만, 로봇이 수집하는 Web문서 Collection에 모든 것이 있다고는 할 수 없을 것 같습니다. 있어도 HTML의 형태로 있기 때문에 컴퓨터가 이해하기는 어렵습니다. 그러므로 사실 모든 Collection을 모아 놓은 것과 Web Collection은 동일하지 않습니다. 구글이 계속 Web Collection만을 고집한다면, 아마도 멀지 않은 시기에 각 국가별 Local 검색서비스에 1등 자리를 넘겨주어야 할 것입니다. 다음, 네이트, 파란 등의 통합 검색 서비스에 구글, 야후의 웹 검색서비스가 제공되고 있지만, 그것을 알아채는 사용자는 그다지 많지 않습니다.
우리의 상황을 보면 "검색엔진의 Next version은 통합검색이었다"라고 감히 이야기할 수 있을 것 같습니다. 일본 친구들은 통합검색과 같은 복잡한 화면은 사용자의 거부감을 일으킨다고 하지만, 그것은 컨텐츠의 입수가 쉽지 않은 상황에서의 변명이 아닌가도 싶습니다. 우리나라는 백과사전, 뉴스, 도서 등 거의 모든 디지탈화된 컨텐가 검색 컨텐츠로 사용되는데, 이것은 컨텐츠 제공업체가 무료 혹은 낮은 비용으로 제공을 하고 있기 때문입니다. 이러한 이유로 우리의 통합검색 모델이 해외에서도 먹힐 것인가에 대해서 비판의 이야기가 있는 것은 같습니다. 그러나 해외에서도 저렴한 가격에 컨텐츠를 공급받을 수 있다면, 안할 이유가 전혀 없는 것이 통합검색인 것 같습니다. 또, 기술적인 관점에서 통합검색은 그다지 난이도가 높지 않다는... 문제가 있겠습니다.
야후 코리아나 파란, 네이트, 엠파스의 검색을 보면 네이버나 다음과 그다지 다르지 않고, 오히려 UI 적으로나 개념적으로 앞서간 좋은 시도도 있는데, 시장점유율은 왜 떨어지는 것일까.... 불행하게도 네이버의 지식in, 블로그 만한 검색용 Collection이 야후, 파란에는 없는 것이 이유가 아닌가 싶습니다. 다음 검색이 그나마 명맥을 유지하는 것은 카페글 Collection을 가지고 있는 이유이겠지요. 통합검색 서비스에 있어서 검색 Collection의 확보는 생과 사를 나누어주는 것 같습니다.

요즘에는 블로그 검색 서비스에 대해서 고민을 계속하고 있습니다. 블로그에서 무엇을 찾고 싶은 것일까...
우선은 컨텐츠를 찾는다고 해야 할 것 같습니다. 무슨 컨텐츠를 찾는 것일까... 블로그에는 Web보다 훨씬 Soft한 사람의 생각들이 모여있는 Collection입니다. 누군가는 블로그 검색에서 사용자의 attention이 가장 중요한 요소라고 합니다. Page Weight가 URL을 찾는데에 중요한 역할을 한 것 처럼, attention은 사람들의 주목을 많이 받는 POST의 Ranking에 사용될 수 있겠습니다. 이것은 사람들이 블로그 검색에 있어서 다른 사람들을 의식하면서 무엇인지 확인될 수 없지만 남들이 많이 관심을 가진 컨텐츠를 보려고 한다는 것과 비슷합니다. 하루의 Hot Page가 아니고 키워드 마다의 Hot POST를 보려고 한다는 것 같습니다. ^^;; 뭐 그렇다면 블로그 검색의 attention 요소를 장악하여야 제대로 된 서비스를 할 수 있을 것 같습니다. 단지 블로그 컨텐츠가 중요한 것이라면, 블로그 수집 로봇만 잘짜면 된다는 것은 약간 부족하고, 그것과 더불어 블로그 서비스 사업자와의 제휴를 통해서 컨텐츠와 사용자 behavior를 입수하는 방안이 있어야 하는 것 같습니다. 그것이 완전하지는 않아도 상대적인 우위를 가지고 있어야 하는 것 같습니다.
혹시, 예전에 엿먹였던 아이디어인 "평가 검색"이 아닐까도 생각됩니다. (미안하다 준호야) 아이디어가 나빠서라기 보다는 평가를 수집하는 방법에서의 장벽이 너무 높아보여서 였습니다. 당시에 엠파스 Ranking이라는 서비스가 있었는데, 제대로만 동작된다면, 이것으로 엠파스 Ranking이 네이버의 지식in 장벽을 넘을 수 있어 보였었습니다. 그러나 결과론으로, 엠파스 Ranking에서 보여준 "디리대는" 서비스는 Collection 구축과정에서 사용자의 반감을 가지게 만드는 것 아닌가 싶습니다. 좀 더 부드러운 방법으로 평가를 뽑아내야 하는 것 아닐까 생각됩니다.
제가 요즘 하고 있는 일 중에 하나가 "평가 패턴" 수집입니다. 문서를 컴퓨터 프로그램이 읽어서 어떤 "대상"이나, 그 대상에 대한 "평가적인 표현"이 나오면 이것의 숫자를 세는 것이지요. "코카콜라"에 대한 사람들의 생각은, "복면달호"에 대한 사람들의 생각은, "발견엔진"이라는 단어는 몇개의 POST에서 나타나지? "커피빈"에 대한 좋은 이야기가 많은지 "스타벅스"를 좋아하는 사람이 많은지... 다른 사람들의 생각을 훔쳐보는 재미, 다른 사람들의 경험에서 얻어내는 지식, 다른 사람들의 관심을 어느정도 가지고 있는지, 이렇게 했던 사람이 많은지, 저렇게 했던 사람이 많은지....
역시, 블로그 Collection은 문서로서의 Collection이라기 보다는 생각이 모여있는 Collection이라고 보는 것이 어떤가 싶습니다. 그러나 이러한 ["생각"들을 "POST"에서 뽑아내는 것]은 정말로 어려운 일인 것 같습니다. 해야할 것도 많고, 해도 그것의 성능이 감당이 될까 싶기 때문입니다. 더욱 심각한 문제는 엔지니어가 거의 없다는 것입니다. 프로그래밍 엔지니어와 더불어 knowledge 엔지니어가 해주어야 하는 작업이 많은데, 인력 구성에 도대체 아이디어가 나오질 않습니다....될 것은 같은데, 너무 어려운 것, . . . . 이렇게 보면 블로그 Collection은 판도라의 상자에서 나오지 못하고 뚜껑이 닫혀진 "희망"이 아닐런지.....


검색엔진(Search Engine)은 우리가 만든 말이 아닙니다. 우리 친구들이 만든 말도 아니고, 나중에 듣게 되어 오해가 있었던 단어 같습니다. 요즘도 가끔 대화중에 혼동이 있는데, 검색엔진은 인터넷, 더 좁혀야될 터인데, WWW의 HTML 문서를 찾아주는 프로그램입니다. 그것도 해당 페이지로 가기 위해 사용하는 엔진입니다. 이 원칙의 대명사가 야후와 구글인 것 같습니다.
검색엔진에 대해서 우리가 받아 들인 (오해한) 것은 검색 솔루션이었습니다. 검색 솔루션에서 검색의 대상이 되는 한 무리의 문서집단을 보통 Collection이라고 하는데, 웹 검색은 단지 HTML 문서 Collection으로 인식되었었습니다. 이런 관점에서 뉴스도 하나의 Collection이고 이미지, 블로그, 도서, Q&A 모두가 단지 하나의 Collection입니다. 웹 검색을 HTML Collection으로 보았기 떄문에 우리의 머리에서는 도대체 internet topology의 개념이 없었습니다. 당연히 Page weight는 검색결과의 Sorting시에 사용하는 다른 공간으로 생각되었던 것 같습니다. 구글이 Page Weight를 가지고 나왔을 때에도, 예전 정보학에서 언급되었던 citation weight (논문 Colllection에서 reference에 많이 나온 논문이 중요한 논문이다)로 인식하여, 그다지 중요한 것으로 인정하지 않았던 것 같습니다.

우리가 가지고 있는 검색 솔루션 기술로는 HTML Collection에 "청와대"라고 입력해 검색을 했을때 "청와대 홈페이지"가 검색 결과의 1등으로 나오게 할 수 있는 방법이 없었습니다. 그러나 우리가 가지고 있었던 Goto Database 혹은 바로가기 Data base에는 "청와대"라는 단어에 "청와대 홈페이지 URL"이 저장되어 있었기 때문에 바로가기 서비스는 홈페이지 URL을 찾는 검색의 경우에 적합한 Collection이었습니다. 그러므로 검색엔진이 검색 서비스라는 관점에서 자연스럽게 통합검색이 나온 것 같습니다.
검색 엔진의 관점을 Skip해 버린 통합검색의 관점에서는 단지 사용자의 만족도를 높이기 위한 다양한 데이타베이스를 Collection으로 만들어 검색해주면 되니까, 우리의 검색 서비스는 컨텐츠 확보로 눈을 돌리게 된 것 같습니다. 아마도 검색 엔진이라는 개념에 집착하고 그것을 완전하게 하려고 시도하였더라면, 지금은 우리도 구글 검색엔진을 사용하고 있을 지도 모릅니다. 관점이 달라서 나타난 재미있는 현상이 아닐까 생각됩니다.
웹에 모든 것이 있다고 생각하는 관점이 있지만, 로봇이 수집하는 Web문서 Collection에 모든 것이 있다고는 할 수 없을 것 같습니다. 있어도 HTML의 형태로 있기 때문에 컴퓨터가 이해하기는 어렵습니다. 그러므로 사실 모든 Collection을 모아 놓은 것과 Web Collection은 동일하지 않습니다. 구글이 계속 Web Collection만을 고집한다면, 아마도 멀지 않은 시기에 각 국가별 Local 검색서비스에 1등 자리를 넘겨주어야 할 것입니다. 다음, 네이트, 파란 등의 통합 검색 서비스에 구글, 야후의 웹 검색서비스가 제공되고 있지만, 그것을 알아채는 사용자는 그다지 많지 않습니다.
우리의 상황을 보면 "검색엔진의 Next version은 통합검색이었다"라고 감히 이야기할 수 있을 것 같습니다. 일본 친구들은 통합검색과 같은 복잡한 화면은 사용자의 거부감을 일으킨다고 하지만, 그것은 컨텐츠의 입수가 쉽지 않은 상황에서의 변명이 아닌가도 싶습니다. 우리나라는 백과사전, 뉴스, 도서 등 거의 모든 디지탈화된 컨텐가 검색 컨텐츠로 사용되는데, 이것은 컨텐츠 제공업체가 무료 혹은 낮은 비용으로 제공을 하고 있기 때문입니다. 이러한 이유로 우리의 통합검색 모델이 해외에서도 먹힐 것인가에 대해서 비판의 이야기가 있는 것은 같습니다. 그러나 해외에서도 저렴한 가격에 컨텐츠를 공급받을 수 있다면, 안할 이유가 전혀 없는 것이 통합검색인 것 같습니다. 또, 기술적인 관점에서 통합검색은 그다지 난이도가 높지 않다는... 문제가 있겠습니다.
야후 코리아나 파란, 네이트, 엠파스의 검색을 보면 네이버나 다음과 그다지 다르지 않고, 오히려 UI 적으로나 개념적으로 앞서간 좋은 시도도 있는데, 시장점유율은 왜 떨어지는 것일까.... 불행하게도 네이버의 지식in, 블로그 만한 검색용 Collection이 야후, 파란에는 없는 것이 이유가 아닌가 싶습니다. 다음 검색이 그나마 명맥을 유지하는 것은 카페글 Collection을 가지고 있는 이유이겠지요. 통합검색 서비스에 있어서 검색 Collection의 확보는 생과 사를 나누어주는 것 같습니다.

요즘에는 블로그 검색 서비스에 대해서 고민을 계속하고 있습니다. 블로그에서 무엇을 찾고 싶은 것일까...
우선은 컨텐츠를 찾는다고 해야 할 것 같습니다. 무슨 컨텐츠를 찾는 것일까... 블로그에는 Web보다 훨씬 Soft한 사람의 생각들이 모여있는 Collection입니다. 누군가는 블로그 검색에서 사용자의 attention이 가장 중요한 요소라고 합니다. Page Weight가 URL을 찾는데에 중요한 역할을 한 것 처럼, attention은 사람들의 주목을 많이 받는 POST의 Ranking에 사용될 수 있겠습니다. 이것은 사람들이 블로그 검색에 있어서 다른 사람들을 의식하면서 무엇인지 확인될 수 없지만 남들이 많이 관심을 가진 컨텐츠를 보려고 한다는 것과 비슷합니다. 하루의 Hot Page가 아니고 키워드 마다의 Hot POST를 보려고 한다는 것 같습니다. ^^;; 뭐 그렇다면 블로그 검색의 attention 요소를 장악하여야 제대로 된 서비스를 할 수 있을 것 같습니다. 단지 블로그 컨텐츠가 중요한 것이라면, 블로그 수집 로봇만 잘짜면 된다는 것은 약간 부족하고, 그것과 더불어 블로그 서비스 사업자와의 제휴를 통해서 컨텐츠와 사용자 behavior를 입수하는 방안이 있어야 하는 것 같습니다. 그것이 완전하지는 않아도 상대적인 우위를 가지고 있어야 하는 것 같습니다.
혹시, 예전에 엿먹였던 아이디어인 "평가 검색"이 아닐까도 생각됩니다. (미안하다 준호야) 아이디어가 나빠서라기 보다는 평가를 수집하는 방법에서의 장벽이 너무 높아보여서 였습니다. 당시에 엠파스 Ranking이라는 서비스가 있었는데, 제대로만 동작된다면, 이것으로 엠파스 Ranking이 네이버의 지식in 장벽을 넘을 수 있어 보였었습니다. 그러나 결과론으로, 엠파스 Ranking에서 보여준 "디리대는" 서비스는 Collection 구축과정에서 사용자의 반감을 가지게 만드는 것 아닌가 싶습니다. 좀 더 부드러운 방법으로 평가를 뽑아내야 하는 것 아닐까 생각됩니다.
제가 요즘 하고 있는 일 중에 하나가 "평가 패턴" 수집입니다. 문서를 컴퓨터 프로그램이 읽어서 어떤 "대상"이나, 그 대상에 대한 "평가적인 표현"이 나오면 이것의 숫자를 세는 것이지요. "코카콜라"에 대한 사람들의 생각은, "복면달호"에 대한 사람들의 생각은, "발견엔진"이라는 단어는 몇개의 POST에서 나타나지? "커피빈"에 대한 좋은 이야기가 많은지 "스타벅스"를 좋아하는 사람이 많은지... 다른 사람들의 생각을 훔쳐보는 재미, 다른 사람들의 경험에서 얻어내는 지식, 다른 사람들의 관심을 어느정도 가지고 있는지, 이렇게 했던 사람이 많은지, 저렇게 했던 사람이 많은지....
역시, 블로그 Collection은 문서로서의 Collection이라기 보다는 생각이 모여있는 Collection이라고 보는 것이 어떤가 싶습니다. 그러나 이러한 ["생각"들을 "POST"에서 뽑아내는 것]은 정말로 어려운 일인 것 같습니다. 해야할 것도 많고, 해도 그것의 성능이 감당이 될까 싶기 때문입니다. 더욱 심각한 문제는 엔지니어가 거의 없다는 것입니다. 프로그래밍 엔지니어와 더불어 knowledge 엔지니어가 해주어야 하는 작업이 많은데, 인력 구성에 도대체 아이디어가 나오질 않습니다....될 것은 같은데, 너무 어려운 것, . . . . 이렇게 보면 블로그 Collection은 판도라의 상자에서 나오지 못하고 뚜껑이 닫혀진 "희망"이 아닐런지.....


# by | 2007/03/11 17:06 | 검색엔진 | 트랙백(1) | 덧글(4)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
제목 : 검색 엔진에서의 집단 태깅 기술의 가능성 &..
온톨로지와 같은 중앙집중적이고 하향(top-down)적인 방식의 복잡한 태깅보다는 플리커(Flickr)나 del.icio.us에서 쓰이는 폭소노미(folksonomy)적인 집단 태깅이 훨씬 더 쓰임새가 있다는 주장을 웹 2.0 진영에서는 꾸준히 하고 있다. 온톨로지에 대한 가장 널리 알려진 정의를 내린 톰 그루버(Tom Gruber)도 RealTravel이란 웹 2.0 회사를 만들고 집단 태깅에 대한 연구를 하고 있으니 말이다. 구글과 같은 페......more
하니가모님께서 말씀하시는 '평판 검색' 스러운 요소를 서비스에 추가했습니다. 참고하시길~ ^^
국내 블로그 데이터의 경우, 이런 평판 기능 + 생활형 노하우(요리법, DIY 등이 대세) + 스크랩이 mix된 것 같습니다.