Column2006/12/27 21:10
사용자들이 직접 제작하는 Wiki 기반 백과사전이자 집단 지성collective intelligence의 가장 성공적인 예시 가운데 하나인 Wikipedia의 설립자 Jimmy Wales는 새로운 search engine을 2007년 1분기 이내에 런칭하겠다는 계획을 수립하였습니다. Amazon.com이 아닌 근본적으로 새로운 자본의 투자를 받아 제작 중이며 Nutch와 Lucene에 기반하여 오픈 소스 정책을 취할 것will be open sourced으로 알려진 이 검색 엔진은 집단 지성의 힘을 빌려 단순 algorithm 계산이 제공하지 못할 검색 결과 제시를 목표로 합니다.

Wikia의 메인 페이지는 리셋된 상태로 현재 수집 가능한 팩트는 윗 단락과 the Times의 기사에 실린 인터뷰 직접 인용이 전부입니다.

Jimmy Wales, Founder of Wikipedia and Wikia: "Google is very good at many types of search, but in many instances it produces nothing but spam and useless crap. Try searching for the term 'Tampa hotels', for example, and you will not get any useful results. Spammers and commercial ventures are also learning how to manipulate Google's computer-based search. But we have a really great method for doing that ourselves. We just look at the page. It usually only takes a second to figure out if the page is good, so the key here is building a community of trust that can do that.

The revenue model of search is advertising. Transparency in search, therefore, is like transparency in news. If the quality is there people will come. Catching up with Google, Yahoo!, Microsoft's MSN or even smaller operators such as Ask.com will be a difficult challenge."

무엇보다도 가장 의아한 사실은 마치 Google, Yahoo!, Live.com의 검색 엔진이 사용자 이용 습성을 분석하여 얻어진 데이터를 전혀 반영하지 않는 것처럼 발언한 부분입니다. 많은 검색 엔진 최적화SEO; Search Engine Optimization 전문가들이 지적하다시피 구글의 검색 결과 순서는 단순히 PageRank 값과 backlink의 수로만 결정되지 않습니다. 검색 결과 순서는 도메인 네임, 제목, 폰트 크기, 컬러 등 페이지가 그 자체로서 같은 여러 요소들과 페이지들의 관계에서 얻어지는 페이지랭크, 여기에 페이지를 읽는 사용자들의 Personalized Page, 머무는 시간, 접속 종료점 등 다양한 사용자 이용 패턴을 복합적으로 반영하여 산출됩니다.

불특정 다수의 집단 지성을 원활하게 활용하기 위한 과정들 가운데 가장 중요한 두 가지는 사용자 패턴 데이터를 얻어내는 방법론과 대수의 법칙Law of Great Numbers이 적용될 수준의 데이터를 제공할 사용자 층 확보입니다. 페이지랭크의 집단 지성 사용이 예술의 경지state-of-the-art로 칭송되는 근거는 자발적이고 능동적 활동인 창작 과정에서 발생하는 데이터를 무의식적으로 차용하고, 검색 엔진의 사용 빈도와 관계 없이 수십억 페이지에 이르는 막대한 덩어리mash를 해체, 재분석하는데 있습니다.

굉장히 가능성 낮은 추론이지만 만약 Wikia의 검색 엔진이 페이지랭크와 유사한 독자적 랭크 시스템에 구글, 야후, 라이브닷컴 등과 비슷한 방법으로 사용자 이용 패턴을 반영하고, 다만 반영 비중을 조금 높인 수준에 불과하다면 Wales는 위키피디어와 달리 참담한 실패를 경험할 것입니다. 반영하는 패턴의 독창성이나 패턴 데이터를 정제하는 알고리즘이 아무리 뛰어나더라도 수집된 패턴의 수가 최소필요수치를 충족시켜야 하는데 이는 start-up 검색 엔진에게 굉장히 버거운 일입니다. 또한 패턴 데이터는 다다익선이므로 이런 시나리오에서는 일정 이상의 사용자가 보장되지 않은 스타트업 검색 엔진이 기존의 검색 엔진들보다 더 나은 사용자 패턴 반영 결과를 제시하는 것은 대단히 어렵습니다.

그렇다면 Wales는 기존 검색 엔진들과 달리 사용자들의 적극적 참여를 유도하는 방향으로 설계할 가능성이 높습니다. 사용자들의 적극적 참여가 필수인 digg.com과 del.icio.us의 성공은 Wales의 결정에 직, 간접적으로 영향을 미쳤으리라 생각합니다. 관건은 적극적 참여를 유도하는 방법론입니다. Wales의 발언에서 "We just look at the page. It usually only takes a second to figure out if the page is good, so the key here is building a community of trust that can do that."에서 구상의 일부가 엿보입니다. 그는 Wikipedians와 같은 자발적 사용자 커뮤니티가 조성되어 웹페이지의 가치를 평가해주길 기대합니다. 선별된 혹은 자발적 봉사자들은 독립된 어플리케이션 또는 브라우저에 설치된 툴 바에서 thumbs up, thumbs down을 표시합니다. 위키아의 검색 엔진은 누적된 평가 데이터를 기반으로 검색 결과를 정렬할 것입니다. 모든 웹페이지의 호오를 매기는 거대한 digg.com이 떠오릅니다.

하지만 이런 방식의 정렬이 효용성을 가질지는 의문입니다. 위키피디어를 최소 10회 이상 편집한 위키피디언인 contributor의 수는 2006년 9월, 전 세계 기준으로 282,874 명이고, digg.com의 회원 가운데 최소 10회 이상 digg한 사용자의 수는 오늘 기준으로 171,385 명입니다. 2004년 10월에 개설되어 약 2년간 선풍적인 인기를 끈 digg.com의 상위 1%인 400 번째, 상위 10%인 40,000 번째, 상위 20%인 80,000 번째, 상위 50%인 200,000번째인 회원의 dugg 횟수는 겨우 7590, 201, 65, 6입니다. 최대한 낙관적인 시선을 견지하여 2년 후 위키아 검색 엔진 커뮤니티의 회원 수가 282,874 명이고, 이들의 평균 평가 횟수가 200이라고 가정하면 그들은 56,574,800 번의 vote를 행사합니다. 일견 매우 커 보이는 수치이지만 검색 엔진은 억 단위의 데이터베이스를 인덱싱하고, 집단 지성이 유의미하려면 한 페이지가 여러 멤버들에게 여러 번 평가 받아야 한다는 사실을 감안하면 얼마나 효율이 있을지는 미지수입니다. 또한 이 방식은 SEO에 굉장히 취약하며 특정 집단에 의한 출력 순서 조작이 가능하다는 문제점이 있습니다.

그러나 위키아의 배후에는 위키피디어가 있습니다. 위키피디어의 일부를 차용하여 제공하는 통합 검색은 지식을 손쉽게 찾기 위한 최적의 길을 제시할 가능성이 있습니다. 위키피디어는 웹 상의 정보를 가장 깔끔한 형태로 재가공한 컨텐트 덩어리이고 많은 사용자들은 인터넷 검색을 통하여 찾아낼 수 있는 지식의 상당 부분을 위키피디어 내부에서 찾을 수 있습니다. 게다가 위키피디어는 기성 백과사전들과 달리 신조어와 새로운 경향을 신속히 반영합니다. 위키아는 검색 결과 페이지의 최상단에 위키피디어 컨텐트의 상당량을 직접 노출하므로써 네이버의 '컨텐트 검색', 다음의 '스페셜 검색'과 같은 컨텐트 중심 통합검색 제공이 가능합니다. 이는 구글, 야후, 라이브닷컴의 검색 엔진과 차별화 된 요소로 위키아의 컨텐트 가공 능력에 따라 큰 힘이 될 요소입니다.

기존 검색 엔진들과의 경쟁은 위키아에게 너무 커다란 짐입니다. 상업적 성공과 별개로 위키아는 어떤 방식으로든 야후와 링크될 공산이 큽니다. 야후는 검색 엔진의 미래를 Flickr, del.icio.us, Answers 등 소셜 서비스를 사용하는 거대한 유저 커뮤니티 조성과 집단 지성의 활용에 걸었고 이 방향은 위키아의 노선과 크게 다르지 않습니다. 위키아 검색 엔진의 인프라스트럭쳐인 넛치가 받는 야후의 후원은 이러한 예상에 힘을 실어줍니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by Rationale

TRACKBACK http://www.veracious.info/trackback/255 관련글 쓰기

댓글을 달아 주세요

  1. 글을 마무리하여 재게시하였습니다. 작성 중 조작 실수로 공개된 미완성본에 대하여 진심으로 사과드립니다.

    2006/12/27 21:16 [ ADDR : EDIT/ DEL : REPLY ]
  2. 반딧불 축제는 두시간 반 걸려서 가서 그것만 보기에는 좀 작고 덥고 볼것도 많지는 않은 듯 했지만 - 더워서 자세히 보지도 못했지만. - 점심먹은 적상면에 순두부마을 음식들이 너무 맛있어서 계곡 구경도 하고 찜질방도 가고 - 나는 안즐기는지라 안가지만 - 곤돌라 타고 경치구경도 한번 해도

    2012/02/01 04:35 [ ADDR : EDIT/ DEL : REPLY ]