조성문의 실리콘밸리 이야기

웹, 모바일, 실리콘 밸리, 창업, 트렌드

Archive for the ‘기업 분석’ Category

핀란드 게임 회사 수퍼셀(Supercell)의 준비된 성공

with 18 comments

핀란드 게임 회사 Supercell

하루 25억원을 버는 직원 100명의 핀란드 게임 회사 Supercell

수퍼셀(Supercell)이라는 핀란드 게임 회사가 지난 4월 18일에 인덱스 벤처 등으로부터 $130MM (약 1400억원)의 투자를 받았다. 밸류에이션이 무려 $770MM (8000억원)에 달하는데, 투자 결정을 내린 인덱스 벤처의 닐 라이머(Neil Rimer)는 수퍼셀이 곧 수조원의 가치를 지닌 회사가 될 것으로 믿고 있다. 놀라운 건 이 회사가 출시한 게임이 딱 두 개 뿐이라는 것이다. 종족의 충돌(Clash of Clans)헤이 데이(Hay Day). 전체 직원이 100명에 불과한 이 회사는 지난 쿼터에만 매출 $179MM (1900억원)을 냈으며, 애플에 30%를 떼어주고 난 후의 순이익이 $100MM (1000억원)에 달한다. 직원 숫자를 유지한 채로 연 매출 6000억원을 달성한다고 가정하면 직원 일인당 연 60억원을 버는 셈이다. 이 정도로 일인당 매출이 높은 회사가 전 세계에 과연 몇이나 될까 싶다. 한 애널리스트가 계산한 바에 따르면 1인당 매출이 가장 높은 인터넷 회사는 페이스북으로 평균 연 10억원 정도 된다고 하니, 페이스북의 무려 6배에 달하는 셈이다. 한편, 현재 매출은 하루에 $2.4MM(26억원)이라고 한다. 즉, 직원 일인당 하루 2600만원의 매출이다. 얼마 전에 포브스 지에는 ‘역사상 가장 빨리 성장하는 게임 회사’라는 제목으로 소개되기도 했다.

Clash of Clans와 Hay Day 모두 내가 중독될 만큼 즐겼던 게임이다. 사실 나에게 이런 경우는 이례적이다. 지난번 ‘게임 중독에 빠졌던 내 어린 시절‘에서 썼듯, 게임 만드는 일을 직업으로 하게 되면서 게임을 어떻게 만드는지 훤히 알게 되고 나니 게임이 만든 세계에 빠질 수가 없게 됐고, 어떤 게임이든 좀 해보고 나면 시시해져 곧 흥미를 잃곤 했다. 아이폰과 아이패드에서 다양한 게임을 받아서 해봤는데 대부분 너무 단순하거나 이전에 해봤던 게임과 너무 비슷해서 더 이상 게임을 즐길 수는 없겠거니 했다. 하지만 Clash of Clans와 Hay Day를 하면서는 게임에 중독된 게 아닌가 걱정을 할 만큼 시간을 많이 썼다.

Clash of Clans와 Hay Day 모두 자원을 채취하고, 자원을 이용해서 뭔가를 만들고, 이를 이용해서 더 큰 일을 한다는 점에서 비슷하지만 두 게임에는 많은 차이가 있다. Clash of Clans에서는 자원을 이용해서 무기와 병사를 만들고 고블린 나라를 침략하거나 다른 플레이어가 만든 제국을 침략한다. 스타크래프트랑 약간 비슷한 형식인데, 이 게임이 중독성이 강한 이유는 내가 게임을 하지 않는 동안에도 계속해서 일이 일어난다는 점 때문이다. 거기에 더해 클랜(Clan)이라는 요소가 있어, 클랜에 가입하면 클랜들로부터 도움을 받을 수 있고 자기도 다른 멤버들에게 기여할 수 있다. 우승하는 클랜에게는 어마어마한 상금이 기다린다. 클랜들끼리 서로 친해져 오프라인 모임을 갖기도 한다고 한다.

Clash of Clans

Clash of Clans

Hay Day에서는 자원을 이용해서 곡식을 만들고, 곡식을 이용해서 닭, 소, 돼지, 양 등을 키우고, 여기에서 나오는 유제품을 가공해서 빵, 버터, 피자 등 3차 제품을 만들고, 이를 팔아서 돈을 번다. 발전할수록 재배할 수 있는 곡식의 종류와 키울 수 있는 동물의 종류가 증가한다.

Hay-Day_1_EN_iPad1

Hay Day. 돼지들이 너무 귀엽다.

지금까지 말한 요소는 징가(Zynga)의 게임들에서도 비슷하게 발견되지만, 그 게임들보다 훨씬 더 재미있는 이유는, 정교하게 잘 만들어져서이다. 캐릭터 디자인이 좋고, 건물 디자인도 매우 정교하다. 아이패드에서 최대한 확대하면 그 정교한 그래픽과 움직임, 나무가 흔들리는 모습 등을 볼 수 있는데 반하지 않을 수 없다.

전에 게임에 한참 빠져 있을 때 도대체 어떤 사람들이 이런 걸 만들었는지 궁금해서 조사를 해본 적이 있다. 그랬다가 아주 흥미로운 사실들을 발견했다. 무엇보다 흥미로웠던 것은 창업자인 일카 파나넨(Ilkka Paananen)의 이야기였다. 그는 2000년에 핀란드에서 수미아(Sumea)라는 모바일 게임 회사를 만들었는데, 생각해보니 기억이 난다. 마침 게임빌도 2000년에 창업한 회사였고, 2002년에 모바일 게임 전시회에 갔을 때 Sumea 사람들을 만나 그들의 게임을 구경하며 정교함에 감탄했었다. ‘유럽 사람들은 우리보다 디테일에 신경을 많이 쓰는 것일까?’했는데 지금 알고 보니 당시 CEO였던 일카의 꼼꼼함이었던 것이다.

수미아(Sumea)가 2003년에 출시한 게임, 산타의 러시 아워 (Santa's Rush Hour)

수미아(Sumea)가 2003년에 출시한 게임, 산타의 러시 아워 (Santa’s Rush Hour)

수퍼셀(Supercell)의 창업자 일카 파나넨(Ilkka Paananen)

수퍼셀(Supercell)의 창업자 일카 파나넨(Ilkka Paananen)

이 회사를 2004년에 EA출신 중역인 트립 호킨스(Trip Hawkins)가 만든 디지털 초콜렛(Digital Chocolate)이라는 미국 회사에 $18MM(약 200억원)에 매각한 후에 거기서 한동안 일했다. 거기서 President 자리까지 올라갔으나 게임보다는 사업에 치중하는 회사의 분위기가 마음에 들지 않아 회사를 나와 2011년에 수퍼셀을 창업했다. 그런 그가 회사를 새로 만들면서 가장 신경을 썼던 부분은 팀이였다. 팀 멤버들 모두 업계에서 10년 이상의 경력이 있었고, 5명의 창업자는 지금까지 165개의 게임을 12개의 다른 플랫폼에 출시했던 경험이 있었다. 이런 인상적인 창업 멤버 덕분이었는지 첫 제품을 내놓기도 전에 앵그리버드를 만든 로비오에 투자한 경력이 있던 엑셀 파트너스(Accel Partners)로부터 $12MM(130억원)의 투자를 받았다. (훌륭한 회사의 조사를 하다 보면 이런 사례가 참 많다. 창업자가 회사를 만들고, 회사에 매각한 후, 좋은 경험을 쌓고 탄탄한 자금을 기반으로 한 훌륭한 회사를 만든다. 이런 면에서 나는 기업 인수가 경제에서 정말 중요한 역할을 차지한다고 믿는다.) 이런 배경이 있으니, 게임의 품질이 놀랍도록 뛰어난 것이 우연이 아니다.

이 회사의 성공 방정식은 포브스 지의 기사에 아주 잘 설명되어 있다. 여기에 한 단락만 인용한다.

Most game studios have an autocratic executive producer green-lighting the work of designers and programmers. Supercell’s developers work in autonomous groups of five to seven people. Each cell comes up with its own game ideas. They run their ideas by Paananen (he can’t remember ever nixing a proposal), then develop those into a game. If the team likes it, the rest of the employees get to play. If they like it, the game gets tested in Canada‘s iTunes App store. If it’s a hit there it will be deemed ready for global release. This staged approach has killed off four games so far, with each dead project a cause for celebration. Employees crack open champagne to toast their failure. “We really want to celebrate maybe not the failure itself but the learning that comes out of the failure,” says Paananen.

대부분의 게임 스튜디오들은 디자이너와 개발자들이 만들면 프로듀서가 승인을 하는 방식으로 운영한다. 수퍼셀의 개발자들은 5명에서 7명의 셀(cell, 세포)로 이루어져 있다. 각각의 셀들이 자신의 게임 아이디어를 내고 게임을 만든다. 게임이 재미있으면 팀 전체가 게임을 같이 해본다. 팀 전체가 좋아하면, 캐나다의 앱 스토에 올려본다. 여기서 성공하면 전 세계 앱스토에 올린다. 이러한 과정을 통해 네 개의 게임을 시장에 내놓기 전에 없앴는데, 그럴 때면 직원들은 실패를 축하하는 샴페인을 터뜨린다. “실패 자쳬를 축하한다기 보다는 실패로부터 배우는 것을 축하하는 것이지요”라고 일카 파나넨은 설명한다.

수퍼셀(Supercell)의 직원들 (출처: www.supercell.net)

수퍼셀(Supercell)의 직원들 (출처: http://www.supercell.net)

그래서 회사의 이름이 수퍼셀이다. ‘수퍼’ 파워를 지닌 각각의 세포들이 모여 만들어진 회사라는 뜻이다. 지금의 철학을 잃지 않는다면 몇년 내에 수조원짜리 회사가 되는 것은 결코 달성하기 어려운 꿈으로 보이지 않는다.

넷플릭스의 사례도 그렇고, 코스트코의 사례도 그렇고, 이렇게 위대한 회사를 만드는 사람들은 해당 업계에서 어느 정도 경력을 쌓은 사람들인 경우가 많고, 특히 창업자에게 엑싯(exit) 경험이 있는 경우가 많다. 이에 대해서는 김창원씨도 블로그에서 간략히 언급한 적이 있다. 한국의 다양한 기관에서 ‘제 2의 마크 저커버그’를 만든다고 청년 창업을 비롯하여 대학생 창업에 많은 돈을 쏟아붓고 있고, 중기청에서는 ‘아이돌 창업 스타 발굴‘이라는 프로그램을 만들어 돈을 지원하고 있는데, 취지와 의도는 좋지만 사실 좀 우려스려운 면이 있다. ‘페이스북의 마크 저커버그’는 사실 전 세계에서 유례를 찾기 힘든 독특한 사례이다. 한국에서 정부가 지원 정책을 쏟아붇는다고 한국에서 멀쩡한 명문대생이 학교를 중퇴하고 제 2의 마크 저커버그가 될 확률은 낮다. 특히 고등학교 졸업 때까지 명문대 진학만을 꿈꾸며 영어 수학 과학 지리 역사 공부하느라 사회 생활을 접해볼 기회가 없는 한국의 교육 현실에서는 더욱 그러하다.

사실, 그 동안 한국에서 샌프란시스코에 방문하는 창업가들을 만날 기회가 참 많았는데, 대학생/대학원생, 또는 인더스트리 경험이 없는 사람들이 만든 제품들을 보면 그다지 마음이 끌리지 않는 경우가 많았다. 1) 너무 사소한(trivial) 문제를 해결하고 있거나, 2) 아이디어는 재미있지만 사람들이 원하지 않는 제품을 만들었거나, 또는 3) 기술의 난이도가 너무 낮아서 사업적 가치가 낮았기 때문이다. 그런만큼, 가끔 ‘진짜 문제’를 ‘좋은 팀’과 ‘확실한 기술’로 해결하려는 회사를 보면 눈이 반짝인다. 오픈서베이(OpenSurvey)를 만든 아이디인큐(ID Incu)는 그런 회사 중 하나였고, 그래서 쉽게 투자를 결정했다. 그런 진지한 회사들이 더 많아지면 좋겠다.


업데이트 (4/24): 이 글을 쓰고 나서 나서 바이킹 워즈라는 카카오 게임에 대해 알게 됐는데 캐릭터 느낌, 로고, 게임 방식, 그래픽, UI까지 클래쉬 오브 클랜을 너무 그대로 베꼈네요. 수퍼셀이 이 게임을 보면 뭐라 생각할까요. 이런 표절 게임을 카카오에서 선정한 것도 문제라고 생각해요. 바이킹 워즈 제작사 이름은 스케인 글로브. 이슬기 대표를 비롯해 넥슨 출신의 실력 있는 개발자들이 뭉쳐서 만든 회사라고 하는데 어떻게 남의 게임을 적나라하게 베끼는지 잘 이해가 안됩니다.

Written by Sungmoon

April 23, 2013 at 7:00 pm

2000년에는 믿기 힘들었지만 지금은 당연하게 된 사실들

with 8 comments

“2000년에는 믿기 힘들었지만 지금은 당연하게 된 사실들은 무엇일까?”

무엇이라고 생각하는가? 이 질문에 대한 사람들의 생각을 알 수 있는 가장 좋은 방법은 무엇일까?

Quora. 페이스북의 초기 멤버이자 CTO였던 Adam D’Angela가 2009년에 만든 ‘지식인’ 사이트이다. 아담은 당시 Quora를 만들게 된 계기를 아래와 같이 설명했다.

We thought that Q & A is one of those areas on the internet where there are a lot of sites, but no one had come along and built something that was really good yet. (Q&A 사이트는 인터넷에 정말 많지만, 그 누구도 정말 제대로 된 걸 만든 적이 없어요.)

그가 말한대로 사람들의 자발적인 참여에 의한 Q&A 사이트는 정말로 많았다. 각 분야별로 특화된 웹사이트들이 있었고 사람들은 특별한 불만 없이 쓰고 있었다. 보다 전문적이고 체계화된 지식은 Wikipedia가 채워주고 있었다. 게다가, 그 전에 구글이 Knol이라는 Q&A 사이트를 만들었다가 보기 좋게 실패한 사례가 있었다 (이 서비스는 결국 2012년 5월에 문을 닫았다). 한편 야후가 만든 Q&A 사이트인 Yahoo! Answers는 그럭저럭 운영되고 있지만 수준 낮은 정보들로 점차 채워지면서 사람들에게 외면당한 상태였다.

그래도, 그는 Quora를 만들었다. 그리고 그 결과는 놀랍다. 벤치마크 캐피털, 피터 띠엘 등으로부터 지금까지 $61 million (약 700억원)의 펀딩을 받았으며, 창업한 지 2년만인 2012년 5월에 $400 million (4,400억원)의 회사 가치가 메겨졌다. 포브스지는 Quora에 올라온 질문/답변을 추려서 보여주는데 몇몇 글들은 상당히 인기가 있다. Quora에 몇 명의 회원이 등록되어 있고, 현재 active user 수가 얼마인지는 모르겠지만, KISSmetrics에 올라온 인포그래픽에 따르면 첫 1년동안 무려 37,000% 성장을 했고, 2011년 1월 기준으로 회원 수는 50만명이 넘었다.

Quora 회원 수 성장 곡선 (출처: KISSmetrics)

단순 회원수보다 더 중요한 건, 그 안에 얼마나 유용한 정보가 들어있는가이다. Quora에 일부러 들어가진 않지만, 가끔 Quora에서 보내주는 뉴스레터에서 흥미로운 질문이 있으면 들어가서 읽어보곤 하는데, 정말 재미있고 유익한 내용이 많다. 누군가의 질문에 그토록 정성을 들여 답하는 사람도 대단하고, 그런 사람들이 기꺼이 시간을 쓰도록 동기 부여(incentivize)를 하는 Quora 투표 시스템의 위력도 놀랍다. 그동안 내가 재미있게 읽었던 몇 가지 글은 아래와 같다.

1. Gilt의 비즈니스 모델은 무엇인가? 그들은 어떻게 돈을 벌고 얼마나 이윤을 내는가?

Quora에서 내가 가장 처음 읽었던 글인 것 같다. 이걸 보고 깜짝 놀랐다. 들어가서 보면 놀랄 것이다. 누군가가 엄청난 정성을 들여 그래프까지 그리면서 Gilt의 사업 모델을 설명했고, 이를 읽어보면 겉보기에 이해가 안되는 그들의 사업 모델을 이해할 수 있다. 지금까지 그 답변은 1157개의 표를 얻었다.

2. 구글, 페이스북, 애플, MS의 프로덕트 매니저의 역할은 어떻게 다른가?

이 질문에 대해 Quora의 창업자인 Adam D’Angello가 직접 답변을 달았다. 애플의 PM은 사용자 경험(User Experience)에 집중하는 반면, 구글의 PM은 와이어프레임(Wireframe)을 그려준다고 들었다고 한다.

3. 상위 1%의 프로덕트 매니저가 상위 10%의 프로덕트 매니저와 다른 점은 무엇인가?

1693개의 투표를 얻은 한 아마존 프로덕트 매니저가 쓴 글은 나한테 상당히 도움이 되었다.

3. 좋은 Conversion Optimization (웹사이트 방문자를 고객으로 만드는 것) 전략은 무엇인가?

Andy Johns의 답변이 도움이 많이 되었는데, conversion optimization에 대해 이렇게 잘 정리한 글은 다른 전문 블로그에서도 본 적이 없었다.

4. 항공기 조종석에 있는 온갖 장치들은 어디에 쓰는 것인가?

이건 사실 다 이해할 수는 없었지만, 누군가 시뮬레이터의 사진까지 포함시켜 보잉 737 항공기 조종석에 있는 온갖 장치들을 엄청나게 상세하게 답한 것이 너무 재미있었다. 개인 항공기 조종사(Private Pilot)인 Tim Morgan의 답변은 아래와 같이 시작한다.

All of them?  If you’re talking about a commercial airliner, then there’s hundreds and hundreds.  There are big, fat manuals describing what they all do.  But, since you asked, buckle up. (전부 다 말입니까? 상업용 항공기에 대해 이야기하자면 수백가지입니다. 그걸 일일이 설명한 두껍고 뚱뚱한 매뉴얼이 있죠. 어쨌든 물어보셨으니 안전 벨트를 메세요.)

그리고 나서 각 장치를 설명하는 ‘엄청나게’ 긴 글이 시작된다.

5. 사람들이 평소에 잘 듣지 못하는 인생의 중요한 교훈은 무엇인가?

다양한 사람들이 이 질문에 대해 대답했는데, 몇 가지 내 눈에 들어왔던 건 아래와 같다.

  • Marry your best friend 가장 친한 친구와 결혼하라
  • Don’t try to be a “grown up” 어른이 되려 하지 말고 항상 재미를 누려라
  • Don’t stop learning: 배우지 않는다면 남에게 질 것이다
  • If you’re not failing, you’re doing it wrong. 실패하지 않는다면 뭔가 잘못하고 있다는 뜻이다
  • Time passes by a lot faster than you’d think 시간은 당신 생각보다 빨리 지나간다
  • The key to happiness is BUILDING stuff, not GETTING stuff. 행복의 비결은 얻는 것이 아니라 만드는 것에 있다
  • Flossing teeth is very important. 치실을 이용하는 것은 중요하다
  • Always take action on things. People regret inaction more than action. 항상 행동을 해라. 사람들은 행동해서 후회하기 보다는 행동하지 않아서 후회한다.

6. 에버노트 CEO인 필 리빈(Phil Libin)은 어떻게 그의 에버노트를 정리하는가?

재미난 질문인데, 이 질문에 대해 필 리빈이 직접 상세하게 답변을 달았다. 물론, 그의 답변이 가장 많은 표를 받았다.

7. 지금 회사를 그만두고 옮겨야 할 때가 되었다는 것을 어떻게 알 수 있는가?

구글과 Ooyala를 거쳐 현재 Quora에서 일하고 있는 한 엔지니어가 답변을 달았는데, 실리콘밸리에서 일하는 엔지니어의 시각이긴 하지만 이 질문이 관심이 간다면 한 번 읽어보시길

8. 항공기 조종사들이 말하지 않는 비밀은 무엇인가?

이것도 재미있다. 지역 항공사에 소속된 조종사들은 피자 배달부만큼 정도밖에 못번다는 것, 커피에 화학 물질이 있으므로 마시지 않는다는 것, 현재 위치를 항상 알지는 않는다는 것, 가끔 안전벨트 사인 끄는 것을 있는다는 것, 그리고 총을 소지하기도 한다는 것.

9. 멍청한 사람들이 똑똑하게 보이고 싶을 때 이용하는 트릭은 무엇인가?

답변 중 포브스지의 한 기사를 따온 것이 있는데, 재미있는 비즈니스 영어 표현이 많이 등장하므로 한 번 읽어보면 도움이 된다.

10. 2000년에는 믿기 힘들었지만 지금은 미국에서 당연하게 된 사실들은 무엇일까?

서론이 길었는데, 사실 이 질문에 대한 답변들이 너무 재미있어 이 글을 시작했다. 이 질문 역시 다양한 사람들이 답을 달았는데, 아래는 그 중 재미있었던 10가지이다. 미국의 상황에 한정된 답변이지만 누구나 공감할 수 있다.

  1. The US would elect a black president. 미국이 흑인을 대통령으로 선출하게 된다는 것 것
  2. We put a nuclear robot on mars, and it’s shooting lasers at things. 우리가 화성에 핵 로봇을 착륙시켰고, 그 로봇이 레이저를 쏘고 있다는 것
  3. The most pressing social issue in 2012 will be fought mostly over chicken sandwiches: ‘Chick-fil-A’라는 미국 레스토랑 체인의 COO가 동성 결혼을 반대한다고 해서 지난 여름동안 동성간 결혼을 찬성하는 사람들과 반성하는 사람들의 관심을 사며 2012년의 가장 큰 사회적 이슈가 되리라는 것
  4. Smartphones: half the US carries the freakin’ Internet in their pocket. Back in 2000, this was the coolest in mobile tech: (Nokia flip phone) 미국 사람들의 절반이 주머니 속에 인터넷을 넣고 다닌다는 것. 2000년에는 노키아 플립폰이 가장 쿨했다.
  5. The most successful golfer would become a black guy (Tiger), the most successful rapper a white guy (Eminem). Albeit not for long. 가장 성공적인 골퍼가 흑인이 되고(타이거 우즈), 가장 성공적인 래퍼(rapper)가 백인(에미넴)이 되리라는 것
  6. Google would turn from a 40 employee startup [2] to a global verb. 당시 직원 40명짜리 회사(구글)가 전 세계 사람들의 브랜드가 되리라는 것
  7. The US would come within hours of defaulting on their 14 trillion dollar national debt. In 2000 the US was running a record surplus. 미국이 무려 14조 달러의 빚을 진 나라가 되리라는 것
  8. Apple would recover from near bankruptcy to become the most valued company on Earth; ultimately over twice that of Microsoft. 애플이 파산 직전에서 지구상 가장 가치 있는 회사로 성장하면서 마이크로소프트의 두 배 가치로 올라서리라는 것
  9. Microsoft Windows and Internet Explorer would be losing their format wars. 마이크로소프트가 윈도우즈와 인터넷 익스플로러 표준화 전쟁에서 지리라는 것
  10. Michael Jackson and Steve Jobs would be taken from us far too soon. 마이클 잭슨과 스티브 잡스가 그렇게 빨리 우리 곁을 떠나리라리라는 것

지금은 당연하게 여기지만, 10년 전에 당신에게 물어봤으면 믿기 힘들었을 사실은 무엇인가?

Written by Sungmoon

September 11, 2012 at 10:16 pm

Posted in 기업 분석

Tagged with

‘쉽게 설명한’ 구글의 페이지 랭크 알고리즘

with 15 comments

네이버 검색엔진의 문제점을 처음 지적한 글을 썼던 2년 전부터 이 블로그에 언젠가 한 번 써보고 싶었던 주제가 하나 있었다. 구글의 PageRank 알고리즘을 설명하는 것이다. 원리는 간단하지만 알고리즘을 설명하려고 하면 말이 길어질 것 같고 쉽게 설명할 수 있을까 싶어 블로그에 쓸까 말까 망설였는데, 그냥 한 번 시작해보려고 한다. “Google”이라는 230조원짜리 회사가 처음 시작된 곳이 바로 이 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine)이었다는 것을 생각하면 한 번 시간을 들여 배워볼 만한 의미가 있지 않을까? 이 논문은 1998년에 쓰여졌으나, 논문에서 소개된 PageRank 알고리즘은 14년이 지난 지금에도 구글 검색 엔진의 핵심을 이루고 있다.

오늘날의 구글을 만든, 페이지랭크(PageRank) 알고리즘을 소개한 논문에 포함되어 있던 세르게이 브린과 래리 페이지의 사진. 참 앳된 두 대학원생의 모습이다.

논문은 이렇게 시작한다.

Our main goal is to improve the quality of web search engines. In 1994, some people believed that a complete search index would make it possible to find anything easily. (우리의 주요 목표는 검색 엔진의 품질을 향상시키는 것입니다. 1994년 당시, 사람들은 검색 인덱스를 완성하고 나면 무엇이든 쉽게 찾을 수 있을 것이라고 생각했습니다.)

However, the Web of 1997 is quite different. Anyone who has used a search engine recently, can readily testify that the completeness of the index is not the only factor in the quality of search results. “Junk results” often wash out any results that a user is interested in. (하지만, 1997년의 웹은 사뭇 다릅니다. 최근에 검색 엔진을 사용해 본 사람이라면 누구나 인덱스를 완성하는 것만으로는 좋은 품질의 검색 결과를 얻을 수 없다는 것을 압니다. ‘쓰레기 정보’가 종종 사용자들이 진정 관심있어하는 정보를 가려버립니다.)

One of the main causes of this problem is that the number of documents in the indices has been increasing by many orders of magnitude, but the user’s ability to look at documents has not. People are still only willing to look at the first few tens of results. (그러한 이유 중 하나는, 인덱스되는 문서의 숫자는 엄청난 속도로 성장하고 있지만, 사람들이 그 문서들을 볼 수 있는 능력은 같은 속도로 성장하지 않기 때문입니다. 사람들은 여전히 검색 결과중 처음 몇십 개 정도만 살펴볼 뿐입니다.)

Because of this, as the collection size grows, we need tools that have very high precision. Indeed, we want our notion of “relevant” to only include the very best documents since there may be tens of thousands of slightly relevant documents. (그렇기 때문에, 인터넷이 성장할수록, 우리에게 더 정밀한 도구가 필요합니다. 사실, 우리는 ‘관련 있는 페이지’가 수만 개라도, 그 중 최고의 웹 페이지만을 정확하게 찾아주기를 원합니다.)

There is quite a bit of recent optimism that the use of more hypertextual information can help improve search and other applications. In particular, link structure and link text provide a lot of information for making relevance judgments and quality filtering. Google makes use of both link structure and anchor text. (하이퍼텍스트 정보를 이용하면 검색 결과를 많이 향상할 수 있다는 최근의 연구 결과가 있습니다. 특히, 웹 페이지 사이의 연결 관계가 상당히 유용한 정보를 제공해줄 수 있습니다. 구글은 바로 이러한 링크 구조와 링크 달린 텍스트를 이용합니다.)

그리고, 페이지랭크 알고리즘을 다음과 같이 소개한다.

Academic citation literature has been applied to the web, largely by counting citations or backlinks to a given page. This gives some approximation of a page’s importance or quality. PageRank extends this idea by not counting links from all pages equally, and by normalizing by the number of links on a page. (학술지 인용 방식은 그동안 웹에 적용되어 왔습니다. 특히, 특정 페이지를 인용하는 다른 페이지가 얼마나 많이 있느냐를 세는 방식으로요. 이렇게 하면 특정 페이지가 얼마나 중요한 지 알 수 있스니다. PageRank는 이러한 아이디어를 연장하는데, 즉, 다른 페이지에서 오는 링크를 같은 비중으로 세는 대신에, 그 페이지에 걸린 링크 숫자를 ‘정규화(normalize)’하는 방식을 사용합니다.)

말이 좀 어려운데, 아래 수식을 한 번 보자.

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

PR은 PageRank의 줄임말이고, PR(A)는 ‘A’라는 웹페이지의 페이지 랭크를 의미한다. T1, T2, … Tn은 그 페이지를 가리키는 다른 페이지들을 의미한다. 그리고  PR(T1)는 당연히 T1이라는 페이지의 페이지 랭크값이다. d는 ‘Damping Factor’라고 하는데, 설명이 길어질 수 있으니 조금 후 설명하겠다. C(T1)는 T1이라는 페이지가 가지고 있는 링크의 총 갯수를 의미한다.

d에 연연하지 않고(즉 d=1이라고 가정하고) 위 수식을 가만히 보면 사실 매우 간단하다. ‘어떤 페이지 A의 페이지 랭크는 그 페이지를 인용하고 있는 다른 페이지 T1, T2, T3, .. 가 가진 페이지 랭크를 정규화시킨 값의 합‘이다. 다시 말해 페이지 A의 페이지 랭크는 A라는 페이지를 가리키고 있는 다른 페이지의 페이지 랭크값이 높을수록 (즉, 더 중요할수록) 더 높아진다. 여기서 ‘정규화시킨 값의 합‘이라는 말을 굳이 쓴 이유는, 페이지 랭크의 단순 합산이 아니기 때문이다. 예를 들어, T1의 페이지 랭크가 높다고 하더라도, 그 페이지에서 링크를 수천 개 달아놓았다면(즉, C(T1)값이 높다면) 그 페이지가 기여하는 비중은 낮아진다.

이 수식을 그림으로 한 번 표현해보겠다.

PageRank 알고리즘을 그림으로 표현한 것. Dampen Factor가 있기 때문에 이것과 똑같지는 않지만, 간단하게 표현하면 위와 같다.

위 그림에서 웹 페이지 A를 가리키는 페이지는 T1, T2, T3, T4, T5의 다섯 개가 있고, 이들을 정규화해서 합한 값이 0.34이므로, A의 ‘페이지 랭크’는 0.34가 된다. 이 페이지랭크 값은 A가 가리키는 또 다른 페이지의 PageRank를 계산하는 데 쓰일 것이다. 그럼 T1의 페이지 랭크는 어떻게 구했나? 마찬가지로 T1을 가리키는 다른 페이지들의 PageRank값으로부터 구한다. 이렇게 해서 파고 내려가면 무한히 가게 될 것 같은데, ‘제한 조건’을 걸면 언젠가는 계산이 끝이 난다. 이러한 방법으로 계산하는 것을 컴퓨터 과학에서는 ‘recursive(재귀적)‘이라고 한다. 즉, PageRank는 재귀 호출 알고리즘이다.

이제 d, 즉 Damping Factor에 대해 생각해 보자. 위 수식을 다시 한 번 보자.

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

d 값은 0과 1 사이에서 정해지는데, d값이 커져서 1이 되면 앞의 (1-d)는 0이 되고, 뒤 수식의 합이 그대로 A의 PageRank가 된다. 이것이 바로 위 그림에서 가정한 상황이다. 반대로 d값이 작아져서 0이 되면, 뒤 수식의 합은 0이 되고, A의 PageRank는 1이 된다. d가 0이면 모든 페이지의 PageRank는 1이 되므로 아무 의미가 없어진다. 그래서 d는 실험을 통해 0과 1 사이의 어떤 값에서 정해지는데, 논문에서는 보통 0.85로 설정해놓았다고 되어 있다. 논문에 따르면 damping factor란 ‘어떤 마구잡이로 웹서핑을 하는 사람이 그 페이지에 만족을 못하고 다른 페이지로 가는 링크를 클릭할 확률‘이다. 즉, damping factor가 1이면, 무한히 링크를 클릭한다는 뜻이고, 0이면 처음 방문한 페이지에서 무조건 멈추고 더 이상 클릭하지 않는다는 뜻이다. 0.85이면, 85%의 확률로 다른 페이지를 클릭해볼 것이라는 뜻이다. 이 경우 15%의 확률에 걸리는 순간 클릭을 멈추고 그 페이지를 살펴본다.

논문에 따르면, 모든 웹페이지의 페이지랭크 값을 합산한 값은 1이 된다고 한다. 그러나 이 수식을 보면 그렇게 되어 있지 않다. 예를 들어 d가 0이면 PR(A)는 1이 되고, 모든 웹페이지의 PageRank가 1이 되기 때문에 PageRank의 합산은 모든 페이지의 숫자(N)이 된다.

위키피디아에 따르면, 세르게이와 래리가 논문을 쓸 때 실수한 것 같다며, 올바른 수식은 아래와 같다고 한다.

PR(A) = (1-d)/N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

이렇게 하면 전체 페이지의 PageRank를 합산한 값이 1이 된다.

페이지랭크와 그 관계를 도식화한 그림. A, B, C 등은 페이지를 나타내고, 숫자는 PageRank를 의미한다. C의 경우 B에서 링크를 걸었다는 것만으로도 PageRank값이 높게 책정됨을 볼 수 있다. (출처: Wikipedia)

이게 다이다. 이렇게 해서 온 세상의 모든 페이지를 PageRank 등수에 따라서 미리 정렬을 해 두면, 누군가가 검색어를 입력하는 순간, 그 검색어가 포함된 페이지들을 순위별로 나열하기만 하면 끝이다. 구글의 검색 엔진팀에 있는 지인의 말에 따르면, 지금의 구글 검색 알고리즘은 엄청나게 많은 다른 요소를 고려하고, 튜닝을 했기 때문에 이것보다 훨씬 복잡하다고 한다. 그러나 앞에서 말했듯, ‘영향력 있는 페이지가 인용할수록 페이지랭크가 올라간다‘는 근본적인 알고리즘은 그대로 남아 있다.

구체적 예를 들면 이와 같다. 내 블로그를 인용한 다른 블로그들이 있다. 그 중 아마 가장 사람들에게 신뢰를 얻고 인기 있는 블로그 중 하나가 ‘에스티마의 인터넷 이야기‘일 것이다. 또한 그 블로그를 상당수의 사람들이 인용했을 것이므로 구글 검색 순위가 높을 것이다. 이런 상황이라면, ‘에스티마의 인터넷 이야기’에서 내 블로그로의 링크를 거는 순간 내 블로그의 PageRank는 많이 올라갈 수 있다. 마찬가지 이유로 인기가 있는 다른 웹사이트에서 내 블로그로 링크를 걸면 PageRank가 올라간다. 그러나 만약 그 사이트에서 나 뿐만 아니라 엄청나게 많은 블로그로 링크를 걸고 있다면 (예를 들어, 단순히 수만개의 블로그 주소를 나열한 경우), 그 사이트가 아무리 인기 있다 해도 내 블로그의 검색 순위는 크게 상승되지 않는다.

또 한가지 예로, Stanford.edu와 같은 사이트의 경우 조회수가 엄청나게 높다. 따라서 이 사이트에서 누군가에게 링크를 걸어주면, 구글 검색 순위가 바로 상승할 수 있다. 예전에 Stanford.edu를 관리하는 사람이 돈을 받고 특정 사이트에 링크를 걸어주는 사업을 한 적이 있다고 MBA 수업 시간에 교수님이 이야기한 적이 있다. 물론, 구글이 이를 가만히 놔두지 않았기 때문에 그런 방식은 더 이상 통하지 않는다.

여기에서 덧붙일 말이 있다. 이렇게 훌륭한 알고리즘이지만, 소위 ‘불펌’이 만연하는 곳에서는 이 알고리즘은 바보가 된다는 사실이다. 글을 ‘퍼가기’ 하면서 원문의 링크를 걸지 않는다면, 이 알고리즘에 따르면 아무리 많은 사람들이 퍼가도 웹사이트의 순위는 올라가지 않는다. 한국 인터넷에서는 싸이월드, 또는 그 이전 시절부터 출처 없이 ‘퍼가기’가 참 유행했다. 네이버 블로그가 생기고, 이렇게 글을 퍼가기 해서 많이 쌓아둘수록 블로그 순위가 올라가자 사람들은 더욱 정신없이 ‘퍼가기’를 했다. 그 결과 인터넷은 지저분해지고, ‘내리와 인성의 IT 이야기‘라는 인기 웹툰에서 밝혔듯 원본 문서는 찾기가 힘들어졌다. 이런 상황에서 구글이 한국 시장에 진입했으니, 처음에 구글 검색 결과가 네이버에 비해 훨씬 뒤쳐져 있었던 것은 당연하다. 다행히 요즈음엔 이런식의 ‘펌 문화’가 많이 잦아들었고, 원본의 링크를 다는 ‘건전한 문화’가 많이 정착되면서 원글을 찾기도 쉬워졌고, 구글 검색의 품질도 좋아졌다.

PageRank, 구글이 야후보다 월등히 좋은 검색 결과를 낼 수 있었던 비결이었고, 결국 야후를 꺾고 검색 엔진의 대명사로 등극한 출발점이었다.

Written by Sungmoon

August 26, 2012 at 4:27 pm

Posted in 기업 분석

Tagged with , ,