‘쉽게 설명한’ 구글의 페이지 랭크 알고리즘

네이버 검색엔진의 문제점을 처음 지적한 글을 썼던 2년 전부터 이 블로그에 언젠가 한 번 써보고 싶었던 주제가 하나 있었다. 구글의 PageRank 알고리즘을 설명하는 것이다. 원리는 간단하지만 알고리즘을 설명하려고 하면 말이 길어질 것 같고 쉽게 설명할 수 있을까 싶어 블로그에 쓸까 말까 망설였는데, 그냥 한 번 시작해보려고 한다. “Google”이라는 230조원짜리 회사가 처음 시작된 곳이 바로 이 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine)이었다는 것을 생각하면 한 번 시간을 들여 배워볼 만한 의미가 있지 않을까? 이 논문은 1998년에 쓰여졌으나, 논문에서 소개된 PageRank 알고리즘은 14년이 지난 지금에도 구글 검색 엔진의 핵심을 이루고 있다.

오늘날의 구글을 만든, 페이지랭크(PageRank) 알고리즘을 소개한 논문에 포함되어 있던 세르게이 브린과 래리 페이지의 사진. 참 앳된 두 대학원생의 모습이다.

논문은 이렇게 시작한다.

Our main goal is to improve the quality of web search engines. In 1994, some people believed that a complete search index would make it possible to find anything easily. (우리의 주요 목표는 검색 엔진의 품질을 향상시키는 것입니다. 1994년 당시, 사람들은 검색 인덱스를 완성하고 나면 무엇이든 쉽게 찾을 수 있을 것이라고 생각했습니다.)

However, the Web of 1997 is quite different. Anyone who has used a search engine recently, can readily testify that the completeness of the index is not the only factor in the quality of search results. “Junk results” often wash out any results that a user is interested in. (하지만, 1997년의 웹은 사뭇 다릅니다. 최근에 검색 엔진을 사용해 본 사람이라면 누구나 인덱스를 완성하는 것만으로는 좋은 품질의 검색 결과를 얻을 수 없다는 것을 압니다. ‘쓰레기 정보’가 종종 사용자들이 진정 관심있어하는 정보를 가려버립니다.)

One of the main causes of this problem is that the number of documents in the indices has been increasing by many orders of magnitude, but the user’s ability to look at documents has not. People are still only willing to look at the first few tens of results. (그러한 이유 중 하나는, 인덱스되는 문서의 숫자는 엄청난 속도로 성장하고 있지만, 사람들이 그 문서들을 볼 수 있는 능력은 같은 속도로 성장하지 않기 때문입니다. 사람들은 여전히 검색 결과중 처음 몇십 개 정도만 살펴볼 뿐입니다.)

Because of this, as the collection size grows, we need tools that have very high precision. Indeed, we want our notion of “relevant” to only include the very best documents since there may be tens of thousands of slightly relevant documents. (그렇기 때문에, 인터넷이 성장할수록, 우리에게 더 정밀한 도구가 필요합니다. 사실, 우리는 ‘관련 있는 페이지’가 수만 개라도, 그 중 최고의 웹 페이지만을 정확하게 찾아주기를 원합니다.)

There is quite a bit of recent optimism that the use of more hypertextual information can help improve search and other applications. In particular, link structure and link text provide a lot of information for making relevance judgments and quality filtering. Google makes use of both link structure and anchor text. (하이퍼텍스트 정보를 이용하면 검색 결과를 많이 향상할 수 있다는 최근의 연구 결과가 있습니다. 특히, 웹 페이지 사이의 연결 관계가 상당히 유용한 정보를 제공해줄 수 있습니다. 구글은 바로 이러한 링크 구조와 링크 달린 텍스트를 이용합니다.)

그리고, 페이지랭크 알고리즘을 다음과 같이 소개한다.

Academic citation literature has been applied to the web, largely by counting citations or backlinks to a given page. This gives some approximation of a page’s importance or quality. PageRank extends this idea by not counting links from all pages equally, and by normalizing by the number of links on a page. (학술지 인용 방식은 그동안 웹에 적용되어 왔습니다. 특히, 특정 페이지를 인용하는 다른 페이지가 얼마나 많이 있느냐를 세는 방식으로요. 이렇게 하면 특정 페이지가 얼마나 중요한 지 알 수 있스니다. PageRank는 이러한 아이디어를 연장하는데, 즉, 다른 페이지에서 오는 링크를 같은 비중으로 세는 대신에, 그 페이지에 걸린 링크 숫자를 ‘정규화(normalize)’하는 방식을 사용합니다.)

말이 좀 어려운데, 아래 수식을 한 번 보자.

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

PR은 PageRank의 줄임말이고, PR(A)는 ‘A’라는 웹페이지의 페이지 랭크를 의미한다. T1, T2, … Tn은 그 페이지를 가리키는 다른 페이지들을 의미한다. 그리고  PR(T1)는 당연히 T1이라는 페이지의 페이지 랭크값이다. d는 ‘Damping Factor’라고 하는데, 설명이 길어질 수 있으니 조금 후 설명하겠다. C(T1)는 T1이라는 페이지가 가지고 있는 링크의 총 갯수를 의미한다.

d에 연연하지 않고(즉 d=1이라고 가정하고) 위 수식을 가만히 보면 사실 매우 간단하다. ‘어떤 페이지 A의 페이지 랭크는 그 페이지를 인용하고 있는 다른 페이지 T1, T2, T3, .. 가 가진 페이지 랭크를 정규화시킨 값의 합‘이다. 다시 말해 페이지 A의 페이지 랭크는 A라는 페이지를 가리키고 있는 다른 페이지의 페이지 랭크값이 높을수록 (즉, 더 중요할수록) 더 높아진다. 여기서 ‘정규화시킨 값의 합‘이라는 말을 굳이 쓴 이유는, 페이지 랭크의 단순 합산이 아니기 때문이다. 예를 들어, T1의 페이지 랭크가 높다고 하더라도, 그 페이지에서 링크를 수천 개 달아놓았다면(즉, C(T1)값이 높다면) 그 페이지가 기여하는 비중은 낮아진다.

이 수식을 그림으로 한 번 표현해보겠다.

PageRank 알고리즘을 그림으로 표현한 것. Dampen Factor가 있기 때문에 이것과 똑같지는 않지만, 간단하게 표현하면 위와 같다.

위 그림에서 웹 페이지 A를 가리키는 페이지는 T1, T2, T3, T4, T5의 다섯 개가 있고, 이들을 정규화해서 합한 값이 0.34이므로, A의 ‘페이지 랭크’는 0.34가 된다. 이 페이지랭크 값은 A가 가리키는 또 다른 페이지의 PageRank를 계산하는 데 쓰일 것이다. 그럼 T1의 페이지 랭크는 어떻게 구했나? 마찬가지로 T1을 가리키는 다른 페이지들의 PageRank값으로부터 구한다. 이렇게 해서 파고 내려가면 무한히 가게 될 것 같은데, ‘제한 조건’을 걸면 언젠가는 계산이 끝이 난다. 이러한 방법으로 계산하는 것을 컴퓨터 과학에서는 ‘recursive(재귀적)‘이라고 한다. 즉, PageRank는 재귀 호출 알고리즘이다.

이제 d, 즉 Damping Factor에 대해 생각해 보자. 위 수식을 다시 한 번 보자.

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

d 값은 0과 1 사이에서 정해지는데, d값이 커져서 1이 되면 앞의 (1-d)는 0이 되고, 뒤 수식의 합이 그대로 A의 PageRank가 된다. 이것이 바로 위 그림에서 가정한 상황이다. 반대로 d값이 작아져서 0이 되면, 뒤 수식의 합은 0이 되고, A의 PageRank는 1이 된다. d가 0이면 모든 페이지의 PageRank는 1이 되므로 아무 의미가 없어진다. 그래서 d는 실험을 통해 0과 1 사이의 어떤 값에서 정해지는데, 논문에서는 보통 0.85로 설정해놓았다고 되어 있다. 논문에 따르면 damping factor란 ‘어떤 마구잡이로 웹서핑을 하는 사람이 그 페이지에 만족을 못하고 다른 페이지로 가는 링크를 클릭할 확률‘이다. 즉, damping factor가 1이면, 무한히 링크를 클릭한다는 뜻이고, 0이면 처음 방문한 페이지에서 무조건 멈추고 더 이상 클릭하지 않는다는 뜻이다. 0.85이면, 85%의 확률로 다른 페이지를 클릭해볼 것이라는 뜻이다. 이 경우 15%의 확률에 걸리는 순간 클릭을 멈추고 그 페이지를 살펴본다.

논문에 따르면, 모든 웹페이지의 페이지랭크 값을 합산한 값은 1이 된다고 한다. 그러나 이 수식을 보면 그렇게 되어 있지 않다. 예를 들어 d가 0이면 PR(A)는 1이 되고, 모든 웹페이지의 PageRank가 1이 되기 때문에 PageRank의 합산은 모든 페이지의 숫자(N)이 된다.

위키피디아에 따르면, 세르게이와 래리가 논문을 쓸 때 실수한 것 같다며, 올바른 수식은 아래와 같다고 한다.

PR(A) = (1-d)/N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

이렇게 하면 전체 페이지의 PageRank를 합산한 값이 1이 된다.

페이지랭크와 그 관계를 도식화한 그림. A, B, C 등은 페이지를 나타내고, 숫자는 PageRank를 의미한다. C의 경우 B에서 링크를 걸었다는 것만으로도 PageRank값이 높게 책정됨을 볼 수 있다. (출처: Wikipedia)

이게 다이다. 이렇게 해서 온 세상의 모든 페이지를 PageRank 등수에 따라서 미리 정렬을 해 두면, 누군가가 검색어를 입력하는 순간, 그 검색어가 포함된 페이지들을 순위별로 나열하기만 하면 끝이다. 구글의 검색 엔진팀에 있는 지인의 말에 따르면, 지금의 구글 검색 알고리즘은 엄청나게 많은 다른 요소를 고려하고, 튜닝을 했기 때문에 이것보다 훨씬 복잡하다고 한다. 그러나 앞에서 말했듯, ‘영향력 있는 페이지가 인용할수록 페이지랭크가 올라간다‘는 근본적인 알고리즘은 그대로 남아 있다.

구체적 예를 들면 이와 같다. 내 블로그를 인용한 다른 블로그들이 있다. 그 중 아마 가장 사람들에게 신뢰를 얻고 인기 있는 블로그 중 하나가 ‘에스티마의 인터넷 이야기‘일 것이다. 또한 그 블로그를 상당수의 사람들이 인용했을 것이므로 구글 검색 순위가 높을 것이다. 이런 상황이라면, ‘에스티마의 인터넷 이야기’에서 내 블로그로의 링크를 거는 순간 내 블로그의 PageRank는 많이 올라갈 수 있다. 마찬가지 이유로 인기가 있는 다른 웹사이트에서 내 블로그로 링크를 걸면 PageRank가 올라간다. 그러나 만약 그 사이트에서 나 뿐만 아니라 엄청나게 많은 블로그로 링크를 걸고 있다면 (예를 들어, 단순히 수만개의 블로그 주소를 나열한 경우), 그 사이트가 아무리 인기 있다 해도 내 블로그의 검색 순위는 크게 상승되지 않는다.

또 한가지 예로, Stanford.edu와 같은 사이트의 경우 조회수가 엄청나게 높다. 따라서 이 사이트에서 누군가에게 링크를 걸어주면, 구글 검색 순위가 바로 상승할 수 있다. 예전에 Stanford.edu를 관리하는 사람이 돈을 받고 특정 사이트에 링크를 걸어주는 사업을 한 적이 있다고 MBA 수업 시간에 교수님이 이야기한 적이 있다. 물론, 구글이 이를 가만히 놔두지 않았기 때문에 그런 방식은 더 이상 통하지 않는다.

여기에서 덧붙일 말이 있다. 이렇게 훌륭한 알고리즘이지만, 소위 ‘불펌’이 만연하는 곳에서는 이 알고리즘은 바보가 된다는 사실이다. 글을 ‘퍼가기’ 하면서 원문의 링크를 걸지 않는다면, 이 알고리즘에 따르면 아무리 많은 사람들이 퍼가도 웹사이트의 순위는 올라가지 않는다. 한국 인터넷에서는 싸이월드, 또는 그 이전 시절부터 출처 없이 ‘퍼가기’가 참 유행했다. 네이버 블로그가 생기고, 이렇게 글을 퍼가기 해서 많이 쌓아둘수록 블로그 순위가 올라가자 사람들은 더욱 정신없이 ‘퍼가기’를 했다. 그 결과 인터넷은 지저분해지고, ‘내리와 인성의 IT 이야기‘라는 인기 웹툰에서 밝혔듯 원본 문서는 찾기가 힘들어졌다. 이런 상황에서 구글이 한국 시장에 진입했으니, 처음에 구글 검색 결과가 네이버에 비해 훨씬 뒤쳐져 있었던 것은 당연하다. 다행히 요즈음엔 이런식의 ‘펌 문화’가 많이 잦아들었고, 원본의 링크를 다는 ‘건전한 문화’가 많이 정착되면서 원글을 찾기도 쉬워졌고, 구글 검색의 품질도 좋아졌다.

PageRank, 구글이 야후보다 월등히 좋은 검색 결과를 낼 수 있었던 비결이었고, 결국 야후를 꺾고 검색 엔진의 대명사로 등극한 출발점이었다.

안철수 룸살롱 급상승 검색어 사건과 네이버 뉴스캐스트의 문제점

처음 이 블로그를 만들었을 때는 제목이 그냥 Sungmoon’s Blog였고, 내가 느끼는 대로 생각을 정리해서 쓰곤 했다. 그러나 블로그 이름을 ‘실리콘밸리 이야기’로 바꾸고 나서부터는 실리콘밸리와 별 상관 없는 이야기를 쓰기가 웬지 부담스러워졌고, 그런 내용은 구글 플러스에 짧게 공유하거나 정말 길게 할 말이 있을 때만 이 블로그에 쓰게 되었다. 하지만, ValleyInside와는 달리 이건 내 개인 블로그가 아닌가. “실리콘밸리에 사는 조성문의 이야기”. 그거면 제목을 만족시키는 것이라고 생각하고 부담없이 써봐야겠다. 이 글은 ‘실리콘밸리와 상관 없는 이야기’이다. 앞으로도 실리콘밸리나 IT와 별로 상관 없지만 공유하고 싶은 생각들을 여기에 써보려고 한다. 결국 남들을 의식하지 않고 솔직하게 이야기를 할 때 진심이 나오는 것이고, 그럴 때 글도 술술 잘 써지는 것이니까.

때아닌 여름 감기로 고생하다가 며칠만에 TechCrunchTechNeedle, 트위터를 확인했다. 이렇게 오랜만에 소식을 쭉 접할 때면 트위터 타임라인을 살펴보는 것이 효율적이고, 내 타임라인에서 꽤 비중을 차지하고 있는 임정욱(에스티마)님의 트윗을 살펴 보는 것이 큰 도움이 된다. 미국에 사는 덕분에 따로 몇 번 뵈었고, 얼마 전에도 점심 식사를 같이 했는데, 바쁜 와중에도 거의 매일 수많은 기사와 트윗들을 읽고 유용한 정보를 필터링하여 제공해주시는 것을 보면 감탄하지 않을 수 없다.

스탠포드의 스타트업 액셀러에이터인 StarX가 Kauffman으로부터 무려 80만 달러의 그랜트를 받았다는 기사를 보고, Kauffman과 같이 훌륭한 비전을 가진 단체에 계속해서 돈이 지원되고, 그런 돈으로 이런 좋은 일들을 할 수 있다는 것이 미국이라는 나라의 강점이라는 생각이 들었고, WhatsApp 하루 메시지 전송 건수가 10 billion을 돌파했다는 기사를 보고 나만 WhatsApp을 열심히 쓰는 것이 아니구나 싶었다. 또, 페이스북이 iOS 전용 앱을 아예 다시 만들어 출시했다는 소식을 듣고 너무 반가워 바로 업데이트했다. iPhone 4에서 그동안 페이스북 앱을 쓰려니 너무 느려서 속이 터졌던 적이 한 두번이 아니었기 때문이다. 전에는 HTML로 만들어졌고 겉만 껍데기를 씌운 형태였다. 많은 사람들이 HTML이 모바일 앱의 미래라고들 하는데, 나는 HTML(+JavaScript)로 만들어진 모바일 앱을 써 보면 영 느리고 불편해서 별로 좋아하지 않는다. 이에 관해서는 예전에 앱과 웹에 대해 조사해보고 내 생각을 정리한 적이 있다. 한편, 트윗이 너무 재미있어 얼마 전부터 팔로우하기 시작한 김정은의 패러디 계정이 팔로워 170만명을 돌파했다는 트윗도 있었다. 가끔씩 트위터 보면서 웃고 싶다면 한 번 팔로우 해보시길.

그 외에도 눈길을 끄는 이야기가 많았는데, 가장 많은 사람들이 이야기한 것은 단연 안철수 룸살롱 실시간 급상승 검색어 사건삼성-애플 소송에서 애플이 압승한 소식이었다.

안철수 룸살롱 사건은 사실 구체적으로 다 살펴본 것은 아니고, 안철수가 출연했다는 무릎팍 도사를 본 것도 아니어서 사건의 전말을 다 알지는 못하고, 이게 왜 그렇게 화제가 될 만한 내용인지도 이해가 안되지만, 이로 인해 네이버가 정치적인 목적을 위해 검색 결과를 조작했다는 의혹이 제기되었고, 네이버 직원이 이를 해명하는 과정에서 ‘박근혜 콘돔’이 언급되었고, 이로 인해 사건이 더 커지는 바람에 결국 네이버 김상헌 대표가 직접 해명하는 글을 올렸다는 내용을 보았다. 해명의 내용을 보니 어떤 알고리즘으로 운영하고 있고, 왜 이런 일이 생겼는지 이해가 되었지만, 한 가지 갸우뚱하게 만든  단락이 있었다.

오늘 일을 계기로, 관련 부서와 다각도로 정책을 검토한 결과, 청유어의 검색에 대한 성인 인증은 현행과 같이 계속 유지하되, 관련된 ‘뉴스 기사’는 성인 인증과 상관없이 검색 결과로 노출되도록 개편을 하려고 합니다. 생각해 보면, 뉴스 자체를 청유물로 지정할 수 있는 근거가 부족하고, 무엇보다 뉴스는 취재와 데스킹이 있는, 가장 기본적으로 신뢰할 만한 콘텐츠이기 때문입니다. (김상헌 대표의 글. 출처: 네이버 다이어리)

과연 그런가? ‘뉴스가 가장 신뢰할만한 콘텐츠’인가? 물론 내가 좋아하는 매일 경제, 머니투데이 등을 비롯해서 주요 일간지의 많은 기사들에는 신뢰할 수 있는 좋은 기사가 많다. 하지만 네이버가 검색해서 보여주고, 첫 화면에 ‘뉴스’로 띄우는 기사들이 모두 정말 신뢰할만한 콘텐츠인지는 좀 의아한 생각이 든다. 신뢰성이나 사실성보다는 ‘클릭수’에 초점을 맞춘 제목과 기사들이기 때문이다. 아래는 방금 캡쳐한 네이버 뉴스캐스트의 ‘톱 뉴스’ 섹션이다. 여기에 인용된 데일리안, OSEN, 마이데일리, 스포탈 코리아.. 이들은 네이버가 인정한 ‘신뢰할만한 컨텐츠를 제공하는 언론’이다.

네이버 뉴스캐스트

난 사실 이 ‘언론사’들에 대해 대해 잘 모르고 그 설립 배경도 모르지만, 기사를 클릭해서 들어가보면 도저히 그런 신뢰할만한 곳으로 보이지는 않는다.

네이버 뉴스캐스트를 통해 들어간 OSEN의 초기 화면. 광고 대행사인지 언론사인지 알 수가 없다.
‘마이데일리’의 초기 화면. 신뢰할만한 컨텐츠? 그나저나, 오른쪽 ‘개기름과 피지’ 광고는 정말 혐오스럽다.

이러한 뉴스캐스트의 문제점에 대해서는 머니투데이 윤미경 부장기자가 2011년 초에 한 마디 한 적이 있다 (아래)

이는 뉴스캐스트 선정 과정에서 그대로 드러났다. 선정기준이 수시로 바뀌는데다 평가항목도 투명하게 공개되지 않고 있다. 어떤 언론사에는 가입조건이 ‘설립 5년 이상’이라고 했다가 어떤 언론사에는 ‘설립 1년 이상’이라고 했다. 그런데 설립 1년도 안된 언론사가 뉴스캐스트에 포함되는 사례가 발생하자 언론사들은 네이버 뉴스캐스트 선정기준에 의문을 품기 시작했다. 이에 대해 NHN은 “뉴스캐스트는 외부전문가들로 구성된 심사위원회가 선정하는 것”이라며 “우리는 아무런 권한이 없다”는 식으로 심사위원들에게 모든 책임을 돌렸다.

네이버 뉴스캐스트는 올 2월 또다시 개편됐다. 뉴스캐스트에서 노출되는 기사수가 6개에서 9개로 늘어나면서 네이버 초기화면에는 선정적인 제목의 뉴스가 더 넘쳐난다. 이런 기사가 ‘오픈캐스트’ ‘테마캐스트’로 또다시 포장돼 유통되고 있으니 말초적 기사는 비단 뉴스캐스트에서 끝나지 않고 있다. 이것이 하루 1700만명 이상이 이용하는 네이버의 현재 모습이다.

내가 네이버를 쓰기 싫어하는 큰 이유 중 하나가 이 뉴스캐스트이다. 도무지 읽을 가치가 없는 엉뚱한 기사들로 내 시간을 낭비하게 하기 때문이다. 사실 내가 좋아하는 신문사 하나를 정해 놓고 들어가면 대부분 주요 소식은 다 접할 수 있다. 그리고 신문사들간의 편집 방향의 차이도 알게 된다. 내가 좋아하는 신문사 둘은 Wall Street Journal과 The New York Times이다. 이 두 신문사는 색깔이 분명이 다르고, 기사의 품질도 다르다. 그런데 네이버 뉴스캐스트처럼 이렇게 조각 기사만 화면에 보여주면, 언론사간의 차별성이 사라지고, 자극적 제목만 남게 된다. 주요 일간지의 기자가 되는 것과 신변 잡기 언론사의 기자가 되는 것에는 엄연한 차이가 있고, 따라서 그런 차이가 나는 사람들이 쓰는 기사의 품질에도 차이가 있는데, 네이버 뉴스캐스트 때문에 그 모든 신문사들이 같은 선상에 놓이고 말았다. 기사의 품질보다는 자극적인 제목을 얼마나 잘 다느냐에 기자의 경쟁력이 달려 있으니 이 얼마나 개탄할 상황인가. 정말 열심히 공부하고 노력해서 주요 언론사의 기자가 된 사람들이 이런 상황에 대해 얼마나 답답해하고 있을까 싶다.

이야기가 뉴스캐스트쪽으로 샜는데, 이왕 샌 김에 네이버에서 검색 결과를 카테고리별로 보여주는 유저 인터페이스에 대해서도 하나 지적해보고 싶다. 이런 카테고리방식 결과가 예전에는 참 편리하다고 생각했지만, 지금은 참 안좋다고 생각한다. 예를 들어 설명해보겠다. 내 블로그에서 ‘내가 영어공부한 방법‘이 지속적으로 높은 조회수를 기록하기에 ‘영어 공부’라는 키워드로 한 번 검색해봤다. ‘영어 공부’라는 키워드로 검색하는 사람이 원하는 것이 뭘까? 영어 공부를 도와주는 사이트를 알고 싶거나, 영어 공부를 잘 하는 노하우를 알고 싶은 것이라고 생각한다. 먼저 네이버에서 검색해 보았다. 네이버는 카테고리별로 보여준다. 프리미엄 링크, 파워 링크, 비즈사이트, 지식iN, 뉴스, 동영상, 책, 이미지, 전문 정보, 웹문서, 뉴스 라이브러리, 지식쇼핑, 지식백과, 지도 순서이다. 소위 ‘백화점식 나열’인데, 과연 이러한 유저 인터페이스가 사용자에게 도움이 되는가 싶다. 첫째, 이 중 절반이 광고이다 – 프리미엄 링크, 파워 링크, 비즈사이트, 책, 전문 정보, 지식 쇼핑. 이런 광고를 클릭하면 네이버가 돈을 번다. 둘째, 거의 관련이 없더라도 ‘카테고리’이기 때문에 검색 결과에 나오는 것들이 많다. 이제, 하나씩 살펴보자.

첫째 섹션. 이건 모두 광고다. 학원에 등록하고 싶은 것이 아니면 그냥 넘어가자.
둘째 섹션. 이것도 광고다. 파워 링크와 비즈사이트의 차이는 아무리 봐도 알 수가 없다.
세 번째 섹션은 지식iN이다. 광고보다는 좀 더 관련이 있어보여 좋다. 그러나 이게 영어 공부와 관련된 과연 가장 좋은 정보일까? 조회수가 6밖에 안되는 글이 14분 전에 올라왔다는 이유만으로 첫 번째 결과로 떴다. 네 번째 글은 클릭해서 확인해보니 초등학교 6학년 학생이 올린 질문이다. 답글은 다른 초등학생과 중학생들이 달아놓았다. 이것이 과연 내가 원하는 정보일까?
넷째 섹션은 뉴스 검색 화면이다. 김아중이 영어 공부를 위해 미국으로 떠났다는 소식이 화제다. 과연 이게 내가 알고 싶었던 정보일까? 그리고, 검색 결과에서 네 번째 섹션에 놓을 만큼 중요한 정보일까? 김아중 소식이 궁금했으면 ‘김아중’ 또는 ‘김아중 미국’으로 검색하지 않았을까?
다섯 번째 섹션은 동영상이다. 약간 관련이 있는 것 같긴 한데, 유독 ‘네이버 블로그와 네이버 tvcast’만 검색 결과에 보인다.
여섯 번째 섹션은 책 검색 결과인데, 내가 보기엔 그냥 광고다. 100% 네이버 사이트로 링크가 걸려 있다. 책을 사고 싶었다면 애초에 yes24나 알라딘 사이트에 갔을 것이다.
일곱 번째 섹션은 이미지이다. 이것이야말로 정말로 검색 키워드와 관련이 없다. 세 번째에 있는 ‘기성용 &quot’는 왜 검색 결과에 나온 것일까?
여덟 번째 섹션. 이것도 그냥 광고다. 과연 누가 영어 공부를 하겠다고 이런 리포트나 독후감을 돈 주고 살까 싶다.
아홉 번째. 책 본문 검색인데, 2006년에 출간된 책이 보이고, 세 번째 결과인 ‘죽이는 한마디’는 영어 공부와 무슨 관련이 있는 책인지 모르겠다.
열번째. ‘마침내!’ 웹사이트가 검색 결과에 떴다. 그러나… 다섯 개 결과 중 네 개가 cafe24.com에서 왔다. 웹에는 cafe24밖에 없나? 들어가보면 내용도 참 시시하다. 두 번째 결과인 ‘신채호 선생 기념관’은 웬 건지 모르겠다. ‘검색 사이트’가 보여주는 결과라고 하기에는 너무 처참하다.
열 한번째. 1955년, 1973년의 기사가 왜 검색 결과에 뜨는지 알 수가 없다. 클릭해보면 모두 네이버 자체 서비스로 연결되는데, 페이지 뷰를 늘리기 위한 것일까?
열 두번째. 다시 광고가 떴다. ‘토이컴퍼니’, ‘버블팝’, ‘G마켓’에서 파는 몇 천원짜리 시시한 물건들이 영어 공부에 관련 있는 상품으로 나와 있다.
열 세번째는 지식 백과인데, 역시 관련성이 거의 없다.
마지막 섹션은 지도이다. 관련이 있는가? 영어 학원을 찾고 싶었다면 ‘영어 공부’가 아니라 ‘영어 학원’을 검색하지 않았을까?

여기까지 총 12개의 섹션. 긴 페이지의 맨 끝까지 내려왔지만 그다지 쓸모 있는 정보는 없었다. 이상하게도 ‘블로그’는 카테고리에서 빠져 있다. 원래 검색 결과 상단에 거의 항상 뜨는 것이 네이버 블로그인데,  ‘영어 공부’라는 키워드에는 블로그가 별로 유용한 내용을 제공해주지 못할 것이라고 판단한 것일까? 카테고리별로 보여주는 이러한 검색 결과, 과연 최선인가? 이것이 과연 사용자들에게 도움이 되는 유저 인터페이스인가, 아니면 네이버의 수익을 극대화해주는 유저 인터페이스인가 좀 의구심이 든다. 한편, Naver SE에서는 좀 더 효율적으로 보여주나 싶어서 거기서 찾아봤는데, 검색 결과에 유용한 정보가 없었다.

구글에서 ‘영어 공부’로 검색해봤다(Google.co.kr이 아닌 google.com을 이용했다. Google.co.kr의 검색 결과도 비슷하게 나오지만, 내가 보기엔 한글 검색도 Google.com을 이용하는 것이 검색 품질이 높다). 아래는 그 결과이다.

구글의 검색 결과 – 첫 번째 섹션. 광고가 하나 나오고, 영어 공부에 도움이 될 만한 웹사이트들이 그 다음으로 나온다.

첫 두 개의 링크를 클릭해서 들어가봤다. ‘영어 공부 추천사이트 20선‘. 들어가서 확인해보면 왜 이 사이트가 검색 결과 첫 번째에 나왔는지 알 수 있다. 영어 공부에 도움되는 사이트들을 정말 잘 정리해 놓았다. 두 번째 검색 결과는 유명한 고수민씨의 블로그이다. 들어가서 보면 ‘영어 공부를 제대로 하는 데’ 도움될만한 팁들이 정말 많이 있다.

두 번째 섹션은 이미지 검색 결과이다. 내가 찾는 정보와 별 관련은 없지만 영어 공부라는 검색어와는 관련이 많이 있어 보인다.
세 번째 섹션. 유투브 비디오가 두 개 있다.
네 번째 섹션. 아주 유용하게 보이는 정보가 많이 있다. 무료 podcast 목록이나 TED 활용도 그렇고, 뿌와쨔쨔의 사이트도 그렇고, 땡전 한푼.. 도 그렇다. 들어가보면 영어 공부에 도움이 되는 정보들을 잘 정리해 놓았다.
마지막 섹션. 여기도 김아중 이야기가 나와 있다. 하지만 유용한 정보를 모두 위에서 보여준 이후이다.

여기까지 해서 구글 검색 결과의 첫 페이지가 끝이 난다. 검색 결과는 훨씬 짧지만 훨씬 더 유용하다. 왜 더 유용할까? ‘영어 공부’라는 키워드 위주로 검색해서 잡동사니 결과를 보여주는 것이 아니라 ‘영어 공부’와 관련해서 정보를 가장 잘 정리해 둔 사이트를 우선해서 결과를 보여주기 때문이다. 이것은 구글이 사용하고 있는 PageRank라는 검색 알고리즘 때문인데, 작은 것 같아 보이지만 결과적으로 큰 차이를 만든다.

이 글을 읽는 분들이 두 검색 결과를 보며, 검색 회사가 가져야 할 원칙과 철학에 대해 한 번 생각해 보시면 좋겠다. 난 네이버라는 회사에 대해 개인적 감정을 가질 이유도 없고, 아는 많은 사람들이 네이버에서 일하고 있거나 한때 거기서 일했었기에 이런 글을 쓸 때마다 조심스럽지만, 많은 사람들의 시간을 절약해주기보다는 불필요하게 낭비하도록 하는 뉴스캐스트와 카테고리별 검색 결과를 통해 네이버가 돈을 벌고 있는 것이 안타까워 이 글을 써봤다.