Analysis of Social Voting Patterns on Diggを読んだメモ

SIGCOMM 2008の併設ワークショップである,WOSN 2008で発表された,"Analysis of Social Voting Patterns on Digg", Kristina Lerman, Aram Galstyan, (http://conferences.sigcomm.org/sigcomm/2008/workshops/wosn/program.php)を読んだメモです.


この論文では,Digghttp://digg.com/)を解析し,ニュースの伝搬がどのようにして行われるかを明らかにしています.ちなみにDiggとは,アメリカで有名なソーシャルブックーマークサービスであります.はてなブックマークと違い,DiggにはFan機能と呼ばれるものがあり,お気に入りの人を指定できたりもします.Twitterのfollowをイメージすればよいでしょう.


まず始めに,この論文を読むに当たって,一番重要である事実について述べます.それは,ファンが多いユーザ(以後,人気ユーザ)が投稿したニュースはくだらないものが多い,ということです.これはどういう事かというと,人気ユーザが投稿したニュースは,他の人が投稿したニュースと比較してDiggフロントページに載る確率は高いが,他のフロントページに載っているニュースと比較してつまらないということです.


ちなみに,この論文でいうニュースの面白さとは,最終的にDiggされた数として定義しています.はてなブックマークを例にして言うと,「人気ユーザが投稿したニュースって,ホッテントリに載ることは多いけれど,たいして面白くなくね?だって,最終的なブクマ数ってそんなに多くないし」という感じです.


ちなみに,この事実はこの論文の著者らが以前に発表した論文("Social information processing in social news aggregation", K. Lerman, IEEE Internet Computing: special issue on Social Search, 2007)で書かれているそうです.この論文では,この事実をもとにして,どのように投稿されたニュースが広まっていくかを説明しています.


この論文が主張するところ,ニュースが投稿されたとき,ニュースが広がっていくパターンは2種類あると述べています.一つめは,その記事を投稿したファンの人たち経由で広がっていくパターン(in-networks経由)と,その記事が本当に面白くて広まっていくパターンです.特に,前者の広まり方は,ファンが多いユーザが投稿したニュースをフロントページに押し上げる要因となります.


これを実証するために,著者等は,投稿初期におけるin-networks経由のDigg数の割合対最終的に得たDigg数を調べています.つまり,あるニュースがn票のDiggを取得した時点で,そのうち何票がin-networks経由かを調べて,それが最終的な得票数と相関があるかを調べたそうです.その結果,初期の投票のうち,in-networks経由な投票が多いほど,最終的な得票数は少ないという事実が明らかになったそうです.そこで著者等は,この事実を利用し,Decision Treeを用いてニュースの面白さ(最終的な得票数)を予測する手法を提案しています.


というのが大体の概要となります.たしかに,クラスタ毎によって興味が全く違うことが多いわけですし,あるサイズの大きなクラスタが興味を持つと,その大きさから,比較的容易にホットエントリへと入ってしまうことがあります.しかしながら,やっぱりそれは局所的なニュースでしかないため,全体が興味を持つニュースであるというわけではありません.それを解消するためこの論文では,同じ得票数でも,ある特定のクラスタにしか興味を持たれないニュースより,色々なクラスタ群から興味をもたれるニュースをより面白いニュースとしています.これは,以下のエントリ,

はてブユーザ間の類似度
http://d.hatena.ne.jp/tt_clown/20080821/p1

で書かれているような,相関の高い人たちの投票に重みをつけてフィルタリングするという手法と似ている,あるいは本質的に同じような気もします.