I Tube, You Tube, Everybody Tubes: Analyzing the World's Largest User Generated Content Video Systemを読んだメモ

YouTubeなどUGCな動画サイトと，そうで無いサイトを比較した論文を読んでみたのでメモ．

non-UGC代表
- Netflix
- Lovefilm
- Yahoo

UGC代表
- YouTube
- Daum

動画のアップロード数
1投稿者あたりの動画作成数（アップロード数）はUGCとnon-UGCで特徴的な違いはない．

non-UGCでは90%のユーザが10作品以下を刊行
UGCでは90%のユーザが30動画以下の投稿

しかし，UGCでは数年で1000以上の動画を投稿する個人が存在していたのに対し，non-UGCでは多く作品を発表したディレクターでも半世紀で100程度を刊行したのみである．

動画の長さ

UGC
- DaumのCFカテゴリが中央値が最短となり30秒
- DaumのMusic Videoカテゴリが中央値が最長となり203秒
non-UGC
- UGCと比較して2桁ほど違う．中央値は94分．

ユーザの参加具合
動画のレーティングと人気具合は，UGCとnon-UGCに関わらず強い正の相関が見られた．

相関係数
- Yahooでは0.87
- YouTubeでは0.8

しかしながら，YouTubeではWeb 2.0技術を利用していても，レーティングは合計視聴数と比較して，0.22%しか行われて居らず，コメントに至っては，0.16%のみが投稿されている．ちなみに，レーティングのは全ての動画のうち，54%について行われていた．

動画視聴数に関して
non-UGCではべき乗則に沿った視聴数になっていない．これは情報のフィルタリングが行われているからと考えられる．つまり，様々な要因によって，ニッチなコンテンツなどが発見されにくいからである．ちなみに，人気のあるコンテンツの視聴数はべき乗則に沿っている．

一方UGCでは，動画の視聴数は，べき乗則に沿って変化している部分が多い．

しかしながら，UGCでも動画の視聴数は完璧にべき乗則に沿っているわけではない．人気が上位の動画はべき乗則ではなく，対数正規分布に沿った分布となっている．この理由は，情報のフィルタリングと，"fetch-at-most-once"の理由によると考えられる．

情報のフィルタリングとは，人気のある動画は特別にトップページやランキングページなどに取り上げることが多いため，各動画において情報の非対称性が存在することを指す．

"fetch-at-most-once"は，多くの閲覧者は，最大で１回しか同じ動画にアクセスしないという傾向がある言う事を指す．実際，この論文では"fetch-at-most-once"を用いてシミュレーションを行っている．これによると，ユーザ数が多いほど，上位の動画がべき乗則に沿わないという結果が出ている．

また，ビデオ数が少ないほど，"fetch-at-most-once"の効果は顕著に表れている．ただし，ユーザの平均視聴数は，べき乗則の分布を歪ませるのにそれほど寄与はしていない．

ロングテールの分析
この論文では，YouTubeのScienceカテゴリを取り上げ，人気のない動画（ロングテールの動画）の視聴数対ランキングのグラフをプロットしている．これによると，一定以上ランキングの高い動画の視聴数は，べき乗則に沿っているが，低い動画ではそうなっておらず，ランキングの低い動画では対数正規分布に従うような形となっている．（Zipf分布にランキングによる指数的なカットオフを施した分布に一致）

その原因は次のように考えられる．
- そもそもUGCは色々なクオリティがあるからだという自然形成説
- Netflixでも似たような形が見られたことから，動画の取り上げ方に問題があるというサンプリングバイアス，プレフィルタリング説
- レコメンデーションシステムや検索システムは人気のある動画ばかり返すからだという情報フィルタリング，ポストフィルタリング説

もしも，Zipf分布が一番自然な分布だとすると，動画サイトなどのレコメンデーション方法などの改良や，他の方法の導入によって，人気のない動画についてもユーザに情報を与えることが出来るとすれば，よりロングテール部分の改善が出来ることになる．

これらロングテール部分にある問題を改善すると，YouTubeのScienceカテゴリでは42%，Entertaimentカテゴリでは45%の向上が最大で見込まれる．

動画の人気と投稿日
YouTubeのScienceカテゴリでは，動画は投稿日が新しいほど多く視聴される傾向が，わずかに見られた．しかしながら，これはそれほど顕著ではない．

一方，人気Top 20の動画では，新しい動画ほど多く視聴されるという傾向が見られた．これは，Daily > Weekly > Monthly の順に顕著である．（All Timeではむしろ古い方が多く視聴されるようにとれるが，これはグラフの取り方の問題だと思う）

動画の視聴数の遷移
YouTubeのScienceカテゴリの動画では，投稿した24時間後には，90%の動画が1回以上視聴され，40%の動画が10回以上視聴されていた．

また，24時間以内に動画の視聴数が10回を超える確率は0.43，24時間後から6日後の間に超える確率は0.18，6日後から1月後の間では0.17，1月後から1年後の間では0.14となっていた．

視聴数の予測
2または3日後の視聴数と，数週間や数ヶ月後の視聴数は強い相関が見られた．

2日後の視聴数とx日後の視聴数の相関係数

7日後 0.9665
9日後 0.8793
90日後 0.8425

3日後の視聴数とx日後の視聴数の相関係数

7日後 0.9367
9日後 0.9367 (論文そのままの値だけど，元がコピペミスな気がする)
90日後 0.8525

人気の変動
論文では，基準日から一週間におけるランキングの変動幅（ランキングを時間で微分した値のようなもの）を記録した．その結果，平均値は，投稿日による差はあまりみられなかったが，人気の高い動画については，投稿日が新しい動画ほど，ランキングが上位に変動することが多かった．

また，どの投稿日の動画でも人気のない動画は，ランキングが-4000ほど変動した．これは人気のない動画は視聴数が増えないのに，他の動画の視聴数が増えるからである．

実際には，視聴数の大幅な増加がランキングの大幅な増加とはならない場合もあるので（ランキング上位の動画の視聴数が100増えるのと，ランキング下位の動画の視聴数が100増えるのとでは意味が違う），ランキングの変動幅・視聴数の変動幅を新たなランキングの値にとってみたところ，新しい動画の方が，より人気となることがわかった．

新しい動画の方が，Δranking・Δviewsは古い動画より，1〜3桁ほど違う．

つづく・・・