Google Trendsの可能性:Natureの研究から個人的な好奇心の充足まで

2/19に出たばかりの『Nature』にある研究成果が報告された。


検索エンジンクエリデータによるインフルエンザ流行の検知
(Detecting influenza epidemics using search engine query data)
Ginsberg, J. et al. Nature 457, 2009, 1012-1014


題目の検索エンジンとは、Googleのことである。
内容には立ちいらないが、手元のネット環境のあるPCで簡便に高精度なインフルエンザの予想が可能になるかもしれないという、これまでにない結論が得られたようだ。今後のインフルエンザの予防という観点からも示唆に富むものとなっている。

様々に批評を受けてもなお、科学研究の一般論文誌の頂点としての地位を保持している『Nature』に載った論文中で主力となる方法としてGoogleが利用された。この事実は、研究の最前線にもGoogleのポテンシャルが示され、受け入れられた証拠といえるだろう。

Gindbergらの本論文で使用されたGoogleのサービスが、Google Trendsだという。
早速使ってみよう。


  ●


http://www.google.com/trends


これがGoogle Trendsのホームページになる。
個人的な使用した実感から、Google Trendsは世界全域の検索トラフィック平均に基づいて、ある検索語に対する「関心の高さ」の時間トレンドを示しているもののようだ。

具体例:論文トレンドにみる周期性

さて、実際に具体例を示すことで時間トレンドを感じてみよう。

今年も冬が終わりに近づいて、そろそろ春だ。
毎年、大学生(特に理系)の悩みの種が卒業目前に最後の関門として待ち構えている、論文ではないだろうか。冬の時期、日本のあらゆる大学では卒業論文修士論文が提出され、教授から厳しい(?)指導を受け、論文の書き方に四苦八苦、プレゼンテーションでたどたどしくも人前で説明したりすることになる。

一般的には研究室への配属は4年生の春だ。それじゃあ、1年間かけて卒業論文を書くことになるのだろうか。「卒業論文」の時間トレンドを見てみよう。

人間がものを調べるのは、その内容を知りたいと思うからだし、方法論を把握したいからでもある。調べ始めるタイミングから本格的にものごとが動き出すことが多いだろう。今晩の料理の献立を調べてからスーパーへ行く。よくある光景だ。
調べて動き出す。そういった観点から見たとき、「卒業論文」への取り組みは秋から冬(9月から2月)に盛んになっていることが伺える。研究室に配属した直後から「卒業論文」という単語を意識し、焦りはじめるなんてことはほとんどなく、締め切りである2月中旬から3月が近づいてきてはじめて焦りだす。そんな、誰もが共感できる結果がトレンドとして示されていると思う。


  ●


検索語は無数に存在する。
卒業論文は俗に卒論というし、大学院の学生にも修士論文が存在する。一般的に大学の論文というと、研究者のものよりも、学生時代の卒修論である感覚が強い。Google Trendはカンマにより検索語を区切ることで、各語のトレンドをひとつのグラフに示してくれる。
そこで、「卒業論文」、「卒論」、「修士論文」、「修論」の4つの検索語のトレンドを調べてみた。その結果が次のグラフに示したものだ。

卒業論文」と「卒論」のトレンドは同期して変化していることから、「卒論」という単語の一般性が伺える。さらに、「卒論」の指数のほうが全体的に「卒業論文」よりも高いことも、単語の浸透性の高さの証拠ということができるだろう。
一方、「修士論文」は卒論にくらべ指数が低い。検索母体が学部生より院生が少ないこと、一度卒論を経験したことで修士論文を調べなくなること、など、さまざまな理由が想像される。また時期も卒業論文よりも調べだす時期が1ヶ月程度遅い傾向にある。「修論」はグラフ上に見られず、検索はほとんどされないと思われる。

TwitterTumblrに見る増加トレンドと地域性

さて、以上で大学をめぐる論文の時間トレンドを把握し、その傾向はより現実感覚を反映したものであることが明らかになったのではないかと思う。これだけでも利用価値が十分すぎるほど理解できた。

ここからは、2つ目の例を示そう。
「論文トレンド」は毎年周期性のあるものであった。
一方で、成長し続けるトレンドもある。そんな例だ。

ということで、「Twitter」を検索語として選択してみた。Wikipediaでは「個々のユーザーが「つぶやき」を投稿し合うことでつながるコミュニケーション・サービス」として「2006年7月にサービスを始めた」と説明がある。

開始時から現在まで指数関数的に増加し続けていることが分かる。「論文トレンド」では、日本語で検索したため国に着目することはなかった。Google Trendsでは地域的な情報も示される。「Twitter」の場合、利用する国にも注目すると、上位10カ国が示されている。アメリカ、日本、イギリスが上位3カ国であり以下、アイルランド、台湾、カナダ、オーストラリア、と続く。北アメリカ、ヨーロッパ、東アジア、オーストラリアと先進各国に集中し、言語は英語と日本語圏が圧倒的に多い。「日本」におけるTwitterの地域的な特異さは注目に値する。つぶやきでゆるくつながることに、何か国民的な親和性でもあるのだろうか。Twitterが英語と日本語をサポートしていることも頷ける。


  ●


Twitterを利用していると、同時にTumblrの利用者も多いという感覚がある。そこでTumblrのトレンドを検証してみたところ、Twitterと同じようなトレンドの増加がみられた。

しかし地域的にはTwitterとは異なっており、日本、シンガポール、フィリピンの3カ国が上位3カ国であり、アメリカは4位であった。言語圏も日本語が最も多く、Tumblrがいかに日本で利用されているかが分かった。また「Twitter」と「Tumblr」の2つの検索語をひとつのグラフに表示すると、圧倒的にTwitterの方が利用者が多いことが検索の多さから示唆された。
指数の強度比をみると、Twitterのほうが最低10倍以上も検索されており、2009年2月8日では25倍に広がっている。2008年2月まで両者は似たような、横ばい状態のトレンドである様子がみられるが、Twitterはその後2008年9月まで増加傾向が増し、2008年9月から現在まではより急激な増加を示している。

この比較は、全世界を対象とした結果であるため、純粋に日本でのTwitterTumblrの利用者の実情を反映しているとはいえない。しかしながら世界的にはTwitterが圧倒的な利用者を獲得しているといえるだろう。


  ●


そこで、対象地域を日本に限定して作成したトレンドが次である。

その結果、先ほどの全世界トレンドでは見えなかったTumblrのトレンドが浮かび上がってきた。TwitterのFriendは当然日本人であり、その中で使用していての感覚が「Tumblrも使っているひと結構いるなあ」というもの。TwitterTumblrのトレンドの類似性は、その感覚を的確に反映していると思われる。
また、全世界的には指数関数的な伸びを示したTwitterが日本では2006年後期のトレンドピーク後、ほぼ横ばいで安定している傾向がある。サービス開始後3ヶ月で固定したユーザーができ、それ以降は極端な利用者の増加はないのかもしれない。Tumblrは3ヶ月ほど遅れて日本に入ってきたような印象である。
それにしても、Twitterにせよ、Tumblrにせよ、日本人の新しいものへの順応性の高さをまざまざと見せられた気がした。

つまり

以上、こんな簡単な利用だけでも、多くの発見があった。Google Trendsは多くのひとの現実の感覚を的確に反映した非常に強力なツールだといえないだろうか。

ログインすればデータを入手することもでき、検索語をより増やし、冒頭で示した『Nature』にも耐えうるレベルの高精度の結果をも出し得るGoogle Trendsの可能性。しかもネットにつながっているのならば無償で。

おもろいやんけ。