« 第2回SBM研究会の運営サイドとしての感想 | トップページ | SBM標準データにおけるプライバシーの考察 »

2008.12.23

SBM標準データの考察~SBM研究の再現性を実現するために

第2回SBM研究会の内容について、少しずつ感想や考察を書いていこう。

まず、運営者側としての今回の研究会の目玉は「パネルディスカッション」であった。各SBM事業者と研究者が揃う機会はあまりないし、ここでSBMの標準データを議論することは、とても有意義であったと思う。

当然運営者側としても、各SBM事業者が「SBMデータ」を何らかの形で提出することをコミットすることが、このパネルディスカッションを企画した時から一番重要な目的だと考えていたが、それが果たせて正直ホッとしている。(*パネルディスカッションで標準データの議論を、何で徹頭徹尾私がしたのか、これでわかって頂けるかと思う。)

さて、SBMの標準データの話をする前に、ここで重要な情報を書いておこう。SBMを研究する人がデータ収集をしたい場合、各SBM事業者の広報と相談しよう。各事業者は広報を通せばデータを送付するとのこと。ただし、最低限のマナーとして、そのSBMデータを使ってどういうことをしたいのか、とか、その研究成果(例えば全国大会、研究会、論文等)はSBM事業者に伝えておこうね。

*補足:SBMデータの入手についてはCS系の学会等で直接SBM事業者にお声を掛けた方が、早く作業が進むかもしれませんし、SBM事業者の方と実際話もできるので、良いかもしれません。(SBM事業者とコネがある教授等を通すという手もあります。)

では本題のSBMの標準データについて。
まず、大きなテーマとしてパネラーの大向さんが指摘した再現性の問題がある。ある研究者がデータAを使い、他の研究者がデータBを使う場合、お互いの研究をフェアに考察することが難しい。おまけにそのデータは各研究者が独自に入手(場合によって独自にツールを作成している!)場合が多いので比較するすべがない。

もし、研究者同士が同じデータXを使えば、各研究者は研究を比較しやすくなるし、結果的にSBM研究が促進されるだろう。

研究の再現性の議論については、ここも参考にしてほしい。

ウェブサイエンスの抱える「再現性」の問題

では、標準データとはなんだろうか?
画像の世界では、標準データというのが既にあって、これによってノイズ耐性や電子透かしの影響について調べられている。例えば、画像電子学会のページに具体的な情報が掲載されている。

標準データを議論するときには、個人的には以下の条件を満たす必要があると考えている。

(1)誰もがデータを入手できること(入手可能性)
(2)データ項目が汎用的な研究に耐えられること(データ汎用性)
(3)データ内容が研究の再現性に耐えられること(データ再現性)
(4)データ内容が最新データに更新可能であること(データ更新性)
(5)個人情報が保護されること(ID秘匿性)

この条件はジャストアイデアなので、もしかすると上記の条件をマージあるいは更に分割する必要があるかもしれない。

(1)については場合によってはNDA等の契約あるいはフォームの研究目的を記入する必要があるかもしれない。研究目的であれば、なるべく障壁を少なくして入手可能とすることが必要である。

(2)データ汎用性については、データ項目の内容である。データ項目としては以下のようなものが考えられる。

a)クリップしたURL
b)クリップした人のID
c)クリップした日時
d)クリップしたときのタグ
e)コメント
f)クリップした人と(SBM上で)つながりがある人(例えばお気に入りなど)

aとbが決まればc,d,eは原則一意に決まる。(*1URLに対して複数コメントを許している事業者は違う。)fはa~eとは独立の概念であり、事業者によってはfのデータがないだろう。となると、もしかするとa~dあるいはa~eの情報で標準データとしては十分かもしれない。

(3)データ再現性とは、そのデータを使って研究者同士が研究成果を比較できるかどうかである。これを決めるパラメーターとして

-標準データにおけるデータ取得期間
-標準データにおける参加者数
(データ量の関係からランダムに公開データを間引く可能性あり)
-標準データにおけるクリップ数閾値
(あるURLに対してXクリップ以上でないと公開しない、あるいは、あるユーザにおいてクリップ数がX以上でないと公開しない[下限値の閾値、→逆に上限の閾値もありうる。SBMスパマーをフィルタリングする目的で。])

が挙げられるだろう。当然研究者としてはデータ期間は大きいほうが良いし、参加者数も多い方が良い。閾値もなるべくないほうが良い。ただし、その場合SBM事業者が大変になる。そもそもどの程度の情報があれば、研究として十分なのかを議論する必要があるかもしれない。

人によっては1日の情報だけでよいと思う人がいるかもしれない。私はその意見には、あまり賛成ではない。というのは、1日という期間では、外部要因(例えば政治、経済など)に大きく左右されるからである。また曜日、時間帯によってクリップする人が違うと思われる。よって、曜日変動も踏まえると少なくとも1週間分のデータは必要ではないだろうか?

また期間が少ないと、アノマリーなデータが出にくい。ここで指しているアノマリーとは、ある意味「標準的とは外れた」データのことである。例えばスパマーによる大量投稿、あるいは関心の大きい事件やイベントに対する記事へのブックマークである。このようなアノマリーを十分抽出することができれば、例えばスパマー対策や時系列によるブックマークの研究などの活かせることができるだろう。

(4)データをどのタイミングで更新するかということだが、多くても1年に1回ぐらいあれば十分かと考えられる。この辺りはSBM研究者の意見を考えたい。逆に更新頻度が上がりすぎると、同じデータにおける研究が少なくなる可能性が高い。

(5)参加者ID(場合のよってはURLの一部も?)をランダム値にすることが望まれられる。他にも(1)と関連するがNDAによって公開を縛ってしまうことも手だろう。

以上を踏まえてSBM標準データとはどうすべきか、ということを考えて行きたい。
当然、他の分野(例えばSNS)などの動向を見ながら、どうすべきかは参考にしたい。

なお、標準データのあり方がきっちり決まる前にとりあえず各事業者がデータを公開するのは「アリ」であると考えている。公開しながら標準データのあり方を議論するのも一つの戦略だろう。

この議論は現在第2回のSBM研究会講師らによってクローズドMLにより行われている。ただし、MLには講師あるいは私の招待があれば参加できるようにはしたい。(興味のある方は講師か私に連絡してください。)方向性が決まれば、いずれオープンなMLやイベントで議論したいと考えている。

|

« 第2回SBM研究会の運営サイドとしての感想 | トップページ | SBM標準データにおけるプライバシーの考察 »

P2P」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: SBM標準データの考察~SBM研究の再現性を実現するために:

» Cicindela には豪華なおまけがついてきます [nabokov7; rehash]
ところで,オープンソース化された Cicindela のディストリビューションには,かねてからの課題だった livedoor clip の公開データセット (縮小版) が含まれている ことには皆さんお気づきでしょうか。 ちょっと分かりづらいのですが,レコメンデーションエンジンの評価用...... [続きを読む]

受信: 2008.12.25 22:01

» ツンデレ風「ソーシャルブックマーク研究用データセット」 [アルカンタラの熱い夏]
先日の第2回SBM研究会で、「研究用のデータをどうするか」といった議題が取り上げられました SBM標準データの考察〜SBM研究の再現性を実現するために ある研究者がデータA を使い、他の研究者がデータBを使う場合、お互いの研究をフェアに考察することが難しい。おまけ...... [続きを読む]

受信: 2009.01.15 12:45

« 第2回SBM研究会の運営サイドとしての感想 | トップページ | SBM標準データにおけるプライバシーの考察 »