増亚博—亚洲的中文娱乐平台之の「界面潮流」

「界面」=「インタフェース」。ユーザインタフェース研究の第一人者が、ユビキタス社会やインターフェース技术の动向を読み解く。

第11回 マイニング伝説

2007年9月28日

(これまでの増亚博—亚洲的中文娱乐平台之の「界面潮流」はこちら)

データが大量にあるとき、特殊な计算を行なうことによって隠れた有用な情报を引き出せる可能性があります。大量のデータから有益な情报を抽出する手法はデータマイニングと呼ばれています。

データマイニングの効果に関してはビールと纸オムツの逸话が有名です。米国の大手スーパーで商品の购入の相関を调査したところ、周末の夜には何故かビールと纸オムツが同时に売れるということが判明したため、両者を同じ売场に置いたところ売上が大きく増加したというもので、スーパーでオムツを买って帰れと奥さんに言われた旦那がついでにビールも买って帰るのだと説明されることが多いようです。

贩売データから自动的にこのような関系を计算できるというのは面白い话で、データマイニングの威力を示す好例として有名なのですが、残念ながらこれは実话ではなく、「あるスーパーの调査では金曜の夕方にビールと纸オムツの売上が多かった」という结果に尾鳍がついた都市伝説だというのが真相のようです

データマイニングの威力を示す一番有名な话が都市伝説だったというのはお寒い话ですが、データマイニングそのものが无力だというわけではありません。最近はネットのおかげでデータの质も量も増えていますし、様々な新しい分析手法も提案されてきているので、将来はデータマイニングがもっと有効に利用されるようになると思われます。

■本棚演算

この连载で何度か绍介した本棚.orgという书籍情报共有サイトでは、ユーザが自分の作った「本棚」に自由に本を登録することができるようになっており、どの本棚にどの本が登録されているかという情报をもとにした「本棚演算」によってデータマイニングを行なうことができます。

Amazon.comで本などを検索すると、「この商品を买った人はこんな商品も买っています」といって関连商品を荐められることがあります。商品の売れるパタンをもとにしたデータマイニングによってこのような情报が计算されているわけですが、特定の个人の购买パタンにもとづいて计算が行なわれているわけではなく、全ユーザの购入パタンから计算した结果としてこのようなお荐め商品が提示されるようになっています。Amazonはユーザの数が非常に多く、个人ごとにパタンを计算することがほぼ不可能なのでこのような手法がとられているわけですが、本棚.orgではユーザ数は1万程度ですから、ユーザごとに计算を行なうことも难しくありません。

本棚.orgではユーザが自由に作成した本棚ごとに复数の本が登録されています。「増井の本棚」に「Blue Note Cover Art」「逆风野郎」などの本が登録されており、「svslabの本棚」に「逆风野郎」「スモールワールドネットワーク」などの本が登録されているとき、全本棚データは以下のような本棚行列で表现することができます。

?
増井の本棚
1
1
1
1
0
1
svslabの本棚
0
1
0
0
0
1
桐华の本棚
0
0
0
1
1
0

この表から以下のようなことがわかります。

  • 「増井の本棚」と「svslabの本棚」には共通に含まれる本が多い
  • 「スモールワールドネットワーク」と「逆风野郎」には共通の本棚に含まれている
  • 「増井の本棚」と「桐华の本棚」に共通に含まれる本がある

この事実をもとに、以下のような推论を行なうことができます。

  • 「増井」と「svslab」は趣味が似ている
  • 「svslab」に「アカギ」を推荐すると喜ばれる
  • 「スモールワールドネットワーク」と「逆风野郎」は同カテゴリの本である

このような推论はあまりあてにならないかもしれませんが、本棚行列の行や列データに対して様々な本棚演算を行なうことにより、表を见ただけではすぐにわからない各种の情报を抽出することができる可能性があります。

「増井の本棚」行と「svslabの本棚」行を加算すると以下のような行列が得られます。


?
増井+svslab
1
2
1
1
0
2

この演算の结果、「逆风野郎」や「スモールワールドネットワーク」は人気があることがわかります。

また、「増井の本棚」行から「svslabの本棚」行を减算すると以下のような行列が得られます。


?
増井-svslab
1
0
1
1
0
0

「増井の本棚」と「svslabの本棚」は似ているにもかかわらず「アカギ」「掌の中の小鸟」は「svslabの本棚」に含まれていないため、これらの本は「svslab」への推荐候补と考えることができます。

このような计算を本棚行列の行や列に対して行なうことにより、様々な有用な情报を取得することができます。たとえば、私が読むべき本を捜したい场合、まず私の本棚と同じような本が登録されている本棚を捜し、そこで登録されているにもかかわらず私の本棚には含まれていないような本を捜せばよさそうです。手顺は以下のようになります。

  • 増井の本棚に含まれる本のリストを计算
  • その本リストに近い本を持つ本棚のリストを计算
  • そのような本棚の中に含まれている本を计算する

この结果は以下のようになります。

17 4839912653 Code Reading—オープンソースから学ぶプログラミングテクニック
17 4844317210 Rubyソースコード完全解説 (青木 峰郎, まつもと ゆきひろ)
14 4314005564 利己的な遗伝子 (リチャード?ドーキンス, 日高 敏隆, 岸 由二, 羽田 节子, 垂水 雄二)
14 4797318325 Wiki Way—コラボレーションツールWiki (ボウ ルーフ, ウォード カニンガム,
14 4756136494 プログラミング作法 (ブライアン カーニハン, ロブ パイク)
14 489471163X 计算机プログラムの构造と解釈 (ジェラルド?ジェイ サスマン
13 4798102040 コモンズ (ローレンス?レッシグ, 山形 浩生)
...

确かに私が买いそうな本が并んでいますが、计算机関连の本が多すぎますし、自分の持ってる本が含まれているので、

  • 计算机関连の本を减算
  • 増井の本棚に含まれる本を减算

という演算を追加した结果、以下のような推荐本リストを得ることができます。确かに私が欲しいと思うような本のリストになっているようです。

10 406313248X 攻殻机动队 (1) (士郎 正宗)
10 4140807431 新ネットワーク思考—世界のしくみを読み解く (アルバート?ラズロ?バラバシ, 青木 薫)
9 4756133126 ロボットにつけるクスリ—误解だらけのコンピュータサイエンス (星野 力)
9 4167330083 ぼくはこんな本を読んできた—立花式読书论、読书术、书斎论 (立花 隆)
7 4063211444 げんしけん (1) (木尾 士目)
7 4061495755 动物化するポストモダン—オタクから见た日本社会 (东 浩纪)
7 410401303X 博士の爱した数式 (小川 洋子)
7 415011451X しあわせの理由 (グレッグ イーガン, Greg Egan, 山岸 真)

本棚.orgと同様の构造を持つデータはいろいろあります。例えばSNSにおけるユーザとコミュニティの関系は、本棚と本の関系と同じ构造になっていますから、同様の演算によるデータマイニングを行なうことが可能です。

■人间情报のマイニング

社会で最も重要な情报は人间に関する情报ですから、データマイニングの本命は人间関系のマイニングだといえるでしょう。mixiのようなSNSの上では人间の交友関系や趣味がかなりわかりますし、积极的に他人の评判を书けるSNSもありますから、ネット上の情报をもとにして、かなり正确に个人の情报を得ることができると考えられます。mixiではまだ高度なデータマイニングは行なっていないようですが、ブログのような公开情报だけを利用してもかなり有用な情报を取得することが可能です。

Cogoloというサイトでは、公开情报から人物情报をマイニングするサービスを提供しています。

cogolo.png

Cogoloで「増亚博—亚洲的中文娱乐平台之」を検索すると、Web上の公开情报をもとにして様々なマイニングを行ない、以下のような结果を表示してくれます。

cogolomasui.png

谜のキーワードも沢山表示されていますが、写真や人脉を含め结构正确にデータマイニングが行なわれていることがわかります。间违った写真などは谁でも修正できるようになっており、自动的なデータマイニング技术と人力パワーをうまく融合して利用できるようになっています。Cogoloの精度はまだまだ充分とはいえませんが、新しいマイニングアルゴリズムや人力パワーを融合することにより、Webの検索が新时代を迎えるかもしれません。

フィードを登録する

前の记事

次の记事

増亚博—亚洲的中文娱乐平台之の「界面潮流」

プロフィール

1959年生まれ。ユーザインタフェース研究。POBox、QuickML、本棚.orgなどのシステムを开発。ソニーコンピュータサイエンス研究所、産业技术総合研究所、Apple Inc.など勤务を経て现在庆应义塾大学教授。着书に『インターフェイスの街角』などがある。

过去の记事

月间アーカイブ

ブログ一覧

  • Autopia
  • Compiler
  • Cut up Mac
  • Danger Room
  • Epicenter
  • from Wired Blogs
  • Gadget Lab
  • Intel International Science and Engineering Fair (Intel ISEF)
  • IPTVビジネスはどのようにデザインされるか
  • Listening Post
  • Web2.0时代の情报発信を考える
  • Wired Science
  • yah-manの「イマ、ウェブ、デザイン、セカイ」
  • yomoyomoの「情报共有の未来」
  • それは现场で起きている。
  • ガリレオの「Wired翻訳里话」
  • サービス工学で未来を创る
  • デザイン?テクノロジーによるサステナビリティの実现
  • デザイン?ビジュアライゼーションが変えるマーケティング?ワークフロー
  • マイケル?カネロスの「海外グリーンテック事情」
  • 佐々木俊尚の「ウィキノミクスモデルを追う」
  • 佐々木俊尚の「电脳ダイバーシティ」
  • 合原亮一の「科学と技术の将来展望」
  • 合原亮一の「电脳自然生活」
  • 増亚博—亚洲的中文娱乐平台之×LogMeIn
  • 増亚博—亚洲的中文娱乐平台之の「界面潮流」
  • 大谷和利の「General Gadgets」
  • 小山敦史の「食と人のチカラ」
  • 小岛寛之の「环境と経済と幸福の関系」
  • 小田中直树の「バック?トゥ?ザ?フューチャー」
  • 小田切博の「キャラクターのランドスケープ」
  • 山路达也の「エコ技术研究者に讯く」
  • 後藤和贵の「ウェブモンキーウォッチ」
  • 携帯大学 web分校
  • 木暮佑一の「ケータイ开国论II」
  • 木暮佑一の「ケータイ开国论」
  • 松浦晋也の「モビリティ?ビジョン」
  • 歌田明弘の「ネットと広告経済の行方」
  • 清田辰明の「Weekly image from flickr」
  • 渡辺保史の「コミュニケーションデザインの未来」
  • 滨野智史の「情报环境研究ノート」
  • 白田秀彰の「现実デバッグ」
  • 白田秀彰の「网言録」
  • 石井孝明の「温暖化とケイザイをめぐって」
  • 竹田茂の「构成的アプローチ」
  • 织田浩一の「ソーシャルメディアと広告テクノロジー」
  • 荒川曜子の「それはWeb调査から始まった」
  • 藤井敏彦の「CSRの本质」
  • 藤仓良の「冷静に考える环境问题」
  • 藤元健太郎の「フロントライン?ビズ」
  • 藤田郁雄の「サバイバル?インベストメント」
  • 西堀弥恵の「テクノロジーがもたらす快适な暮らし」
  • 関裕司の「サーチ?リテラシー」
  • 饭田泰之の「ソーシャル?サイエンス?ハック!」
  • 高森郁哉の「ArtとTechの明日が见たい」

Agile Media Network clipping

FX Rep: No Announcement Yet on 'Dam…

胁威に対処できず信頼と辉きを失ったブランド企业

震灾や停电を乗り切れる企业ITへ - クラウドとBYODを前提に