MASSACHUSETTS INSTITUTE OF TECHNOLOGY(マサチューセッツ工科大学)などの研究者達が、新しいデータ関連付け・集約システム「Data Civilizer」についての発表を行っています。

 
データ関連付け・集約システムという分野は、BIGデータを扱う事がより頻繁になるにつれて注目が集まっている分野です。なぜなら、実務上では「データの整理整頓」が作業時間の8割近くを消費している、つまり分析に必要なデータを整える事が分析そのものよりもはるかに大きな時間を消費している、という事実があるから。


今回の「Data Civilizer」が提案しているのも、実際には従来からの様々なテーブル間でのデータの関連付けの為の手法です。

研究者達は、「Data Civilizerは関連する情報を含むデータセットをすばやく見つけ出し、さまざまなデータテーブル間の接続を自動的に検出し(automatically finds connections among many different data tables and allows users to perform database-style queries across all of them)」、作業目的を達成する為の労力を削減する、と主張しています。


実際の作業については次のように説明されました。
The system begins by analyzing every column of every table at its disposal. First, it produces a statistical summary of the data in each column. For numerical data, that might include a distribution of the frequency with which different values occur; the range of values; and the “cardinality” of the values, or the number of different values the column contains. For textual data, a summary would include a list of the most frequently occurring words in the column and the number of different words. Data Civilizer also keeps a master index of every word occurring in every table and the tables that contain it.
 
Then the system compares all of the column summaries against each other, identifying pairs of columns that appear to have commonalities — similar data ranges, similar sets of words, and the like. It assigns every pair of columns a similarity score and, on that basis, produces a map, rather like a network diagram, that traces out the connections between individual columns and between the tables that contain them.

結局のところ、異なる表記によって「埋もれてしまう」データを見つけ出すことによって、膨大な資産(データ)をより有効に利用できるようにしよう、という事になります。


例えば、
A:うちの猫は魚が好物だ。
B:うちの猫は三毛だ。
C:小さな段ボール箱に無理やり入り込むバカ猫。
という組み合わせから、「あの家の三毛猫は段ボール箱と魚が好きだ」を抽出できる、というわけです。

同一の事柄について書かれた様々な文書から、同一の事柄についての様々な特徴を自動的に抽出できるという事で、データ分析の前段階のデータ集約・整理が楽になります。さすがに「手動での誤認識データの除去」が不要なレベルではないそうですが、それでもあらかじめ一定レベルまでフィルタリングされているデータについてそれが行えるならば、労力は大幅に少なくてすみます。

大学の文書には大手製薬会社であるMerck社のデータアナリストが実際にこのシステムを使用する手法を模索している事が記載されていました。より多くのデータを、より少ない労力で整理整頓する為の模索は続いています。

原文書
Taming data:System finds and links related data scattered across digital files, for easy querying and filtering.
Larry Hardesty | MIT News Office