前身団体の設立が1971年と、ITサービス分野の業界団体の中でも特に長い歴史を持つ日本データ・エントリ協会(JDEA)。そのJDEAが2022年10月1日、名称を「日本データ・エンジニアリング協会」に改称した。データドリブン経営やデータサイエンスが脚光を浴びる中で、「データを扱うプロセスを見える化し、その品質と精度を工学的に裏づけるのが当協会の立ち位置」と、同協会会長の河野純氏(電算 代表取締役)は言う。それは「デジタル社会を実現する必須要素を足元から見直そう」という提案とも受け取れる。
日本データ・エントリ協会から、日本データ・エンジニアリング協会へ──「JDEAの略称をそのまま継承できるので」と、河野会長(写真1)は軽くいなすが、それが本当の理由とは思えず、冒頭で述べたような、より本質に向かうための提案だととらえられる。同日付けのニュースリリースには、「クリーン&トラストデータがデジタル社会・経済の基礎であることを、今こそ訴求すべきと判断しました」と改称の理由を説明している。クリーンは「正確な」、トラストは「信頼できる」の意味だ。
以前、よく似た主旨の記事を書いたことがあったな、と掘り起こしたところ、2020年4月本誌掲載の関連記事:CPSが導くデータ駆動型社会、「データのサプライチェーン」の安全をどう確保するかが出てきた。
意思決定がデータドリブンで行われるとき、そのデータが間違っていたり出所不明だったりでは、判断は根本からひっくり返ってしまう。データの「クリーン&トラスト」に注目したのは今に始まったことではない。改称を機にJEDAは、①データに関する超上流から利活用にかかる技術・ノウハウの体系化、②データ関連人材の育成、③データ関連コミュニティの形成──などを進めていくという。
「データの確からしさ」を構成する3レイヤ
図1は、JDEAの発表資料から引用したものだ。「Stray(野良)」とは、どこのだれが作ったのか、出所も根拠も裏づけも定かでないデータを意味している。実際には作成者や根拠があるのだが、援用する人が確かめないまま使っているケースもある。
Strayは論外として、この図から読み取ることができるのは「データの確からしさ」に3つのレイヤがあるということだ。灰色の円「Verifiable(検証可能)データ」は、IoTのデータ、不特定多数の個人が発信するデータだ。前者はセンサーやスキャナーなどで収集され、後者はスマートフォン向けアンケート、SNSのアクセスなどがそれに当たる。いわゆるビッグデータの主体を構成する。発信者が“なりすまし”でないことが確認できればいい。具体的には、登録済みのアドレスやURL、電話番号などだ。異常値は集約する際に丸められるので、多少の誤謬や揺れは許容範囲だ。
ところがビジネスとなると、人名や企業名、数量や価格は正確でなければならない。「Cleanデータ」(クリーム色の円)がそれに当たる。さらに生命・財産にかかるデータや行政機関のデータは、正確さだけでなくデータ作成者の信憑性が求められる。中央の赤い円「Trustデータ」に相当する。この2つの円がJDEAの守備範囲というわけだ。
続きは⬇️