ここから本文です

分析と機械学習を加速するDataOps

6/14(金) 9:00配信

TechTargetジャパン

 DevOpsのバリエーションの一つに「DataOps」がある。DataOpsは、新しいデータモデルの提供とデータのテストを素早く実行する方法だ。DataOpsにより、データ主導の戦略を構築する速度が向上する。

 DataOpsはDevOpsと似た方法で使われ、データモデルの構築、テスト、導入の速度を向上させる。その結果、組織は収集した顧客データから価値を引き出す時間を短縮できる。

 ビッグデータツールベンダーのTalendで技術製品マネジャーを務めるティボー・グルデル氏は次のように話す。「DataOpsは機械学習の登場をきっかけとする新しいアプローチだ。データの複雑さが増し、データのガバナンスや所有権に対するニーズの高まりが、DataOps誕生の大きなきっかけになっている。組織は、どのデータに誰がアクセスでき、そのデータを誰が所有しているかを把握する必要がある」

分析能力の向上

 DataOpsが効果を発揮するのが、中央のデータハブ、リポジトリ、管理ゾーンの作成とキュレーションだ。これらはアプリケーションデータとデータモデルの収集、照合後に分散するよう設計される。DataOpsの考え方の基盤となるのは、データ分析の大半は、メタデータレベルの分析を組織のITスタック全体に広く伝搬できるという考え方だ。これにより、より洗練された分析層を生み出すことが可能になる。

 データ統合ツールベンダーのTamrでデータベース部門のリーダーを務めるアンディ・パルマー氏は次のように語る。「DataOpsでは、データエンジニアリング、データ統合、データ品質、データセキュリティ/プライバシーそれぞれが本質的に結び付いていることを認める。分析速度が上がるデータを素早く提供できるようにして、今までは不可能だった分析を可能にするのがDataOpsだ」

 DataOpsは製品ではない。どちらかといえば方法論で、一つのアプローチだ。そのためDataOpsには理論家もいれば、反対論者も盲信者もいる。DataOpsはバージョン管理を使って継続的にテストを実施するために、データとデータモデルを提供できるようにするものだという意見もある。

 「DataOpsの目標は、以前は『丸投げ』というアプローチが取られていたところで価値を生み出す速度を上げることだ。データのパイプラインを用意して、一方から絶えず入ってくるデータを攪拌(かくはん)して有益な結果に変えるプロセスのことだ」と語るのは、デジタル運用管理プロバイダーPagerDutyのジョージ・ミランダ氏。

 DataOpsの重要な要件は、人間がデータを操作しやすくすることにある。構成自動化ツールベンダーのPuppetでエコシステムエンジニアリング担当バイスプレジデントを務めるナイジェル・ケルステン氏は次のように話す。「DataOpsという動きは、プロセスやツールだけでなく、人間にも注目する。データの収集と分析を自動的かつ極めて大規模に行うには、人間がかつてないほど重要になる」

 DataOpsの実践者、つまりDataOpsエンジニア(DOE)は通常、データ管理フレームワークの構築に注力する。優れたデータガバナンスフレームワークがあれば、データモデルを迅速に進化させることができる。優れたデータガバナンスフレームワークとは、具体的にはITスタック全体から生み出されるデータの重複を正確に排除して、定期的に供給するフレームワークだ。これにより、エンジニアは一貫したテスト環境を使って再現可能なテストを実行できる。このテスト環境には、データとプライバシーの法制度に準拠した方法で顧客データが取り込まれる。

 これが最終的にはデータモデルの開発、テスト、導入に継続的な好循環を生み出す。そう語るのはソフトウェア開発ツールベンダーRogue Wave Softwareでチーフアーキテクトを務めるジャスティン・レオック氏だ。「最新ビジネスは、全てその中核においてドメインデータを転送、分析、配置するコードが必要になる。これがエンタープライズフェデレーション、API間通信、ビッグデータ分析、ストリーム処理、機械学習、データサイエンスなど、全く新しいソフトウェア分野を生み出している。高度な環境ではよくあることだが、こうしたアプリケーションが複雑化、巨大化するとこれを収束させる必要性が生まれる。データのセキュリティ、整合性、アクセシビリティー、編成を調整して一つの考え方にまとめなければならない。その考え方がDataOpsになる」

 重要なのは、データにはライフサイクルがあるのを意識することだ。入念なDataOpsプロセスから生まれるデータモデルはデータライフサイクル全体を認識する。

 新しく、未加工で、構造化されておらず重要性が非常に低いと思われるデータもあれば、現在進行形で使用されていて恐らくミッションクリティカルなデータもある。冗長なデータや廃棄する必要があるデータも必ず存在する。アクセス管理ポリシーやシステムの非互換性により単純にアクセスできないデータもあるだろう。

 ビッグデータ関連ツールベンダーMapR Technologiesのシニアテクノロジストを務めるマイトシュ・シャー氏は次のように語る。「データ管理に包括的でオープンなアプローチを取ればDataOps優先の方法論が実現する。こうすると、データサイエンティスト、開発者、その他データを重視するスタッフのチームが、機械学習でトレーニングしたモデルを運用環境に導入することが可能になる。DataOps開発環境は、職務の能力の枠を超えたアジャイルなコラボレーションや、価値実現の高速化を促す」

後編(Computer Weekly日本語版 6月19日号掲載予定)では、DataOpsを実践する上での課題、DataOpsに有効な技術を解説する。

TechTargetジャパン

最終更新:6/14(金) 9:00
TechTargetジャパン

こんな記事も読まれています

あなたにおすすめの記事