AIの品質を確保するためのデータ基盤、データ契約モデルを探る

2020.01.06

日本マイクロソフト 田丸 健三郎

 2019年は実に様々なスタートアップ、企業、公的機関がAI分野に更なる研究投資を行った。その中でも2016年に設立された杉山将先生が率いる革新知能統合研究センター(理化学研究所)は、基盤研究から社会問題の解決まで様々な分野に取り組み、成果を上げている組織の一つと言える。

 杉山先生をはじめとする研究者の多くが挙げる課題に人材とデータの不足がある。人材については既に多くの媒体が取り上げ初等教育から大学教育に至る様々な問題が指摘されている。理工系学生の比率が5割を超える米国に対し、日本は約2割となっている中で、容易にはAI人材を増やすことが出来ない構造的な問題も1つではなかろうか。

 データも問題だ。個人情報保護法による国民の個人情報に対する意識の高まりと反比例するように、日本国内ではデータの収集が難しくなっている。AIはアルゴリズムだけでは何も実現することが出来ない。データによる学習があって始めてその形を成すことが出来る。(アルゴリズム、学習モデルなどの技術的詳細は本稿では触れない。)

 また、AIの品質は、アルゴリズムは当然のことながら、学習に用いるデータの品質に大きく左右される。音声認識のAIもより多くの音声データを収集し、学習させることによりその品質を向上することが可能となる。国の研究機関、AIベンダーも、音声データの収集には苦労しており、比例して高齢者、方言に対する音声認識精度は一向に向上しない。高齢化や人手不足に直面し、AIへの期待が高い領域ほどデータが無い状況となっている。

 一方でAIとデータには知的財産と製造物責任に関する課題も存在する。従来のデータ取引はAIを想定していない。マーケット分析、品質分析など得られた知見をレポート、可視化する事でその役割を終える。しかし、AIの場合は、データが形を変え学習モデルとして永続し、データが副次的な価値を持つともいえる。

 1,000円で販売したデータを用いたAIが、数千万円のビジネスの源泉になる可能性もあるわけだ。似た特性を持つものに技術特許がある。技術特許は、一般に商流(販売経路、技術を提供する対象、対象の数および販売価格など)により契約、価格が異なる。製造物責任も難しい問題の一つだ。

 先に述べたようにAIの品質は学習に用いるデータに大きく左右される。標準語を話す20~30代のデータが多ければ、当該ドメインのAI品質は向上するが、高齢者、方言のデータが少なければ対象ドメインのAI品質は向上しない。AIを公的サービスに用いる場合、公平なサービス提供と偏りの少ないデータは重要なテーマと言える。

 製造物責任も非常に厄介な問題だ。例えば、悪意ある作業者により悪意あるアノテーション(例えば、画像中のオブジェクトに対するラベル付け)がなされていた場合、それを学習したAIの品質はリスクを抱えたものとなる。

 車を人、ナイフをペン、線路を横断歩道とラベルされた画像を学習したAIを用いたサービスを視覚障碍者に提供した場合どのようなリスクが想定されるのか。サービスの品質保証、製造物責任の観点から、データ流通、アノテーション作業者のトレーサビリティなどデータ基盤、契約に求められる要件は多岐に渡る。

 残念ながら、先に述べた課題に応えるデータ基盤、データ契約モデルが現時点では存在せず、AIリテラシーの高い事業者ほどデータを提供しない悪循環に陥っている。

 幸いな事に、研究者、公的機関が中心となり、AIデータ活用コンソーシアムが設立され、これらの諸問題に取り組んでいる。日本電子出版協会もコンソーシアムの協働パートナーとなっており、価値あるデータを持ち、ビジネス活用を検討する日本電子出版協会の会員にとっても今後の活動、成果に期待したい。