ここから本文です

東大とPFN、未知データをそのまま学習する「教師なし学習」AIを開発

6/29(木) 14:50配信

日刊工業新聞電子版

■正解が事前に分からないデータ、認識精度98%超

 東京大学大学院情報理工学系研究科の胡緯華(フウェイファ)大学院生と、プリファード・ネットワークス(東京都千代田区)の宮戸岳リサーチャーらは、手書き文字や数字のように、正解が事前に分からないデータを効率的に学習するAI技術を開発した。手書き数字認識の精度が98・4%と、別の研究グループの最高成績84・3%から誤差を10分の1に減らした。

 手書き文字認識の精度は70%だった。文字認識に限らず画像など幅広く活用できる。

 一般にAIは正解が分かっている大量のデータを事前に用意して学習させる。学習後に未知のデータを与えると、そのデータと最も近い正解群を選び判定する。今回、事前にデータを用意しないで、未知データをそのまま学習する「教師なし学習」で高い識別精度を実現した。

 開発したのは「IMSAT」というアルゴリズム。まずデータを種類(クラスター)に分類し、各データにノイズを加えても同じ種類に分類するように、深層学習した。

 するとすべてのデータを一つの種類に集める「圧力」がかかるため、元データからの情報量を増やすような圧力を別途かけさせた。この二つの工夫で複雑なデータも精度良く分類できるようになった。

 手書き数字認識では画像データを10種類に分け、各種類は0―9のどれかに該当するようにした。精度は98%。手書き文字認識は100種類分類で精度70%。データをコードに圧縮するハッシュ学習は97%だった。

 8月にオーストラリア・シドニーで開催の機械学習の国際会議(ICML)で発表する。