Darknet YOLOv3で組込ベンチマーク環境構築

既に情報は多く、今更感もあるが、Darknet YOLO v3 で組込ベンチマーク環境を構築する手順をメモする。

目的:
AI処理を使っての、組込CPUでのオフロード(CPU負荷外出し)効果を検証するための環境構築手順を確立する。

オフロード先候補(興味無い順):
 ・GPU
 ・Neon 演算コプロセッサ
 ・RTプロセッサ(Xilinx MPSoC RPU)
 ・FPGAプロセッサ(MicroBraze, Nios)
 ・FPGA

まずは、私のホビーマシン(Core i7-4790 @3.60GHz / 16GB MEM / ubuntu 5.0.0-36-lowlatency)で検証する。あっさり5行、3分で終わってしまう。

git clone https://github.com/pjreddie/darknet
cd darknet
git checkout <hash値> ## 特定のコミットを使う場合
make
wget https://pjreddie.com/media/files/yolov3.weights  ## 80の物体を識別する重みファイル
./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg

備考:重みファイルはCOCO というフレームワークに基く80 thing classes の学習データと思われる。

結果:

Loading weights from yolov3.weights...Done!
data/dog.jpg: Predicted in 18.518765 seconds.
dog: 100%
truck: 92%
bicycle: 99%

predictions.jpgが結果を示す画像。AI初心者向け資料では高確率で登場するワンちゃんのようです。名前は何かな?
犬・自転車・トラックを認識するまでの時間:
 18〜21秒 (dog: 100%)/ Darknet hash:61c9d02
 7〜9秒 (dog: 99%)/ Darknet hash:f6d8617
* Kernelのバージョンアップで数値が少し変わるケースがある。

考察:
sudo chrt -r 50 ./darknet detect ... (ラウンドロビンで優先度増)で実行すると、数値が悪化かつ不安定となるのは興味深い。AI処理が直線的なのか?今回使ったUbuntu StodioはLow Latency (CONFIG_PREEMPT)がデフォルトで、メディアのリアルタイム処理には向いているが、AIの推論処理とは相性が悪い可能性が高い。
また、Darknetのコミットによって結果が大きく変わる様子を見ると、これは、オフロード実装の工夫や調整を頑張った分だけ成果になる感じがする。つまり、純粋にオフロードのトレードオフ評価を行うのは困難であり、適用先・条件等を狭くを絞った上でトレードオフしないと、意味が無さそう。

感想:
やばい、やばすぎる。時代に乗り遅れた感MAX!! CPU負荷の動きを見ていると改善余地が有りそうにも見えたが、そのネタも既にMakefile冒頭に仕込まれていた。。。_| ̄|◯

フォロー:
ガートナーのハイプ・サイクルによれば、エッジAI、まだ黎明期を脱したばかり。AI処理のオフロード/HWアクセラレートは、今後、組込エンジニアのお仕事となっていくのは間違い無さそう。AIを深く知る必要は無いが、AI組込/最適化のテクニックは要チェック。YOLOv3デモ動画を見ていると、馬と牛とラクダを区別しろとか、carだけ認識させろとか、いろいろ面白そうな要求が出て来そうだが、組込エンジニアのお仕事の本質はそこではなさそう。

関連:
1) 【FPGA】最強Ultra96ボードでAI「YOLO」高速化 - YouTube
2) YOLOv3 - YouTube
3) Darknet: Open Source Neural Networks in C