[DL輪読会]Learning to simplify fully convolutional networks for rough sketch

>100 Views

October 26, 16

スライド概要

2016/10/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

輪読:Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup 東京大学 経済学研究科 修士2年 篠原義明

2.

著者 シモセラ エドガー*, 飯塚里志* 前回発表した自動彩色の論文と同一 http://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/

3.

選定理由 • 目的:線画の自動抽出 • 絵を描く人間にとってラフから線画を起こすのは大変。 • ただのルーチンなので自動化したい この論文のモチベーションも同じ!

4.

先行研究:手法別 • 絵を描いてる間に線の描かれた順番で線画を抽出する。 • 線の順番がわからないものには適用できない。 • 不要な線を削除する。 • 線を加えられない+短い線の集合で長い線が描かれる場合に対応できない。 • 線をグルーピングして新しい線を追加できる手法 • ベクター画像にしか対応していない • ラスタ画像に対する研究もある • ラフ画像から線を抽出したり、本番環境に近い入力に対応はしていない。 • DLを使ったもの • 最も似ている[Noh et al. 2015]の手法は一片が224倍の画像しか受け取れない。

5.

新規性 1. ラフスケッチのラスター画像から線画を抽出 2. 新たなデータセット(の作り方)を提示

6.

予備知識 グレースケール画像: 各ピクセルには輝度が入る 輝度は[0,1]で1に近いほど黒い ラフ画像からきれいな線を抽出することを 線画抽出、ペン入れ、クリンナップ等と呼ぶ

7.

提案手法と商用製品の比較 入力 提案手法 最もよく見える!

8.

使用した手法 • CNN • Batch normalisation • ADADELTA • 3x3 convolution kernels • 深いCNNも小さなconv. filterを使うことで学習可能 • No explicit pooling • Max-poolingの代わりにconv. Layerが使える (poolingを使っても必ず性能が良くなるわけではない) *安全策として使用?

9.

モデル1/3

10.

モデル2/3 3x3を主に使うことでパラメータ 数を5x5に比べて削減 ダウンサンプル ReLU ゼロパディング (1 strideでサイズを保つ用) サイズを丁度倍にするために 4x4を使用 アップサンプル Sigmoid 出力を[0,1]のグレースケールにする

11.

モデル3/3 最終的な出力に対して[Sleinger 2003]のソフトを用いベクター化

12.

損失1/3 出力 目標 Loss map アダマール積(要素毎の積) アダマール積によりLoss mapの値が小さい所の重みが減る Loss mapの選び方は最終的な結果には影響しないが学習を早くしてくれる フロベニウスノルム:行列の各要素をベクトルと見做したときの2-ノルム i.e. 行列の各要素を二乗して総和を取った後にルートを取ったもの

13.

損失2/3 Loss Mapを導入することで太い線の 重要性を減らしたことで学習が早くなった。

14.

損失3/3 Loss map [0, 1) (u, v)ピクセルを中心としてdピクセル内にあるピクセルのヒストグラムを bin = bとして描く。この時(u, v)ピクセルが入るbinの高さをH(I, u, v)とする。 *この式の嬉しさは?

15.

損失3/3 b=2 d px 確率 (u, v) 0.7 0.3 H(I, u, v) = 0.3 u 画素値 実際にはα=6, β=-2, d =2, b=10を使用 v *平均とか最頻値ではダメなのか?

16.

データセット1/2 右列がTrue 5人によって描かれた68枚の画像 画像サイズ Height x Width (px) Min 630 x 630 Mean 1280 x 1662.7 Max 2416 x 3219

17.

データセット2/2 • ラフを人間がペン入れすることで教師を作ると違う線が引かれ るたり新たな線が描かれたりする • これに対応するためクリンナップされた絵からラフを作成

18.

学習とオーグメンテーション1/2 • データセットを 7/6, 8/6, 9/6, 10/6, 11/6, 12/6, 13/6, 14/6にダウンスケール *アップスケールではなく? • [0, 1]の値の内0.9未満は0にしてトーンを整える • ランダムに+-180度回転と水平方向に反転 • 424 x 424のパッチを画像の面積比でそれぞれの画像から毎回ランダムに抽 出 • 確率0.1で入力を正解(クリンナップした線画)に変えてキレイな線は変 更しないように学習させた

19.

学習とオーグメンテーション2/2 フォトショップでトーンを変えたり、不鮮明にしたり、ノイズを追加することで スキャナにかけたときのノイズなどに対して頑健にした。

20.

評価1/3 先行研究との対比 ベクター画像を入力 ラスター画像を入力 前処理なし

21.

評価2/3 商用製品との比較(再掲)

22.

評価3/3 ユーザースタディ: 15枚の画像を19人(内10人は絵を描いた経験がある者)の被験者に見せた。 1~5で絶対評価 二種類を同時に見せて どちらが良いかを評価

23.

応用:線画の簡略化 画像をダウンスケールすることで線画を簡略化可能 アップスケールで精細に *アップスケール→元画像を拡大しているならノイズを拾っているだけなのでは?

24.

自分の絵に対してテスト1/2

25.

自分の絵に対してテスト2/2 *カメラ撮影なので影がノイズと認識された?

26.

この論文を本当の理由 • 「ラフ画を描いたらパソコンにペン入れから彩色迄やらせるこ とは可能か?」を試したかった。 • 別名「でえぷらあにんぐでくりえいてぃぶなことできないかな作戦」 1. 2. 3. 4. 本論文の手法で線画化 自動彩色(全回輪読) ロシアのやつで画風をつける Waifu2xで拡大 ディープラーニング!

27.

結果:彩色の部分で失敗 原画 自動線画化 *自分の絵 自動彩色 *・線画の抽出はそれなりに上手く行ったが 影部分はノイズと見做されて落とされた *・濃淡が消えるので色をつけるための文脈が 消えた? *・写真じゃなくて絵で学習させれば上手く いくのかも

28.

感想 • 人によって線に個性があるのでこれで完全に代替できるもので はないと感じる • ラフと言ってもキチンとスキャナにかけないとダメ (3つ前のスライド参照) • 機械に下絵を与えればキレイな絵を吐き出させるのもその内で きそう・・・ EOP

29.

Appeindex 計算時間 [Liu et al. 2015]は線の多さにもよるが分単位の時間がかかる