続・本当にあった怖い話 クローラ編

104 Views

October 22, 16

#lt

スライド概要

PyLadiesTokyo 2nd Anniversary party

profile-image

池上有希乃です・・・†

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

続・本当にあった怖い話 - クローラ編 Yukino Ikegami 2016/10/22 PyLadies Tokyo 2nd anniversary

2.

自己紹介    名前: 池上有希乃 Python歴: 6年 IO株式会社で みんなの顔文字キーボード 作ってます!

3.

背景  機械学習でWebページのカテゴリを推定したい  まずは学習用のデータ集めから 某検索APIを使ってWebページをtxt形式で収集する クローラを作って動かした  Pythonで100行くらいの簡単な使い捨てクローラ   時間がかかるので回したまま退社

4.

翌日……

5.

出社したら  会社のMacにログインできない!?   パスワード忘れたのかと何回やってもだめ どういうこと!?

6.

なんとトロイが!    収集したサイトのうち1つにトロイの木馬が仕込ん であった! アンチウイルスソフトが反応して情シス部門が アカウントをロックしたらしい しかもアダルトサイトだったので二重につらい……

7.

反省点   クロールしたデータはそのままじゃなくてDBに保存 するべきだった JavaScriptの部分を削るか本文抽出してから保存 するべきだった

8.

まとめ  雑なクローラを回して迷惑をかけてしまった   使い捨てだからといって手を抜かない 検索APIを過信しすぎない