133 Views
October 22, 16
スライド概要
PyLadiesTokyo 2nd Anniversary party
池上有希乃です・・・†
続・本当にあった怖い話 - クローラ編 Yukino Ikegami 2016/10/22 PyLadies Tokyo 2nd anniversary
自己紹介    名前: 池上有希乃 Python歴: 6年 IO株式会社で みんなの顔文字キーボード 作ってます!
背景  機械学習でWebページのカテゴリを推定したい  まずは学習用のデータ集めから 某検索APIを使ってWebページをtxt形式で収集する クローラを作って動かした  Pythonで100行くらいの簡単な使い捨てクローラ   時間がかかるので回したまま退社
翌日……
出社したら  会社のMacにログインできない!?   パスワード忘れたのかと何回やってもだめ どういうこと!?
なんとトロイが!    収集したサイトのうち1つにトロイの木馬が仕込ん であった! アンチウイルスソフトが反応して情シス部門が アカウントをロックしたらしい しかもアダルトサイトだったので二重につらい……
反省点   クロールしたデータはそのままじゃなくてDBに保存 するべきだった JavaScriptの部分を削るか本文抽出してから保存 するべきだった
まとめ  雑なクローラを回して迷惑をかけてしまった   使い捨てだからといって手を抜かない 検索APIを過信しすぎない