104 Views
October 22, 16
スライド概要
PyLadiesTokyo 2nd Anniversary party
池上有希乃です・・・†
続・本当にあった怖い話 - クローラ編 Yukino Ikegami 2016/10/22 PyLadies Tokyo 2nd anniversary
自己紹介 名前: 池上有希乃 Python歴: 6年 IO株式会社で みんなの顔文字キーボード 作ってます!
背景 機械学習でWebページのカテゴリを推定したい まずは学習用のデータ集めから 某検索APIを使ってWebページをtxt形式で収集する クローラを作って動かした Pythonで100行くらいの簡単な使い捨てクローラ 時間がかかるので回したまま退社
翌日……
出社したら 会社のMacにログインできない!? パスワード忘れたのかと何回やってもだめ どういうこと!?
なんとトロイが! 収集したサイトのうち1つにトロイの木馬が仕込ん であった! アンチウイルスソフトが反応して情シス部門が アカウントをロックしたらしい しかもアダルトサイトだったので二重につらい……
反省点 クロールしたデータはそのままじゃなくてDBに保存 するべきだった JavaScriptの部分を削るか本文抽出してから保存 するべきだった
まとめ 雑なクローラを回して迷惑をかけてしまった 使い捨てだからといって手を抜かない 検索APIを過信しすぎない