b

[BOOK] 파이썬 라이브러리를 활용한 데이터 분석 O'Reilly 한빛미디어 본문

life/book

[BOOK] 파이썬 라이브러리를 활용한 데이터 분석 O'Reilly 한빛미디어

dev.bistro 2013. 10. 28. 11:40

http://www.hanb.co.kr/book/look.html?isbn=978-89-6848-047-8 

출판사의 링크에서 소개글을 읽어보면 누가 필요로 한지 말해준다. 개인적으로 담당하고 있는 시스템의 1-2억/DAY의 로그에서 좀 의미있는 데이터를 뽑아낼수 없을까 라는 생각으로 읽기 시작하였다.

최근 팀 세미나에서 대은님의 발표 ( 링크 )나, 지난  DEVIEW에서 링크드인의 김형진님의 발표 (링크)도 재미있게 들은 것도 이 책을 선택한 이유가 되었다.

1. 파이선을 잘 알아야하나?
결론부터 얘기하면 헬로우 월드를 찍을 정도의 실력이면 된다. (하지만 easy_install이나 pip를 이용한 라이브러리설치는 할 줄 알아야한다.)
파이썬에 자신이 없으면 부록에 있는 50페이지의 기본문법만 보더라도 이 책을 충분히 소화할 수 있다.  (50페이지면 충분하다) 그리고 6장까지 개발환경 IPython, 파이썬 라이브러리 Numpy, Pandas , 제일 기초적인 분석데이터를 어떻게 load할것인가에 대해서 Input/Output을  오차없이, 다양하게 보여줌으로서 나를 이해시켜줬다.

2. 왜 파이썬이었을까? 
메인을 Java와 Javascript였고, 파이썬은 프로토타입이나, 서비스 운영을 위한 스크립트 정도로 사용을 하였다.  http://codejob.co.kr/code/view/74나 http://www.itworld.co.kr/print/78477 처럼 왜 통계 / 분석분야에서 많이 사용되는지 이해를 하지 못했다. 겨우 라이브러리 몇개 잘 되어 있다고 대규모 데이터분석에 이용한다고?  근데.. 그 라이브러리가 너무 강력하다.. (물론 '등등'도 강력하다) 당장 4천만건의 로그에서 간단한 결과를 뽑아내는것도 단 몇줄이면 되었다...







7장 예제 결과

3. 경험을 줌으로서 필요성을 느끼게 한다.

중요한 알고리즘이나, 방법론을 설명하는 책은 아니다  2장부터 끝까지 예제를 계속해서 보여줌으로써, 눈이 아닌 손으로 익히게 해준다.  이 예제들을 본것으로 충분했다. 내가 필요한것을 하기 위해 기존의 Kepler에서 TestCase를 먼저 작성하거나, PyCharm을 켜놓고 고민하는게 아닌, IPython에 import numpy, pandas를 해야함을 깨우쳤다. 지금 하고 있는 일에 날개를 달아주는 느낌이다. 






ps1. 1장의  EPD 설치
2012년도에 나온 이 책의 1장 내용처럼  https://enthought.com/  들어가면 EPD 를 쉽게 찾을수 없다. 메인페이지에 보니, Canopy로 EPD가 reloaded 되었다고 하고 , Canopy Doc 에는 Canopy is the next generation of the Enthought Python Distribution (EPD) 이라고… 2013년에 1.0을 출시하였다 링크 

여차 저차 구글링을 해서 https://www.enthought.com/repo/free/ 에서 EPD free license를 찾아서 진행하였다. (뭔가 나쁜짓을 한거 같은 느낌이 ... )


ps2. pandas의 친절한 yahoo API
5장에서는 설명되지 않지만, 11장. 금융 관련 내용을 진행하다보면 pandas.io.data 패키지의 명령어 단 한줄로 yahoo에서 애플의 금융 정보를 불러온다. 해당 내용은 https://github.com/pydata/pandas/blob/master/pandas/io/data.py 에 있으며... 정말 친절한 라이브러리같다 -_-;  (이걸 스칼라나 그루비로 짜면 그나마 나은데, 자바로 짜면 이미 클래스가 몇개여... )


Comments