여러가지 자료들을 앞세워서 신뢰도있는 정보를 공개하고 있다.
하지만 이것을 일부 돈을 내는 선택된 유저만이 할수있는 것인가? 답은 아니올시다 이다.
이런 보물을 발견했을 뿐이다.
먼저 필요한 능력으로는, 어느정도의 엑셀을 다루는 능력과, 붙여넣기, 복사하기 콤보를 마스터하시면 되겠다.
그리고 http://gd2.mlb.com/components/game/mlb/ 이 주소를 기억하시라. 앞으로 피가되고 살이되는 주소다.
현재 메이저리그의 게임데이는 상당히 방대한 양의 정보를 쏟아내어 주는 덕분에 보는이로 하여금 상당한 즐거움을 주고 있다.
(비록 라이브로 보고있지 않다 하더라도.)
그리고 모든것이 플래시화 되버린 판에, 어떤 소스도 구할수가 없었는데, 이 방법은 그러니까 그들이 숨겨놓은 자료를 이용하여
우리가 원하는 자료를 빼내오는 방법이 되겠다.
필자는 2008년 4월 1일자 토론토-양키즈 경기의 왕첸밍 선수에 대한 투구정보를 뽑아오는걸 예로 들어 설명해 보고자 한다.
먼저 닷컴에 접속한다. 그리고 해당 경기의 게임데이의 주소를 알아내 보자.
먼저 아까 알려준 주소, http://gd2.mlb.com/components/game/mlb/ 로 가보자.
요러한 페이지가 뜰 것인데, 일단 year 2008/ 폴더로 가보자. 클릭~!
꽤나 다양한 폴더들이 있다. 우리는 4월 1일에 대한 자료를 볼 것이므로, month 04/ 폴더로 이동하고, 거기서 또 day 01/ 로 이동하도록 하자.
짜잔~~ 4월 1일 열린 모든 게임데이가 당신의 손안에 있다!
우리의 목표인
gid_2008_04_01_tormlb_nyamlb_1/ 요놈을 향해 가보자!
음...뭔가 많다...-_-;; 우리는 PBP로 이동하도록 하겠다. PBP는, PITCH BY PITCH의 준말이다. 투구별 로그를 보러 가는거다.
BATTERS, PITCHERS 폴더가 있을 것이고, 우리는 피쳐 폴더로 이동해 보자.
이게무슨...투수이름은 하나도 없고 6자리 주민등록번호만 나와있다..-_-;;;
이 7자리 번호는 각 선수의 고유 번호로, 번호를 알면 항상 원하는 데이터를 뽑아낼 수 있겠다.
선수 ID는 어디서 뽑아내는가? 그냥 닷컴의 선수 프로필 페이지로 가보자.
이건 왕첸밍의 프로필 주소인데, 빨간 네모안의 7자리 숫자가 바로 왕첸밍의 ID 되시겠다.
이제 왕첸밍의 선수ID를 알아냈으니 425426.XML을 열어보자!!
으음...그냥 보면 눈만아프니..이제 요놈의 주소를 가지고, 엑셀을 이용해서 깔쌈하게 추출을 해보자.
엑셀 -> 데이터 -> 새 데이터 가져오기 -> 새 웹 쿼리 를 실행한다.
"가져오기"를 눌러주십쇼...
그러면..뭐 이상한 메시지가 뜨는데 확인 눌르고 무시하자.
짜잔!! 이제 완성이다. 내가 필요한 데이터만 빼고 다 지워버리면...
이런 아름다운(???) 자료가 탄생한다.
이것으로 게임데이 추출(일종의 해킹같기도 하지만) 강의는 끝이다.
현란한 그래프는 외국사람들만 할수있는게 아니다. 열정과 여유시간만 있다면 항상 가능하다.
그럼...이만.(__)