DIPS - Defense Independant Pitching Stats
by Voros McCracken
다음 두 투수의 성적을 보자.
(BFP : 상대한 타자 수)
|
투수 |
승 |
패 |
방어율 |
투구이닝 |
피안타 |
피홈런 |
볼넷 |
사구 |
삼진 |
HBP |
BFP |
|
애런 실리 |
18 |
9 |
4.79 |
205.0 |
244 |
21 |
70 |
3 |
186 |
12 |
920 |
|
호세 로사도 |
10 |
14 |
3.85 |
208.0 |
197 |
24 |
72 |
1 |
14 |
5 |
882 |
자, 누가 더 잘 던졌다고 할수 있을까?
내가 무슨말을 하려 하는지, 당신은 대충 예상하고 있을 것이다.
‘아마도 승/패라는게 별 의미없는 거라고 할 또다른 녀석이군..’
그렇다. 내가 말하고자 하는 바는 이렇다.
more..
“스 포츠 기자들과 사이영상 투표 관련자들은 승/패 기록에 너무 연연하는 경향이 있다. 그래서 애런 실리보다 호세 로사도가 더 잘 던졌다고 보여지는 상황임에도, 투표자들은 애런 실리쪽으로 기울었다. 로사도는 실리보다 거의 1점 가까이 낮은 방어율을 기록했는데 말이다. 그리고 로사도는 3이닝 더 던지고 52명이나 적게 내보냈다. 스포츠 기자들은 승/패라는 것이 얼마나 당 시즌의 득점 지원에 의존하는 의미없는 기록인지 아직도 충분히 이해하지 못하고 있다. 그러면서도 방어율에 대한 가중치는 높게 두고 있다. 어쨌든 애런 실리가 로사도보다 많은 득표율을 기록했지만.”
이와 비슷한 말과 글들을 여러번 들어보았을 것이다. 나도 저 말의 많은 부분에 공감이 간다. 그래서 만약 당신이 나에게 누가 더 나은 투수였냐고 물어본다면, 나는 확실히......
......애런 실리라 답할 것이다.
그렇다, 내가 생각해본 바로는 실리는 로사도 뿐만이 아니라 AL에서 3손가락 안에 드는 투수이다. 믿거나 말거나, 내가 이렇게 생각하게 된 데에 실리의 승/패는 전혀 영향을 주지 않았다.
내 가 이런 결론에 도달하게 된 것은, 내가 DIPS라 부르는 어떤 스탯 때문이었다. DIPS또한 다른 모든 스탯들과 동일한 종류의 성적들을 사용하지만, 단지 이것들을 중립적인 구장, 리그, 그리고 수비가 있는 상황에서 적용한다는 점이 다르다. 그렇다면 어떤 기록들이 과연 투수 뒤에 있는 수비진과 독립적으로 이루어지는 것일까? 아마도 BFP(투수의 표준 출장 시간정도로 생각하면 되겠다.), 피홈런, HBP, 볼넷, 사구 그리고 삼진(때때로 외야수들이 홈런성 타구를 잡아내기도 하지만, 그것이 통계적 숫자로 자리잡기 에는 턱없이 부족한 숫자라고 판단했다.) 정도가 있을 것이다. 이게 전부이며, 나는 이 기록들만을 사용해서 DIPS를 계산해 낼 것이다. 그리고 DIPS를 계산해내는데 전혀 상관이 없는 기록들은 승, 패, 방어율, 투구이닝, 자책점, 그리고 가장 논쟁거리인 안타이다. 그렇다, 아래에서 피안타를 DIPS공식 내에 사용할 일은 좀처럼 없을 것이다.
아 마도 나의 주장을 잠시 멈출 필요가 있을 것 같다. 지금쯤이면, 최소한 하나 정도의 문장에 대해서라도 나의 주장에 반론을 제기할 사람이 있을 것이고, 또 이 이론을 믿지 않는 사람이 생겼을 것이다. 글 자체가 이미 쌍방향이 아닌 일방적인 의사소통 방식이라서, 내 이론에 대한 설명을 잠시 멈추고 예상되는 논쟁거리에 대한 변론을 좀 하도록 하겠다.
“야구 경기에서 수비가 공을 제어하는 양에 대해서, 당신은 너무 높은 가중치를 두는게 아닌가? 안타라는게 보통 수비와 관계없이 일어나는 것들이 많고, 그렇기 때문에 안타도 투수의 능력에 포함되어야 할 것 같다.”
“안타를 제외시키는 것은, 삼진을 많이 잡는 투수들에겐 너무나도 유리한 방식이고, 또 안타를 많이 내주고 더블플레이로 아웃을 잡아가는, 즉 맞춰잡기식 투수들에게는 또 그만큼 불리한 방식이 아닌가?”
“내생각에는 팀 전체의 수비 평균을 DIPS에 적용하는게 낫지 않나 싶다.”
이런 의견들이 있을 것이다.
나 도 이런 말들을 많이 들어왔고, 내가 왜 저 의견들에 동의할 수 없는지 숱하게 설명해 왔다. 투수가 허용한 피안타를 그의 성취도에 포함시키지 않는 것은 어떤 야구 모임에서도, 심지어 세이버 매트리션 계에서도 많은 지지를 받지 못하고 있다. 최근에 가장 각광받는 이론이 빌 제임스의 Component ERA인데, 그 스탯 자체가 피안타에 굉장히 높은 의존도를 보인다. 하지만 내가 여기서 강조하고자 하는 점은, 왜 피안타가 투수를 평가하는 지표에서 제외되어야 하는가 하는 것이다. 미리 경고하건대, 아래의 글에는 상당히 긴 수식과, 많은 스탯들이 나열되어 있다. 세이버 메트리션에 관심이 있거나 통계 기록에 관심이 있는 사람이라면 계속 읽었을 때 뭔가 얻어갈 것이 있을지 모르지만, 그렇지 않은 사람이라면 여기서 그만 읽어주기 바란다. 참고로, 다양한 피칭 스탯에 대한 높은 이해도가 요구되는 글이기도 하다.
지금부터 내가 하려고 하는 것은 98-99시즌동안 시즌 당 162이닝 이상 소화한 투수들을 그룹으로 만드는 것이다.(60명이 사정권 안에 들어왔다.) 몇가지 비율 스탯을 정의함으로써 시작하기로 하겠다. 기존 스탯들 중에서는 IP, H, HR, BB, SO만이 사용될 것이고, 위에서 말한 BFP가 포함되지 않는 이유는 당장 여기서 쓸 목적은 아니기 때문이다. [BFP = ((IP*3)+BB+H)]라 는 공식으로 BFP를 다시 산출할 것이다. 후에 비교를 위해 애런 실리와 호세 로사도의 DIPS를 산출할 때에, 우리는 조금 더 복잡한 공식들을 사용할 것인데, 그 때에 HBP와 고의사구과 연관되는 실제 BFP를 쓰게 될 것이다. 비율(K/BB 등의) 스탯들은 단지 DIPS에 필요한 시즌-시즌간 연계성을 도출하기 위해 쓰일 것이다.
$BB = BB/((IP*3)+H+BB) :
이 스탯은 투수가 한 시즌동안 자신이 상대한 타자 몇 명당 하나의 볼넷을 기록했는 가를 가늠하는 수치이다. 분명히 후반기 실제 BFP는 이 등식에서와 정확히 들어맞지는 않을 것이다. 하지만 확신하건대, 거의 이 등식은 투수의 표본이 크면 클수록 점점 실제 BFP에 가까워진다고 말할수 있다.
$SO = SO/((IP*3)+H) :
이 스탯은 투수의 공이 얼마나 치기 어려운가 하는 것을 가늠하기 위해 고안되었다. 타자들이 쳐낸 공에 대비해서, 투수가 삼진을 잡아낸 비율 정도로 해석할수 있겠다.
$HR = HR/((IP*3)+H-SO) :
안타로 이어진 공중 홈런으로 이어진 것의 비율을 나타낸다.
$H = (H-HR)/((IP*3)+H-SO-HR) :
타자들이 쳐낸 공 중에, 홈런을 제외한 안타가 나온 비율이다. 이 스탯이야말로 우리가 논의하고 있는 DIPS의 핵심이 되는 것이며, 평가의 척도 중 가장 큰 비중을 차지한다.
(매번 약어들이 나올때마다 설명하기가 귀찮았던 관계로, 미리 약어에 대한 설명을 붙였다.)
내가 조사한 것은, 1998 시즌 표본에 있는 선수들이 기록한 $비율 시리즈와, 또 똑같은 투수들이 99시즌에 기록한 $비율 들이다.
예 를 들어, Andy Benes의 $BB는 98시즌 0.75였으나 99시즌 0.92였다거나 하는 것들 말이다.(이 비율들이 단지 간편함을 위해 조정되는 것이 아니라는 것을 알아두기 바란다.) 이 스탯들은 98시즌과 99시즌 사이 각 투수의 꾸준함을 매기기 위한 선형 분석에 사용될 것이다. 연관성은, 각각의 스탯들을 살펴봄으로써 알수 있을 것이다.
ex)
$BB = .681
$SO = .792
$HR = .505
$H = .153
당 신이 야구를 좀 알고, 또 기록을 잘 이해하는 사람이라면, 저런 숫자들에 끌릴 것이다. 숫자들이 클수록, 서로가 가지는 연관성 또한 커진다. 그래서 위의 세가지 스탯 중, 정상($HR)인 것부터, 아주 좋은($SO) 것이 있다. 다른 하나의 스탯($H)은 나머지 세 개와 아주 적은 연관성을 가진다. 투수 대부분이 같은 수비진을 등에 업고 같은 구장에서 투구를 했다고 고려하기 때문에(조정 넘버를 사용하지 않기 때문에), 어떤 이들은 스탯들 사이의 연관성이라는 것 자체에 의문을 제기할 수도 있다.
이 게 의미하는 바는 무엇인가? 만약 어떤 투수가 한 시즌 아주 낮은 $H를 기록했다고 해서, 다음 시즌에도 비슷한 비율의 $H를 낼 것이라는 기대를 하기는 어렵다는 것이다. 그러나 어떤 선수가 굉장히 높은 $SO비율을 기록한다면, 다음 해에도 그에 필적하는 $SO비율을 기록할 것이라는 예상을 할 수는 있다. 내가 이것을 얼마나 중요하게 생각하는지 여러분에게 설명해줄수 없는 것이 안타깝다. 잠깐만 생각해보자. 만약 당신이 알고있는 기록 수치들이 실제로 미래, 즉 다음 시즌의 성적에 대하여 가지는 의미가 없다면, 그 기록들에 얼마나 높은 가치를 매길수 있겠는가? 다시 말해서, 애런 실리의 시즌 득점 지원율이 7점에 육박했다는 이유로, 물론 그의 역할도 있었겠지만, 실리에게 높은 평가를 하진 않는다. 물론 그 득점들은 실제로 존재하고 또 가치있는 것들이지만, 실리가 좋은 투수라고 할 만한 근거는 되지 않는다. 내 소견으로는, 안타 허용 또한 이와 동일 선상에 놓고 봐야 한다.
내가 생각하던 선형적 추세분석과 실례들을 벗어나기 위해서, 다음을 제시한다. :
1998, 1999시즌 $H가 낮았던 10명의 투수(순서대로)
1998 : Hideki Irabu, Pete Harnisch, Woody Williams, Kenny Rogers, Greg Maddux*, David Wells, Dustin Hermanson, Brian Moehler, Al Leiter, Tom Glavine
1999 : Kevin Milwwod*, Omar Daal, Masato Yoshii, Curt Schilling, Pete Harnisch, Bartolo Colon, David Cone, Rick Helling, Eric Milton, Kevin Brown
내가 *표를 한 선수들이 보일 것이다.(매덕스와 밀우드) 나는 이들이 저 리스트에 있었다는 것을 당신이 기억하고 있길 바란다.
단 한명의 투수, Pete Harnisch만이, 두 시즌 연속 탑 10 목록에 올랐다. 만약 $시리즈가 정말 투수의 실제 능력과 전혀 관계없는 수치들이라면, 나에 반대하는 사람들은 좀더 많은 선수가 연속 리스트에 올라갈 것이라 생각하지 않았을까?
98,99시즌 $H가 가장 높은 10명(순서대로)
1998 : Aaron Sele, Shane Reynolds, Brian Meadows, Scott Erickson, Pedro Astacio, Randy Johnson, Mike Sitrotka, Kevin Milwood*, Brad Radke, Darryl Kile
흥 미로운 기록이다. 99년에 밀우드는 투수들중 가장 낮은 $H비율을 보였는데, 98년에는 가장 높은 비율 탑 10에 들어있다. $H가 투수 능력이 반영되는 수치라면, 말이 된다고 생각하는가? 마크 맥과이어가 리그에서 HR%로 리그 최하위를 한 적이 있었나? 레이 오도네즈가 HR%로 리그 수위를 기록한 적이 있었나? 그리고 연년으로? !!!!! 계속해보자.
1999 : Aaron Sele, LaTroy Hawkins, Jon Lieber, Greg Maddux*, Pedro Martinez, Shane Reynolds, Pedro Astacio, Steve Woodard, Livan Hernandez, Charles Nagy
같 이 *마크를 해놓았던 매덕스가, 밀우드와 정반대의 상황을 만들었다. 98년 5번째로 낮은 넘버를 기록한 선수가, 99년에는 4번째로 높은 리스트에 올라있다. 다시 말하면, 연년으로 동일한 기록에 이름을 올린 선수가 한명, 연년에 서로 반대의 기록에 이름을 올린 선수가 2명이다. 애런 실리(이 이야기의 주인공이기도 한), 쉐인 레이놀즈, 페드로 아스타시오(아마도 이 선수는 쿠어스 구장 효과가 아니었을까 싶다.)등은 물론 같은 리스트에 연년으로 이름을 올렸다. 그러나 페드로 마르티네즈가 99년 $H리스트에 있는게 다소 의외일수도 있을 것이다. 페드로는 당연히 99년 가장 “UNHITTABLE"한 선수중 하나였다. 그러나 사실 타자들은 페드로의 공을 쳐냈고, 다수의 공이 안타로 연결되었다. 당신이 예상했던 결과인가?
다 른 부분의 스탯들은 좀더 많은 설득력을 가진다. $BB에 있어서, 7명의 투수들이 2년 연속으로 가장 낮은 $BB 리스트에 올랐다. 5명의 투수들이 2년 연속으로 가장 높은 $BB리스트에 올랐으며, $H에서의 밀우드나 매덕스 같은 경우의 선수는 한명도 없었다.
$SO에 있어서, 5명의 투수들이 2년 연속 가장 높은 비율 리스트에 있었고, 6명이 2년 연속 가장 낮은 비율 리스트에 올랐다. 또, 매덕스/밀우드 케이스는 한명도 없었다.
$HR 분야에서, 4명의 투수가 가장 높은 $HR 탑 10에 올랐고, 4명이 가장 낮은 $HR 탑 텐에 2년 연속으로 올랐다. 1998년 $HR이 가장 낮았다가(10위), 199년 가장 높은 $HR(5위) 순위에 오른 선수가 있었는데, 바로 수수께끼의 선수 박찬호다.
즉 최소한 2개의 기록, 좀더 넓혀서 3개의 기록은, 다음 해 투수의 추세를 유추해 내는데 도움이 된다고 생각해볼수 있는 것이다. 하지만 $H에 있어서는 이런 결론을 내기는 어렵지 않나 생각한다.
실 제로, $H는 상당히 이상한 점이 있다. 나는 조사를 할때, 삼진에 대한 부분에 대한 것은 위에서 이미 끝났다고 생각했었다.(한 시즌 전체로 생각해보면, 총 아웃에 비해 삼진수는 그다지 크지 않다. 대부분의 투수들이.) 하지만 “삼진”이라는 간접적인 스탯이 안타 허용 즉 $H에 직접적인 영향을 끼치고 있었다.(페드로 마르티네즈, 랜디 존슨 같은 선수들은, 자신이 잡아내는 아웃 중 삼진이 큰 비중을 차지하므로, 당연히 필드로 나간 공 중 안타의 비율이 타 선수들에 비해 높을 수밖에 없다. - 실제 피안타율은 낮음에도 불구하고.)
이 러한 연관성은 DIPS의 기본 바탕을 이룬다. $BB, $SO, $HR에 대하여서는 좀더 정확한 수치를 계산하여 DIPS를 산출하려 했으나, 여전히 $H에 대해서는 회의적이다. 물론 안타가 득점으로 이어질 만큼 중요한 것이긴 하나, 이 안타라는 것은 과연 투수가 얼마나 제어할수 있는 것인지가 의문이라는 것이다. 차라리 안타를 못 치게 하는 것은 투수의 능력 하에서 조절되지만 말이다. 랜디 존슨이나, 페드로 마르티네즈는 $H비율이 가장 높은 선수들 중 한명이지만, 이것은 이 선수들이 공을 주구장창 한복판으로 던져서 그런 것이 아님은 누구나가 알고있는 사실이지 않은가? 그들은 [삼진]이라는 또다른 형태로 아웃 카운트를 늘려 나가고 있는 것이다.
DIPS 산출과정
그러면, 다시 실리와 로사도, 그리고 DIPS 산출 방법으로 돌아가자. DIPS를 구하기 위해서, 다음과 같은 과정들이 필요하다.(대부분의 스탯들은 이미 설명한 것들이지만, 이미 말했듯 좀더 복잡해질 것이다.)
기 본적으로 BFP와 HP를 사용한다는 것에는 변함이 없다.(만약 로사도와 실리가 서로 다른 리그에 있었다면 우리는 [리그 조정 수치]를 써야 하겠지만 두 선수 모두가 AL에 있었으므로 이런 과정은 필요가 없었다. - AL과 NL의 큰 차이인 [지명타자 제도]는 투수들의 퍼포먼스에 큰 작용을 한다.)
|
투수 |
BFP |
HP |
|
애런 실리 |
920 |
12 |
|
호세 로사도 |
882 |
5 |
이제 사사구 총계(Walk Totals)를 구해보자. 먼저 고의사구를 총 사사구에서 뺀 후, 투수의 (BFP-HP-IBB)로 나눈다.
실리 : (70-3) / (920-12-3) = .07403
로사도 : (72-1) / (882-5-1) = .08105
이것을 각 투수가 홈으로 쓰는 구장이 볼넷에 미치는 영향을 곱한다.(이하 파크팩터)
실리 : 0.07403 * .995 = .07366
로사도 : 0.08105 * 1.007 = .08162
아마 이 글의 끝까지 [파크 팩터] 때문에 논쟁이 계속될 것인데, 나는 Tom Fontaine이 제공한 파크 팩터를 이용했다.(http://www.stathead.com) 하지만 어떤 파크팩터를 사용해도, 큰 변화는 없을 것이다.
이제 이 수치를 다시 (BFP-HP-IBB)로 곱하도록 하겠다.(필요하다면 리그 조정수치를 곱하도록 한다.) 또 이 수치를 리그 평균 (TBB / (TBB-IBB)) 비율인 1.0544로 곱한다.
실리 : .07366 * (920-12-3) * 1.0544 = 70 = TBB
로사도 : .08105 * (882-5-1) * 1.0544 = 75 = TBB
이까지 한 것을 다시 종합하면,
|
투수 |
BFP |
HP |
TBB |
|
애런 실리 |
920 |
12 |
70 |
|
호세 로사도 |
882 |
5 |
75 |
이 제 삼진수로 넘어가자. 계산 과정이 거듭될 수록, 원래의 수치와는 다소 다른 수치들이 생겨날 것이다.(감소하기도 하고, 증가하기도 한다.) 기본 아이디어는 되도록 원래 각 비율 넘버들을 실제 백분율과 가깝게 유지한다는 것이다. 이를 위해서는 스탯간의 상호 의존성이 필수이다. (예를 들면 볼넷이 많은 투수는 다른 스탯이 그리 큰 비율을 차지하지 않을 것이라던가 하는 것 말이다. - BFP는 정해져 있고, 그 안에 SO, H, HR이 포함되어 있기 때문.)
삼진 비율만을 구하기 위해, 원래 삼진수 / (BFP - HP - TBB(이미 적용된 것들은 뺀다.))를 구하기로 한다.
실리 : 186 / (920-12-70) = .22196
로사도 : 141 / (882-5-72) = .17516
파크 팩터를 곱해주자.(각 구장이 삼진에 미치는 영향)
실리 : .22196 * 1.0384 = .23048
로사도 : .17516 * 1.0466 = .18332
이제 DIPS TOTAL(BFP - HP - TBB)를 곱하는 것이 중요한 열쇠다. DIPS 토탈이 큰 폭으로 왔다갔다 한다면, 후의 보정시에도 영향을 미치게 된다.
실리 : .23048 * (920-12-70) = 193 - DIPS SO
로사도 : .18332 * (882-5-72) = 147 - DIPS SO
다시, 지금까지의 DIPS 는,
|
투수 |
BFP |
HP |
TBB |
SO |
|
애런 실리 |
920 |
12 |
70 |
193 |
|
호세 로사도 |
882 |
5 |
75 |
147 |
이제 홈런으로 넘어가자. 실제 홈런수 / (BFP-HP-TBB-SO)를 하도록 한다.
실리 : 21 / (920-12-70-186) = .03221
로사도 : 24 / (882-5-75-141) = .03614
파크 팩터(구장이 홈런이 끼치는 영향)을 곱한다.
실리 : 0.03221 * 0.9867 = 0.03178
로사도 : 0.03614 * 1.0384 = 0.03753
다시 우리의 DIPS(BFP-HP-TBB-SO)로 곱해준다.
실리 : 0.03178 * (920-12-70-193) = 20 - DIPS HR
로사도 : 0.03753 * (882-5-75-147) = 25 - DIPS HR
이제 다시, DIPS는,
|
투수 |
BFP |
HP |
TBB |
SO |
HR |
|
애런 실리 |
920 |
12 |
70 |
193 |
20 |
|
호세 로사도 |
882 |
5 |
75 |
147 |
25 |
실 리와 로사도의 기본 스탯(Raw Stats)를 구하는 과정은 끝이다. 나머지 과정은, [리그 평균]을 이용하게 될 것이다. 위의 스탯들은, 수비의 영향을 받지 않은 투수의 기록들이다.(보크도 포함되어야 한다고 하겠지만, 실제로 시즌동안 일어나는 보크의 수는 굉장히 적고, 또 실리와 로사도는 당시즌 보크가 없었다.)
이 제 또 같은 용어들을 사용해서 다른 것들을 구해볼 것이다. 지금부터의 DIPS는 (BFP-HP-TBB-SO-HR)로 달라지게 된다. 이 수치는 아직 수비가 영향을 주고 있는 것이라 볼수 있다. 그렇다면 이제 [안타]에 대한 기록을 새로 만들어, 이것이 원래 기록과 어떤 관계를 가지는지 살펴보도록 하자. (H-HR) / (BFP-HP-TBB-SO-HR) 의 AL 평균은 0.3008이었다. 이것을 새로운 DIPS에 곱하여 보자.(지금부터, 리그 팩터나 파크팩터는 적용하지 않을 것이다. 왜냐하면 아래의 기록들은 [리그 평균]을 이용한 것이기 때문이다.)
실리 : (920-12-70-193-20) * 0.3008 = 188
로사도 : (882-5-75-147-25) * 0.3008 = 190
여기에 우리가 구한 DIPS HR를 더해주자.
실리 : 188 + 20 = 208 - DIPS H
로사도 : 190 + 25 = 215 - DIPS H
