본문 바로가기
diegobaseball
세이버메트릭스 도서관

세이버메트릭스 선언 The Sabermetric Manifesto By David Grabiner

by 토아일당 2015. 1. 28.



세이버메트릭스 선언 The Sabermetric Manifesto 

By David Grabiner 1994


"야구 통계는 경기에 대한 이해를 높일 수 있을 때 가치를 지닌다. 그렇기에 통계는 경기에서 일어나는 이벤트들을 얼마나 잘 평가할 수 있느냐에 따라 심판 받아야 한다. 의미 없는 통계는 무시되어야 하며 교체되어야 한다. 결함을 가진 통계는 개선되어야 하며 잘 만들어진 통계는 게임과 플레이어의 토론의 자료로서 중요하게 쓰여야 한다." (Baseball statistics are useful only if they enhance your understanding of the game. Therefore, they should be judged by how well they measure what actually happens in the game. Meaningless statistics should be ignored or replaced; deficient statistics should be improved.  And well-designed statistics should be used as an important part of discussion about the game and its players.) 



1. 세이버메트릭스란 무엇인가? 


빌 제임스는 세이버메트릭스를 “객관적인 야구 지식의 추구”라고 정의했다. 즉 세이버메트릭스는 “레드삭스팀의 공격에 가장 큰 공헌을 하는 선수는 누구인가?”, 혹은 “켄 그리피 주니어Ken Griffey jr.는 다음 시즌 홈런을 몇 개 칠 것인가?” 하는 객관적인 질문에 대답하기 위해 노력한다. 그것은 “당신이 가장 좋아하는 선수는 누구인가?”, “그 게임은 정말 대단했어” 같은 야구를 즐기는 데 있어서 역시 중요하다고 할 수 있는 주관적인 판단은 다루지 않는다. 


통계는 야구경기에 있어서 가장 객관적인 기록이며 세이버메트릭스는 통계를 주된 평가수단으로 사용한다. 물론 통계는 그것을 정확히 이해할 수 있을 때만 유용한 것이기 때문에 세이버메트릭스의 많은 부분은 통계를 얼마나 적절하게 사용할 것인가, 목적에 적합한 통계는 어느 것인가 하는 등의 문제를 이해하는데 연관되어 있다. 이것은 당신이 세이버메트릭스를 이해하기 위해서 많은 수학적 지식이 필요하다는 것을 의미하지는 않는다. 당신은 그저 통계들이 어떻게 사용되고, 어떤 경우 잘못 이용되는 지에 대해 이해하고 있으면 된다. 


야구에서 사용되어 지는 통계는 관찰에 의해 수집된 기록이다. 야구팬이나, 스포츠 기자 혹은 야구선수나 감독이라 할지라도 한 시즌동안 모든 팀의 경기를 많아야 13번 정도 볼 수 있을 뿐이다. 그의 관찰은 어느 정도 흥미로울지는 모르나 매우 작은(그리고 대부분 편중된) 샘플이다. 13경기에서는 훌륭한 타자와 그렇지 못한 타자간의 차이는 단지 안타 5개에 불과하며, 관찰자가 어떤 평균적인 선수의 시즌 중 가장 타격감이 좋았던 두 경기를 보게 된다면 그는 그 선수의 능력에 대한 부정확한 인상을 얻게 될 것이다. 


반면, 선수 개개인의 통계는 리그의 공식기록원에 의해 관찰된, 그가 출장한 모든 경기에 대한 기록이다. 이것은 직접적인 관찰에 의한 수집의 경우보다 방대하며 보다 쉽게 이해할 수 있는 형식으로 전환할 수 있다. 야구팬들은 한 타자의 타율을 구하기 위해 그 선수의 600타석을 모두 지켜볼 필요는 없을 것이다. 


세이버매트릭스는 야구에 대한 객관적인 연구이기 때문에 세이버메트릭스의 논의에 있어서 논리적 추론을 이용하는 것이 필요하다. 그러므로 통계나 관찰 또는 당신이 가진 정보로부터 가설이 도출될 수 있으며, 직접적으로 증명할 수 없는 주장은 그것에 수반되어 지는 결론을 연구함으로써 평가할 수 있다. 


“피칭은 야구의 X%이다”-흔히 X는 15에서 80사이로 알려져있다.- 라는 진술을 예로 들어보자. 당신이 “피칭은 야구의 75%이다”라고 주장한다면, 그리고 그것이 사실이라면 당신은 타격이 좋은 팀보다 피칭이 좋은 팀이 정규시즌에서 우승할 것이라고 결론 내릴 것이다. 그러나 사실은 그렇지 않다. (피칭과 수비를 포함한) 리그 최소 실점팀이 정규시즌 우승을 한 경우는 대략 절반 이하 정도이고 (모든 타격 요소를 포함한) 리그 최다 득점팀이 우승한 경우를 더 자주 볼 수 있다. (공격의 정의부분에서 살펴보겠지만 타율 같은 불완전한 통계를 사용하여 타격을 평가할 경우, 피칭의 중요성은 더욱 과대평가될 것이다.) 이것은 또한 예를 들어, 피칭의 비중이 75%를 차지하는 팀에서는 주전급 타자를 얻기 위해 주전급 투수를 트레이드하는 일은 절대 일어나지 않을 것이라는 잘못된 결론을 이끌어 낸다. 그러나 75%라는 수치가 40%정도로 조정된다면 그 결론은 합리적이 될 것이다. 세이버메트릭스 논쟁은 실제로 이렇게 벌어진다. 



2. 일반적인 원칙 


야구팀의 목적은 다른 팀보다 많이 이기는 것이다. 한 팀이 다른 팀의 승수에 영향을 미치는 것은 거의 불가능하기 때문에 그 목적은 근본적으로 가능한 한 많은 경기를 이기는 것이 된다. 그러므로 개개의 선수가 팀의 승리에 기여하는 정도를 측정하는 것은 흥미로운 일이다. 


팀의 득, 실점과 승패 사이에는 명확한 상관관계가 있으며 완벽하지는 않지만 매우 유의미하다. 빌 제임스는 팀의 승률은 팀의 득점과 실점사이의 비율을 제곱한 것에 비례한다는 공식을 데이터로부터 경험적으로 도출해 냈다. 이 공식에 따르면 팀의 득점과 실점이 같은 팀은 승패역시 같은 수, 즉 .500 정도의 승률을 올릴 것이고, 800득점과 700실점을 기록한 팀은 49번 패배하는 동안 64번을 승리할 것이며 한 시즌으로 환산하면 92승 70패를 기록할 것이다. 이 공식은 대부분의 팀의 실제성적과 매우 일치한다. 


세이버메트릭스의 기본적 목표는 주어진 목적을 위한 척도를 평가하는 것이다. 통계는 대부분 과거의 성취(누가 MVP를 받아야 하는 가 같은)를 평가하는 데 사용되어지거나 미래의 결과(트레이드의 득실을 따져보는 등의)를 예측하기 위해 쓰여진다. 두 경우 모두, 우리는 경기의 승패에 대한 기여도를 측정하는 데 관심을 가진다. 


이러한 분석이 가능한 이유는 통계를 작성하는 일이 다른 스포츠보다 야구에서 더 흥미롭기 때문이다. 야구 통계는 다른 선수들과는 독립된 개개인의 성취를 측정할 수 있다. 그리고 개인적인 사건의 중요성은 그가 처한 상황에 달려 있는 반면 전체 시즌과 같은 거대한 샘플에 기반한 통계자료에 특정한 상황이 차지하는 비중은 그리 크지 않다. 타자가 안타를 쳤을 때 이는 그가 실제로 한 것을 나타낸다. 쿼터백이 10야드 패스를 던졌을 때 라인백커를 수비하는 가드는 어떠한 통계적 의미도 가지지 못한다. 안타를 친 타자는 성공에 대한 적절한 평가를 받지만 13야드가 남아있는 써드 다운에 성공한 10야드 패스는 실패로 기록될 것이다. 그러므로 득점과 승리에 대한 개인적인 기여도를 측정하는 것은 야구 통계의 목적에 있어서 합리적인 것이다. 


목적이 주어지면 통계를 평가하는 것이 가능하다. 야구 통계는 일반적인 통계와 같은 방식으로 평가할 수 있으며, 또한 같은 방식으로 오용되거나 잘못 해석되어질 수 있다. 


통계에 대한 가장 기본적인 의문은 “통계는 특정 목표에 대한 기여도를 측정할 수 있는 가?”이다. 예를 들어 방어율(ERA)은 대부분의 투수가 팀이 승리하는데 기여하는, 투수가 허용한 실점을 측정한다. 타율(BA)은 안타의 수를 세기 때문에 꽤 공정하지만 공격의 부분에서 역시 중요한 볼넷이나 장타력을 무시한다. 발생 빈도가 높지 않은(몸에 맞는 볼(HBP)같은) 것에 대한 통계나 승리하는데 그다지 중요하지 않은 것(타자의 아웃 중 삼진이 차지하는 비율), 혹은 이 두가지가 모두 관련된 것들 같은 몇몇 통계는 이런 점에서 치명적이다. 일반 통계를 예로 들자면 작년에 한 도시에서 발생한 범죄수는 그 도시의 치안을 평가하는데 중요하지만, 특정 거리에서 발생한 범죄의 수로 도시 전체의 치안에 대해서는 설명할 수 없다. 


두번째로, 가장 중요한 의문은, “諛兀? 선수 개개인의 기여도를 얼마나 정확하게 측정할 수 있는가”이다. 야구와 연관되어 있거나 그렇지 않은 많은 통계 방식들은 이 점에서 실패할 수 있다. 실제로 모든 통계들은 그것을 확장할 때 어느 정도의 결함을 가지게 되고 따라서 좋은 통계는 단지 소수의 결함만을 지니고있거나 그것들이 상대적으로 적은 것이다. 


예를 들면 선수는 그의 동료나 감독이 아닌 자기 자신이 한 것으로 평가 받아야 한다. 이것은 득점과 같은 통계가 가지고 있는 중요한 문제점이다. 타자가 홈런을 치거나 홈스틸을 하지 않는 이상 실제로 득점을 하기 위해서는 동료의 도움이 필요하며, 그가 안타로 1루에 진루한 이후에는 득점하기 위해 할 수 있는 일은 별로 없다. 그러므로 당신이 만약 리그 최고의 홈런타자 앞에서 타석에 들어선다면 당신이 득점할 수 있는 능력과는 상관없이 많은 득점을 할 수 있을 것이다. 감독이 당신을 내셔널리그팀의 8번 타순에 배치한다면 당신은 출루하더라도 많은 득점을 올리지 못할 것이다. 이처럼 좋은 통계들은 구장과 같은, 선수가 통제할 수 없는 외부효과를 포함시켜서는 안된다.이러한 문제에 관한 일반 통계의 예는 마이애미의 높은 사망률을 들 수 있다. 마이매미 인구에서 고령자가 차지하는 비중은 다른 대부분의 도시보다 높기 때문에 마이애미의 의료서비스 수준에 상관없이 높은 사망률을 예측할 수 있다. 


오클랜드에서보다 펜웨이파크에서 득점하기는 보다 쉽다. 그러므로 오클랜드에서 3.60의 방어율을 기록한 투수는 펜웨이에서도 비슷한 수준의 투구를 하여 그의 팀이 승리하는데 기여한다해도 그는 4.00의 방어율을 기록할 것이다. 당신은 때때로 구장 조정수치(앞서 말한 효과를 제거하기 위해 고안된, 예를 들면 위의 투수는 두 구장 모두에서 3.80이라는 구장효과가 조정된 방어율을 가질 것이다.)에 대한 토론에 대해 들어보았을 것이다. 이것은 투수의 성취에 대한 가치를 조정하는 것이지 실제의 성취를 뜻하는 것은 아니라는 것에 주의해야 한다. 4.00의 방어율의 레드삭스 투수는 홈과 원정경기에서의 차이가 얼마든지에 상관없이 그의 팀에서 그 정도의 가치가 있는 것이다. 


만약 어떤 선수의 기록이 그가 팀이나 구장을 옮긴다던지, 타순의 위치가 바뀌었을 때 상당한 변화가 있다면 이는 그 기록에 외부효과가 상당히 많은 작용을 한 것이라고 볼 수 있다. 만약 외부조건의 변화에도 기록이 일정하게 유지된다면 이것은 선수 자신의 기여도가 온전히 측정되고 있다는 것을 의미한다. 방어율이 좋은 투수는 팀을 바꾸더라도 여전히 방어율이 좋은 경향이 있기 때문에 구장효과는 그다지 큰 문제는 아니다. 선두타자로서 많은 득점을 기록한 타자가 6번으로 타순을 옮긴 후 득점이 줄어들었다면 이것은 그가 기록한 득점은 그의 능력보다는 타순의 위치에 많은 영향을 받았다는 것을 의미한다. 


외부효과와 관련된 문제와 더불어 평가방법의 문제 역시 중요하다. 예를 들면 어떠한 통계도 동일한 전후상황 속에서의 측정기회가 주어지지 않는다면 쓸모없게 된다. 뉴욕의 범죄발생건수가 보스턴보다 많았다고 해서 두 도시간의 상대적 치안수준을 비교할 수는 없다. 그러한 비교를 위해서는 (인구당)범죄발생율을 비교하는 것이 필요하다. 


타자가 150안타를 기록했다면 이것은 무엇을 의미하는가. 그가 500타석에 들어섰다면 그는 훌륭한 타자이지만 650타석에 들어섰다면 그리 훌륭한 타자는 아닌 것이다. 이것은 대부분의 통계에 관련된 문제점이다. 타율은 안타수를 합리적인 맥락 속에서 평가한다고(타자가 들어선 타석수를 고려하기 때문에) 인식되어 지며 따라서 타격왕 타이틀은 최다안타를 기록한 선側? 아니라 최고의 타율을 기록한 타자에게 주어진다. 


이와 비슷하게 매우 작은 크기의 샘플에서 추출됐거나 발생 빈도가 미약한 통계 역시 그리 유용하지 않다. 자주 완봉을 하는 훌륭한 투수라도 리그 완봉 순위에서 1위를 하지는 못하는 경우가 있는데, 이는 리그 완봉 1위는 대개 약 5번 정도의 완봉을 기록하지만, 한해에 보통 3번의 완봉을 하던 선수가 7번의 완봉을 기록할 수도 있기 때문이다. 반대로 삼진을 잘 잡는 투수(또는 9 이닝당 삼진수가 높은 투수)는 삼진 리그 1위를 차지할 가능성이 매우 높은데 이는 총 삼진 개수가 100단위이기 때문이다. 240이닝에 250개정도의 삼진을 잡을 수 있는 투수는 230개의 삼진을 잡을 수는 있지만 삼진수가 150개로 떨어지지는 않는다. 


이러한 문제는 일반 통계에서도 일어난다. 한 도시에서 응답자 중 2/3가 민주당에 투표할 예정이라고 밝힌 여론 조사결과에서 2/3라는 수치가 6명 중 4명이라면 아무런 의미도 갖지 못할 것이고 60명 중 40명이라 해도 큰 의미를 가질 수는 없다. 그러나 600명 중 400명이라면 통계는 상당히 큰 의미를 가질 것이다. 


이것은 TV에서 자주 사용되는 많은 통계가 가지고 있는 큰 오류이다. “웨이드 보그스Wade Boggs의 볼티모어 투수를 상대로 한 득점권 타율은 .154이다.”라는 통계는 보나마나 13타수 2안타 정도 되는 샘플일 것이기 때문에 아무 의미가 없다. 세이버메트리션sabermetrician은 대부분의 팬들처럼 그러한 수치가 우스꽝스럽다는 데 동의한다. 그것은 (통계적으로 무지한) TV 시청자들의 관심을 끌기 위한 것에 지나지 않는 것이다. 


승리를 위한 선수의 기여도를 측정하는 통계에 대해 어느 정도 이해했다면 마지막 질문은 “더 나은 방법은 없는가”이다. 앞서 말한 두 가지 사항에 대한 문제점은 가지고 있지만 합리적인 대안이 존재하지 않는다면 통계는 여전히 유용하다. 반대로 득점처럼 다른 통계로 대체될 수 있는 것이라면 그 의미는 매우 적다. 한 선수의 팀득점에 대한 그 자신의 기여는 출루하는 능력(출루율에 의해 상당히 정확히 측정될 수 있다)과 조금 더 확장하여 스스로 진루할 수 있는 능력(장타율, 도루와 도루자로 평가된다)에 의해 평가될 수 있다. 


이러한 기준이 주어져 있다면 당신은 통계적 결론을 평가할 수 있다. 당신이 결론을 논의함에 있어 이러한 기준에 기반하고 있다면 당신의 논점은 유효할 것이다. 즉 당신은 통계에 의해 측정되지 않은 무언가, 혹은 측정되지만 그럴 필요가 없는 무언가를 발견할 필요가 있다. 예를 들어 마이크 슈미트Mike Schmidt가 548개의 홈런과 1507개의 볼넷을 기록했기 때문에 그의 통산 타율이 .267에 불과하다 할지라도 훌륭한 타자라고 주장할 수 있다. 이것은 타당한 주장인데 타율은 홈런과 안타를 동일하게 평가하지만 볼넷은 전혀 포함시키지 않기 때문이다. 또한 아지 스미스Ozzie Smith는 그다지 뛰어난 타자는 아니었지만 그의 수비능력 때문에 훌륭한 선수로 평가 받는다. 어떠한 타격 통계도 야구 선수로서의 그의 전체적인 가치를 평가할 수는 없는 것이다. 


그러나 통계에 이미 포함되어졌거나 당신의 주장에 의해 부적절하게 평가된 어떤 것에 기반한 주장으로 통계적 결론을 내릴 수는 없다. 브룩스 로빈스Brooks Robinson이 2848 안타를 기록했기 때문에 훌륭하다고 말하는 것은 비합리적이다. 그가 어떻게 안타를 기록했는 지에 대한 척도는 그의 .267의 타율이며 그는 장기간에 걸친 선수생활을 가능케한 다른 능력 때문에 많은 안타를 기록한 것이기 때문이다. 위에서 말한 예를 보면 .527의 장타율에도 불구하고 그의 낮은 통산타율 때문에 마이크 슈미트를 평가절하 할 수는 없다. 타율은 이미 장타율 안에 같이 계산되었기 때문이다. 


3. 세이버메트릭스 통계 


개인의 공격 능력에 대한 훌륭한 통계는 위에서 말한 기준을 어떤 전통적인 공격지표보다도 만족시킬 수 있는 가치있는 통계일 것이다. 따라서 세이버메트리션은 그러한 통계들을 이용하거나 혹은 고안해내기도 한다. (투수의 능력을 평가하는 데에는 투수가 허용한 실점을 계산하는 ERA와 득점허용(Run Allowed)라는 지표가 존재하기 때문에 그러한 통계의 필요성은 덜하다.) 


팀 전체적으로는 공격능력에 대한 좋은 통계는 팀의 득점과 매우 큰 상관관계를 가지고 있어야 한다. 이것은 그 자료를 이용하여 팀의 득점을 합리적으로 예측하는 것이 가능해야 한다는 것을 의미한다. 이 지표가 높은 팀은 많은 득점을 올려야 하고, 가장 낮은 팀은 가장 낮은 득점을 올려야 한다. 타율과 같은 지표는 그렇지 못하다. 팀타율이 가장 높은 팀이 평균이하의 득점을 올리는 것은 흔히 있는 일이다. 득점은 그 자체로 팀의 공격력을 매우 잘 나타내는 확실한 평가방법이지만 그것은 개개인의 기여도를 측정하는 데 있어서는 문제점을 가지고 있다. 타자가 팀의 득점에 기여한 정도를 직접적으로 평가하는 것은 쉬운 일이 아니다. 


팀의 공격력을 평가하기위해 고안된 통계에는 몇가지가 있다. 주자를 출루시키고, 그 주자를 진루시킴으로써 득점을 얻는 것은 야구의 가장 기본적인 방법이다. 따라서 팀의 득점은 출루하는 주자의 수와 그 주자가 진루하는 빈도와 비례관계에 있어야 할 것이다. 출루율(OBP)은 베이스에 있는 주자의 수를, 장타율(SLG)은 이미 출루한 주자의 진루를 평가하는 한가지 방법이다.(아웃은 누상의 주자가 진루할 가능성을 낮추기 때문에 장타율을 감소시킨다) 즉 팀의 득점은 OBP*SLG와 상관관계가 있어야 한다. 


이런 종류의 통계는 실제 기록에 얼마나 근사하느냐로 평가해 볼 수 있다. 팀의 OBP*SLG를 총 득점과 비교해 보면 매우 높은 상관관계를 발견할 수 있으며 표준오차는 단지 24득점에 불과하다. 실제로 비교해보면 한시즌 득점의 표준편차는 70득점인 반면(이러한 오차는 모든 팀의 득점이 평균수준에서 동일할 것이라고 가정할 경우 발생한다.) 타율만의 표준오차는 54득점이다. 24득점이라는 표준오차는 베이스런닝 같은 요소나 공식 자체의 불완전성 때문에 OBP*SLG가 측정하지 못하거나 불완전하게 측정하는 모든 것을 나타내고 있다. 그러나 이러한 차이의 대부분은 가능성이다. 


선수 개개인의 기여도를 평가하여 개인적인 통계를 만들어보자 OBP*SLG는 선수 스스로 득점을 생산해 내는 일이 드물기 때문에 정확한 지표가 될 수 없다. 대신 선수의 OBP에 팀 SLG를 곱하거나 선수의 SLG에 팀의 OBP를 곱해 볼 수 있다. 대개의 경우 리그 SLG(그리고 개별 팀의 SLG)는 OBP의 약 1.2배이므로 한 선수 의 OBP 1 포인트가 OBP*SLG에 미치는 영향은 자신의 SLG 1 포인트가 OBP*SLG에 미친 영향의 1.2 배로 계산해야 한다. 이제 우리는 (1.2*OBP)*SLG라는 식을 얻게 되었다. 단순화하기 위해서 1.2라는 수치는 종종 무시되며 이 식은 OPS(출루율+장타율, On base plus Slugging)라 불리고 있다. 이 통계를 사용할 때는 OBP는 약간 낮게 평가되었으며 도루는 고려하지 않았음을 감안해야 한다. 


비슷한 과정을 통하여 공격의 여러 요소들에 다양한 가치를 부여하는 지표들을 제공하는 여러가지 모델을 얻을 수 있다. 어떠한 지표를 사용할 것인가 하는 선택은 개인적인 기호나 이용 가능한 자료, 그것을 이용해 얻고자 하는 바에 따라 달라질 수 있다. 하지만 잘 고안된 공격지표를 이용하면 그 결과는 그다지 달라지지는 않을 것이다. 어떤 선수의 Runs Created (RC)가 다른 선수보다 2점 높게 나왔다면 이 선수는 다른 선수보다 0.03 정도의 OPS 가 하락할 것이나 이런 차이는 별로 신경 쓰지 않아도 된다. RC, OPS 어떤 방법으로도 두 선수의 가치가 비슷하다는 결론에 도달하기 때문이다. 


완벽한 공격력 평가방법은 볼넷, 홈런, 득점, 아웃으로 구성되는 개인적인 범주들의 가치를 매우 잘 나타내준다. 선수가 기록한 홈런의 가치는 OPS나 비슷한 통계에 영향을 미치며 홈런의 중요성은 (홈런이 경기 중에 가지는) 가치와 그 빈도에 달려있다. 


4. 공식기록 평가 


이제 우리는 공식적인 통계에 우리의 기준을 적용하려 한다. 굳이 모든 통계에 대해 논의할 필요는 없으며 가장 활발한 논쟁을 불러일으키는 통계들을 살펴보는 것이 보다 효율적일 것이다. 


타점(RBI)은 개인의 공격력에 대한 지표로 널리 사용되는 데 이는 쉽게 사용될 수 있고 또 완벽해보이는 유일한 통계이기 때문이다.(이런 이유로 MVP 수상자는 다른 어떤 기록보다도 리그 타점왕일 가능성이 높다.) 물론 그것은 완전한 척도는 아니다. 득점을 올리는 능력은 공격의 중요한 부분이지만 전체는 아니다. 물론 이는 타점을 의미없게 만드는 것은 아니며 단지 불완전하다는 의미이다. 


그러나 타점의 실제문제는 두번째 원칙에 관련 된 것이다. 그것은 선수 개개인의 기여도가 아닌 많은 것들을 평가한다. 누상에 주자가 없으면 홈으로 불러들일 수 없고(홈런은 제외), 스스로의 타격으로는 자신이 아닌 주자는 진루 시킬 수가 없다. 만일 좋은 선수가 자신의 타순 앞에 위치한다면 그는 많은 기회를 얻을 것이다. 사실 대부분의 타점 순위 선두들은 주자가 득점권에 있을 때 가장 잘 치는 선수가 아니라, 동료들이 누상이나 득점권에 진루해 있을 때(타자의 능력이 아닌) 자주 타석에 들어서는 선수일 가능성이 높다. 그러므로 타점이란 누가 가장 잘 주자를 홈으로 불러들일 수 있는 가가 아니라 누가 더 주자를 득점 시킬 기회를 가졌는가 하는 지표이다. 


이제 3번째 원칙을 검증해보자. 주자를 홈으로 불러들이는 능력을 평가하는 더 나은 지표가 있다. 단타는 득점권(2, 3)에 있는 주자를 불러들이고, 따라서 많은 단타를 기록한 선수는 득점권에 있는 주자를 불러들이는 능력이 좋은 것이다. 또 장타(2,3루타)는 1루에 있는 주자를, 홈런은 타자 자신을 홈으로 불러들인다. 장타율은 단타, 장타, 홈런을 칠 수 있는 능력, 즉 타점을 올릴 수 있는 능력을 나타내며 구장효과만이 변수로 작용할 뿐이다. 따라서 RBI 는 유용한 공격력 측정법이 아니며 주자를 득점케 할 수 있는 능력에 대한 평가 방법 조차 아니다. 


비슷한 문제점을 가지고 있는 통계로서는 투수의 승패가 있다. 투수의 승패를 방어율과 비교해 보면 투수의 목표는 경기를 이기는 것이고 이기기 위해서는 상대팀의 득점을 억제해야 하기 때문에 두 통계는 명백히 중요하다고 할 수 있다. 그러나 두 가지 모두 이러한 문제점과 관련된 그들의 가치를 비교해보면 투수의 능력을 평가하는 데 몇 가지 한계가 있다. 


첫번째 문제점은 실점은 투수만의 책임이 아니라 전체적인 수비의 책임이라는 것이다. 이것은 승패에 좀 더 관련된 것이다. 방어율은 실책으로 인한 실점은 제외하지만 수비수의 잘못된 위치 선정, 느린 걸음, 약한 송구로 인한 실점까지 제외하는 것은 아니다. 그러나 메이저리그 수준에서 이건 심각한 문제는 아니? 좋은 투수는 수비가 형편없는 팀에서도 좋은 방어율을 유지할 수 있다. 


승패기록은 구장효과에서 자유로운 몇 안 되는 통계이다. 각각의 구장에서 벌어지는 각각의 경기는 하나의 승리와 하나의 패배가 기록된다. 방어율은 구장효과와 관련이 있는데 이는 구장효과를 감안하여 조정할 수 있다. 


그러나 가장 중요한 요소는 팀 공격의 영향이다. 공격은 방어율과는 거의 상관 없지만 승패에는 주목할만한 영향을 미친다. 경기는 투수 혼자서 이길 수 없으며 실점보다 많은 득점을 한 팀이 이기게 된다. 단일 시즌 동안에는 리그에서 승패기록이 가장 좋은 투수는 최소 실점을 허용한 투수라기보다는 단지 가장 많은 득점 지원을 얻은 투수에 지나지 않을 수 있다. 그리고 득점 지원은 투수의 영역(내셔널리그를 제외하고)이 아니다. 만약 동료들이 보다 많은 득점을 할 수 있게 만드는 투수가 있다면 그 투수에게 좋은 평가가 내려지는 게 당연하겠지만 이런 일은 일어나지 않는다. 한 시즌에 팀 평균보다 더 많은 득점지원을 받는 투수가 다음 시즌에서도 그렇게 되는 경우는 없다. 공격력이 좋은 팀의 투수라 할지라도 팀의 공격력을 통제할 수는 없다. 


득점지원의 영향 때문에 단일 시즌의 승패는 투수 자신의 가치를 평가하는 좋은 기준이 아니다. 방어율의 경우는 승패보다는 좀 더 나은 평가방법이다. 그러나 상당히 광범위한 크기의 샘플을 이용하면 통산 승패 기록은 득점지원에 있어서 운이 차지하고 있는 부분을 감소시킨다. 게다가 자신의 선수경력을 좋은 동료들과만, 혹은 나쁜 동료들과만 보낸 투수는 거의 없다. 따라서 수 백번 정도의 승패를 기록한(decision) 경기를 포함하는 통산 승패기록은 투수의 능력을 평가하는 강력한 기준이며 구장효과를 감안하지 않은 통산방어율과 마찬가지로 유용하다. 


지금까지 우리는 타격과 투구의 가장 일반적인 지표들을 다뤄왔릿?가장 일반적인 수비지표를 살펴보자. 수비율(FA, Feilding Average)은 첫번째 원칙에서 문제가 있다. 수비는 중요하지만 불완전한 수비지표는 그렇지 않다. 가장 많은 에러를 범하는 3루수의 경우 대개 한 시즌에 30개 정도의 에러를 저지르고 수비율 1위의 3루수는 약 10개의 에러를 기록한다. 이는 매우 많은 득점의 차이를 만드는데 충분하지 않다. 수비에 있어서 더 중요한 능력은 안타를 막아내는 능력이며 공이 3루수가 닿을 수 없는 곳으로 빠져나가거나 그 공을 잡았다 놓치는 경우, 이는 에러로 기록되지 않지만 타자는 에러와 같은 효과를 가지는 안타를 기록하게 된다. 


에러는 삼진이 타율에 미치는 영향 만큼이나 수비력의 척도로서 유용하다. 이는 하나의 플레이를 전개하는데 실패했다는 의미로써, 매우 분명한 실수로 여겨지며 전광판에 (각각의 에러가) 동등하게 합산되어 기록된다. 타자가 공을 방망이에 맞춰 타구를 날렸을지라도 평범한 땅볼 타구, 또는 내야 플라이를 많이 생산한다면 그를 형편없는 타자로 부르듯이, 에러를 많이 기록하든 적게 기록하든 수비 범위가 좁은 야수는 형편없는 수비수로 인식되어야 한다. 


또한 수비율은 구장 효과 및 기록원의 편견이라는 문제를 갖고 있는데, 그로 인한 불완전성이야 말로 매우 심각한 문제점이라 할 수 있다. 하지만 이는 몇 가지 유용한 점을 측정해주고, 수비 범위가 좁을지라도 다른 부분에서 뛰어난 수비수는 에러를 많이 기록하지 않는 경향 (수비율은 승수와 밀접한 상관관계가 있다.) 이 있으므로 다른 측정법이 존재하지 않는다면 여전히 쓸만한 방법이긴 하다. 특히 매우 낮은 수비율을 기록하는 선수는 자신의 포지션을 제대로 소화해내지 못했다는 결론을 도출해주므로 어느 정도의 가치를 가지고 있다 할 수 있으나 이는 자살(put out), 보살(assist), 그리고 숫자 속에 내재된 어떤 편견들을 이해하려는 노력과 함께 연계하여 쓰여져야만 한다. 


따라서 우리는 수비율을 필요 없게 만드는 종합적인 수비력 측정법, Defensive Average (DA)를 이용한다. DA의 기본은 그라운드 내의 한 부분을 야수가 책임질 수 있는 구역으로 구분하는 것이다. 타구가 야수의 구역으로 다가갈 때 그 수비수는 자신의 구역을 책임질 기회가 부여되므로 아웃으로 연결시킨다면 그 선수는 하나의 플레이를 성공시킨 것으로 여겨진다. 따라서 3루 베이스 주위를 지나가는 모든 땅볼은 3루수의 책임으로 귀결시킬 수 있다. 수비가 좋은 3 루수라면 이들 타구 대부분을 처리할 것이다. 만약 그 3루수가 타구 처리에 실패했다면 악송구 (실책으로 기록)를 범했든, 또는 지연 처리 (안타로 기록)를 했든 결과는 동일한 효과를 가져온다. 따라서 수비율은 더 이상 쓰일 필요가 없어진다. 


DA 역시 다른 통계와 마찬가지로 위에서 살펴본 원칙을 이용하여 검증해야 하지만, 첫 번째 원칙부터 무난하게 통과할 수 있다. DA는 수비수의 능력으로 처리할 수 있는 범위 내에서 진행중인 타구를 아웃시키는 능력을 측정하는 것이지만 병살타를 만들어내는 능력과 안타를 치고 헛점을 노려 다음 베이스로 계속 질주하는 주자를 송구로 아웃시키는 능력 등은 포함하지 않는다. 또한, 구장 효과에 기인한 몇 가지 문제점을 안고는 있지만, 두 번째 원칙도 훌륭하게 만족시킬 수 있다. 왼손 투수라면 3 루수쪽 땅볼, 좌익수쪽 플라이볼을 많이 얻어냄으로 타구의 방향을 한 쪽으로 치우치게 한다. 그러나, 훌륭한 투수들은 타구의 강도를 약화시킴으로써 수비수들의 DA를 약간 도와줄 수 있다 (이런 모든 영향은 어떤 수비 평가법에서도 문제를 야기시킬 수 있다.). DA는 현?사용 가능한 수비 평가법 중 가장 우수하므로 세 번째 원칙도 쉽게 만족시킨다. 이것이 완벽하다고 할 수는 없어도 꽤 정확하게 이용될 수 있기 때문이다. 


위에서 살펴봤듯, 전통적이라는 이유로 사용되는 통계는 훌륭한 평가 방법 (ERA 같은 것)일 수도 있고 형편 없는(RBI같은 것) 것일 수도 있다. 이들 통계의 가치는 전통성 또는 명성에 의해 좌우될 수 없으며, 단지 통계의 기본적인 원칙을 얼마나 잘 지키고 있느냐에 따라 그 가치가 정해질 것이다. 


5. 기타 세이버메트릭스 논쟁 


유사한 분석은 통계적 논쟁에 기인한 가설을 평가하는데 쓰여져야만 한다. 어느 한 가설이 실제 야구 경기에 부합하지 않는 결론을 도출해 낸다면 그 가설은 수정될 필요가 있다. 


예를 들어 한 선수의 마이너리그 기록이 그 선수의 메이저 리그에서의 향후 성적을 예측하는데 얼마나 잘 이용되는가와 같은, 야구팬이라면 한번쯤 해볼만한 질문을 들 수 있다. 극단적인 구장 효과, 그리고 리그 간의 차이점으로 인해 마이너 리그 성적을 이용하는 데에는 문제점이 있다. 그러나 선수의 마이너 리그 성적을 이러한 효과에 대입하여 AA나 AAA 그리고 메이저와의 차이점에 적용시켜 보면 꽤 의미 있는 결론을 도출해 낼 수 있을 것이다. 이러한 작업을 정확히 수행 할 수 있는 수단이 있는데, 이를 Minor-League Equivalency, MLE 로 부른다. 이 작업이 제대로 진행된다면 꽤 유용할 뿐더러 미래의 메이저리그 성적을 예측하는 데에 있어 과거의 메이저리그 성적만큼이나 효과적이다. MLE를 이용한 평가에서 .300을 친다는 예상이 나왔다면 이 선수는 지난해 메이저 리그에서 .300을 쳤던 대부분 선수들처럼 다음해 신인으로 .300에 근접한 타율을 올릴 수 있다(물론 둘 중 어떤 예상도 완벽하진 않다). 


세이버메트리션들이 연구하는 (또한 토론하는) 또 다른 이슈는 클러치 히터가 과연 존재하느냐는 점이다. 클러치 상황에서의 안타는 클러치 히터들을 존재케 한다. 바비 톰슨Bobby Thomson, 칼톤 피스크Carlton Fisk, 버키 덴트Bucky Dent, 커크 깁슨Kirk Gibson, 조 카터Joe Carter가 쳤던 유명한 홈런, 그리고 켄 그리피가 지난 5월, 8회에 쳐낸 동점타는 확실히 중요한 순간에 나온 타구들이다. 많은 선수들은 긴박한 순간에 최고의 타격을 선보일 선수라는 명성을 얻고 있다. 그리고 이것 역시 "이러한 능력을 갖춘 선수들이 정말 있는가?" 와 같은 질문을 통해 검증해 봐야 할 가설이다. 


클러치 히팅 능력이란 것이 전혀 존재하지 않는다면, 또는 클러치 히팅 능력이 정말로 주목할 만한 능력이라면 실제로 어떤 일이 일어났는지, 또 어떤 일이 일어날 것인지 다시 한 번 지켜볼 필요가 있다. 아무리 명백한 .250 타자라도 시즌 옛?경기 후반의 1점차 승부에서 .400을 칠 수도 있으나 이러한 클러치 상황에서의 기회를 얻을 확률은 80타수 중 3%정도 밖에 안 된다. 따라서 이런 식의 수치는 아무것도 증명해주지 못한다. 하지만, 클러치 히팅 능력이란 것이 실재한다면 과거의 클러치 상황에서 잘 쳤던 타자들은 앞으로도 계속 잘 칠 것이다. 이러한 것은 계속적으로 분석되어질 수 있고, 또 분석되어 왔다. 다만 그 능력에 대한 통계적 검증이 매우 미약했으며 야구라는 장르에서 커다란 의미를 가지지 않는다는 점은 확실하다. 좋은 클러치 히팅 능력 덕으로 .268 타자와 실질적으로 같은 가치를 갖는 .267 타자도 있을 수 있다. 하지만 여기서 .268를 .275로 바꿔서 생각해 보면 현실 세계에서는 이러한 일이 별로 일어나지 않는다는 결론에 다다를 것이다. 


6. 결론 


야구 통계는 경기에 대한 이해를 높여줄 때만 유용하다. 그러므로 경기에서 실제 일어나는 일을 얼마나 잘 평가 할 수 있느냐에 따라 통계는 평가 받는다. 의미 없는 통계는 무시되어야 하며 다른 것으로 교체되어야 하고, 불충분한 통계는 향상되어야 한다. 그리고 잘 고안된 통계는 경기와 선수에 대한 토론의 중요한 부분으로 이용될 수 있을 것이다. 


번역본 출처

http://www.baseball1.com/bb-data/grabiner/manifesto.html 



Bibliography 

Bill James, The Baseball Abstract, published annually from 1980 to 1988 by Ballantine Books. 

John Thorn and Pete Palmer, The Hidden Game of Baseball, New York:Doubleday, 1985. 

John Thorn and Pete Palmer, eds., Total Baseball, New York:HarperCollins, 1993. 




The Sabermetric Manifesto

By David Grabiner


I. What is sabermetrics?


Bill James defined sabermetrics as “the search for objective knowledge about baseball.” Thus, sabermetrics attempts to answer objective questions about baseball, such as “which player on the Red Sox contributed the most to the team’s offense?” or “How many home runs will Ken Griffey hit next year?” It cannot deal with the subjective judgments which are also important to the game, such as “Who is your favorite player?” or “That was a great game.”

Since statistics are the best objective record of the game available, sabermetricians often use them. Of course, a statistic is only useful if it is properly understood. Thus, a large part of sabermetrics involves understanding how to use statistics properly, which statistics are useful for what purposes, and similar things. This does not mean that you need to know a lot about mathematics to understand sabermetrics, only that you need to have some idea of how statistics can be used and misused.

The statistics which are available in baseball are a collected record of observations. An individual fan, sportswriter, or even a player or manager will see most teams thirteen or fewer times during the year. His observations may be of some interest, but they are a small (and often biased) sample. In thirteen games, the difference between a great hitter and a poor hitter is just five hits; thus, if the observer happens to see a mediocre player’s two best games of the season, he would get an incorrect impression of the player’s ability.

In contrast, a player’s statistics are a record obtained from all of his games, as observed by the official scorers in the league. This is a much larger collection of observations, and it is converted to a form which can be easily understood; few fans could get a good idea of a player’s batting average by watching his 600 plate appearances.

And since sabermetrics is an objective study of the game, it is necessary to use logical reasoning in sabermetric arguments. Thus, a hypothesis can be developed from the information you have, either from statistics or observation; a claim which cannot be directly tested can be evaluated by studying the conclusions which would follow.

A good example is the statement “Pitching is X% of baseball,” which has been said with X between 15 and 80. Suppose you want to test the claim ”Pitching is 75% of baseball.” If this were true, you would conclude that the teams with the best pitching would be much more likely to win the pennant than the teams with the best hitting. However, this isn’t the case. The league leaders in fewest runs allowed (which is both pitching and fielding) win the pennant about half the time; the league leaders in runs scored (which includes all of hitting) win just as often. (Note the definition of offense here: if you measure hitting by an incomplete measure such as batting average, you would conclude that pitching is much more important.) Other unreasonable conclusions also follow; for example, a team with 75% of its value in pitching would never trade a regular pitcher for a regular hitter. Thus the claim must be rejected. But if 75% is replaced by a number close to 40%, the conclusions become reasonable. This is how a sabermetric argument works.


II. General principles


The goal of a baseball team is to win more games than any other team. Since one team has very little control over the number of games other teams win, the goal is essentially to win as many games as possible. Therefore, it is of interest to measure the player’s contribution to the team’s wins.

There is a clear relationship between a team’s runs scored and allowed and its wins and losses. This relationship isn’t perfect, but it is very strong. A good formula, determined empirically from the data by Bill James, is that a team’s ratio of wins to losses will be equal to the square of the ratio between its runs scored and allowed. Thus a team which scores and allows the same number of runs will win and lose the same number of games, finishing at .500; a team which scores 800 runs and allows 700 will win 64 games for every 49 it loses, which projects to a 92-70 record over a season. This formula comes very close to the actual records of most teams.

The basic goal of sabermetrics is to evaluate a measure for a given purpose. The most common uses of statistics are to evaluate past performance (such as to determine who should win the MVP award) and to predict future performance (such as to evaluate a trade that was just made). In both cases, we are interested in measuring contribution to games won and lost.

The reasons that such analysis is possible are the same reasons that make statistics more interesting in baseball than in other sports. Baseball statistics can measure individual performance, independent of what other players do. And while the importance of an individual event depends on the situation, the effect of the situations on the importance of the statistic over a large sample such as a season is not great.

When a batter hits a single, this describes what he did; when a quarterback throws a ten-yard pass, the guard who took out a linebacker gets no statistical credit. And the batter who received a single is properly credited for a success; the ten-yard pass may have been a failure if it was third down with 13 yards to go. Thus it is reasonable for the goal of a baseball statistic to be to measure a player’s individual contribution to runs or wins.

Given the goal, it is possible to evaluate a statistic. Baseball statistics can be evaluated in the same way as non-baseball statistics; they can have the same types of flaws, or be misused or misinterpreted in the same ways.

The first natural question to ask about a statistic is, “Does the statistic measure an important contribution to that goal?” For example, ERA measures the number of runs a pitcher allows, which is almost all a pitcher contributes to winning games. Batting average does fairly well because it counts hits, but it ignores power and walks, which are also important parts of offense. Few statistics fail badly here; those which do measure things which happen only rarely (such as HBP), have little to do with winning games (such as the fraction of a batter’s outs which are strikeouts), or both. As a non-baseball example, the number of crimes in a city last year is important if you want to know something about the safety of the city; the number of crimes on a single street says very little about the safety of the whole city.

The second, and usually most important, question to ask is, “How well does the statistic measure the player’s own contribution?” There are many ways that a statistic, baseball-related or not, can fail here. Virtually every statistic fails in some way to some extent, so the best statistics are those with only minor failings, and relatively few of them.

For example, a player should be evaluated for what he does, not for what his teammates or manager do. This is a major problem with such statistics as runs scored. Unless the batter hits a home run or steals home, he needs his teammates’ contribution to actually score a run, and he cannot do much to cause them to get hits once he is on base. Thus, if you bat in front of the best home-run hitters in the league, you will score a lot of runs, whether or not you have a good ability to score runs. If your manager decides to bat you eighth on an NL team, you won’t score many runs when you do get on base.

Likewise, a good statistic should not measure outside effects over which the player has no control, such as the park. A good non-baseball example of this problem is the high death rate in Miami. The population of Miami is older than the population of most other cities; thus, regardless of the quality of medical care in Miami, you would expect a high death rate.

Likewise, it is easier to score runs in Fenway Park than in Oakland. Therefore, a pitcher with a 3.60 ERA in Oakland could pitch just as well in Fenway, helping his team win games just as much, but have a 4.00 ERA. You will sometimes see a discussion of park-adjusted numbers, designed to eliminate this effect; for example, the pitcher above might have a 3.80 park-adjusted ERA in either park. Note that this is adjusting for the value of the pitcher’s performance, not the actual performance; the 4.00 ERA for a Red Sox pitcher is just as valuable to his team regardless of how it is split between home and road games.

If a player’s statistics change considerably when he changes teams, parks, or lineup positions, this suggests that the outside effect has a major effect on the statistics. If the statistic remains consistent when outside conditions change, this means that it is measuring the player’s own contribution. Pitchers with good ERA’s tend to keep them when they change teams, so the park effect is not a serious problem. Hitters who score a lot of runs in the leadoff spot will score many fewer runs if they are dropped to sixth in the lineup, which means

that the runs scored were mostly created by the lineup position rather than the batter.

In addition to these problems with outside effects, there can be problems with measurement. For example, no statistic can be useful without proper context, a measure of opportunities. There were more crimes committed in New York than in Boston last year, but this doesn’t say much about the relative safety of the cities; to make such a comparison, you would need to compare crime rates.

If a batter has 150 hits, what does that mean? Well, if he has 500 at-bats, he is good at getting hits; if he has 650 at-bats, he is poor.

This is a problem with most counting statistics. Batting average places hits in a reasonable context, and this is recognized because the batting title goes to the player with the highest average, not the player with the most hits.

Similarly, a statistic may not be useful if it tries to measure something with a very small sample size or number of occurrences. The best pitchers at throwing shutouts often don’t lead the league in shutouts, because the league leader normally has about five, and it’s quite common for a pitcher who usually throws three shutouts a year to get seven in one year. In contrast, the best strikeout pitchers do lead the league in strikeouts (or strikeouts per nine innings), because their totals are in the hundreds, and a pitcher who is capable of getting 250 strikeouts in 240 innings might get 230, but not 150.

Again, the same problem comes up with non-baseball statistics. If 2/3 of the people polled in your city plan to vote Democratic, that means nothing if it was four of six, and not much if it was forty of sixty, but quite a lot if it was 400 of 600. This is the major flaw with many of the statistics that are often used on TV; a statistic such as, “Wade Boggs is hitting .154 against Baltimore pitchers with runners in scoring position” means nothing because the sample is probably two hits in thirteen at-bats.

Sabermetricians agree with most fans that such stats are ridiculous; they are there only to hold the interest of the (mostly statistically illiterate) television audience.

Now, once you have some idea of how well the statistic measures the player’s own contribution to the goal, the final question to ask is, “Is there a better way to measure the same thing?” A statistic which has problems with the other questions but has no reasonable alternative measurement may still be useful. In contrast, a statistic such as runs scored, which can be replaced by other statistics, is of very little value. A player’s own contribution to his total of runs scored can be measured by his ability to get on base (measured very well by on-base percentage) and, to a lesser extent, to advance himself once he gets on base (measured by extra-base hits, and by stolen bases and caught stealing).

Now, given these criteria, you can evaluate a statistical conclusion. If you dispute the conclusion, your argument may be valid if it is based on these criteria. That is, you need to find something which is not measured by the statistic, or is measured but shouldn’t be. For example, you can argue that Mike Schmidt is a good hitter, even though his career average is .267, because he hit 548 home runs and drew 1507 walks. These are valid arguments, because batting average gives the same value to homers and singles, and does not count walks at all. Likewise, Ozzie Smith is not a great offensive player, but he is still an excellent player, because of his defense; no offensive statistic measures his overall value.

But you cannot dispute a statistical conclusion with a claim which is based on something which is already included in the statistic, or something which is improperly measured by your claim. It isn’t reasonable to say that Brooks Robinson was great at getting hits because of his 2848 hits; the correct measure of how well he got hits is his .267 batting average, which led to such a high hit total because his other skills allowed him to have a very long career. Turning one of the above examples around, you can’t claim that Schmidt could not possibly be a great hitter, despite his .527 SLG, by looking at his batting average; the batting average is already counted in the slugging average.


III. Sabermetric stats


A good, complete measure of individual offense would satisfy the criteria above for a valuable statistic better than any of the traditional offensive measures. Therefore, sabermetricians often use or develop such statistics. (For measuring pitching, there is less need for such a statistic, because ERA and runs allowed already count the number of runs allowed by a pitcher.)

At the team level, a good measure of offense should have a strong correlation with runs scored. This means that it should be possible to predict runs scored reasonably well from the measure; the best teams by

this measure should score a lot of runs, while the worst teams should score very few. Measures such as batting average do not do this; it is common for the team with the best batting average to be below average in runs scored. Runs scored itself obviously measures team offense very well, but it creates a problem when you try to measure individual contributions; it isn’t easy to measure directly how much a batter

helped or hurt his team score runs.

There are several ways to develop a statistic which measures team offense. Probably the most natural way is to say that a team scores runs by getting runners on base, and then advancing them. Thus, a team’s runs scored should be proportional to the number of runners it gets on base, and to the frequency with which it advances the runners. 

On-base percentage measures the number of runners on base, while slugging average is one way to measure advancement. (Note that an out reduces slugging average, because it makes it less likely that any

runners on base will be advanced.) Thus team runs should be correlated with OBP*SLG.

The test of a statistic of this type is how well it agrees with reality. If you compare teams’ OBP*SLG to their runs scored, you find a very good correlation; the standard error is just 24 runs. For comparison, the standard deviation of runs scored in one season is 70 runs (this is the error you would get if you predicted that all teams would be average in runs scored), while batting average alone has a standard error of 54 runs. The 24-run standard error covers everything which OBP*SLG does not measure or measures improperly; this includes such factors as baserunning and imperfections in the formula, but much

of the difference is chance.

Now, we need to make an individual statistic by measuring a player’s contribution; OBP*SLG is not the correct measure for a player because he usually doesn’t drive himself in. Instead, you want to multiply his OBP by the team’s SLG, and his SLG by the team’s OBP. Since the league SLG (and individual teams’ SLG) are usually about 1.2 times the OBP, each point of a player’s OBP has 1.2 times the effect on OBP*SLG that a point of his SLG has. Thus our measure is (1.2*OBP)+SLG. For simplicity, we often ignore the factor of 1.2 and refer to OPS, On-base Plus Slugging.

When using this statistic, remember that OBP is slightly undervalued, and that stolen bases have not been counted.

Using the same process for other models of offense gives other measures, which give slightly different values for different elements of offense.

The choice of which measure to use depends on which ones you have handy, the purpose for which you want to use it, and some personal preferences.

But if you use any well-designed measure of offense, you won’t be wrong.

You may find that a player who has two more Runs Created than another is .003 worse in OPS, but such differences aren’t important; either way, you will reach the reasonable conclusion that they are very close.

The complete measures of offense give  a good estimate of the value of the individual categories, such as walks, home runs, and outs, which make them up. The value of a player’s home runs is the effect that they

have on OPS or any similar statistic, and the importance of home runs thus depends on this value and their frequency.


IV. Evaluating official statistics


We can now apply the criteria to the official statistics. While it isn’t reasonable to go through the arguments for every statistic, it is useful to look at the statistics which cause the most frequent

arguments.

RBI’s are commonly used as a measure of a player’s offense, because they are the only statistics which are easily available which look like a complete measure. (As a result, the MVP winner is more likely to be the

league leader in RBI than in any other category.) Of course, they aren’t a complete measure; the ability to drive in runs is an important part of offense, but not the whole thing. This does not make RBI’s

meaningless, only incomplete.

But the real problem with RBI’s is the second question; they measure a lot of things which are not the player’s own contribution. You cannot drive in runners who are not on base (except with home runs), but your own batting doesn’t put them there; if you bat behind good players, you will get a lot of chances. In fact, the league leaders in RBI are much more likely to be the players who batted with the most teammates on base or in scoring position (not the batter’s contribution) than those who hit the best with runners on base or in scoring position. Thus RBI are a better measure of who had the most chances to drive in runners than of who was the best at driving in runners.

And now, we try the third test; there is a better measure of the ability to drive in runners. Hits drive runners in from scoring position; therefore, a player who gets a lot of hits is good at this part of driving runners in. Likewise, extra-base hits drive runners in from first base, and home runs drive them in from home plate. Slugging average measures a player’s ability to get hits, extra-base hits, and home runs, so it measures his ability to drive in runs, with park effects the only significant bias. Thus RBI’s are not useful as a measure of offense, or even as a measure of the ability to drive in runs.

The other statistic which is subject to many of the same problems is a pitcher’s won-lost record; we will compare it to ERA. Both measure something which is clearly important, since a pitcher’s goal is to win

games, and the way he does this is by preventing the opponents from scoring. But both have some problems measuring the pitcher’s own contribution; a comparison of their value depends on these problems.

The first problem is that runs are allowed by the whole defense, not just by the pitcher. This is slightly more of a problem with W-L; ERA eliminates runs due to errors, but not due to fielders who are out of position, run slowly, or make weak throws. At the major-league level, it isn’t a serious problem; good pitchers can still have good ERA’s (and runs allowed) even with teams of poor fielders.

Won-lost record is one of the few categories which is immune to park effects; there is one win in every game in every park. ERA has a slight problem with park effects, which makes it more useful with a park

adjustment. 

But the most important factor is the effect of the team offense.

Offense has almost no effect on ERA, but it has a considerable effect on W-L. A game is not won just by the pitcher (despite the name of the statistic), but by the team which scores more runs than it allows. In a single season, the pitcher with the best W-L record in the league is just as likely to be the pitcher with the best run support as the pitcher with the fewest runs allowed. And the run support is not the pitcher’s contribution (except for batting in the NL). If there were pitchers who could cause their teammates to score more runs for them, it would make sense to give the pitchers some of the credit. But this doesn’t happen; there is no tendency for pitchers who had support better than their team’s average in one season to have it again in the

following season. Nor does a pitcher have any control over whether he gets to pitch on a good offensive team.

Because of the effect of run support, single-season W-L records are not a good measure of a pitcher’s own value. ERA is available, and it is a better measure of what you actually want to know. However, a career W-L reduces the luck in run support by using a much larger sample size. In addition, pitchers rarely spend their full careers with poor or good teammates. Thus a career W-L record for a long career (several hundred

decisions) is a decent measure of a pitcher’s own performance; it’s about as useful as a career ERA without park adjustments.

Since we have now dealt with the most common measures of batting and pitching, it makes sense to deal with the most common measure of fielding. Fielding average has its problem with the first test; while

defense is important, an incomplete measure of defense is not. The league leader in errors at third usually makes about 30; the leader in fielding average makes about 10. There aren’t enough plays to make a difference of very many runs. The more important part of fielding is the ability to prevent hits; if the third baseman can’t reach a ball in the hole, or knocks it down but has no play, he won’t be charged with an error, but the batter will get a hit which has the same effect.

Errors are about as useful as a measure of defense as strikeouts are as a measure of batting average. They measure one way to fail to make a play; while it is the most obvious failure, all failures count the same on the scoreboard. A fielder with poor range will be a poor fielder whether he makes few or many errors, just as a hitter who hits too many routine grounders or popups can be a poor hitter even though he puts the

ball in play.

While fielding average also has problems with park effects and scorer’s biases, the incompleteness is the most serious problem. Still, since it does measure something useful, and fielders who are good at other things tend not to make errors (fielding percentage has a good correlation with games won), it would be a useful measure in the absence of anything else. It still has some value, particularly in concluding that players with very low fielding averages can’t handle their positions, but it should be used in conjunction with putouts, assists, and an attempt to understand any biases in the numbers.

But for recent players, we have a better measure of overall defense, Defensive Average (abbreviated DA), which makes fielding average unnecessary. The basis for DA is a division of the playing field into zones of responsibility for the fielders. When a ball is hit into a fielder’s zone, it is charged as an opportunity for that fielder; if the fielder turns it into an out, he receives credit for a play made. Thus, all ground balls near third base are charged as chances for the third baseman; a good third baseman will make plays on most of them. If he fails to make a play, the effect is the same whether his throw is wild (scored an error) or late (scored a single), so fielding average does not tell you anything more.

Defensive average should be put to the same tests as any other statistic. It does reasonably well in the first test. It measures a player’s ability to turn balls in play into outs, which covers most of his defensive play but not all of it; such skills as turning the double play and throwing out runners trying to stretch hits are not counted.

It also does well in the second test, although it still has some problems, mostly with park effects. Pitchers cannot introduce bias simply by being left-handed (and thus allowing a lot of ground balls to third base and fly balls to left), but good pitchers may help their fielders’ DA slightly by allowing fewer hard-hit balls. Fielders do not have a great effect on each other’s DA, although there will be a small effect for plays such as the low throws that a good first baseman can handle. (All of these effects will cause problems with almost any measure of fielding.) And for the third test, DA is the best measure of the ability to make the play in the field that we have; it isn’t perfect, but it is complete enough and accurate enough to be useful.

Thus the established statistics, used for reasons of tradition, may be good measures (such as ERA) or poor measures (such as RBI’s). Their value does not depend on their tradition or their names; it depends on how well they meet the basic tests of any statistic.


V. Other sabermetric arguments


Similar analysis must also be used in evaluating a hypothesis which depends on a statistical argument. If the hypothesis leads to conclusions which don’t correspond with the real game of baseball, then it needs to be revised.

For example, a natural question in predicting a player’s future performance in the major league is how useful his minor-league numbers will be in a prediction. There are problems with using minor-league numbers because there are extreme park effects and differences between leagues. However, once you adjust a player’s minor-league numbers for these effects, and then make a specific adjustment for the difference

between AA or AAA ball and the majors, you may have something meaningful. There is a method for making these corrections; the result is called the MLE, Minor-League Equivalency. This will be useful if it

works, tested against the real world. In fact, it works almost as well as past major-league performance in predicting future major-league performance. Most players with MLE’s which say they will hit .300 will

hit close to .300 as rookies, just as most players who hit .300 last year will. (Of course, neither prediction is perfect.)

Another issue which sabermetricians have studied (and often discussed) is the existence of clutch hitters. Clutch hits themselves certainly exist; when Bobby Thomson, Carlton Fisk, Bucky Dent, Kirk Gibson, and

Joe Carter hit their famous home runs, or when Ken Griffey singled in the tying run in the eighth inning in May, they got hits when it was important. But many players have reputations as players who will hit

their best with the game on the line, and this is a hypothesis which can be tested; are there any players with such an ability?

Again, it is necessary to look at what actually happens, and what would happen if there were no clutch ability at all or if clutch hitting was a significant ability. Even if a .250 hitter were just a pair of coins which got a hit when they were both heads, some .250 hitters would hit .400 during one season in the late innings of close games (a 3% chance in 80 AB), so the existence of such numbers doesn’t prove anything. But

if there is an ability, players who hit well in the clutch in the past will continue to do so. This can be tested, and has been; there is only very weak evidence of an ability, and it is clear that whatever ability there is does not mean much in baseball terms. There may be .267 hitters who are actually as valuable as .268 hitters because of their good clutch numbers, but if you replace .268 with .275, you have a conclusion which is inconsistent with what actually happens.


VI. Conclusion


Baseball statistics are useful only if they enhance your understanding of the game. Therefore, they should be judged by how well they measure what actually happens in the game. Meaningless statistics should be ignored or replaced; deficient statistics should be improved. And well-designed statistics should be used as an important part of discussion about the game and its players.


Bibliography

Bill James, _The Baseball Abstract_, published annually from 1980 to 1988 by Ballantine Books.

John Thorn and Pete Palmer, _The Hidden Game of Baseball_, New York: Doubleday, 1985.

John Thorn and Pete Palmer, eds., _Total Baseball_, New York: HarperCollins, 1993.