기글 하드웨어 하드웨어 포럼

컴퓨터 하드웨어에 관한 이야기를 자유롭게 나누는 곳입니다. 컴퓨터 이외에 다른 제품에 대한 이야기는 해당 포럼 게시판을 사용해 주세요.

불도져 B0 스테핑 떡밥(3)

conix

seeing is believing.

http://gigglehd.com/zbxe/5799633

2011.06.15 11:20:50

8135

역시 퍼런동네에서 퍼왔습니다. 이런저런 정보가 올라와서 몇가지 퍼왔어요..

원본출처는 역시 챕헬..

싱가포르에서 유출되었다고 하는데, 진짜라는 보장은 없습니다.

wprime 결과 (투반 대비 48% 나은 결과)

superpi 결과 (투반 대비 23% 나은 결과)

시네벤치 10 결과 (투반 대비 44% 나은 결과)

시네벤치 11.5 결과 (투반 대비 32% 나은 결과)

다음은 퍼런동네 '차호정'님의 생각이 들어간 분석입니다.

매번 그렇듯, 역시 이번에도 출처는 칩헬입니다. 그림 8개를 붙이기 번거로워서 표로 대신합니다.

스레드 수	P3 1.0GHz 대비 배율	Zambezi ES 1스레드 대비 배율	배율 편차
1	3.88	1	-
2	6.97	1.80	0.80
3	10.16	2.62	0.82
4	13.69	3.52	0.91
5	16.17	4.17	0.64
6	18.63	4.80	0.63
7	19.19	4.95	0.15
8	19.54	5.04	0.09

결과를 살펴보면 4스레드까지는 유사한 비율로 증가하다가, 5스레드로 넘어가면서 증가 비율이 한 차례 꺾이고, 7스레드로 넘어가면서 한번 더 꺾이는 것을 볼 수 있습니다.

5스레드로 넘어가면서 증가 비율이 한 차례 꺾이는 이유는 4스레드까지 한 모듈 전체를 스레드 하나가 점유하는 식으로 모듈을 활용하다가, 5스레드로 넘어가는 시점부터 모듈 하나에 스레드 두 개가 놓이게 되었기 때문으로 보이며

7스레드로 넘어가면서 증가 비율이 다시 한 차례 꺾이는 이유는 캐시 컨트롤러의 문제로 인한 메모리 쓰기 병목으로 인한 것으로 보입니다.

(아마 8스레드까지 제대로 된 비율로 올라갔으면, 약 22~24 선에서 벤치마크 결과가 나오지 않았을까 하며 - 이 경우 Phenom x6 1090T와 유사한 점수입니다 - 물론 불도저의 캐시 컨트롤러가 정상이었을 경우 그보다 더 빨랐을 것으로 보입니다.)

지금까지 자료는 대부분 큰 의미가 없다고 하면서 이 자료에 의미를 둔 것은 4스레드에서 5스레드로 넘어갈 때의 성능 변화폭 때문인데, 이 자료가 False sharing등의 영향으로 인해 캐시 컨트롤러의 악영향을 직접적으로 받지 않았다고 가정했을 경우 Fritz Chess 벤치마크 결과로 어느정도 불도저의 멀티스레딩시 상대 성능을 유추해 볼 수 있습니다.

만약 메모리 병목의 영향을 받지 않고 순조롭게 배율이 상승했다면 8코어시의 배율은 약 6.0이 되었을 것인데, 이는 Fritz Chess 벤치마크에서 인텔 하이퍼 스레딩이 보이는 배율인 5.0에 비해 20% 높은 수치입니다. (페넘의 경우 물리적 6코어인데도 5.0배 정도의 배율이 나오는데, 이는 멀티스레드 프로그램에 존재하는 병렬화 못 하는 몇 가지 요소 때문입니다. 이를 보면 페넘 6코어와 인텔 4코어+HT는 효율적으로 동등하며, 이 부분에서 하이퍼 스레딩이 생각보다 더 유의미한 기술임도 알 수 있습니다.)

즉 Fritz Chess 벤치마크의 경우, 인텔의 하이퍼 스레딩 및 6코어 페넘은 코어 5개분의 성능을 낼 수 있는데 반해 불도저의 모듈 구조는 코어 6개분의 성능을 낼 수 있다는 뜻입니다. - 실제로는 6코어의 경우 페넘의 예에서 볼 수 있다시피 코어 5개분의 점수만을 내기 때문에, 불도저 8코어는 물리적 6코어보다 상대적 우위에 있습니다. -

실 제품의 멀티스레딩 성능이 이번 자료를 바탕으로 추정한 정도의 수준으로 나올지 그보다 더 낫게 나올지는 모르겠지만 최소한 이보다 나쁘게 나오지 않을 것은 확실할테니 AMD에서 공유 FPU 구조를 선택할만한 메리트는 확실히 있었던 것으로 보입니다.

마지막으로 복잡한 얘기(?)만 하면 심심하므로 정화짤..

이 게시물을...

목록 쓰기

2011.06.15 11:30:37

ARX

거지가 된 ARXSystem입니다 ㄱ(￣ー￣)┌

음... B3에서는 이런 문제가 해결하고 클럭을 높여서 나오겠지요?
어디까지나 유출인지라 100%는 믿지는 못하겠지만 그래도 짐작하는 용도로는 나름 괜찮은것 같군요
역시 예상대로 4쓰레드까지는 4모듈 기준으로 모듈당 1쓰레드로 작동하는군요

2011.06.20 09:57:48

DJ™

Class Snim extends HomoSapiensSapiens implements Prayable, Codable, Apostatizable

아마 OS의 스케쥴링의 힘이 아닐까 싶습니다... 윈7이라면 아마도...

하이퍼쓰레딩도 윈7에서는 빈 물리코어부터 쓰레드가 할당되지요...

2011.06.15 14:29:17

고재홍

Eveything that has a beginning, has an end.

아무리 봐도 얘네들은 뭔가 도망갈 구석을 만들면서 만드는 것 같음.

인텔을 못이기니 에라이 일단 메모리 컨트롤러 탓이라고 둘러대자. 라고 루머를 흘리든 일부러 이상한척 하든...

메모리 컨트롤러 탓이라고 완전히 굳어져 버린건 그냥 외국 싸이트에서 떠들어 대니까...라고 믿는 우리나라 유저들도 대~단한 하드코어 유저 나셨죠잉~ 저게 아니라 다른 것 때문이 아닐까?라는 생각은 못할라나?

2011.06.15 14:33:08

뭐?(ಠ益 ಠ)

범인은 고쟇옹이었나!

2011.06.15 14:47:40

동방의빛

그동안 고마웠습니다.

정말 '내가 범인인데. 바보들!'이라 말씀하시는 것 같습니다.

2011.06.15 18:19:36

고재홍

Eveything that has a beginning, has an end.

조용해!들킨단 말야ㅠㅠ

2011.06.15 18:29:12

뭐?(ಠ益 ಠ)

잡았다!!

2011.06.15 15:50:57

fuhaho

위에 노출된 벤치가 superpi 빼고 전부 샌디 2600k보다 상당히 높아요 -_-a
그리고 글의 순서가... 벤치가 나중에 나온거고 fritz가 먼저 나온 이야기네요

2011.06.15 15:57:20

여리

다솜이는 이쁘 귀욤 합니다.

음 그나마 가장 그럴거 같은 벤치네요.
싱글 쓰레드 성능은 샌디에 밀리지만 멀티쓰레드 성능은 더 높은....
뭐 이정도면 승산은 있지 않을까 싶네요.

2011.06.19 14:42:48

DJ™

Class Snim extends HomoSapiensSapiens implements Prayable, Codable, Apostatizable

어째 이전에 칩헬에서 나온 결과하곤 좀 사뭇 다른느낌이 드는군요.. 오버가 된건가요? 일단 저것이 진짜 멤컨의 병목인지 성능의 문제인지는 다음 스테핑 제품의 결과가 나와봐야 알 수 있을 듯 싶습니다. 어차피 멤컨 문제라는 것도 고쟇옹이 말씀 하신 것처럼 외국쪽 컴덕들의 추측일 뿐이고, 실제로 멤컨 문제라면 B2에서 분명히 전체적인 쓰루풋 개선이 이루어지겠죠.

하지만 일반적으로 스테핑 개선으로 IPC가 올라가는 경우는 그리 많지가 않아서.. 그리고 어차피 불도저 8코어의 효율성도 비율적으로 6에 가까운진 몰라도 때려박은 자원에 비하면 그리 썩 나은거같진 않아보이네요. 물론 HT도 옛날에 비하면 다이 차지를 제법 하지만 그래도 불도저에 비하면... 들어간 자원은 새발의 피니까요... 뭐.. 어쨌든 B2가 빨리 결과가 나와야...

작성된지 2주일이 지난 글에는 새 코멘트를 달 수 없습니다.

다음글: 이엠텍 vs 웨이코스 갈등심화 [25] -RAILGUN
이전글: 애즈락의 본사사진 [8] -낄낄

목록 쓰기