기글 하드웨어 정보 게시판 - 라데온 HD 7970 벤치마크

기글하드웨어 특집과 정보 게시판

특집 기사나 르포, 컴퓨터 사용이나 생활에서 두고두고 유용한 도움을 줄 수 있는 정보들을 쓸 수 있는 곳입니다. 내용이 짧거나 한시적인 경우 뉴스 리포트를 사용해 주시고, 심도 깊은 내용은 스페셜 게시판으로 이동됩니다.

라데온 HD 7970 벤치마크

이 사진의 유래는 여길 참고하세요 http://gigglehd.com/zbxe/12177721

https://gigglehd.com/zbxe/7020797

2012.02.07 01:28:49

9402

AMD 라데온 HD 7970 정식 발표

http://www.expreview.com/18129-all.html

AMD가 차세대 그래픽카드인 라데온 hD 7970을 발표했습니다. 단순히 업그레이드가 아니라 AMD가 4년만에 GPU 아키텍처를 바꿨다는 점에서 큰 의미가 있습니다. 이 아키텍처의 이름은 바로 그래픽스 코어 넥스트, 줄여서 GCN입니다. 그래픽에만 몰두했던 AMD가 그래픽 성능을 높임과 동시에 GPU 통용 계산 성능을 높이기 위해 등장했습니다.

라데온 HD 7970은 GCN 아키텍처의 등장을 의미합니다.

라데온 HD 7970은 라데온 HD 7000 시리즈, 서든 아일랜드의 선봉장입니다. 고급형 코어인 타히티, 메인스트림 제품군인 핏케언, 퍼포먼스급인 카보 베르데의 3개로 구성됩니다. 라데온 HD 7970은 타히티 XT이;며 이보다 약간 낮은 7950은 타히티 프로입니다. 그 후에 계속해서 새 제품이 나오겠지요.

서던 아일랜드 중에 최고급형인 타히티는 라데온 HD 7900 시리즈 중에 제일 먼저 나옵니다.

타히티는 열성적인 게이머들을 위해 전비한 최강 GPU라는 설명에서 AMD의 자신감을 엿볼 수 있군요. 라데온 HD 7970이 정말 최강의 성능이라는건 사실 이제 비밀도 아닙니다.

라데온 HD 7970의 자신감은 실력에서 나온 것입니다. GCN 아키텍처는 AMD 그래픽카드가 다시 한번 높을 성능을 낼 수 있게 해줬습니다. AMD는 작년 6월에 퓨전 개발자 회의에서 GCN 아키텍처를 발표한 이후 그 이후로 줄곧 설명이 없다가 6개월 후에 GCN 아키텍처의 출시를 준비하게 됩니다. 라데온 HD 7970은 최초의 GCN 아키텍처 그래픽카드일 뿐만 아니라 최초로 PCI-E 3.0과 다이렉트 X 11.1을 지원하고, TSMC 28나노 HP 공정으로 만들어진 그래픽카드이기도 합니다. 거기에 대기 전력 3W 미만의 제로코어까지 있지요.

라데온 HD 7970의 경쟁상대는 라데온 HD 6970과 지포스 GTX 580이지만 그보다는 7970이 더 비쌉니다. 하지만 비싼 만큼 값을 더 지출할 이유는 있겠지요.

GCN 아키텍처. 그래픽과 연산을 새로 정의

AMD 라데온 HD 7970은 GCN 아키텍처를 씁니다. GCN 아키텍처에 대해서는 여기서 http://gigglehd.com/zbxe/6755724 이미 소개한 적이 있지만, AMD가 더 많은 자료를 공개하면서 자세한 정보를 소개할 수 있게 됐습니다.

ATI-AMD의 그래픽 연산은 하드웨어 T&L, 픽셀/버텍서 쉐이더, VLIW5에서 VLIW4로 변화했습니다.

그래픽카드의 기술 발전 역사는 어느 정도 알고 있으시겠지요. 초기 그래픽카드의 구조는 매우 간단했습니다. 오직 지오메트리 변환과 광원 렌더링 정도밖에 없었고 나중에 버텍스와 픽셀 쉐이더가 추가됐습니다. 다이렉트 X 10 시대부터 통합 쉐이더 프로세서를 도입하면서 AMD는 기존의 토대를 바탕으로 아키텍처를 발전시킨 VLIW5를 도입했습니다. 4D+1D의 방식으로 통합 쉐이더의 수요를 맞춘 것이며 VLIW5는 라데온 HD 2900부터 3800, 4800, 5800, 6800까지 5세대 연속 이어져 내려왔습니다.

2010년에 AMD는 라데온 HD 6900 시리즈를 발표했습니다. 아키텍처가 조정되면서 4D+1D의 VLIW5 아키텍처가 4D VLIW4로 바뀌었습니다. 스트림 프로세서 유닛의 통용성을 강화했지만 전체적으로는 여전히 VLIW를 벗어나지 않았습니다.

GCN 아키텍처는 기존의 VLIW가 가지고 있던 문제를 해결하고 높은 성능과 낮은 전력 소모를 이룩했습니다.

VLIW 체계의 장점은 회로 설계가 비교적 간단하며 스트림 프로세서 유닛의 수를 쉽게 확장할 수 있다는 것입니다. 단점은 효율이 낮고 명령어 조합에 심하게 의존한다는 것이지요. 강력한 명령어 스케줄러와 조합해 써야 하기 때문에 실제 사용에서는 이론 최고 성능을 내기 힘듭니다. 특히 GPU 계산 성능에 있어서 AMD 그래픽카드는 상당히 뒤쳐진 편입니다.

AMD의 GCN 아키텍처는 GPU 그래픽 성능과 효율의 향상 뿐만 아니라 GPU의 멀티스레딩 처리 성능의 강화해 고성능 계산에 최적화하고 확장 능력과 탄력성을 높여 퓨전 아키텍처와 융합하는 것에 그 목적이 있습니다.

GCN 아키텍처의 기본 구성 단위는 CU입니다.

GCN 아키텍처의 기본 구성 단위는 컴퓨트 유닛(Compute Unit, CU)입니다. 완전한 GCN 코어는 32개의 CU가 있고 각각의 CU는 64개의 ALU와 4개의 TF 텍스처 유닛으로 나눌 수 있으니 총 2048개의 ALU와 128개의 텍스처 유닛이 있습니다. 라데온 HD 6970이 1536개의 스트림 프로세서에 텍스처 유닛이 96개밖에 없다는 것과 비교하면 상당히 늘어난 것입니다.

라데온 HD 6970에 이어서 계속해 듀얼 그래픽 엔진 구조를 썼습니다. 2개의 ACE(Asynchronous Compute Engines 비동기 연산 엔진)과 2개의 지오메트리 엔진이 있습니다.

라데온 HD 7970은 8개의 렌더 백 엔드 유닛이 있습니다. 1 사이클에 32개의 ROP와 128개의 Z/스텐실 처리가 가능합니다. 이 점은 라데온 HD 6970과 다른 점이 없습니다. 오직 메모리 대역폭이 더 커지면서 백 엔드의 성능이 올라간 것입니다.

32개의 CU는 6개의 GDDR5 메모리 컨트롤러와 연결됩니다. 각각의 컨트롤러는 64비트로 총 384비트의 메모리 버스가 나옵니다. 이것은 AMD 최초의 384비트 사용 그래픽카드이며, 여기에 1375Mhgz의 빠른 속도가 결합해 라데온 HD 7970의 메모리 대역폭은 264GB/s가 됩니다. 메모리 용량도 3GB로 늘었습니다.

CU는 4개의 16웨이 SIMD 어레이로 구성됩니다.

AMD는 GCN 아키텍처의 정의를 Non-VLIW ISA With Scalar+Vector Unit, VLIW ISA가 아니며 스칼라와 벡터 유닛의 조합이라고 설명했습니다. 이것은 지금까지의 VLIW 아키텍처를 계승한 것이 아니며 그래픽카드의 유닛의 기본 구성이 SIMD 어레이가 아닌 CU임을 강조하는 것입니다. 그렇다면 도대체 CU는 무엇으로 구성된 것일까요?

위 그림은 CU의 구성도입니다. 각각의 CU는 1개의 스칼라 유닛과 4개의 벡터 유닛이 있습니다. 각각의 벡터 유닛은 SIMD-16 어레이로 구성되며 4개의 SIMD-16 어레이는 각각의 64KB 레지스터가 있고 서로 독립되 연산할 수 있습니다. 이렇게 해서 한개의 CU는 동시에 여러 명렁어를 실행할 수 있는데 이것이 바로 AMD가 GCN은 SIMD 어레이를 기반하는 MIMD 아키텍처라고 설명하는 근거입니다. (Southern Islands is a MIMD architecture with a SIMD array)

GCN 아키텍처와 VLIW 4의 비교

VLIW 4 시스템과 SIMD 어레이를 비교하면 각각의 ALU 유닛 수는 서로 같습니다. 각각의 CU와 SIMD 어레이는 모두 64개의 싱글 프리시전 혼합 덧셈/곱셈 연산을 실행할 수 있습니다. 4x16이나 16x4 모두 64가 되지요. 하지만 다른 점이 있으니 VLIW 4는 비록 4개의 ALU 연산을 실행할 수는 있어도 각각의 ALU가 서로 독립해서 작동하는게 아니라는 것입니다. VLIW 4로 합성이 되야만 작동이 되기 때문에 효율과 스케줄이 문제가 됩니다. 하지만 GCN의 4 SIMD 어레이는 각 주기마다 1개의 ALU 연산을 실행할 수 있으며 4개의 SIMD가 서로 의존하는 관계가 아니라 100%의 효율을 낼 수 있습니다.

GCN 아키텍처의 변화는 매우 간단합니다. 계산하는 방법을 바꾼 것이지요. 하지만 이런 간단한 변화가 라데온 HD 7970의 계산 효율을 극대화했습니다. 더 이상 스케줄러 최적화를 위해 스케줄을 만들고, 분석하고, 디버그할 필요 없이 간단한 연산 과정으로 확장성과 탄력성을 더 높이게 됐습니다.

캐시 설계. 난공불락의 벽이 탄탄대로로.

라데온은 지금까지 캐시 설계를 그리 중요하게 여기지 않았지만 GCN에서 큰 폭으로 바뀌게 됩니다.

지금까지 AMD 그래픽카드는 GPU의 멀티 레벨 캐시를 그리 중요하게 여기지 않았습니다. 왜냐하면 캐시가 그래픽 연산에 그렇게 중요하지 않았기 때문입니다. 라데온 HD 6970은 비록 L1과 L2 공유 캐시로 나뉘어져 있지만 대부분의 캐시 조작은 읽기 전용일 뿐이지 읽기와 쓰기를 모두 지원하는 것은 아니라서 데이터 교환이 불리하고 이는 GPU의 통용 계산에 큰 영향을 미쳤습니다. 하지만 GCN의 캐시는 용량만 늘린 것이 아니라 데이터의 공유와 교환에 큰 신경을 써서 읽기와 쓰기 조작을 모두 지원합니다.

각각의 CU는 SIMD 어레이에 64KB의 레지스터 캐시가 있습니다. CU는 64KB 로컬 데이터 캐시와 16KB L1 캐시가 있습니다. 4개의 CU는 다시 16KB 명령어 캐시와 32KB 스칼라 데이터 캐시를 공유합니다. CU 사이에 공유하는 캐시는 오직 읽기 조작만 가능하지만 다른 l1 캐시나 데이터 캐시는 읽기와 쓰기를 모두 할 수 있습니다.

앞에서 캐시가 64비크 메모리 버스와 L2 캐시로 연결됐다고 말했습니다. L2 캐시는 6개가 있는데 각각 128KB로 총 768KB L2가 있습니다. L2 캐시는 CPU 메모리와 직접 데이터를 동기화할 수 있는데, 라데온 HD 7970은 x86 가상 메모리 기술을 지원해 CPU가 직접 비디오 메모리의 데이터를 액세스할 수 있도록 만들어 CPU와 GPU의 데이터 교환 성능을 높였습니다.

라데온 HD 7970은 x86 가상 메모리 기술을 지원합니다.

정리하면, 캐시 설계, GCN 아키텍처 등의 화려한 변신 뿐만 아니라 L1, L2 캐시 용량 증가에 캐시의 읽기/쓰기 지원, 각각 캐시 사이의 데이터 동기화 등이 GCN 아키텍처의 데이터 출력량과 대역폭을 크게 높인 원인이 됩니다.

테셀레이션. 계속 노력중.

하드웨어 테셀레이션은 다이렉트 X 11에 새로 추가된 주요 기능 중 하나입니다. GPU를 써서 다양한 복잡도를 가진 폴리곤 모델에서 자동으로 대량의 버텍스를 만들어 모델에 추가합니다. 게임 개발자들이 어려운 모델링을 만드는데 시간을 투자할 필요 없이 게임의 화질을 높여주는 기술로서 다이렉트 X 11을 지원하는 그래픽카드에서 쓸 수 있습니다.

테셀레이션은 다이렉트 X 11에서 크게 업데이트된 기능입니다.

테셀레이션은 원래 ATI가 개발한 것으로 라데온 HD 5800까지 6세대가 업데이트됐습니다. 하지만 NVIDIA의 페르미는 SM 유닛마다 폴리모프 엔진을 갖췄고 GF100/GF110 그래픽카드는 최대 16개의 테셀레이션 유닛을 내장하면서 이 부분에서 높은 성능을 냈습니다. 이렇게 NVIDIA의 그래픽카드가 테셀레이션 성능이 AMD를 오히려 역전하면서 진짜 다이렉트 X 11 카드니 가짜 카드니 하는 이야기까지 나오게 됩니다.

하지만 AMD가 논건 아닙니다. 라데온 HD 5800 시리즈 이후 줄곧 테셀레이션의 성능을 개선해서 라데온 HD 6800 시리즈에서는 7세대 테셀레이션으로 발전하게 됩니다. 테셀레이션 유닛의 수는 변하지 않았지만 연산 방식은 최적화돼 성능에 올랐습니다. 라데온 HD 6900 시리즈의 테셀레이션 기술은 8세대입니다. 2개의 엔진으로 테셀레이션 유닛의 수를 2개로 늘리고 외부 캐시를 지원하는데 AMD는 이로서 테셀레이션 성능이 라데온 HD 6800 시리즈의 3배로 올랐다고 설명합니다.

라데온 HD 7970은 그래픽카드 테셀레이션 성능을 개선했습니다.

라데온 HD 7970의 발표에 따라 테셀레이션의 개선도 큰 특징이 됐습니다. 여기서 테셀레이션은 이미 9세대까지 발전했습니다. 역시 2개의 엔진으로 그 수는 변하지 않았지만 기능은 최적화됐습니다. 외부 캐시의 성능과 통용 성능이 향상되면서 AMD는 라데온 HD 7970의 테셀레이션 성능이 라데온 HD 6900 시리즈의 4배 이상이라고 설명합니다.

AMD는 라데온 HD 7970의 테셀레이션 성능이 대폭 상승했다고 주장합니다.

아래서 테스트하겠지만, 라데온 HD 7970은 크라이스 2, 유니진 헤븐, 로스트 플래닛 2 등의 테셀레이션 지원 게임에서 높은 성능을 보였습니다. 특히 마이크로소프트의 테셀레이션 테스트에서는 놀랄만한 향상을 보였습니다.

다른 그래픽 기술 혁신. 다이렉트 X 11.1, PCI-E 3.0, PRT, 24x AA

테셀레이션 외에도 다른 3D 기술들이 모두 향상됐습니다. 다이렉트 X 11의 지원, 최초의 pCI-E 3.0 지원, PRT 대형 텍스처 지원, 24x AA 안티 엘리어싱과 더 높은 AF 필터링 성능 등이 있습니다.

먼저 다이렉트 X 11.1입니다. 마이크로소프트는 비록 다이렉트 X 12같은 대형 업데이트를 준비하진 않았지만 윈도우즈 8에서 다이렉트 X 11.1을 도입할 것이며, 라데온 HD 7970은 최초의 다이렉트 X 11.1 지원 그래픽카드이기도 합니다.

다이렉트 X 11.1은 작은 업그레이드에 불과하며 비록 혁명적인 3D 기술의 도입은 없지만 3D 서라운드의 통용 지원, TBDR 렌더링, TIR 오브젝트 라스터, 배정밀도 부동소수점 연산 등 다양한 기술을 지원합니다. 더 자세한 설명은 전에 올라왔던 글에서. http://gigglehd.com/zbxe/6748097

PCI-E 3.0의 신호는 5GT/s에서 8GT/s로 높아졌고 대역폭은 두배가 됐습니다. 라데온 HD 7970은 최초로 PCI-E 3.0을 지원하는 그래픽카드입니다. 지금까지는 샌디 브릿지-E플랫홈만 PCI-E 3.0을 지원하는데, 이제 라데온 HD 7970이 나왔으니 3위일체를 구성할 수 있겠네요.

PCI-E 3.0의 지원으로 라데온 hD 7970의 대역폭이 32GB/s까지 늘었습니다. 이것은 PCI-E 2.0의 두배입니다.

PCI-E 3.0은 그래픽카드의 성능에 영향을 줄 수 있으나 아직까지는 그리 크진 않습니다. 높은 대역폭을 필요로 하는 작업에서라면 분명 영향이 있을 것입니다.

PRT는 대형 텍스처 기술을 빠르게 발전시키기 위해 존재합니다.

라데온 HD 7970의 PRT는 Partially Resident Textures의 줄임말입니다. 아까 라데온 HD 7970이 가상 x86 메모리 기능을 지원한다고 말했습니다. 대용량 고대역 GDDR5 비디오 메모리를 CPU가 식별 가능한 텍스처 캐시로 쓰면서 테스처 데이터가 더 이상 대역폭이 낮은 시스템 메모리에 저장돼 로딩에 시간이 걸릴 필요가 없어진 것입니다.

PRT의 기술 원리입니다. 필요한 텍스처 데이터를 다양한 순서로 섞어서 보관합니다.

ID 소프트웨어의 존 카멕이 만든 ID Tech5 엔진을 쓴 레이즈는 메가텍스처를 씁니다. 따라서 게임의 용량도 커지게 됩니다. 이렇게 큰 텍스처를 처리하는 것은 상당히 어려운 문제입니다. 만약 게임 개발사들이 PRT 기술을 최적화해서 큰 용량의 텍스처 데이터를 처리한다면 게임 화질을 높이면서도 텍스처 처리4도 개선될 것입니다.

라데온 HD 7970은 성능이 오르면서 최대 24x MSAA/SSAA를 쓸 수 있습니다. 라데온 HD 6970에서 썼던 EQAA로 빼놓을 수 없지요. 현재 제일 인기가 높은 FXAA와 SMAA도 모두 지원합니다.

라데온 HD 7970의 AF 필터링 성능은 일부 개선됐습니다.

AMD는 라데온 HD 7970의 AF 계산법을 개선해서 성능을 떨어트리지 않으면서 필터링 옵션을 추가했습니다.

위에서 본 다이렉트 X 11.1, PCI-E 3.0은 흔히 쓰는 기능이 추가된 것이고 AA와 AF의 성능 향상도 그리 눈에 띄지 않습니다. 하지만 PRT는 앞으로 유용해 보이네요. 다만 게임 개발사의 지원이 필요합니다.

아이피니티 2.0과 HD3D. 더 넓고 더 깨끗하게

만약 싱글 스크린이라면 라데온 HD 6970만으로도 1080p에 고화질로 대다수 PC 게임을 하기에 충분할 것입니다. 하지만 멀티 스크린이라면 어떨까요. AMD는 아이피니티 2.0에서 5스크린 기술을 도입했습니다.

아이피니티 2.0은 AMD의 멀티 디스플레이 기술을 새로운 발전을 이루었습니다.

먼저 아이피니티 2.0은 다양한 스크린 옵션이 가능합니다. 5x1 스크린 모드라던가, 서로 다른 크기의 해상도 사용이 가능해 더 다양한 구성이 가능합니다. 그리고 최대 해상도도 16k x 16k로 늘어났습니다.

해상도 설정, 작업 표시줄의 위치 정하기.

DDMA는 서로 다른 채널의 사운드 출력이 가능하게 해줍니다. 하나의 채널로 합치는게 아니라요.

DDMA는 Discrete Digital Multi-Point Audio의 줄임말입니다. 아이피니티 2.0 중에 포함된 실용적인 기술입니다. 지금까지는 아무리 많은 모니터를 써도 전부 똑같은 사운드 출력이 나왔지만, DDMA를 쓰면 각각의 모니터에서 서로 다른 채널의 사운드를 출력하게 해줍니다. 물론 디스플레이포트나 HDMI 포트를 써야 하지요.

HD3D도 있습니다. 삼성 SA950과 LG의 일부 모니터는 HD3D를 쓸 수 있습니다.

동영상 처리와 소프트웨어 가속: GPU 가속의 생활 속으로

지금까지의 상황을 보면 AMD의 새 아키텍처는 GPU 가속에 대해 미적지근한 모습을 보였습니다. NVIDIA와는 정 반대였지요. 하지만 지금 상황이 달라졌습니다. AMD는 공식 문서에서 GPU 가솝 앱의 비중을 확실히 높였습니다. GCN 아키텍처인 라데온 HD 7970에선 계산 성능이 질적인 변화가 있었을 뿐만 아니라 GPU 가속은 AMD 퓨전 설계의 이념이 됐습니다.

AMD 그래픽카드의 GPU 가속은 AMD의 스트림 통용 계산 기술을 쓰거나, OpenCL 공개 계산을 통해 이루어집니다. 스트림은 각종 동영상 가속 소프트웨어에서 쓰는데 사이버링크의 미디어에스프레소, 미디어코더 등의 소프트웨에서 지원합니다. OpenCL의 GPU 가속은 더 광범위하게 쓰입니다. 영상 재생, 웹브라우저, 지도 보기까지.

소프트웨어 가속 성능은 AMD 그래픽카드에서도 빛을 보게 됐습니다. 갈수록 많은 소프트웨어에서 GPU의 계산 능력을 쓸 수 있습니다.

WinZip 16.5는 AMD의 소프트웨어 가속 기능을 쓸 수 있습니다. 시간은 원래의 1/3.

또 다른 분야는 라데온 HD 7970의 디코딩/인코딩 성능 개선입니다. UVD 엔진은 기존의 UVD3과 변화가 크지 않지만 듀얼 스트림 HD+HD 기능을 넣어 동시에 2개의 HD 영상을 처리할 수 있습니다.

동영상 코딩 엔진은 완전히 새로 바뀌었습니다. AMD는 VCE 엔진을 도입했는데 이것은 인텔 샌디브릿지의 퀵싱크 엔진과 비슷합니다. 빠르게 영상을 변환해 주제요.

VCE 엔진은 2가지 모드로 작동합니다. 모두 동영상 인코딩 속도를 빠르게 만들어 줍니다.

만약 저사양 그래픽카드라면 AMD는 VCE의 풀 인코딩을 쓰길 권장합니다. 비룍 효율은 낮지만 CPU만 쓰는 것보다 전력 사용량이 낮기 때문입니다. 고사양 그래픽카드는 VCE 엔진을 후처리만 담당하고 앞부분은 모두 OpenCL에 넘겨 효율을 극대화합니다.

스테디 비디오 2.0의 기능은 APU보다 더 늘었습니다.

스테디 비디오는 원래 AMD가 APU에 넣은 야심찬 기술이었지만 이제 새 그래픽카드까지 확장하면서 2.0이 됐습니다. 계산법을 강화해 다양한 기능을 추가한 것이 특징입니다.

제로코어 파워: 성능과 전력 사용량의 균형

최근 몇년 동안 그래픽카드의 성능은 계속해서 향상됐지만 전력 사용량 역시 늘어났습니다. 특히 플래그쉽 그래픽카드의 경우 TDP가 200W 이상으로 올라가면서 전력 사용량은 물론이고 온도와 소음도 문제가 되고 있습니다. 전력 사용량과 성능 사이에서 균형을 잡을 방법은 없을까요?

라데온 HD 7970은 새로운 전력 관리 기술인 제로코어를 씁니다. 글 자 그대로 코어가 0이라는 소리지요. 아이들 시에 GPU 코어 기능을 대부분 끄기 때문에 이런 이름이 붙었습니다. AMD의 데이터를 보면 2009년에 발표된 라데온 HD 5800 시리즈는 대기 상태에서 전력 사용량이 27W였지만 라데온 HD 6800 시리즈는 24W까지 줄었다가 라데온 HD 7970에서 3W로 줄어들게 됐습니다.

비록 TDP 210W는 라데온 HD 6900 시리즈보다 높은 것이지만 아이들 상태에서는 3W도 안됩니다.

라데온 HD 7970이 나오기 전에 AMD와 NVIDIA는 클럭을 낮춰서 대기 전력 사용량을 줄여 왔습니다. 지포스는 최저 50.5/135MHz까지, AMD는 250/150MHz까지 줄였지요. 전압도 클럭에 따라 줄어들었는데, 라데온 HD 7970은 다릅니다.

라데온 HD 7970은 아이들, 2D, 3D 같은 구분이 없습니다.

라데온 HD 7970은 300/150MHz@0.85V와 925/1375MHz@1.17W의 두가지 모드가 있습니다. 비로 최저 클럭은 높지만 아이들 전압은 라데온 HD 6970보다 낮습니다. 제로코어 기술은 GPU 부하가 매우 낮을때 GPU 코어를 꺼서 대기 상태의 전력 사용량을 줄여줍니다.

AMD는 이 기술이 CPU의 C6 스테에트와 비슷하다고 설명합니다. 하지만 이것은 AMD 노트북의 라데온 절전 기술에서 비롯된 것이지요. 시스템에 외장 그래픽을 쓰지 않을 때 GPU 코어를 끄고 일부 회로만 남겨뒀다가 GPU 코어를 모니터링하면서 정하는 것입니다. 이렇개 해서 95%의 대기 전력을 줄여 3W를 달성하는 것입니다.

제로코어 절전 기술은 대기 전력 사용량을 대폭 줄여줍니다.

대기 전력이 줄어들면 멀티 그래픽카드에서 제일 큰 효과를 볼 수 있습니다. 라데온 HD 6970의 대기 전력은 20W 정도니까 2웨이 크로스파이어는 최소 20W가 늘어나게 되고 3웨이는 40W가 늘게 됩니다. 하지만 라데온 HD 7970은 2웨이라고 해좠자 3W, 3웨이와 4웨이에서는 더 많은 전기를 절감하게 됩니다. 실제로 2웨이 크로스파이어에서 아이들 상태는 87W, 싱글 카드는 83W로 4W밖에 차이가 나지 않았습니다.

아이들 뿐만 아니라 크로스파이어에서 전력 사용량을 많이 줄일 수 있습니다.

자세한 테스트는 나중에 보시죠.

28나노 공정: 또 다른 공로

라데온 HD 7970은 트랜지스터 규모를 43.1억개로 확장했지만 TDP 210W와 코어 크기 365제곱밀리미터로 유지할 수 있었습니다. AMD의 새로운 설계 사상 외에도 TSMC의 28나노 공정이 혁혁한 성과를 이뤄낸 것이기도 합니다. 라데온 HD 7970의 저전력과 작은 크기는 제조공정에 따른 것이기도 합니다.

현재 메인스트림 그래픽카드들은 모두 40나노 공정입니다. AMD의 라데온 HD 7900 시리즈와 앞으로 나올 NVIDIA의 케플러는 TSMC의 28나노 공정을 씁니다. 하지만 TSMC의 28나노 공정 진전이 그리 순조롭지 않습니다. 예전에 55나노에서 40나노로, 다시 28나노로 가면서 여러 새 기술을 써야 하니 큰 모험을 해야 하는 것이지요.

TSMC의 28나노 공정은 여러 새 공정을 담았기 때문에 기술의 모험이 큰 편입니다.

TSMC의 28나노 공정은 최초로 HKMG 공정을 도입했으며 동시에 게이트 라스트 공정을 처음으로 쓴 것이기도 합니다. 제조사의 공정 순서와 공정 자체를 조정해야 할 뿐만 아니라 IC 설계 쪽에서도 회로를 대폭 조정해야 할 필요가 있습니다. 그렇게 해야만 게이트 라스트의 단점들을 극복할 수 있으며, 새 공정의 밀도를 유지해 양산에 지장을 주지 않기 때문입니다.

TSMC는 28나노 공정을 HP, HPL, HPM, LP 등으로 나누고 있습니다. LP는 제일 먼저 양산되는 공정으로 게이트 라스트가 아니며 전통적인 SiON 기반의 실리콘 게이트 공정입니다. 장점은 제조 원가가 저렴하고 공정이 간단해서 높은 성능을 필요로 하지 않는 모바일 디바이스에 쓰기 알맞다는 것입니다.

라데온 HD 7970의 TSMC 28나노 공정은 HP 공정을 씁니다.

HP 공정이야말로 진정한 HKMG+게이트 라스트 공정입니다. HP는 HP, HPL(저전력), HPM(모바일)의 3가지로 나뉩니다. HP는 최고의 와트당 성능을 내주며 클럭은 2GHz 이상까지 낼 수 있습니다. HPL은 누설 전류가 제일 낮고 전력 사용량은 더낮지만 클럭은 1.4GHz 정도입니다. HPM은 모바일 영역에 맞춘 것으로 클럭은 HPL보다 높지만 전력 사용량은 더 큽니다.

레퍼런스 라데온 HD 7970

레퍼런스 라데온 HD 7970.

라데온 HD 6970과 마찬가지로 좀 둥글둥글한 느낌입니다. 거기에 블로워 펜. 길이는 26.7cm.

미니 디스플레이포트 2개, HDMI 1개, DVI 포트 1개입니다.

8+6핀 보조전원.

GPU 코어와 메모리를 덮는 쿨러.

쿨러는 메모리 부분에 12개의 써멀 패드를 붙였습니다. GPU 쪽만 구리 베이스가 튀어나와 있군요.

여전히 블로워 팬.

6세대 블로워 팬입니다.

AMD의 레퍼런스 그래픽카드는 줄곧 밀폐형 블로워팬과 써멀 패드 조합을 썼습니다. 6세대 쿨러에선 효율과 소음을 개선하고, 특히 쿨링팬의 설계를 새로 했습니다.

왼쪽은 라데온 HD 6970. 오른쪽은 7970. 날개 모양이 다릅니다.

41개의 방열핀은 직사각형 모양입니다. 15.5cm에 2.4cm. 총 면적은 3050제곱cm.

16x9=144제곱cm의 구리 패드.

블로워팬은 홍콩 NTK에서 만들었습니다. FD7525U12D, 직경 7.5cm, 듀얼 베어링, 전류 1.70A, 최대 회전 속도 5200rpm 미만

레퍼런스 라데온 HD 7970의 기판

레퍼런스 라데온 HD 7970의 기판 사진.

라데온 HD 6970의 레퍼런스 기판.

기판을 보면 비슷해 보이는데 GPU 쪽이 살짝 바뀌고 메모리가 4개 더 늘었습니다. 전원부가 제일 많이 변했네요. 6+2+1의 디지털 전원부에서 5+1+1로 바뀌었습니다. 부품 값도 좀 저렴해지고.

기판 뒷부분.

5+1 페이즈 전원부. 5 페이즈는 코어, 1 페이즈는 메모리입니다. 그리고 기판 앞쪽에 1 페이즈가 하나 더 있으니까요. 메모리 대역폭과 용량이 6970보다 50% 이상 늘어났지만 이걸 2페이즈라고 보긴 어려울듯요.

컨트롤러는 CHL8228G, 6+2 페이즈 관리가 가능합니다.

초박형 패키징 Copper MOSFET.

기판 왼쪽의 독립된 1 페이즈 I/O 전원부.

듀얼 바이오스.

8+6 핀 보조전원 포트.

하이닉스 H5GQ2H24MFR-ROC 메모리. 칩 하나의 용량은 2Gb, FBGA 170 볼 패키징, 54나노 공정, 1.5V에서 6000MHz까지 가능.

테스트 환경

테스트 환경은 코어 i7-3960X, 6코어 12스레드, 클럭 3.3~3.9GHz입니다.

2웨이.

3웨이.

라데온 HD 7970 vs 6970

라데온 HD 6970은 비록 더블 프리시전 연산을 지원하지만 실용성은 없습니다. OpenCLGPC 테스트에서 지원하지 않으니까요. 그래서 더블 프리시전 연산 결과는 나오지 않았습니다.

라데온 HD 7970의 성능은 기존 제품인 6970을 격퇴했습니다. 게임에서는 40%부터 80%까지 다양한 결과가 나왔습니다. 게임 뿐만 아니라 GPU의 통용 계산 성능이 대폭 변한 것이 특징. 산드라 2012에선 3~5배의 성능 향상을 보였습니다.

라데온 HD 7970 vs 지포스 GTX 580

산드라 2012에서 GP Cryptography 테스트는 지포스 GTX 580과 GTX 590을 모두 테스트할 수 없었습니다. OpenCL이건 CUDA건 DC건 모두. 그래서 결과에도 포함되지 않았습니다.

플래그쉽 그개릭카드에서 AMD는 줄곧 NVIDIA를 이기지 못했습니다. 하지만 이번에 마침내 앞서게 됐네요. GPU 통용 계산 성능도 라데온 HD 7970이 앞서고 있습니다.

라데온 HD 7970 vs 지포스 GTX 590

지포스 GTX 590은 듀얼 GPU입니다. 하지만 클럭은 GTX 580보다 낮지요. 그래도 듀얼 GPU라고 7970보다는 성능이 높습니다만. 그래도 28나노 공정에 싱글 코어로 이만큼 성능을 낸 7970입니다.

오버클럭. 1.2GHz부터 시작

라데온 HD 7970은 공식 발표회장에서 1GHz 정도는 찍는다고 했지요. 이것은 라데온 HD 4890 이후 처음으로 1GHz를 찍은 그래픽카드이기도 합니다. 출시됐을땐 925MHz. 메모리 클럭은 6970과 같은 1375MHz 정도.

기본 클럭은 925/1375MHz.

기본 클럭에서 P7937점.

오버클럭은 간단합니다. 오버드라이브를 쓰면 되니까요. 추가 전압 기능은 없습니다. 전원 컨트롤로 20%를 더 줄 수 있을 뿐입니다. 최고 TDP를 줘봤자 210W에서 252W.

드라이버에서 클럭은 1125Mhz, 1575Mhz까지 올라갑니다. 이때 3D마크 11 점수느 ㄴP9304점.

바이오스 한계 때문에 더 올라가진 않는데 애프터버너 베타 10에서 전압을 조절하면 1390/1790MHz까지 올라갑니다.

전압을 주면 1255/1600MHz까지. 3D마크 11 P10030점이 나옵니다. 하지만 너무 시끄러워서 시렞로 쓰긴 힘들 정도.

온도와 소음

온도는 2개의 전면 12cm 쿨링팬에 1개의 후면 12cm 쿨링팬, 실온 22도 환경에서 테스트했습니다. Furmark 1920x1080 번인 테스트를 4번 테스트했습니다. 지포스 GTX 580과 590은 온도 보호 기능이 들어갔네요.

라데온 HD 7970의 온도는 4개 중에 제일 훌륭한 편.

아이들 테스트에서 지포스 GTX 590은 41도, 나머지 3개는 37~38도로 비슷비슷했습니다. 팬 속도는 1000~1400rpm, 소음은 다른 소리에 묻힙니다.

3D마크 11에서 지포스 GTX 580과 GTX 590은 86도까지, 팬 회전 속도는 2500rpm 이상이었습니다. 라데온 HD 6970은 83도에 팬 회전 속도 23000rpm. 소음은 그냥 들어줄만하지만 조용한 정도는 아닙니다. 라데온 HD 7970은 회전 속도나 온도 역시 제일 낮았습니다.

Furmark 테스트에서 지포스 GTX 590은 보호 기능 때문에 팬 회전 속도가 1950rpm으로 떨어졌고 온도는 85도였습니다. 그러니 소음도 없지요.

3종류의 싱글 극래픽카드 중에서 지포스 GTX 580은 보호 기능이 걸려 있기 때문에 Furmark에서도 92도, 3800rpm의 굉음을 냈습니다. 6970은 90도, 2800rpm으로 좀 시끄럽지만 참을만한 수준. 7970은 82도, 2600rpm이었습니다.

라데온 HD 7970의 온도 변화는 봐줄만 합니다.

전력 사용량 테스트

전력 사용량은 모던 워페어 3와 배틀필드 3를 추가했습니다. 글래픽카드는 기본 클럭과 1125/1575Mhz로 오버클럭해서 최대값을 쟀습니다.

라데온 HD 7970의 아이들시 전력 사용량은 6970과 같은 94~95W 정도입니다. 제로코어가 그래픽카드의 전력 사용량을 줄여주지만 전체 시스템 전력 사용량에선 큰 티가 나지 않네요. 다만 본체를 켜놓고 몇분이 지나면 83W까지 떨어집니다. 6970보다 11W가 낮네요.

하지만 풀로드에선 높습니다. 라데온 HD 7970은 6970보다 전력 사용량이 늘었는데 그리 크진 않습니다. 가벼운 부하에서 10~30W, Furmark에선 86W가 늘었습니다. 최대 전력 사용량은 435W.

지포스 GTX 590은 비교할 필요도 없겠고, 지포스 GTX 580을 봅시다. 라데온 HD 7970의 성능이 지포스 GTX 580보다 더 높지만 전력 사용량은 오히려 20~50W 정도 낮습니다. 이것은 AMD의 전력 사용량이 확실히 뛰어나다는 점입니다. 지포스는 큰 코어 위주의 전략을 쓰기 때문에 이런 결과가 나올 수도 있겠지요.

라데온 HD 7970 크로스파이어

http://www.expreview.com/18083.html

싱글 카드로는 더 높은 성능을 추구하는 수요를 만족시킬 수 없습니다. 이론적으로는 1+1=2, 1+1+1=3, 1+1+1+1=4의 효율이 나와야 하지만 실제로는 그 정도의 효율이 나지 않습니다.

AMD는 다이렉트 X 11 시대에 진입한 이후 라데온 HD 56800이나 6800 시리즈의 크로스파이어 효율이 줄곧 상승했습니다. 그렇다면 7970에서는 어떨까요?

여기서는 코어 i7-3960X, 클럭 3.3~3.9GHz, 지스킬 립죠스 DDR3-1600 9-9-9-24 16GB, 기가바이트 G1 어쌔신 2 X79, 슈퍼메가 쿨러에 12cm 쿨링팬 2개를 조합한 하드웨어와 윈도우 7 64비트에서 테스트했습니다.

테스트 결과를 보면 라데온 HD 7970의 효율은 80~90% 이상을 유지하고 있습니다. 특히 3D마크 11 X 모드, 파 크라이 2, H.A.W.X. 배틀필드 3, LuxMark 등에서는 효율이 100%에 달합니다. 또 해상도와 화질이 높아질수록 크로스파이어 효율이 높아지고 있습니다. 예를 들어 3D마크 11 P 모드에서 총점 효율은 73%였지만 GPU 성능은 101% 향상됐습니다.

효율이 70%가 안나오는 경우는 대부분이 다이렉트 X 9 게임이었습니다. 이때 시스템의 병목 현상 주범은 그래픽카드가 아니라 전체 시스템의 성능 때문이었습니다. 스트리트 파이터 4는 55%, 모던 워페어 3는 15% 상승에 그쳤고 스카이림은 성능 향상이 전혀 없었습니다. 크로스파이어가 작동하지 않아서 AMD 프로파일 파일이나 최적화 프리셋 등을 모두 써봤지만 변화가 없었습니다. 컴퓨트마크도 마찬가지.

성능이 오히려 떨어진 경우도 하나 있습니다. 배트매: 아캄 시티입니다. 성능이 싱글 카드보다 20% 떨어졌습니다. 이건 드라이버 문제일테고 다음 버전에서 개선되길 바랍니다.

이 테스트 결과를 보면 라데온 HD 7970의 효율이 괜찮은 편임을 알 수 있습니다. 앞으로 드라이버에 따라 더 발전할 수도 있습니다. 베타 버전이라 사소한 문제도 있었습니다. 배틀필드 3에서 프랩스를 같이 쓰면 게임 화면이 블랙스크린으로 뜬다던가, 크라시스 2에서 재부팅된다던가 등등.

효율 외에 전력 사용량도 중요합니다. 여기서는 아이들 사태, 3D마크 11 X 모드 4번 실행, 모던 워페어 3, 배틀필드 3, Furmark를 가지고 테스트했습니다.

싱글 카드에서 아이들시 83W가 나왔습니다. 이건 제로코어 덕분이겠지요. 크로스파이어에서도 87W에 불과했습니다. 3D마크 11에선 크로스파이어가 291W로 싱글 카드의 289W와 별 변화가 없었으며 모던 워페어 3에선 331W에서 471W로 올랐습니다. 140W가 늘었네요. 배틀필드 3는 336W에서 569W로 233W 증가. Furmark는 4356W에서 676W로 241W가 늘었습니다.

이것은 AMD 그래픽카드의 뛰어난 전력 컨트롤 기술과 뗄래야 뗄 수가 없습니다. 3D마크 11 순환 테스트에선 오직 1개의 카드만 풀로드 상태였고 다른 카드는 실제로 아이들 모드였습니다. 모던 워페어 3와 배틀필드 3는 싱글 카드의 전력 사용량 차이가 매우 작습니다. 하지만 크로스파이어 구성시 배틀필드 3의 성능 향상이 모던 워페어 3보다 확실히 높습니다. 이것은 두 카드의 연산 참여가 매우 높다는 것을 의미합니다. Furmark도 마찬가지. 두 카드가 100%로 가동하니까 전력 사용량 차이도 높습니다.

3D마크 11의 그래픽 테스트 4번 반복에서 GPU는 1개 정도만 풀로드 상태였고 다른건 아이들이었습니다.

Furmark에선 두 카드가 모두 풀로드 상태였습니다.

라데온 HD 7970의 크로스파이어 효율은 매우 높습니다. 대다수 테스트와 게임에서 80~90%의 효율을 보여주는게 문제가 아니며, 다이렉트 X 10/11 게임에선 90~100%도 자주 보입니다. 성능은 만족스러우며 전력 사용량도 나쁘지 않은 편입니다. 사소한 버그를 고쳐줄 새 드라이버만 나와준다면 더 좋겠지요.

테셀레이션 성능 테스트

http://www.expreview.com/18082.html

테셀레이션은 AMD가 개발에 참여해, 다이렉트 X 11이 발표되면서 널리 쓰이기 시작했습니다. 하지만 페르미가 나온 이후 오히려 NVIDIA가 자사 그래픽카드를 홍보하는 수단이 됐습니다. 이걸 AMD가 좋아할 리가 없지요.

라데온 HD 5000 시리즈의 테셀레이션 성능이 페르미에 따라잡힌 이후, AMD는 테셀레이션 성능을 개선하기 시작했습니다. 우선 Barts(6800 시리즈)는 7세대 엔진을 써서 계산을 최적화하고 성능을 끌어올렸습니다. Cayman(6900 시리즈)에선 8세대 엔진을 써서 그래픽 엔진 수의 두배에 달하는 테셀레이션 성능을 달성했습니다.

Cayman 코어의 듀얼 그래픽 엔진

비록 Cayman 코어 테셀레이션 성능이 강화됐지만 페르미 아키텍처의 GF110과 비교하면 아직 부족합니다. 하지만 타히티 코어에선 NVIDIA처럼 대량의 테셀레이터를 넣어 성능을 개선하는 방법을 쓰진 않았습니다. 기존의 테셀레이션 성능을 강화하는 방법을 선택했지요.

타히티 코어의 듀얼 지오메트리 엔진

타히티는 Cayman 코어의 듀얼 엔진 아키텍처를 그대로 쓰지만 어느 정도 개량을 했습니다. Rasterizer는 하나의 유닛으로 독립되고 Hierarchical Z는 Rasterizer 내부에 통합됐습니다. 테셀레이터, 지오메트리 어셈블러, 버텍스 어셈블러는 모두 지오메트리 엔진의 구성품이 됐습니다.

타히티의 테셀레이터는 Cayman의 8세대에서 9세대로 올랐습니다. 버텍스의 중복 이용율을 높이고 더 많은 데이터의 고속 캐시, 캐시 성능 강화 등으로 AMD는 타히티의 테셀레이션 성능이 Cayman의 4배 이상이라 주장합니다.

라데온 HD 7970의 테셀레이션 성능은 6970보다 대폭 늘었습니다.

그럼 얼마나 늘었는지 보시지요.

코어 i5-2500K에 Z68 플랫홈, CPU는 4.5GHz로 오버클럭, 드라이버는 12월 20일자입니다. 테스트 항목은 다이렉트 X 11 SDK의 테셀레이션 성능 테스트와 실제 다이렉트 X 11 게임 성능을 넣었습니다. 7970과 6970의 성능 차이를 보시지요.

위 테스트에서 테셀레이션 팩터가 9~25 사이일 때 7970의 성능은 6970의 두배 정도입니다. 테셀레이션 팩터가 17일땐 150%입니다. AMD의 새 그래픽카드가 기존 제품보다 꽤 성능 향상이 있음을 알 수 있습니다.

이 테스트는 아까 했던 Sub D11처럼 그리 확실한 차이가 나진 않습니다. 왜냐하면 이 테스트에서 테셀레이션 팩터가 15까지밖에 올라가지 않기 때문입니다. 하지만 여전히 7970과 6970의 격차는 큰 편이며, 테셀레이션 팩터가 15일때 두 제품의 성능 차이는 46%가 났습니다.

실제 게임에서 테셀레이션은 크라이스 2, 로스트 플래닛, 유니진 헤븐-게임은 아니지만-에 많이 쓰입니다. 50%가 넘네요. 크라이시스 2는 71%. 유니진 헤븐의 테셀레이션 팩터는 7970에서 보다 명확하게 나뉩니다. 테셀레이션이 상대적으로 적게 쓰인 DiRT3와 메트로 2033에선 25% 정도 상승에 그쳤습니다.

이번 라데온 HD 7970에선 테셀레이션에 많은 공을 들였음을 알 수 있습니다. 사실 기본 다이렉트 X 11 성능이 지포스 GTX 580을 앞서고 있으니까, 테셀레이션 유닛의 수를 늘리지 않고 유닛 성능 강화라는 방법을 택한 것은 트랜지스터를 절약하는 좋은 방법일 것입니다. 7970의 테셀레이션 성능이 공식적으로 주장하는 것 만큼 4배까진 아니지만 50% 정도는 성능 차이가 나고 있습니다.

PCI-E 3.0 vs PCI-E 2.0 테스트
http://www.expreview.com/18112-all.html

PCI 버스는 PC에서 사라지고 PCI-E 버스가 본격적으로 쓰기오 있습니다. PCI-SIG는 PCI-E 4.0을 이미 발표했고 현재 제일 많이 쓰이는 것은 PCI-E 2.0입니다.

현재 자주 보이는 그래픽카드는 모두 PCI-E 2.0입니다. 2007년에 제정되 속도는 5GT/s며 x16에서 8GB/s의 대역폭이 나옵니다. PCI-E 3.0은 2010년에 시장에 진입했지만 실제로는 2010년에 PCI-E 3.0의 스펙이 확정됐습니다. 라데온 HD 7970이 되서야 PCI-E 3.0을 쓰는 그래픽카드가 나온 셈이기도 합니다.

PCI-E 3.0 로드맵

PCI-E 2.0과 비교하면 PCI-E 3.0의 목표 대역폭은 1GB/s로 늘어난 것이 특징입니다. 이 속도를 실현하기 위해 PCI-E 3.0 신호 클럭은 2.0의 5GT/s에서 8GT/s로 늘었습니다. 코딩 솔루션도 8b/10b에서 128b/130b로 바뀌고 다른 스펙은 변하지 않았습니다. 1 사이클에 여전히 2비트 데이터를 전송하며 멀티 채널 병렬 전송이 가능합니다.

PCI-E 3.0 x16의 양방향 속도는 32GB/s

대역폭이 늘어나서 데이터의 흐름이 대폭 늘어난 것 외에도 PCI-E 3.0의 신호 속도는 더 빨라져 데이터 전송 레이턴시도 줄었습니다. 그 밖에도 소프트웨어 모델, 전력 사용량 등이 구체적으로 최적화됐습니다.

비록 PCI-E 3.0의 이론 속도가 두배로 늘었다고 하지만 문제는 그래픽카드가 그만큼 높은 대역폭을 필요로 하느냐는 것입니다. P67 메인보드는 x8 + x8의 크로스파이어/SLI 조합만 가능하지만 듀얼 x8이라고 해도 듀얼 x16과 속도 차이는 그리 크지 않습니다. 이것은 PCI-E 2.0의 절반 대역폭이라고 해도 기존 그래픽카드에 성능을 내는 데는 별 문제가 없다는 것을 의미합니다.

라데온 HD 7970은 성능이 늘어나면서 PCI-E 3.0과 2.0의 성능이 약간 다르긴 합니다.