||11995년 11월 6일, 3DFX가 최초의 3D 가속 카드인 부두를 발표하면서 컴퓨터 그래픽 카드의 3D 시대가 시작되었습니다.

그 후로 수많은 회사들이 경쟁하면서, 3DFX는 NVIDIA가 인수하고, S3는 비아가 인수하고, 트라이던트는 SIS가 인수하면서 XGI로 이름을 바꾸고, 그 XGI를 다시 ATI가 인수하고, ATI는 또 AMD가 인수하는 식으로... 지금은 NVIDIA와 ATI(AMD의 그래픽카드 부서는 엄연히 ATI라는 이름을 유지하고 있습니다)의 양강 구도로 굳혀져 가고 있는 추세입니다.

ATI에 대해서는 작년에 "ATI, 21년의 역사(http://gigglehd.com/bbs/view.php?id=infoboard&no=11)"라는 글에서 자세히 소개해 드린 적이 있으니 이번에는 NVIDIA의 14년 역사에 대해 소개해 드리고자 합니다.

이 글은 pcpop.com에서 NVIDiA의 AIC(Add in Card 파트너)인 Inno3D의 협조를 받아 작성한 글(따라서 Inno3D의 제품 사진이 대부분입니다)을 기글 하드웨어에서 번역/편집한 것입니다. 퍼가실 때에는 기글하드웨어의 글임을 제대로 표기해 주시기 바랍니다.


먼저 NVIDIA와 그 CEO/창립자인 Jen-Hsun Huang씨에 대해서 기본적인 내용을 설명하고 넘어갑시다.



NVIDIA 본사 건물입니다.

NVIDIA는 1993년 1월에 창립되었으며, 본사는 미국 켈리포니아주 산타 클라라에 위치해 있습니다. 전세계에 3600여명의 직원이 있으며, 그 주식 가치는 100억$가 넘은 회사로, 퍼스널 디지털 멀티미디어 컴퓨터, 상업용 컴퓨터, 워크스테이션, 노트북, 디지털 크레에이터 시스템, 군사용 네비게이션, 비디오 콘솔 게임기, 핸드폰, 각종 모바일 기기 등의 광범위한 사업을 활발하게 진행하고 있습니다.


Jen-Hsun Huang(黃仁勳), NVIDIA CEO/회장/최종 보스(?)

현재 NVIDIA의 CEO 겸 회장인 Jen-Hsun Huang(黃仁勳, 중국 본토 발음대로 읽으면 '황런쉰'이고, 한국식으로 읽으면 '황인훈'이 되겠습니다)씨가 당시 IBM 전문가용 그래픽 어댑터 엔지니어인 Curtis Priem씨와 선 마이크로시스템스의 시니어 엔지니어인 Chris Malachowsky씨와 같이 NVIDIA를 만들었습니다. 1993년 당시 Jen-Hsun Huang씨의 나이는 '겨우' 30살이었습니다.(그러니까 지금 나이도 한국식으로는 45살-미국식으로는 43/44살? 상당히 젊은 CEO지요)


요건 비교적 최근 사진. 중국 CCTV2와의 인터뷰 도중인데, 'NVIDIA를 막 시작했을 당시에는 CPU 시장에 낄 자리가 없었기 때문에 그래픽 사업을 시작했다'고 말하는 부분입니다.

NVIDIA를 만들때 Jen-Hsun Huang씨는 정말 세밀한 시장 조사와 더불어, Bay Area의 그래픽 칩 애널리스트인 Jon Peddie(지금은 아마 Jon Peddie Research로 자신의 이름을 건 회사를 따로 만든걸로 기억합니다)에게 상담을 한 끝에, 1993년 당시에는 아직 제대로 형성되지 않은 3D 그래픽 칩 시장에 뛰어들기로 결정합니다.


NVIDIA의 처녀작 NV1 -그래픽카드와 사운드카드의 결합

1995년 5월, SGS-Thomson Microelectronics(ST Micro)의 도움으로 NVIDIA는 자사 최초의 3D 그래픽 가속 칩인 NV1을 발표하였고, 그 유명한 다이아몬드 엣지 3D 그래픽카드가 이 칩을 사용하게 됩니다.


Diamond EDGE 3D

NVIDIA가 선택한 3D 구형 방식은 몇몇 콘솔 게임기에서 사용하고 있는 forward-rendered quads와 Quadratic Textyre Maps(NURBS: Nonuniform rational B-splines 계산 방식에서 파생된 방법)였습니다. 당시에는 많은 3D 가속 카드들이 모두 대량의 작은 폴리곤들을 도형의 곡선 부분에서 만들어, 모든 폴리곤들이 어느 정도의 버텍스를 포함하고 있었기 때문에 대량의 버텍스 처리를 위해 CPU의 계산 부하가 늘어나게 되었습니다. 

하지만 NV1은 정사각형 도형의 외곽선을 곡선으로 바꿔 이를 재조립함으로서 전체 폴리곤의 사용량을 줄이고 계산 부하를 낮추는 상당히 뛰어난 방법을 사용했습니다. Quadratic Textyre Maps 방식은 매우 좋은 화질을 얻을 수 있었지만 당시에는 이 기술이 그리 많이 사용되진 않았습니다.



NV1에는 350MIPS의 사운드 처리 프로세서가 장착되어 32웨이 사운드 채널을 처리할 수 있습니다. 이 사운드 칩은 위상 진동을 지원하여 게임 중의 특수 효과(괴물의 호흡 소리라던가 총소리 등등)를 처리하기에 매우 알맞았으며, DMA 엔진을 내장하여 PCI나 VL-Bus 슬롯을 통과하여 시스템 메모리에 직접 데이터를 읽거나 쓸 수 있어 그래픽카드의 비디오 램을 사용하지는 않았습니다.

NV1의 연구 개발 기간 중에는 폴리곤이 3D 어플리케이션의 표준이 되진 않았습니다만, 당시의 3D 게임 프로그램은 모두 3DFX의 글라이드 API를 기본으로 하여 만들어졌기 때문에 S3 그래픽스의 ViRGE, 매트록스 Mystique, ATI 레이지, 렌디션 베리떼 V1000 등의 그래픽카드들은 모두 폴리곤 방식을 지원하였고, 마이크로소프트가 윈도우즈 95에서 폴리곤을 채우는 방식을 다이렉트 3D API의 기초로 삼으면서, 이 2개의 API를 모두 지원하지 않고, MPEG1 코딩도 지원하지 않았던 NV1은 일반 PC 시장에 보급되지 못했습니다.

동시에, NVIDIA의 부회장인 Chris Malachowsky씨가 지적했던대로, 당시 개인용 컴퓨터는 그래픽카드, 사운드카드, 게임 컨트롤러등의 기능이 모두 나뉘어져 있었습니다. 따라서 NV1처럼 모든 기능을 자체 내장하는 방식은 제품 제조 원가가 올라가게 되며, 기술이 뒷받침되어 있지 않다면 그 경쟁력을 잃게 됩니다. 결국 NV1은 그리 성공하지 못했지만 새로운 기능과 기술의 토대를 마련하게 됩니다.

NV1은 컴퓨터 시장에서는 성공하지 못했지만 게임기 시장에서는 그렇지 않았습니다. 특히 당시 닌텐도와 더불어 일본 게임업계를 양분하였던 세가의 차세대 게임기인 새턴에서 이 forward-rendered quads 기술을 사용하였을 뿐만 아니라, 새턴 기반의 게임을 PC용으로 이식(버추어 파이터라던가 팬저 드래군)하면서 NVIDIA와 세가는 긴밀한 파트너 관계를 맺게 됩니다.


NV2 계획의 포기와 세가의 지원, 그리고 다이렉트 3D

NVIDIA가 NV1의 실패로 재정적인 위기를 맞이하였을때, 세가가 NVIDIA에게 7백만$의 자금을 지원하면서 이를 차세대 콘솔 게임기용 그래픽 칩의 개발에 사용하게 됩니다. 하지만 당시 세가에서 QTM 방식의 결점을 발견하였을 뿐만 아니라, 당시 일본의 게임 개발자들이 모두 폴리곤 방식을 사용하고 있었기 때문에, 세가는 NV2에서는 발전된 방식을 사용해야 한다고 판단, 그래픽 엔지니어 팀을 NVIDIA에 파견하여 개발을 돕도록 하였습니다.

그러나 NVIDIA는 QTM 방식을 계속 사용하겠다고 고집을 부렸고 이 때문에 세가는 엄청나게 실망, 결국 NVIDIA를 포기하고 다른 회사- 당시 컴퓨터 3D 가속의 선두주자였던 3DFX와 접촉하여, 1997년 2월에는 부두 밴시의 온보드 버전을 사용하겠다고 발표하기에 이릅니다. 허나 나중에 NEC의 농간으로 결국 세가는 NEC 비디오로직 제품을 선택, 파워 VR(Imagination Technologies의 자회사)의 그래픽 칩을 사용하게 됩니다. 어쨌건, NV2는 세가가 포기하면서 결국 그 모습을 드러내지 못하고 사라져 버립니다.



1995년 8월에 마이크로소프트가 새로운 그래픽 유저 인터페이스 방식을 사용한 윈도우즈 95를 발표하면서 전세계 컴퓨터 운영체제의 90% 이상을 장악하게 됩니다. 윈도우즈 95는 GDI 방식의 인터페이스를 사용하기 때문에 더 높은 사양의 그래픽카드가 필요했고, 이 때문에 개인용 컴퓨터 시장이 급격히 발전하게 됩니다.

윈도우즈 95를 발표하기 전엔 1995년 2월, 마이크로소프트는 영국 Rendermorphics를 인수하면서 이 회사의 RealityLab 2.0을 다이렉트 3D 표준으로 삼아 윈도우즈에 포함시키게 됩니다.


NV3 Riva 128. 최초의 성공

NVIDIA는 NV1과 NV2의 경험과 교훈을 바탕으로 다시 치밀한 시장 분석을 거친 끝에, 개인용 컴퓨터의 그래픽 칩 시장 제품을 연구하기로 방향을 정하고, 다이렉트 X를 지원하기로 결정했습니다.

이는 지금 보면 최고의 선택이었지만 당시로서는 위험한 선택이기도 했는데, 그때 당시 3DFX의 글라이드가 대대적인 성공을 거두면서 여러 그래픽 회사들이 자신만의 3D API를 출시하기 시작-예를 들자면 3DFX의 글라이드, 파워 VR의 파워 SGL, ATI의 3DCIF 등등-했을 뿐만 아니라, 마이크로소프트의 다이렉트 3D의 보급 속도가 매우 느렸기 때문이지요.

하지만 NVIDIA의 이러한 선택 덕분에 오히려 다이렉트 3D 진영에 자신의 이름을 확실하게 각인시켰을 뿐만 아니라 마이크로소프트가 든든한 후원자로 나서게 되기도 했습니다.

당시 3D fps 게임 시장은 ID 소프트웨어의 퀘이크가 주름잡고 있었는데, 퀘이크 엔진의 엔지니어인 존 카멕은 3DFX의 글라이드를 사용하지 않고 공개된 API인 오픈GL을 사용하면서 역시 NVIDIA에게 좋은 기회를 주게 됩니다. 이 후로 NVIDIA와 ID 소프트는 계속해서 우호적인 관계를 유지하게 되었고, 나중에 퀘이크 3의 하드웨어 가속 방식을 선택할때 존 카멕은 어떤 방식의 미니GL 가속도 거절하고, 모든 그래픽카드에서 오픈GL ICD 환경으로 작동하길 요구하면서 3DFX를 또 다시 난처하게 만들어 버립니다.


NV3, 리바 128

NVIDIA는 개발-연구 방향을 바꾸면서 David Kirk(현재 NVIDIA Chief Scientist이며 NAE, 즉 미국 국가 연구 위원회 산하 미국 공학회의 엔지니어로 선출된 분입니다)를 스카웃하여 기술 총 감독을 맡겨, 1997년에 NV3을 출시, 그 이름을 리바 128로 명명합니다.

이는 처음으로 128비트 하드웨어 폴리곤 엔진을 사용한 칩으로서, 리바 128의 텍스처 품질은 3DFX의 부두를 따라가진 못했지만, 100M/s의 필 레이트와 오픈GL의 지원 등은 리바 128이 글라이드 API가 아닌 다른 게임에서 부두를 압도하게 만들면서, 소비자들과 OEM 제조업체 사이에 신속하게 퍼지게 됩니다.


NV3 - RIVA 128 그래픽카드

리바 128은 AGP 1x 슬롯을 지원하여 인텔 LX 칩셋 메인보드에서 사용할 수 있었습니다. 1997년 말에는 델과 게이트웨이 등의 대형 OEM 제조사들이, 리테일 시장에서는 다이아몬드, STB, 아수스, 엘사, 캐노퍼스 등이 리바 128 그래픽카드를 출시하면서 1년도 채 되지 않아 리바 128의 판매량은 백만개를 넘게 됩니다.

종합적으로 놓고 보면 리바 128의 성공 원인은 여러가지가 있습니다. 그래픽 칩 자체의 성능도 당연히 매우 중요하겠지만, 1998년 게임 개발 업계의 변화 역시 매우 중요한 부분 중에 하나입니다.

먼저 ID가 퀘이크2 엔진의 라이센스를 개방한 것이 있습니다. 벨브를 비롯한 많은 게임 개발 회사들이 3월에 퀘이크 2 엔진의 코드를 이용하여 게임을 만들었고, 이러한 게임들-헤라틱, 하프 라이프-이 대량으로 출시되면서 리바 128의 좋은 오픈 GL 성능이 충분히 발휘될 수 있었습니다.

다음으로 3DFX의 글라이드 API가 게임 개발 업계에서 기존의 압도적인 지위를 잃어버렸다는 것입니다. 제일 유명한 예를 2가지 들어보자면 툼 레이더 2와 니드 포 스피드 3가 처음에는 글라이드 전용으로 개발되었다가 나중에 다이렉트 3D 지원을 추가하게 된 점이 있겠군요. 리바 128을 비롯한 비(非) 부두 계열 그래픽카드는 모두 다이렉트 3D에서 좋은 성능을 보여주었습니다.


당시 주요 3D 그래픽 카드의 스펙 비교

반년 후, NVIDIA는 리바 128ZX를 발표하여 오픈 GL을 완벽하게 지원하게 됩니다. 윈도우즈 95, 96, NT 4.0에서 모두 완벽한 오픈 GL ICD 드라이버가 포함되어 있었고, 리바 128ZX는 일부 버그를 해결하고 비디오 메모리 용량을 8MB로 늘러 상당한 성능 향상 효과를 보여주었습니다.


NV4, 폭탄과도 같은 성능의 리바 TNT 등장

1998년 10월, NVIDIA는 리바 TNT를 발표합니다. TNT는 TwiN Texel의 줄임말로서, 이럼 이름이 붙게 된 이유는 NV4의 코어 아키텍처가 2개의 32비트 픽셀 쉐이더 파이프라인 랜더링 체계를 갖추면서, 1개의 파이프라인에 1개의 TMU가 붙어 1 클럭 사이클에 2개의 텍스처를 처리할 수 있게 되었기 때문입니다(...만, 다들 '폭탄'만 떠올리시지 진짜 이름은 아무도 모르시는 듯?). 

이런 방식으로 작동하는 리바 TNT는 90MHz 코어 클럭에서 최대 필 레이트가 180M Texels/sec에 달했으며, 또한 리바 TNT는 처음으로 24비트 Z 버퍼와 8비트 스텐실 버퍼를 내장하였습니다.



리바 TNT의 당초 설계 목표는 부두 2의 2배 성능이었습니다만, 당시 0.25 미크론 공정이 아직 완벽하지 않았기 때문에 NVIDIA는 0.35 미크론 공정을 사용할 수밖에 없었고 따라서 90MHz의 비교적 낮은 클럭으로만 작동하였습니다. 허나 리바 TNT는 부두2를 제압하는데에는 성공하여 그 당시의 제일 빠른 3D 가속 카드로 군림하게 됩니다. 부두 2의 2배 성능이라는 목표는 나중에 TNT2가 완성하게 되지요.

그리고 이때 NVIDIA는 드라이버 최적화의 중요성을 깨닫고, 리바 TNT에 맞는 새 드라이버의 이름을 디토네이터(Detonator, 뇌관. 폭탄을 폭파시킬때 사용하는 장치)으로 명명합니다. 뭐 지금은 포스웨어로 바뀐지 오래 됐지만 말입니다.

뛰어난 3D 성능 때문에 독일의 엘사, 미국의 캐노퍼스 등의 메이저급 그래픽카드 제조업체들이 NVIDIA 진영에 가입하고, 크레에이티브 역시 TNT를 사용한 그래픽카드를 출시하게 됩니다. 9월에는 NVIDIA가 PC 매거진에서 선정한 '제일 영향력이 있는 그래픽 칩 생산 업체'로 선정되고, 리바 TNT는 머큐리 연구 센터에서 '제일 빠른 그래픽 칩'으로 선정되는 영광을 누리게 됩니다.

동시에, NVIdIA는 오픈 GL 아키텍처 위원회의 새 연구원들을 받아들이면서 처음으로 오픈 GL ARB 전문 그래픽 칩 설계 회사가 됩니다.


NV5, 리바 TNT2. 2배의 성능

1999년 4월에 코드네임 NV5, 리바 TNT2가 발표됩니다. 0.25 미크론 공정을 사용하여 클럭을 125Mhz로 높이고 일부 최적화를 단행하여 성능을 대대적으로 끌어 올립니다. 나중에는 0.22 미크론 공정을 사용하여 클럭을 더 높인 제품도 나오게 됩니다.





TNT2부터 NVIDIA는 시장 세분화 정책을 시작하면서 고급형, 중급형, 저가형에 알맞는 제품들을 출시합니다. TNT2는 TNT2 밴타, TNT2 M64, TNT2, TNT2 프로, TNT2 울트라 등의 다양한 제품으로 출시되며 대부분의 시장을 장악하게 됩니다.


Inno3D TNT2 울트라

TNT2 울트라는 시리즈 최고급형 제품으로서 NVIDIA가 처음으로 울트라라는 이름을 쓴 제품이기도 합니다. 코어 중에서 제일 품질이 뛰어난 것들을 골라내어 속도가 빠른 메모리를 장착, 코어/메모리 클럭이 150/183MHz으로 시작하여 나중에는 175/200MHz 제품까지 출시되었으며, 그 성능은 3DFX의 부두3 3500과 매트록스 G400 맥스를 뛰어넘었고, 특수 효과들을 대부분 지원했기 때문에 당시 최고 성능의 제품이 되었습니다. 1995년 5월 당시 당시 리드텍, 아수스, 크레에이티브의 메이저급 회사들이 제조한 TNT2 울트라의 국내 판매 가격은 30만원 정도였습니다.

TNT2 노말 버전은 TNT2 울트라의 다운클럭 버전이라고 할 수도 있으며, 코어/메모리 클럭은 125/150MHz였습니다. 하지만 TNT2의 0.25 미크론 공정은 코어 클럭을 150Mhz까지도 올릴 수 있었기 때문에, 이때 오버클럭커들이 TNT2 노말을 사서 TNT2 울트라 수준으로 오버클럭하여 사용했습니다. 당시 최고 클럭 기록은 165/200이었다고 하는군요. 그때 판매 가격은 20만원 정도였다고 합니다.


NV6, NV5의 공정 개선, TNT2 프로/M64/밴타의 탄생

나중에 제조 공정이 개선되면서 0.22 미크론 공정을 사용한 NV6가 TNT2 프로라는 이름으로 출시됩니다. 0.22 미크론을 사용했기 때문에 TNT2 프로는 제조 원가, 전력 소모, 발열 등이 많이 개선되었으며 오버 클럭 잠재력 역시 뛰어나 가격대 성능비가 매우 좋은 제품이었습니다. NVIDIA는 프로 버전 외에도 중저가용 제품인 벤타와 M64도 NV6 코어를 사용하여 출시합니다.


Inno3D TNT2 M64

TNT2 M64는 NVIDIA의 중급형 제품으로 125$ 이하 메인스트림급 시장을 공략하였으며 경쟁 상대는 S3 새비지 4 프로였습니다. 제조 원가를 낮추기 위해 128비트 대신 64비트 메모리 버스를 사용하여 메모리 대역폭이 1GB/s가 되었지만 다른 부분은 차이가 크지 않습니다. 최대 32MB의 메모리를 장착 가능하며 AGP 4x 슬롯을 사용합니다.

M64의 성능은 밴타와 프로 사이에 위치하지만, 고해상도/32비트 컬러에서 성능 하락이 상당했다고 합니다. 어쨌건 M64는 당시 중급형 시장에서 제일 잘 팔리는 물건이 되었으며 최적화가 잘 된 디토네이터 드라이버의 지원으로 새비지 4 프로를 물리치며, 1999년에 TNT2 패밀리가 3D 카드 시장의 80%를 장악하게 됩니다.


TNT Vanta.

TNT 밴타는 저가형 제품으로 주로 OEM 시장을 공략하기 위한 제품이었습니다. 클럭을 100/125MHz로 낮추고 8/16MB 메모리를 장착하여 가격을 십만원 이하로 낮추었습니다. NVIDIA가 이걸로 OEM 시장을 집중 공략하자 당시 OEM으로 먹고 살던 ATI는 레이지의 뛰어난 DVD 코딩 능력에 의존하여 시장을 지켰다는군요.


하드웨어 T&L, 최초의 GPU, 지포스 시대의 개막



1999년 8월, 마이크로소프트가 다이렉트 X 7.0을 발표하면서 Transform and Lighting(폴리곤 변환과 광원 처리)가 새 기술의 대세를 이루게 되었고, 10월에는 ID 소프트의 퀘이크3에서 이 기술을 사용하게 됩니다. 이 T&L 처리를 CPU에서 연산하면 대량의 부하가 걸리기 때문에 지포스 256에서 CPU 대신 하드웨어 T&L을 지원, T&L을 연산하게 되면서 최초의 GPU라고 명명하게 됩니다.

지포스 256은 처음으로 GPU라는 개념을 사용한 제품입니다. GPU는 하나의 프로세서 안에 완벽한 Transform, Lighting, Setup, Rendering 처리 엔진을 갖추고 있는 것을 뜻하며, 전에는 반드시 CPU에서 연산해야 했던 부분을 이제는 GPU에서 완성할 수 있게 되었고, 대부분 상황에서 GPU의 T&L 성능은 CPU보다 2~4배 정도 빨랐을 뿐만 아니라 이로 인해 CPU의 부동 소수점 연산 부담을 줄여주게 되었습니다.

NV10은 0.22 미크론 공정으로 제조되었으며 2천3백만개의 트랜지스터를 내장, 당시 사용되던 CPU인 펜티엄 3의 트랜지스터 수를 넘겨버렸습니다. 원래는 0.18 미크론 공정으로 제조될 계획이었지만 빠른 시장 점유를 위해 기존의 0.22 미크론 공정을 사용하였으며, 이 때문에 대량의 트랜지스터 내장으로 인한 발열과 전력 소모가 상당한 수준에 이르러 NVIDIA는 코어 클럭을 120Mhz로 정하게 됩니다. 하지만 이때까지 그 유래가 없었던 4개의 픽셀 파이프라인을 사용하여 픽셀 필 레이트 피크치를 480M/s를 기록, 기존의 TNT2 울트라와 엄청난 격차를 벌리게 됩니다.

지포스 256은 현재 사용되는 GPU의 대부분의 특징을 가지고 있습니다. 256비트 랜더링 엔진, 4개의 픽셀 쉐이더 파이프 라인, 1개의 픽셀 쉐이더 파이프라인에는 1개의 TMU를 사용하였고, 또한 최초로 DDR 램을 그래픽카드에 사용한 제품이기도 합니다. 지포스 256의 코어 클럭은 120Mhz로 1초에 1500만개의 버텍스를 만들어 낼 수 있었으며 픽셀 필 레이트 피크치는 580M/s이고, 쿼드 텍셀 엔진을 사용하여 지포스 256은 동일 클럭의 TNT2보다 2배의 텍스처 처리 능력을 보여줬습니다. 

특수 효과 부분에서는 Cube environment mapping과 버텍스 혼합, 텍스처 압축, 텍스처 질감 반사 기능 등을 지원하였고, 동영상 부분에서는 MPEG2 재생 기능을 추가하였습니다.


지포스 256 DDR

지포스 256 DDR의 메모리 클럭은 300MHz로, 메모리 대역폭은 기존의 SDRAM의 2.66GB보다 2배 늘어난 4.8GB가 되었습니다. 이 덕분에 지포스 256의 픽셀 필 레이트가 대대적으로 늘어나 고해상도 32비트 컬러에서 뛰어난 성능을 보여주었습니다만, 당시 DDR 메모리의 가격이 매우 비쌌기 때문에 지포스 256 DDR 버전의 가격은 30만원 정도였습니다.


지포스 256 SDR

지포스 256 SDR은 DDR 버전보다 7만원 정도 저렴한 가격에 판매되었으며, 메모리 클럭은 200MHz, 대역폭은 2.4GB/s입니다. 다만 고해상도 32비트 컬러에서 상당 수준의 성능 손실-TNT2 울트라 수준-이 있었다고 합니다. 하지만 가격이 비교적 저렴했기 때문에 판매 실적은 괜찮았다는군요.


지포스 2시대. GTS의 의미를 알고 계십니까?

2000년 5월에 출시된 코드네임 NV15는 텍스처 필 레이트가 1.6GigaTexel/Sec에 달해 처음으로 필 레이트에서 1억을 넘긴 제품이 되었습니다. 지포스 2 GTS(GigaTexel/Sec)라는 이름은 바로 여기서 유래된 것입니다.



지포스 2 GTS는 0.18 미크론 공정을 사용하였고 코어 클럭은 200MHz였으며 4개의 픽셀 쉐이더 파이프라인이 내장되어 있습니다. 지포스 256과 다른 점은 1개의 픽셀 쉐이더 파이프라인이 2개의 TMU가 붙어 있다는 것인데 이러한 4x2 방식은 지포스 4까지 계속 사용되게 됩니다.

NV15는 2세대 T&L 엔진, Cube environment mapping, Vertex blending, Protective textures, Texture compression, Per-Pixel Shading Control 등을 사용하였으며, 그래픽 싱글 패스 처리, Anti-Aliasing(속칭 말하는 안티), Anisotropic(비등방성) 필터링 등을 지원하기 시작했습니다. 

지포스 2는 개인용 컴퓨터 그래픽 코어를 통용 계산에 사용한 최초의 제품이기도 합니다. 강력한 텍스처 처리 성능은 상당히 넓은 범위에 응용할 수 있었을 뿐더러, 내장된 텍스처 쉐이더와 레지스터 콤바이너 유닛도 일정 수준의 수치 계산 능력을 갖추고 있었기 때문에, 프로그래머들은 텍스처 쉐이더를 데이터 처리에, 레지스터 콤바이너를 계산에 사용하여 지포스 2를 확산 방정식을 연산하는데 이용하기도 했습니다.



지포스 2 GTS에는 NVIDIA Shading Rasterizer(NSR)가 정식으로 사용하기 시작했습니다. NSR은 프로세서가 1개의 픽셀에 7개의 연산-기본적인 텍스처 맵핑, bump mapping, 싱글 픽셀 diffuse lighting, 싱글 픽셀 specular lighting, 연기 효과, ambient light, Alpha transperency 등이 포함-을 수행하는 것입니다.

기존에는 GPU가 버텍스의 픽셀을 연산할 때에는 모든 삼각형의 광원과 그림자의 범프 맵핑 등의 효과 평균치로 결정을 했습니다만, NV15부터 삼각형의 Per-Pixel Shading 방식 연산이 가능해 지면서 광원 효과가 더 자세해지고 정확하게 되었습니다.



지포스 256과 비교하면 지포스 2 GTS는 1 사이클에 2개의 텍스처를 처리할 수 있게 개선 되었습니다. 4개의 픽셀 쉐이더 파이프라인 뿐만 아니라, 1개의 파이프 라인에 2개씩 연결된 TMU(텍스처 맵핑 유닛)으로, 더 많은 폴리곤과 더 복잡한 텍스처를 사용하고 폴리곤을 1초에 2500만개 만들 수  있게 되었습니다. 퀘이크 3 엔진이 다이렉트 X 7에서 강력한 텍스처 맵핑 성능과 빠른 속도를 보여줄 수 있었던 것도 이것 덕분이지요.

지포스 2 GTS의 또다른 혁신점은 처음으로 0.18 미크론 공정을 사용하였다는 것입니다. 2200~2300만개의 트랜지스터를 사용한 0.22 미크론 공정의 지포스 256의 소모 전력이 18W였던 것과는 달리, TSMC에서 생산한 지포스 2 GTS(564 PBGA 패키징)에는 2500만개가 넘는 트랜지스터가 내장되었지만 소모 전력이 10W 정도로 줄어들었습니다. 이 덕분에 처음으로 200MHz 클럭을 넘긴 GPU가 될 수 있었던 것이기도 합니다.


지포스 2 GTS

다이렉트 X 7.0과 오픈 GL 1.2 ICD를 완벽히 지원할 뿐더러, 3D 게임 성능이 동급의 다른 모든 카드들을 능가하기 때문에 워크스테이션의 3D 응용 설계에서도 괜찮은 성능을 보여주었습니다. 뿐만 아니라 지포스 2 GTS의 멀티미디어 성능 역시 발전하여 여러개의 주변 기기를 연결할 수 있고, DVD 압축 방면에서는 차세대 Enhance Motion Compensation 하드웨어 압축을 지원하여 DVD 품질과 속도를 모두 개선시켰습니다.



2000년 10월, ATI가 라데온 256을 발표하자 NVIDIA는 지포스 2 울트라를 발표하였습니다.



지포스 2 울트라

지포스 2 울트라는 코어 클럭을 250MHz로 높이고 고속의 메모리를 장착하여 픽셀 필 레이트 1기가, 텍스처 필 레이트 2기가를 기록한 제품입니다. 나중에 출시된 지포스 3 TI 500도 이 수치를 넘진 못했을 정도이니, 당시 경쟁상대였던 라데온 256이 얼마나 고전했을지는 짐작하실 수 있을 듯 합니다.


고급형 지포스 2 TI의 등장

2001년 가을, NVIDIA는 지포스 2 Titanium(줄여서 Ti)과 이것의 저클럭 버전인 지포스 2 Ti VX를 출시합니다. 지포스 2 Ti는 지포스 2 프로의 일부 설계를 개선하였고, 더 간략화된 기판을 사용하여 전원부 부품의 수를 줄였습니다. 하지만 지포스 2 Ti의 클럭은 여전히 250Mhz를 유지했기 때문에 그래픽카드의 성능은 그대로였고, 오히려 제조 가격이 20$ 정도 저렴해졌습니다.


Inno3D 지포스 2 Ti


저가형의 대명사, 지포스 2 MX의 등장

고급형 시장의 돌풍에 이어 저가형 시장에도 NVIDIA는 NV15의 저가형 버전인 지포스 2 MX를 출시하며 그 추세를 이어나가게 됐습니다. 지포스 2 MX는 TNT 2와 같은 2개의 픽셀 쉐이더 파이프라인을 장착, 파이프라인의 수는 줄어들었지만 기본 구조-2세대 하드웨어 T&L-는 여전히 NV15의 것을 그대로 사용했습니다. 또한 클럭이 높았기 때문에 텍스처 필 레이트는 지포스 256보다도 빨랐고, 덕분에 지포스 2 MX의 성능은 저해상도의 경우 지포스 256 SDR에 뒤지지 않았습니다.

지포스 2 MX는 64비트 SDR/DDR SDRAM과 128비트 SDR SDRAM을 지원하지만 나중에 128비트 DDR SDRAM 지원은 빠지게 됩니다. 확실히 파이프라인 2개짜리 그래픽 카드에 128비트는 필요가 없는게 사실이겠지요.


지포스 2 MX

지포스 2 MX는 출시되자마자 높은 가격대 성능비로 빠르게 시장에 보급 되었으며, 많은 유저들이 지포스 2 MX를 시작으로 3D 게임의 매력에 빠져들게 되었습니다. 지포스 2 MX는 전세계 그래픽카드 판매량 최고 기록을 지포스 4 MX 440(...)이 나오기 전까지 계속해서 지키게 됩니다.

NVIDIA는 이후 계속해서 세분화 정책을 사용하여, 지포스 2 MX를 클럭에 따라 MX400, MX200, MX100으로 나누고, 전문가용 그래픽 카드인 쿼드로 2 MXR을 출시하고, 2000년 9월에는 모바일 버전인 지포스 2 Go 버전을 출시하기에 이릅니다.

지포스 2 MX는 지포스 2 GTS의 단순한 저가형 버전이 아니었습니다. 트윈뷰를 추가하여 그때까지 매트록스의 전유물이었던 듀얼 모니터를 사용할 수 있게 되었고, 매킨토시를 지원하여 애플 파워 맥 G4에서 사용할 수도 있습니다.


지포스 2 MX 32MB


지포스 2 MX 200

지포스 2 MX 400은 지포스 2 MX의 고급형 모델로서 코어는 지포스 2 MX와 완전히 똑같지만, 클럭을 175/166MHz에서 200/166Mhz로 올리고, 128비트 메모리 버스를 지원하여 그 가격대 성능비가 매우 뛰어난 제품이었습니다.


지포스 2 MX 400


지포스 MX 400 64MB 64비트 LP 버전


다이렉트 X 8 시대, 픽셀과 버텍스 처리 능력

2000년 말에 NVIDIA는 1억1200만$에 3DFX를 인수하여 엄청난 파장을 일으키게 됩니다. 같은 해에는 ATI가 ARTX를 인수하여 라데온의 기초 아키텍처를 확립하기도 합니다.



이 시기에 마이크로소프트는 다이렉트 X 8을 공개합니다. 프로그래밍이 가능한 쉐이더 파이프라인 개념을 정식으로 GPU에 도입하고 새로운 쉐이더 데이터 처리 방식은 다이렉트 X 8에서 제일 혁신적인 부분이기도 합니다. 쉐이더를 사용함으로서 새 데이터 처리 프로그램 모델은 기존과는 많이 달라지게 되었습니다. 새로운 방식에서는 데이터가 가상 머신을 지나 특수 편집 명령어의 pre-arranged 프로그램 처리를 거치기 때문에, 프로그래머가 이러한 진행 과정을 직접 조작할 수 있습니다.



지오메트리 파이프라인과 픽셀 파이프라인의 프로그래밍이 가능하기 때문에, 프로그래머는 지오메트리/픽셀 코드 설계를 자유롭게 할 수 있게 되었고, 이는 게임 개발자들이 기본적인 랜더러와 개발 도구를 통해 완전히 새로운 효과를 만들어 낼 수 있게 되었습니다.
 
또한 프로그래밍이 가능한 파이프라인이란 개념 때문에 GPU의 발전 역시 새로운 페이지를 열게 되었고, GPU는 SIMD 프로세서의 방향으로 발전해 나가기 시작하면서 더 강력한 성능을 위해 일부 스트림 프로세서의 특징을 사용하기 시작했습니다.


최초의 다이렉트 X 8 그래픽카드. 지포스 3

2001년 초에 NVIDIA는 지포스 3, 코드네임 NV20을 발표합니다. 이 때부터 프로그래밍이 가능한 nFiniteFX SHADER 엔진을 정식으로 사용하기 시작, 픽셀 쉐이더와 버텍스 쉐이더 프로세스 유닛의 하드웨어 지원을 완벽하게 실현하게 됩니다. 지포스 3은 2001년 상반기에는 다이렉트 X 8.0을 지원하는 유일한 GPU이기도 했습니다.



지포스 3의 기본 클럭은 200Mhz이고 4개의 파이프라인이 내장되어 있으며 각각의 파이프라인은 2개의 TMU를 사용합니다. 이상의 구조는 지포스 2와 똑같았습니다만 지포스 3에는 처음으로 버텍스 쉐이더 유닛 1와 픽셀 쉐이더 유닛 4개가 추가되게 됩니다.


지포스 3

NVIDIA는 지포스 3에서 1세대 Light Speed Memory Architecture를 사용하여 메모리의 대역폭을 충분히 이용하게 되었습니다. 라이트 스피드 메모리 아키텍처는 첫번째 기술은 '교차방식의 메모리 컨트롤러'로서 코어 내부에 내장된 메모리 컨트롤을 전문적으로 하는 유닛에서 완성됩니다. 다른 기술은 '무손실 Z 압축 계산법'으로 화질을 낮추지 않는다는 전제 하에 Z 버퍼의 데이터가 메모리 대역폭에서 차지하는 대역폭을 대폭 낮추는 것입니다. 이 외에도 Z-Occlusion Culling이 추가되어 HSR의 효과와 불필요한 자원 소모를 줄였습니다.

하지만 지포스 3가 출시됐을 당시, 대부분의 다이렉트 X 7 게임과 퀘이크 3에서 지포스 3는 지포스 2 울트라의 성능을 뛰어넘지 못했습니다. 하지만 처음으로 사용한 교차 메모리 컨트롤러 아키텍처는 메모리의 효율을 대대적으로 높였기 때문에 고해상도에서 상당히 뛰어난 성능을 보여주었고, 나중에 대량의 다이렉트 X 8 게임이 출시되면서 지포스 3의 뛰어난 특수효과들이 주목을 받기 시작했습니다.(왠지 지금의 지포스 7과 지포스 8을 보는 것 같지 않습니까?)




라데온 8500에 대항하기 위한 지포스 3의 세분화. 지포스 3 Ti 500과 지포스 3 Ti 200

지포스 3이 출시되고 나서 차세대 다이렉트 X 8 게임이 출시되자 소비자들의 반응은 괜찮은 편이었습니다만, 300$라는 가격은 지포스 3의 보급에 상당한 걸림돌이었습니다. 2001년 가을, NVIDIA는 다시 세분화 정책을 실시, 중급형인 지포스 3 Ti 200과 최고의 성능으로 라데온 8500과 맞서게 될 지포스 3 Ti 500을 출시하게 됩니다.




지포스 3 Ti 200

지포스 3 Ti 200은 지포스 3 노말 버전의 클럭을 200/230MHz에서 175/200MHz로 낮춰 일정한 성능 차이를 유지하였을 뿐만 아니라, 낮은 클럭에서도 작동하는 제품들을 대거 사용함으로서 수율을 높이고, 전원부의 부품을 간소화하여 제조 원가를 낮췄습니다.
 
오히려 기본 클럭이 제품의 잠재 능력보다 너무 낮았기 때문에(?) 대부분의 지포스 3 Ti 200은 큰 폭으로 오버클럭이 가능했고, 당시 25만원 정도에 판매되었던 지포스 3 Ti 200은 높은 가격대 성능비를 보여주어, 라데온 7500의 가격을 7만원 정도 하락하게 만들었습니다.

당시의 테스트에 따르면 지포스 3 Ti 200은 지포스 3 노말 버전의 클럭인 200/230Mhz 정도는 쉽게 오버클럭이 가능했다고 합니다.


지포스 3 Ti 500

지포스 3 Ti 500은 시리즈 최고급형 제품으로 클럭이 240/250MHz입니다. 8층 기판을 사용하여 고클럭에서도 안정적인 작동이 가능했지만, 덕분에 가격 역시 큰 폭으로 올라 판매 가격이 거의 40만원에까지 육박했다고 하는군요. 트랜지스터 수량이라던가 클럭 등에서 이미 라데온 8500을 앞선 지포스 3 Ti 500은 뛰어난 드라이버 지원에 힘입어 성능에서 확실한 승기를 잡았을 뿐더러, 전력 소모량이 라데온 8500보다도 오히려 낮았다고 합니다.


왕의 귀환. 지포스 4 Ti


NV25

2002년 2월, NVIDIA가 코드네임 NV25, 지포스 4 Ti 그래픽카드를 발표하면서 다이렉트 X 8 시대 최강의 GPU로 군림하게 됩니다. 지포스 4 Ti에 집적된 트랜지스터의 수량은 6천3백만개에 달하며 새로운 PBGA 패키징을 사용하고 TSMC 0.15 미크론 공정으로 생산하여 작동 클럭을 300MHz까지 높였습니다. 이 6천3백만개라는 트랜지스터 수량은 애슬론 CPU의 2배에 달하는 것입니다만, 그만큼 발열도 높았기 때문에 지포스 4 Ti 시리즈는 전부 팬을 사용하는 액티브 쿨링을 쓰게 됐습니다.




NV25는 기존의 4개의 파이프라인과, 모든 파이프라인에 2개의 TMU를 사용하는 구조를 계속 사용하였습니다만, 여기에 2개의 버텍스 쉐이더 유닛과 4개의 픽셀 쉐이더 유닛을 사용하였습니다.

지포스 4 Ti는 2세대 nfiniteFX 엔진을 사용하였는데, 이는 지포스 3부터 사용된 nFiniteFX 엔진을 개선한 것으로서, 버텍스 쉐이더 유닛을 2개로 늘리고 픽셀 쉐이더 유닛의 효율을 현저하게 높인 것입니다. 또한 Light Speed Memory Architecture II를 사용하여 풀 스크린 안티 에얼라이싱에서 새로운 Accuview AA를 사용하게 됐습니다. 전체적으로 보면 지포스 4 TI는 지포스 3를 강화시킨 제품으로서, 버텍스 쉐이더를 한개 더 늘리고 코어 클럭을 높인 것입니다.

NVIDIA는 지금까지 그래왔던대로 지포스 4 Ti를 클럭에 따라 4600, 4400, 4200의 세가지 모델로 나눠서 출시하는데, 이중 지포스 4 Ti 4200의 가격대 성능비가 제일 높았기 때문에 수많은 유저들의 사랑을 받았습니다. 원래는 OEM 시장에 공급하기 위해 나온 것이었습니다만, 리테일 시장에도 풀리면서 지포스 4 Ti 제품군 중에서는 제일 수명이 긴 제품이 되었습니다.

나중에 AGP 8x 슬롯이 발표되면서 NVIDIA는 NV25의 AGP 8x 지원 버전인 NV28을 출시하고, 코어 클럭과 메모리 클럭을 조금씩 높입니다. NV48은 3가지 제품이 있는데 지포스 4 Ti 4200 8x, 4800SE, 4800이 그것입니다.


지포스 4 Ti 4400

지포스 4 Ti 4400은 275/275Mhz의 클럭으로 작동하며, 지포스 4 Ti 4600과 똑같은 8층 기판을 사용하고, 3.6ns 메모리를 장착합니다.


지포스 4 Ti 4200 8x


지포스 4 Ti 4800SE

지포스 4 Ti 4800SE는 NV28 코어를 사용, AGP 8x 슬롯을 지원하며 발열과 전력 소모량이 줄어들었습니다. 클럭은 275/275MHz로 Ti 4400과 같지만 기판 길이가 줄어들고 전원부 회로가 더 간단하게 되었습니다.


지포스 4 Ti 4600 128MB

지포스 Ti 4600은 시리즈 최고급형 제품으로서 상당히 길이가 긴 기판을 사용하고 전원부에도 많은 제품을 사용하고 있습니다. 3ns MBGA 패키징의 GDDR 메모리가 장착되어 있으며, 그 클럭은 당시로서 놀랄 수준인 300/300Mhz 였습니다.


사라지지 않는 전설, 지포스 4 MX

고급형 제품군인 지포스 4 Ti 외에도 NVIDIA는 보급형 제품군인 코드네임 NV18, 지포스 4 MX를 출시하여 기존의 지포스 2 MX의 뒤를 잇게 합니다. NV18은 2개의 픽셀 쉐이더 파이프라인과, 이들 파이프라인에 2개의 TMU를 사용, 유일한 2x2 구조의 코어로서 픽셀 쉐이더 유닛 부분은 제외된 제품입니다. 그러나 지포스 4 기반의 제품이고 코어 클럭이 높기 때문에 대다수 다이렉트 X 7 게임이나 오픈GL 프로그램에서 지포스 2 GTS나 클럭이 낮은 지포스 3 Ti 200보다 좋은 성능을 보여 주었습니다.




2002년 당시에는 주류 게임이 아직 다이렉트 X 8로 완전히 넘어가지 않았을 뿐더러, 퀘이크3 엔진이 여전히 많은 게임에서 사용되고 있었기 때문에 지포스 4 MX 440읜 보급형 시장에서 그 경쟁 상대가 없을 정도로 좋은 성능을 보여 주었습니다.




지포스 4 MX 440 8x 64MB


지포스 4 MX 440SE

지포스 2 MX와 마찬가지로, 지포스 4 MX는 460/440/420의 3종류로 나뉘어서 출시되었는데, 420은 64비트 메모리 버스만 지원하였기 때문에 그 성능이 매우 낮았습니다. 가격대 성능비를 높이기 위해 NVIDIA는 지포스 4 MX 440 SE를 출시하게 되는데, 이 제품은 지포스 4 MX 440의 270/200Mhz보다 클럭이 낮았지만, 바로 그렇기 때문에 오버클럭의 잠재력이 매우 높았습니다.


지포스 4 MX 440 64비트 32MB

지포스 4 시리즈가 큰 성공을 거둔 이유는 경쟁 상대인 ATI 라데온 8500과 7500가 저지른 치명적인 실수 때문이기도 합니다. 라데온은 성능을 추구하다가 가격이 너무 비싸졌고, 8500의 설계는 적지 않은 수의 문제가 있어 코어의 효율이 낮았으며, 당시 ATI의 드라이버는 많이 부족한 상태였습니다.

라데온 7500은 2x3 구조를 사용했습니다만, 파이프라인보다 더 많은 TMU를 사용하는 구조는 성능 향상은 적은 반면, 가격은 훨씬 비싸지게 되었고, 이 때문에 리테일 시장은 물론, ATI의 전통적인 강세였던 OEM 시장마저도 지포스에게 내주게 되었습니다.

심지어 모바일 시장에서도 지포스 4 MX 440 Go가 나타나면서, 성능과 전력 소모의 괜찮은 균형을 내세워 점유율을 높였습니다. 이때 ATI는 NVIDIA에게 완패를 당했지만, ARTX를 인수하여 얻은 기술력을 바탕으로 시장을 역전시킬 한방을 준비하고 있었지요.


말도 많고 탈도 많았던 지포스 FX 시리즈

2002년 11월 18일, 컴덱스 2002에서 NVIDIA는 코드네임 NV30, NVIDIA 역사상 제일 말도 많고 탈도 많았던 지포스 FX를 발표합니다.



위에서 본대로, 다이렉트 X 6 시절에 확고한 지위를 굳힌 NVIDIA는 다이렉트 X 7, 8 시대를 거치면서 마이크로소프트와 좋은 파트너 관계를 계속 유지, 데스크탑 컴퓨터 그래픽 시장의 절대 강자에 군림하였고 시장 점유율도 몇배로 올랐습니다. 3DFX를 인수한 이후로 출시된 지포스 3과 4는 시장 점유율을 놓고 볼 때 경쟁 상대인 ATI를 완벽하게 물리쳤으며, 그간 쌓아온 기술과 실력으로 6개월마다 한번씩 새 제품을 출시하게 되었습니다. 지포스 4의 성공으로 역사상 최고의 부흥기에 이른 NVIDiA는 그래픽카드 뿐만 아니라 메인보드 칩셋(여러분들께서 잘 아시는 엔포스입니다)과 콘솔 게임기 등의 영역에도 진출하게 됩니다.

그러나 NVIDiA라는 회사 한개가 시장을 독점하는 것을 안좋게 보는 사람들은 많았고, 심지어 NVIDIA를 그래픽계의 인텔이라고 부르는 사람까지도 생겨났습니다. 다이렉트 X 8 표준을 정할때 NVIDIA가 모종의 방법으로 자신들이 개발한 CG 언어를 포함한 것이 알려지면서 마이크로소프트와의 관계가 점점 나빠지기 시작했습니다.

NVIDIA가 나중에 마이크로소프트의 XBOX의 하드웨어 제작에 참가하게 되었을 때, 제조 공정에 따라 GPU의 제조 원가가 낮춰진다는 점이 NVIDIA와 마이크로소프트의 계약서에 포함되지 않았습니다. 나중에 마이크로소프트 측에서 이를 깨닫고 계약서의 내용을 바꾸길 요청했지만 NVIDIA는 거절해 버렸지요.(이렇게 함으로서 NVIDIA는 XBOX에 개선된 제조 공정의 GPU를 납품하고 그 차익을 더 벌수 있지 말입니다. 하지만 이것 때문에 마소가 삐져서 XBOX360은 ATI 제품을 사용한 것일지도 모를 일입니다)


다이렉트 X 9.0, NVIDIA의 암울한 시절

하지만 상대는 마이크로소프트. 다이렉트 X 9 스펙을 정할때 마소는 NVIDIA의 어떤 의견도 받아들이지 않았을 뿐더러, 오히려 ATI에서 내놓은 제안을 받아들여 24비트 랜더링에 쉐이더 병행 처리 성능을 다이렉트 X 9의 주요 특징으로 삼았습니다. 뿐만 아니라 3D마크03이 출시되자 마이크로소프트의 영향은 더욱 커져, NVIDIA는 인내심을 발휘하지 못하고 3D마크의 개발사인 퓨처마크를 공개적으로 비판하기까지 이릅니다.


NVIDIA는 이때 칩셋도 출시했습니다. 설명이 필요 없을 정도로 유명한 엔포스2 울트라 400.

2001년 가을부터 2002년 말까지가 NVIDIA 역사상 제일 바쁜 시기였을 것입니다. 본업인 GPU를 업그레이드 하면서, 마이크로소프트의 XBOX용 사운드스톰 사운드 칩을 만들고, 메인보드 영역에서 한차례 물을 먹었기 때문에(엔포스 1은 망했지요) 엔포스 2 개발에 더욱 신경을 쓰지 않을 수가 없었습니다. 즉, 이때 NVIDIA의 개발 능력이 분산되어 있었다는 소리지요.

이런 혼란한 시기에 몇차례의 연기 끝에 NVIDIA는 6개월에 한번 새 제품을 발표한다는 규칙을 어기고, 결국 2003년 초에 NV30을 출시합니다. 3DFX의 AA 기술을 사용한 이 제품은 지포스 FX 5800 울트라로 명명되었습니다.



NV30의 픽셀 파이프 라인은 지금까지 계속 사용되왔던 4x2 구조였고, 0.13미크론으로 제조되었으며, 내장된 트랜지스터 수는 1.25억개에 달했습니다. 거기에 클럭도 높았기 때문에 전력 소모량과 발열량이 유래를 찾아보기 힘들 정도로 늘어나, NVIDIA는 구리 방열판과 히트파이프, 환기 팬으로 구성된 Fx Flow라는 쿨러를 사용하게 됩니다.


FX Flow 쿨러를 사용한 지포스 FX 5800 울트라. 지금 봐도 뽀대는 밀리지 않습니다.


문제는, 이런 패러디까지 등장할 정도로 열풍(熱風)이 장난 아니었다는 거지만. 속칭 '세계에서 제일 비싼 드라이어'였습니다.

지포스 FX 5800 울트라는 플립 칩 패키징을 사용하여 코어 클럭을 500Mhz까지 높였습니다. BGA와 플립 칩 패키징 방식의 칩은 접점 부분을 직접 좁촉시켜 연결 거리를 단축시키고 신호대 잡음비를 높여 고 클럭에 알맞을 뿐더러 전력 소모도 낮은 장점을 지니고 있습니다.

코어 아키텍처 부분을 보면, NV30은 처음을 CineFX 랜더링 엔진을 사용했습니다. Cine는 Cinemaric이고 FX는 이 기술의 원래 소유주였던 3DFX에서 따온 것이지요. 즉 영화와도 같은 효과를 보여주는 랜더링 엔진이라는 의미입니다. CineFX 엔진에는 32개의 128비트 부동소수점 프로세서를 내장, 컴퓨터 그래픽 코어 사상 최초로 128비트 랜더링을 지원하는 제품이 되었습니다. 

NV30의 버텍스 쉐이더는 기존 제품과 비교했을때 엄청난 질적 향상을 보여주었습니다. 버텍스 쉐이더 2.0+를 지원하여 최대 65536개의 명령어를 처리할 수 있는데, 이는 다이렉트 X 9.0의 스펙을 철저하게 뛰어넘은 것입니다. 뿐만 아니라 기본적인 다이나믹 순환과 분기 명령 방식은 랜더링 유닛의 프로그래밍 응용을 더욱 높여 주었습니다.

픽셀 쉐이더 유닛은 픽셀 쉐이더 2.0+를 지원하여 역시 다이렉트 X 9.0의 스펙을 뛰어넘는 최고 1024개의 명령어를 처리할 수 있으며, 1개의 픽셀에 최대 16개의 텍스처 맵핑이 가능하고, 더 많은 고급 명령을 픽셀 쉐이더 유닛에서 지원 가능했을 뿐더러, 명령어 예측까지 지원했습니다.

동시에 CineFX 엔진은 NVIDIA의 Cg(C for Graphics) 프로그래밍 언어를 제대로 지원하여, 개발자들이 하드웨어의 심층 부분까지 프로그래밍을 할 필요 없이 Cg 언어를 이용하여 제작이 가능하게 함으로서, 좀 더 쉽고 빠르고 간편하게 모든 랜더링 효과를 사용할 수 있도록 하였습니다.

안티 에얼라이싱에서 4x FSAA는 NV30 설계의 중요 부분이며, NV30 하드웨어에서 그 효율이 제일 좋은 방식이기도 합니다. 4x FSAA의 실행을 더 빠르게 하기 위해 NV30은 AA 설계를 새로 하여 모든 데이터 채널의 대역폭이 4x FSAA에 최적화 되도록 조절했습니다. 거기에 NV30은 최초로 Intellisample, Aaptive Texture Filtering을 사용하여 더 좋은 화질을 보여주었습니다.

메모리 컨트롤러 부분을 보면, NV30은 4x32비트=128비트 메모리 버스를 사용합니다. 그리고 지포스 4에서 사용했던 Lightspeed Memory Architecture 2를 새로 도입한 GDDR2 메모리에 맞게 최적화하였고, 4x FSAA에 맞게 메모리 컨트롤러와 ROP, 버퍼 등도 다시 만들었습니다.

지포스 FX 5800 울트라의 GDDR2 메모리는 그 클럭이 1GHz이지만 메모리 버스가 128비트이기 때문에, 클럭은 낮아도 256비트 메모리 버스를 사용한 라데온 9700보다 최고 대역폭이 25% 정도 떨어졌습니다. 하지만 신형 Lightspeed Memory Architecture에서 Z-culling과 압축 성능을 개선하여 버텍스, 텍스처, Z 버퍼 데이터에 압축을 하여 대역폭을 줄임으로서, 양호한 상황에서 NV30의 대역폭이 더 효율적으로 사용되게 되었습니다. 여기에 Z-occlusion과 텍스처 압축 기술을 추가함으로서 지포스 FX 5800 울트라의 실제 메모리 대역폭은 20GB/s까지 올라가게 되었습니다.



2002년 11월 18일에 NV30을 발표했지만, 0.13 미크론 공정의 딜레이로 인해 2003년 2월이 되서야 지포스 FX 5800 울트라가 정식으로 출시되게 됩니다. 하지만 당시 0.13 미크론 공정이 아직 불완전하여 높은 코어 클럭에서는 발열량이 매우 많았기 때문에 Fx Flow 쿨러를 반드시 사용해야만 했습니다.

더군다나 GDDR2 메모리가 500Mhz 클럭으로 안정적으로 작동하기 위해서, 지금까지 유례가 없었던 12층 기판을 사용하고 전원부도 매우 고급 제품을 사용해야만 했습니다. 더군다나 당시 DDR2 메모리의 가격은 매우 비쌌지요.

이러한 단점 때문에 지포스 FX 5800 울트라의 제조 원가는 매우 비싸고, 전력 소모량도 엄청났습니다. 당시 500$라는 높은 가격에 판매되었지만, 그리 오래 가진 못하고 결국 3개월 후에 출시된 지포스 FX 5900에게 금방 그 자리를 내주고 맙니다.


말 많은 5800의 파생물, 지포스 FX 5600과 5200

지포스 FX 5800의 가격은 일반 소비자들이 도저히 구입할 수 없을 정도로 비쌌고, 플래그쉽 모델은 실제 소비자보다는 기술 실력을 보여주는데 더 치중하는게 보통입니다. NVIDIA는 지포스 FX 시리즈의 보급을 가속화하기 위해 2003년 3월 GDC에서 메인스트림급 제품인 NV31과 NV34, 지포스 FX 5600과 5200을 공개합니다. 이로서 NVIDIA는 지포스 FX에 사용된 새 기술들을 일반 유저들에고 보급하게 되었습니다.





지금까지의 규칙대로 지포스 FX 5600은 클럭에 따라 지포스 FX 5600 울트라와 지포스 FX 5600 노말의 2가지 버전으로 나뉘었고, 지포스 FX 5200도 지포스 FX 5200 울트라와 지포스 FX 5200 노말의 2가지 버전으로 나뉘었습니다. 이들 제품은 전부 NV30의 CineFX 아키텍처를 기반으로 하고 있으며, 이 말은 곧 3D 특성이 지포스 FX 5800 울트라와 같다는 뜻이 되겠습니다.

지포스 FX 5600 울트라의 코드네임은 NV31으로, 0.13미크론 공정으로 제조되었으며, 트랜지스터 수량은 NV30보다 36% 정도 줄어든 8천만개 입니다. 지포스 4 Ti 4200의 차기작이며 다이렉트 X 9 급의 주력 제품이기도 합니다. 4개의 픽셀 쉐이더 파이프라인을 사용하지만 TMU은 1개씩 연결되어 있습니다. 쉐이더 시대에 들어서면서 NVIDIA가 처음으로 4x1 방식의 구조를 사용한 코어이기도 하지요.

메모리를 보면 당시 주로 사용되던 DDR1 메모리를 사용, 지포스 FX 5800 울트라의 GDDR2보다 속도는 떨어지지만 가격과 전력 소모량은 대폭 하락하였습니다. NV31의 메모리 컨트롤러도 변한 부분이 있는데 지포스 FX 5800이 4개의 32비트 컨트롤러를 사용한것과는 달리, 지포스 FX 5600은 2개의 64비트 메모리 컨트롤러를 사용하였습니다.

NV31은 NV30과 똑같은 CineFX 엔진을 사용, 기술적인 특성은 완전히 똑같았지만 부동 소수점 연산 유닛이 더 간략하게 줄어들고, 버텍스 쉐이더가 NV30의 1/3으로 줄어들었으며, 픽셀 쉐이더의 수도 NV30의 3/4로 줄어들었습니다.

지포스 FX 5600 울트라는 처음에 코어 클럭이 350MHz였지만 나중에 개선된 버전은 400Mhz로 올라갔습니다. 지포스 Ti 4200의 차기작이라 불릴만한 성능이지만, 초기의 350Mhz 클럭 제품은 당시 다이렉트 X 8 게임에서 성능이 별로였을 뿐더러, 심지어 일부 게임에서는 오버클럭한 지포스 4 Ti 4200에게 뒤지기까지 하여 많은 이들에게 실망을 안겨주었습니다. 이와는 대조적으로 라데온 9600프로가 강력한 성능을 보여주어, 결국 지포스 FX 5600 울트라의 경쟁 상대는 라데온 9600 노말 버전이 되었습니다.

지포스 FX 5600 울트라의 경쟁력을 높이기 위해 NVIDIA는 TSMC와 공동으로 NV31의 패키징 방식을 개선하여, 클럭을 라데온 9600 프로와 같은 400MHz로 높였습니다. 또한 메모리 클럭도 800MHz로 높이면서 이때야 비로서 지포스 FX 5600 울트라가 지포스 4 Ti 4200의 성능을 제대로 능가하게 되었고, 라데온 9600 프로와의 거리를 단축시키게 되었습니다.

하지만 이때까지 많은 시간을 낭비하여, 새 버전의 지포스 FX 5600 울트라는 7월이 되서야 비로서 출시, 이때 이미 라데온 9600 프로는 중급형 시장을 독점한지 오래였습니다. NVIDIA는 TSMC한테 괜히 화풀이, 나중에는 지포스 FX5700의 코어인 NV36의 생산을 IBM에 맞기게 됩니다.(...라고 해도, 세계 최대 규모의 위탁 생산 업체인 TSMC를 외면할 수는 없지요. 나중에는 다시 TSMC에서 생산하게 됩니다. 지금까지 계속 말입니다.)

지포스 FX 5200 울트라의 코드네임은 NV34로 기존의 지포스 MX 440을 대체하는 제품입니다. 지포스 FX 5200의 등장은 NVIDIA의 저가형 제품이 다이렉트 X 8에서 다이렉트 X 9로 업그레이드 되었음을 의미합니다. NV34는 기존의 0.15 미크론 공정을 사용하며 4500만개의 트랜지스터가 내장되어 있습니다. 아키텍처는 NV31과 같은 픽셀 파이프라인 4개에 TMU 4개입니다. NV34는 보급형 제품이긴 하지만 CineFX 엔진을 사용하여 다이렉트 X 9.0, 픽셀 쉐이더 2.0+, 버텍스 쉐이더 2.0+를 지원합니다. 하지만 IntelliSample 기술은 제외되었습니다.

지포스 FX 5200 울트라의 코어/메모리 클럭은 325/650Mhz이고 5200 노멀 버전의 클럭은 250/400MHz입니다. 지포스 FX 5200의 등장으로 다이렉트 X 7만 지원하는 지포스 4 MX 440은 퇴장하게 되었고(...라고는 하지만 나중에 지포스 MX 4000으로 이름을 바꾸가면서 정말 오래도 살아남습니다), 다이렉트 X 지원 버전만 놓고 보면 지포스 FX 5200은 경쟁 상대인 라데온 9000과 9100보다 더 뛰어났습니다.





지포스 FX 5600 울트라의 성능은 기존의 지포스 4 MX 460보다 어느 정도 상승하였으며, 스펙만 놓고 보면 상당히 발전하였습니다. 하지만 높은 클럭의 지포스 FX 5600 울트라는 반드시 6층 기판과 외부 보조 전원을 사용해야만 했기 때문에, 지포스 FX 5200 울트라는 노말 버전보다 최소 20$ 이상 비싼 가격으로 책정되면서 별로 인기가 없었고, 오히려 지포스 FX 5600 XT의 가격이 저가형에 더 알맞는 선택이었습니다.

글이 너무 길어 제로보드 글자수 제한을 넘겨버리는지라 부득이하게 1, 2, 3부로 나눕니다. 1부는 이걸로 완결이며 2부는 다음 링크로 가셔서 보시기 바랍니다.

NVIDIA 그래픽카드의 15년 역사 -2부: http://gigglehd.com/bbs/view.php?id=infoboard&no=101
기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.