반도체 제조사의 테스트를 빠져나오는 '잠재적 불량'
반도체와 전자부품이 출시된 후에도 불량이 발견될 수 있습니다. OEM이나 완제품 제조사들은 이렇게 발견된 부품을 원 제조사로 돌려보냅니다. 그럼 부품 제조사는 불량품을 분석하고 원인을 찾아내 대책을 마련합니다. 불량을 분석한 결과와 그 대책은 완제품 고객들에게 전달되고, 반도체 제조사 내부에서 공유돼 같은 불량이 나지 않도록 개선합니다.
반도체 제조사의 생산 라인에는 불량품을 제거하는 테스트 공정이 있습니다. 그럼에도 불구하고 제품이 납품된 후 불량이 발겨되는 이유는 크게 두가지가 있습니다. 하나는 문제를 발생시키는 요인이 실리콘 다이에 존재하고, 최종 사용자에게 도착한 후에 불량이 표면화된 것입니다. 다른 하나는 모종의 이유로 결함품이 테스트를 통과했을 수도 있겠지요. 잠재적인 불량의 문제는 보통의 테스트 과정에서 발견되지 않는다는데 있습니다. 분명 결함이 있으니 겉으로 드러나지 않고 정상 작동하며, 언제 결함이 터질지 알 수 없습니다.
잠재적 불량을 초기 불량으로 표면화시키는 고온 검사 테스트
잠재적인 불량은 반도체 산업이 시작했을 때부터 존재해 왔습니다. 제조 공정의 미세화에 의해 반도체의 집적도가 높아지면서 잠재적 불량은 무시할 수 없는 문제가 됐습니다. 이를 미리 제거하는 방법 중 하나가 번인 테스트입니다. 일정 시간 동안 작동하면서 테스트를 실행해 불량품을 발견합니다. 작동 조건에 높은 전압과 높은 온도 등의 스트레스 요소를 더해 결함이 표면으로 드러나오도록 합니다. 잠재적 불량의 대부분이 초기 불량이며, 겉으로 드러난다는 전제 조건 하에서, 높은 신뢰성이 필요한 반도체 칩을 대상으로 고온 검사 테스트를 진행합니다.
그러나 반도체 칩 제조 공정의 미세화와 밀도 상승과 더불어 고온 검사 시험의 의미가 점점 줄어들고 있습니다. 고온 검사 시험의 전제는 '한정된 시간 안의 테스트 불량률은 일정 값 이하로 떨어지지 않는다'는데 있습니다. 고온 검사 시험에는 그리 많은 시간을 들이지 못합니다. 테스트를 너무 오래하면 진짜 수명이 줄어들거든요. 그런데 번인 테스트를 실행할수록 불량이 발견되고 계속해서 불량률이 늘어나는 상황이 생겨났습니다. 그 결과 1990년대 초반에는 대규모 직접 회로 칩에서 고온 검사 테스트의 의미가 많이 줄어들게 됐습니다.
CMOS 로직의 잠재적 결함을 찾는 IDDQ 테스트
1990년대에는 CMOS 기술이 반도체 칩의 표준이 되면서 누설 전류(IDDQ)를 측정해 잠재적 결함을 발견하는 방법이 유행합니다. CMOS 회로는 이론적으로 누설 전류가 0입니다. 실제로는 MOS 트랜지스터의 pn 접합과 게이트 절연막의 경계면에서 아주 작은 누설 전류가 발생합니다. CMOS 회로가 작동하지 않는 상태에서 발생하는 이런 누설 전류(IDDQ)는 트랜지스터나 배선의 결함을 증가시키는 원인이 됩니다.
그래서 CMOS 로직은 보통의 테스트(로직 회로 테스트) 외에 IDDQ를 측정해 IDDQ가 비정상적으로 높은 실리콘 다이를 미리 제거해냅니다. 130nm 까지의 CMOS 공정에서 IDDQ 테스트는 큰 효과를 거뒀습니다. 그러나 90nm 이후의 CMOS 로직에서는 MOS 트랜지스터의 누설 전류 불량이 금속하게 늘어나면서 간단한 IDDQ 테스트(전류의 크기 비교)는 쓸 수 없게 됐습니다. IDDQ의 크고 작음을 비교하는 게 아니라, 웨이퍼 표면의 전류 분포와 IDDQ 전류의 파형을 분석하는 방식으로 바뀌었습니다.
제조 수율이 낮으면 테스트 탈락이 증가
반도체 웨이퍼의 제조 수율(전체 다이에서 양품이 차지하는 비율. 오버클럭이 잘되고 안된다는 표현에 수율이란 소리 좀 갖다 붙이지 마세요)은 곧 결함이 반영된 결과이기도 합니다. 반도체 웨이퍼의 제조 비용과 제조 공정 비용은 일정한 값을 거의 유지합니다. 따라서 수율이 웨이퍼 1장의 전체 제조 비용을 결정합니다. 수율이 높아질수록 불량 다이가 포함될 비율은 줄어듭니다.
반도체 제조사가 제조 수율을 높이려는 노력을 하는 이유는 생산 비용 말고도 또 있습니다. 불량품을 최대한 출시하지 않기 위해서입니다. 실제 테스트 공정에서 불량품을 100% 제거해 내진 못합니다. 특히 대규모 로직 반도체는 테스트에서 모든 불량을 찾아내기가 매우 어렵습니다.
100만개의 반도체 칩을 생산해서 99.9%의 정확도로 테스트를 거친다고 가정합시다. 100만개의 반도체 칩에서 수율이 95%라고도 가정해 봅시다. 그럼 불량품 수는 5만개입니다. 그리고 50개의 불량품이 테스트를 통과합니다. 즉 불량률은 53ppm(50/95만)가 됩니다. 이 숫자 그대로 제조 수율을 30%로 낮춰봅시다. 그럼 불량품의 수는 70만개로 늘어납니다. 그럼 테스트 정확도가 여전히 99.9%여도 테스트를 통과하는 불량품의 수는 7백개가 됩니다. 그럼 불량률이 2333ppm(700/30만)으로 높아집니다.
제조 수율이 낮은 웨이퍼를 미리 제거
다시 말하지만, 반도체 웨이퍼의 제조 수율은 결함과 연결됩니다. 결함이 적으면 수율이 높아지고 결함이 많으면 수율은 낮아집니다. 그리고 결함이 많으면 잠재적 불량을 일으키지만 양품으로 분류될 다이의 수도 늘어납니다. 반도체 웨이퍼의 제조 수율은 일반적으로 거의 일정한 범위를 유지합니다.
여기서 제조 수율이 특별하게 낮은 웨이퍼가 생겼다고 가정해 봅시다. 이 웨이퍼는 불량품은 물론이고, 양품으로 분류된 다이조차도 잠재적 결함을 안고 있을 가능성이 높습니다. 그래서 제조 수율이 일정 수준을 지키지 못한 웨이퍼는 불량 다이만 골라내는 게 아니라 아예 웨이퍼 자체를 폐기합니다. 이를 BMI(Blow Minmun Yield), SYL(Statistcal Yield Limits)라고 부릅니다. 아니면 특정한 중요 테스트 항목(Bin)에 집중, 이 항목에서 불량이라 판별된 다이가 많은 웨이퍼를 폐기합니다. 이를 SBL(Statistical Bin Limints)라고 부릅니다. 둘 다 썩 효율적인 방법은 아닙니다. 생산 비용이 그만큼 늘어나니까요.
웨이퍼 표면에서 불량 다이에 포위된 다이를 제거
그래서 웨이퍼를 폐기하는 게 아니라 웨이퍼 표면의 양품과 불량품의 분포를 보고, 잠재적 불량을 검사하는 방법이 나왔습니다. 불량 다이는 웨이퍼 표면에 고루 분포된게 아니라, 특정 영역에 모여있는 경우가 많습니다. 불량 다이가 모여있는 곳에서 양품 다이가 나온다 해도 실제로는 결함이 나올 가능성이 높습니다. 그래서 이런 다이를 제거하고 출시하지 않는데, 이 방법을 GDBC(Goo Die in a Bad Cluster)라고 합니다. 또 불량 다이 주변에는 8개의 다이가 존재합니다. 주변에 불량 다이가 많다면 이 역시 불안합니다. 그래서 이런 경우도 제거하는데 이를 GDBN(Good Die Bad Neighbothood)라고 부릅니다.
웨이퍼 표면의 양품과 불량품의 분포는 또 다른 경향을 보여주기도 합니다. 웨이퍼 중앙에는 불량이 적고 웨이퍼 가장자리에서는 불량품이 늘어나는 편입니다. 그래서 웨이퍼 가장자리의 다이를 모두 제거해 잠재적 불량을 줄입니다. 이 방법은 SWW(Wafet Edge Exclusion)이라 부릅니다. 하지만 이 방법은 제조 수율을 떨어트린다는 단점이 있습니다.
테스트 평균값에서 벗어난 다이를 제거
최근에는 테스트 결과를 자세히 분석해 잠재적 불량을 미리 제거하는 기술을 자동차용 반도체 제조 분야에서 사용 중입니다. 이상치(outlier)라는 테스트 결과를 통해 불량 다이를 제거합니다. 일반적으로 테스트 결과 값은 일정 규모의 집단을 형성하는 규모가 많습니다. 여기서 자주 쓰는 건 정규 분포입니다. 정규 분포의 특성은 평균과 표준 편차에 따라 규정됩니다. 테스트 결과가 정규 분포를 따른다고 가정하고, 어느 정도 값을 벗어나면 불량일 가능성이 높다고 판단하는 것입니다. 이 검사 방법은 PAT(Part Average Testing)이라 부릅니다.
PAT의 가장 일반적인 방법은 지난번 생산량의 테스트 결과에서 벗어난 값을 정이해 비교하는 것입니다. 이는 S-PAT(Static Part Avarage Testing)이라 부릅니다. 또 웨이퍼마다 테스트 결과의 분포를 취득해 이상치를 정의하는 방법도 있습니다. 이건 시간이 많이 필요하지만 S-PAT보다 정확도가 높습니다. 이 기술은 D-PAT(Dynamic Part Average Testing)이라 부릅니다.
PAT는 잠재적 불량을 일으킬것 같은 실리콘 다이만 높은 정확도로 특정해낼 수 있으며, 제조 비용이 크게 늘어나지 않는다는 장점이 있습니다. 하지만 일정한 수량 이상의 측정값이 필요하고, 측정 값의 차이가 정규 분포와 가우스 분포를 따르지 않으면 정확도가 크게 떨어집니다. 따라서 측정 파라미터에서 적절한 변수를 골라야 한다는 단점이 있습니다.
재현되지 않는 반도체의 불량을 제거하는 방법
최근에는 잠재적 불량 외에도 재현되지 않는(NTF) 불량이 큰 문제가 됩니다. 실제 사용 단계에서 불량이 발생했지만, 반도체 제조사에서는 재현해내지 못하는 불량을 가리킵니다. 반도체 제조사에 반환된 불량 품 중에서 재현되지 않는 불량의 비율은 최소 20%, 많으면 80%라고 국제 신뢰성 물리 심포지엄 IRPS에서 보고된 바 있습니다. 수많은 불량 칩을 검사하지 않으면 이를 알아내지 못하며, 불량의 원인을 찾지 못하니 대책을 마련하지도 못합니다.
재현되지 않는 불량의 원인으로 추측되는 건 많습니다. 반도체 제조사와 사용자의 테스트 조건 차이, 결함으로 인정하는 범위의 부족, 반도체 제조사의 스펙을 초과하는 조건에서의 사용, 동작 전원에 따른 오동작, 소프트웨어나 펌웨어의 에러, 정전기나 방전 등이 있습니다. 이들 요인의 대부분은 반도체 제조사 혼자서 대응하기 어려우며, 반도체를 사용하는 고객들과 함께 원인을 찾아나가야 합니다. 잠재적 불량은 불량의 원인을 파악할 수 있고 그게 미치는 영향도 예측이 가능하지만, 재현되지 않는 불량은 검사 방법과 적용 범위를 예측하기가 매우 어렵습니다.
통계학적인 접근 방식
재현되지 않는 불량 반도체를 미리 없애기 위서 동작 클럭과 최소 전원 전압(Vmin)의 관계, 전압과 전류의 관계, 누설 전류(IDDQ)의 파형과 측정 분포 공급 전류(IDD)의 파형과 측정 분포, 고전압 스트레스가 아이들 상태의 소비 전류에 주는 영향 등을 분석하는 방법을 사용합니다.
전원 전압과 전류의 관계를 비교. 양품 다이(파란색)과 재현되지 않는 불량을 포함한 다이(빨간색)를 보면 빨간색이 혼자 동덜어져 있음을 알 수 있습니다.
ASIC 칩의 동작 클럭과 최소 전원 전압(VDDmin)의 관계. VDDmin이 특별하 높은 칩은 이상치를 벗어낫다고 판단해서 제거해 냅니다.
검사와 오버킬의 장단점
수많은 측정값을 분석해 이상적인 값을 알아내는 방법(다변량 분석) 중에 대표적인 건 다음 3개입니다. 주성분 분석(PCA. Principal Component Analysis), 마하라노비스 거리(MD. Mahalanobis Distane), 서포트 벡터 머신(SMV. Support Vector Machine)입니다.
주성분 분석은 수많은 변수 중에서 같은 경향을 갖춘 측정값의 피라미터를 줄여 나가, 변수의 차원을 낮춰 분석을 쉽게 하는 방법입니다. 3차원이나 2차원까지 변수의 차원을 낮추면 측정 분포에서 벗어난 값을 알아내기가 쉽습니다. 마하라노비스 거리는 두 변수의 집단에서 중심까지의 거리를 계산해 냅니다. 집단의 가장자리(upper control limit)보다 MD가 긴 값을 정의해 냅니다. 서포트 벡터 머신은 머신 러닝으로 분리 값을 구해냅니다. 불량 데이터를 학습시켜 정상값과 비정상 값의 경계를 설정합니다.
이런 기술들을 조합해서 쓸 수도 있습니다. PCA로 측정 값을 추출해 내고 MD와 SVM으로 이상 값을 감지하는 식입니다. 하지만 이렇게 해도 재현되지 않는 불량을 높은 정밀도로 검출해낸다고 할 순 없습니다. 이상값을 정의하면 그 안에는 반드시 정상 제품이 포함됩니다. 이렇게 희생되는 양품(오버킬)이 늘어나면 제조 수율이 줄어들고 제조 비용은 늘어나게 됩니다. 이상치를 여유 있게 정하면 오버킬은 줄어들어도 재현되지 않는 불량이 늘어날 확률이 증가합니다.
3500개의 1Gbit NOR 플래시를 자세히 분석했더니 7개의 재현되지 않는 불량품이 발견됐습니다. 웨이펴의 특정한 곳에 몰려있는 게 아니라 여기저기 흩어져 있으며, 2차원 주성분 분석에서도 걸러내지 못하는 불량 다이는 2개입니다.
재현되지 않는 불량을 3차원 주성분 분석으로 분석해낸 결과입니다. 여기서도 불량 다이를 검출해내기가 쉽지 않습니다.
재현되지 않는 불량이 양호한 다이 사이에 끼어있을 수도 있습니다. 모든 '재현되지 않는 불량'을 미리 제거하기란 불가능에 가까울 것입니다. 제조 비용을 늘리지 않으면서도 가능한 많은 불량 다이를 검사해내야 하지만 쉬운 일은 아닙니다.