Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
360ghz https://gigglehd.com/gg/9842990
case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/...
조회 수 915 댓글 11
Extra Form
참고/링크 https://www.marktechpost.com/2021/04/10/...u2oChpYTJQ

연구 내용이라고 합니다. clx/cpx는 캐스캐이드 레이크, 그리고 카퍼 레이크 X cpu는 최적화시에 동일 작업에서 nvidia v100의 최대15배 속도를 내준다고 합니다...만, 글 내용 안에서는 구체적인 테스트 하드웨어 환경은 내용엔 자세히 없군요.



  • profile
    dmsdudwjs4      Into the Unknown, Show Yourself !! // ThunderVolt_45 2021.04.12 01:16
    인텔에게 돈을 얼마나 받았길래...
  • profile
    360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.04.12 01:19
    avx512의 효율이 그정도로 좋다면, 전력소모와 금전 문제를 모두 버리고 단일로 좋구나... 해줄 수는 있는... 그런걸로 봐야할거 같네요 ㅋㅅㅋ 좋게 봐서요
  • profile
    낄낄 2021.04.12 01:22
    아이스레이크 발표했을 때 성능이 높다고 한 거 상당수가 AVX512 빨이었지요. 원문 끝에 논문 링크가 있던데 거기에서도 AVX512를 썼다고 말하는 듯 합니다.
  • profile
    360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.04.12 01:23
    우선은 단일당 대상 비교인지 전용칩이나 기타 로드아웃을 사용한 다른 소식이 있는지, 자세히 나오진 않아서 얼마나 빠른지를 알 수가 없네요...
  • ?
    포인트 팡팡! 2021.04.12 01:23
    360ghz님 축하합니다.
    팡팡!에 당첨되어 5포인트를 보너스로 받으셨습니다.
  • ?
    PHYloteer      🤔 2021.04.12 01:34
    보니까 원본 논문 주소가 있군요. 정확히 아시려면 한번 논문을 보시면 될 거 같습니다. 저는 피곤해서 도망을... ( ' ')

    경험상 아마 자신들에게 유리한 네트워크와 데이터 구조를 골랐을 것은 같습니다. 뭐 그랬다고 하더라도 현실에서 쓸모가 없어지는 건 아닌데요.
  • profile
    360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.04.12 02:21
    대충 훑어봤을 때는 끊임없이 아키텍쳐만 이야기하기에, 저도 디테일하게 읽기를 포기(...)했습니다. 혹여 다 읽으신 분이 계시다면 댓글에 남겨주시면 ...ㅠㅠ
  • ?
    달가락 2021.04.12 10:11
    주요 골자는 locality-sensitive hashing을 통해서 다뤄야하는 신경망을 sparse하게 만들고, 이를 통해 CPU에서 GPU에 준하는 성능(나이브하게 구현할 경우)으로 비벼보겠다는 이야기입니다. 이 논문은 거기에 BF16 + AVX-512를 끼얹어서 최적화하는 것이 주요 공헌이구요. 뭐 잘 아는건 아니라서 대충 훑어보는 수준이지만..

    참고로 LSH를 통한 sparsity 증가는 다른 NN의 개선에도 사용됩니다. (e.g. Reformer; Kitaev et al., 2020)

    평가에는 FCNN으로 분류기를 구현한 2개랑 text8... 그러면 distributed word representation (word2vec)을 사용했네요. 마지막 word2vec은 아시다시피 cpu로 충분히 빠른 시간 내에 획득할 수 있는 거라... 공교롭게도 나이브한 구현체에서도 text8은 GPU보다 빠르다고 나오죠? 최적화해서 캐스테이드에서 9배, 쿠퍼에서 15배.

    논문에 대한 평가는 제가 그럴 깜냥은 안되니 뭐라 말씀은 못드리겠고..

    돈으로만 생각해볼까요. 쿠퍼레이크 뭐시기를 썼는지는 모르겠지만 28코어에 대충 L3이 38MB에 달한다는걸 보면 제온 플래티넘 8376H나 HL, 또는 8380H/HL일 가능성이 높습니다. 이걸 4개 꼽았다고 했군요.
    가장 저렴한 8376H가 RCP 기준 $8179, ... 계산하기 귀찮으니 4개 해서 $30K 나왔다고 하고.
    한편, 캐스케이드는 8260L을 썼다고 했으니 대충 RCP 기준 $7705, 2개 꼽았으니 대충 $14K라고 칩시다.

    음... 대충 $14K 정도면 V100 32GB PCI 한대 삽니다. A100을 사도 되죠. 그리고 잘 만들어진 텐서플로나 파이토치를 고생하지 않고 쓸 수 있습니다.
    대부분의 최적화 비전문가가 경험하는 naive implementation에서 이득은 최고 잘한게 FCNN에서 1.44배... 저라면 그냥 $14K로 V100이나 A100쓰고 대충 구현하는게 ... 낫겠죠. A100에 대충 apex 한줄 끼얹으면 BF16은 자동으로 따라오는거니 죽어라고 최적화 한 것의 격차는 더 좁혀질 가능성이 높다고 여겨집니다.

    그냥 이렇게 GPGPU 안쓰고 이런 시도도 가능하고 개선시켜 나가질 것이다 이런 관점에서 보시면 됩니다. 하다보면 언젠가 더 쓸만하게 편리하게 하이레벨 프레임워크 수준에서 접근할 수 있는 날이 오겠죠. GPU는 GPU 나름대로 Sparse NN에 대한 가속 능력을 강화하고 있고, 해당 논문등에서도 언급되는 multi-billion 파라미터 NN 핸들링을 위한 VRAM 부족문제는 vertical/horizontal 두 수준에서 모두 sharding을 통해서 접근되고 있습니다. 거기에 optimizer를 위한 가중치 쪽은 CPU off-loading과 같은 양념이 더해져서 슬슬 해볼만한 수준까지 내려왔구요.
  • profile
    폴짝쥐 2021.04.13 04:28
    히익 굇수시네요
    제가 그 최적화 쪽 일을 하곤 있는데
    잘 모르다보니 뻘뻘 거릴 때가 많습니다
    괜찮으시면 중간중간 질문 드리고 싶네요...
  • ?
    달가락 2021.04.13 07:26
    히익 그런거 아닌데요. 최적화 일을 하시면 어떻게 접근하시는지에 따라 다르긴 하지만 저보다 더 깊게 보시는거라.. 저는 그냥 오픈되어 있는거 쬐끔 보던 지나가던 월급쟁이라 질문하시면 밑천이 드러나서 안되양!
  • ?
    diediealld 2021.04.12 20:46
    사실 ML 신경망중에는 무슨 수를 써도 '고작 100GB' 수준 메모리에는 올라가지 않는 애들도 있긴 합니다;; 영상인식 이런것 말고 언어처리 이런것들이 그렇죠. 아무리 GPU에 연산기를 박아 빡세게 해봤자, 단일 메모리 공간에서 느려터진 CPU가 하는게 결과적으로 더 빠른 물건들도 있지요. 사실 쓰루풋이 아니라 반응속도가 중요하다고 하면 1.x배 성능 개선도 적은건 아니니...

    기존 GPU기반에서 하던 쪽은 메모리 압박을 줄이기 위해 최대한 해싱에 집중하고, CPU쪽은 침투하기 위해 locality높은 부분의 강점을 살리며 벡터유닛에 유틸리티를 포함시켜 대응하고...etc. 아예 마켓에 진출 못한 RISC-V계열은 CPU인척하는 GPU를 만들고...혼돈의 21세기 컴퓨팅세상

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 라이젠 7 5700G APU 사진과 성능 유출

    라이젠 7 5700G APU의 사진입니다. 베가 8 그래픽, 512개의 스트리밍 프로세서, 2GHz의 클럭으로 작동합니다. 라이젠 7 4700G보다 100Mhz 낮은데, 드라이버가 없어서 성능을 테스트하진 못했습니다. CPU의 경우 CPU-Z 631점, 1.365V에서 ...
    Date2021.04.12 소식 By낄낄 Reply2 Views1829 file
    Read More
  2. 지포스에서 GPU 가상화를 사용하는 방법이 나옴

    그래픽카드에서 가상화를 통해 여러 가상 인스턴스를 나눠서 실행하는 기능은 오직 테슬라나 쿼드로에서만 가능합니다. 게임용 그래픽카드인 지포스 시리즈에서는 불가능합니다. 여러 가상 머신에서 GPU를 나눠 쓸 수 있을 뿐만 아니라 비...
    Date2021.04.12 소식 By낄낄 Reply7 Views4044 file
    Read More
  3. No Image

    intel clx/cpx는 V100의 15배 속도로 dnn 처리가 가능함

    연구 내용이라고 합니다. clx/cpx는 캐스캐이드 레이크, 그리고 카퍼 레이크 X cpu는 최적화시에 동일 작업에서 nvidia v100의 최대15배 속도를 내준다고 합니다...만, 글 내용 안에서는 구체적인 테스트 하드웨어 환경은 내용엔 자세히 ...
    Date2021.04.12 소식 By360ghz Reply11 Views915
    Read More
  4. No Image

    노트북... 을 찾고 있습니다.

    원래 3500u 달린 노트북 가지고 잘 놀았었는데 코로나 킹시국에 직격타 맞고 먼지만 먹다가 결국 중고로 털어버렸는데 지금 다시 슬금슬금 대면 강의가 출몰하고 있어 다시 노트북이 필요하게 되었습니다...   그래서 지금 노트북을 찾고 ...
    Date2021.04.12 질문 Bydmsdudwjs4 Reply32 Views1000
    Read More
  5. No Image

    왜 요즘 노트북들 베터리를 내장형으로 바꿨을까요?

    외장일 때가 교체도 쉽고 편했는데 안으로 집어놓으니 사용자가 손대긴 어려워져서요.(하판 따는 건 어려운 일이 아니지만 보증 가지고 걸고 넘어지니까요.), 15인치 사서 배터리 떼버리고 다니면 중량 줄어서 배터리 무게 큰 경우는 13인...
    Date2021.04.11 일반 Byjin★ Reply34 Views3231
    Read More
  6. No Image

    CPU 35W TDP NAS로 사용시 전기세 얼마나 나오는지 궁금합니다

    제가 지금 NAS를 쓰고 있는게 너무 오래되서 대충 7년에서 8년 정도 됐습니다. 당시에도 사양이 그렇게 좋다고 할 수 없는 15W짜리 셀러론을 샀는데, 스펙터 이후 스펙터 패치해서 엄청 느려지고 8년정도 지나니까 리눅스를 쓰고 있기는 ...
    Date2021.04.11 질문 ByMeili Reply18 Views3965
    Read More
  7. No Image

    Pi-KVM을 만들려고 하는데 말입죠

    라즈베리 파이 (살 예정) HDMI 캡처보드 충전기 (있음) 저항이니 뭐니 하는것 (필요없음) 다른건 다 괜찮은데 USB/PWR Splitter이란 놈을 국내에서 찾아보기가 힘들군요 그냥 USB-C 타입에 데이터/파워 갈라지는 분배선을 쓰면 되겠죠? 레...
    Date2021.04.11 질문 Bytitle: 폭8애옹 Reply0 Views756
    Read More
  8. No Image

    글로벌 파운드리의 가치를 200억 달러로 평가

    글로벌 파운드리는 올해 하반기에 기업 공개를 진행할 예정입니다. 글로벌 파운드리의 소유주인 Mubadala는 이 회사가 200억 달러의 값어치를 갖고 있다고 평가하고 있습니다. Mubadala는 아부다비 정부에 속한 투자 회사로, 반도체 그 자...
    Date2021.04.11 소식 By낄낄 Reply2 Views1112
    Read More
  9. 3.5인치 크기의 코멧레이크 메인보드

    Aaeon의 Gene-CML5 메인보드입니다. 3.5인치 크기에 Q70E/H420E/Q470 칩셋, 2/4/8코어 35W TDP의 코멧레이크 프로세서를 장착하는 LGA 1200 소켓이 있습니다. 장착할 수 있는 가장 높은 모델은 8코어의 코어 i7-10700TE입니다. DDR4-2933 ...
    Date2021.04.11 소식 By낄낄 Reply2 Views1029 file
    Read More
  10. 녹투아, LGA 1700 소켓용 업그레이드 키트를 제공 예정

    녹투아 NH_U12A 쿨러가 알더레이크-S의 LGA 1700 소켓과 호환되냐는 질문에, NDA 때문에 자세하게 말할 순 없으나 업그레이드 키트를 내놓을 거라고 밝혔습니다. LGA 115x/1200과 LGA 1700은 소켓 크기부터 크게 차이나기에, 업그레이드 ...
    Date2021.04.11 소식 By낄낄 Reply2 Views1039 file
    Read More
  11. 5nm 젠4, 나비2 그래픽 조합의 라이젠 7000 라파엘?

    기존에 유출된 로드맵에서 빠진 부분이 추가됐습니다. 2022년에 코드네임 라파엘이 출시되는데, 젠4 아키텍처, 5nm 공정, 나비 2 그래픽이 특징입니다.
    Date2021.04.11 소식 By낄낄 Reply5 Views1111 file
    Read More
  12. AMD, 내년에 6nm 젠3+ 코어에 나비2 그래픽 조합의 APU를 출시

    AMD의 모바일 프로세서 로드맵입니다. 고성능 프로세서에선 세잔-H가 7nm, 젠3 아키텍처, 베가 7, 45W로 나오며 내년에는 렘브란트-H가 6nm, 젠3+, 나비2, DDR5/LPDDR5, 45W로 출시됩니다. 15W인 세잔-U와 루시엔-U도 렘브란트-U와 바셀...
    Date2021.04.11 소식 By낄낄 Reply3 Views1027 file
    Read More
  13. ASUS Mini PC PN51, 라이젠 5000U 시리즈 탑재

    ASUS Mini PC PN51 미니 PC입니다. 라이젠 5000U 시리즈 APU를 탑재했는데, 라이젠 3 5300U/라이젠 5 5500U/라이젠 7 5700U가 있습니다. 최고 8코어 16스레드, 베가 8 그래픽, 젠2 아키텍처이지요. DDR4-3200 32GB 메모리 장착 가능, M.2 ...
    Date2021.04.11 소식 By낄낄 Reply2 Views1024 file
    Read More
  14. MSI, 3개의 Spatinum SSD를 준비 중

    MSI가 Spatinum 브랜드로 SSD 시장에 진출합니다. M400은 PCIe 4.0 고성능 제품으로 용량 500GB~2TB. M300은 PCIe 3.0의 중급형 제품으로 용량 256GB~2TB M200은 SATA 인터페이스의 2.5인치 제품으로 용량 240GB~1TB입니다.
    Date2021.04.11 소식 By낄낄 Reply2 Views386 file
    Read More
  15. No Image

    미국이 중국 CPU 회사 2곳을 블랙리스트에 추가

    미국 상무부가 블랙리스트에 7개의 중국 회사를 추가하고, 이들 기업이 미국에서 개발된 고급 기술을 쓰지 못하도록 막았습니다. 여기에는 중국의 CPU 개발사인 Phytium과 Sunway가 포함됩니다. Phytium는 Armv8 명령어 세트를 기반으로 ...
    Date2021.04.11 소식 By낄낄 Reply3 Views850
    Read More
목록
Board Pagination Prev 1 ... 757 758 759 760 761 762 763 764 765 766 ... 1933 Next
/ 1933

한미마이크로닉스
AMD
더함
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소