[TensorFlow] 보면 항상 GPU가 빠른건 아니더군요.

ForGoTTen https://gigglehd.com/gg/10154751

결제중....

조회 수 1104 댓글 4

Hidden : Dense(64 > 32 > 16 > 8 > 1)

- CPU 실행 -

- GPU 실행 -

Trainable params: 689,345

당연히 패러미터의 수가 많지 않을 때 이기는 하지만요.

TF도 백엔드에서는 Native 코드로 짜여있을테니... Python에서 C wrapper를 써본적은 없지만, Java에서 JNI썼던 경험으로는... C/C++ Native코드를 call하는데 클럭 소요가 상당했던걸로 기억합니다. (물론 이 부분은 CPU/GPU 동일)

거기에 CUDA커널을 짜보면, Host메모리에서 Device(GPU)의 Global메모리(GDDR등)으로 전송하는 I/O가 꽤나 크리티컬한 요소에....

Tensorflow backend가 어캐 구현됬는지는 모르겠지만 CUDA에서 입력에 최적화된 Grid사이즈를 지정하는것에 따라서 성능차가 많이 나는데... 그 부분의 최적화도 중요하고 (요즘 핫한 딥러닝 컴파일러가 이런걸 해주더라구요)

일단 TF가 코드 몇 줄로 DNN을 일반 엔드유저가 중요한 부분은 덮어놓고 쓸 수 있게 한 것은 정말 혁신이지만 잘 쓰려면 사실 뒤에 돌아가는걸 많이.... 알아야 하더라구요.

그래서 성능이 중요한 페이퍼를 보면 조금 더 사정이 나은 pytorch를 쓰거나... Yolo의 darknet같이 자기가 C/C++로 처음부터 구현하는 굇수들이 있나봅니다.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '4'

360ghz case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.05.26 01:33

실습 단계 수준은 사실 cpu가 더 적게 시간을 쓸 확률이 더 높죠
int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2021.05.26 12:51

데이터가 작고 MLP 수준이면 그냥 CPU가 나은 경우가 더러 있습니다..
?
NPU 2021.05.26 14:58

요즘 시퓨가 병렬처리 능력이 많이 올라온 덕도 큰것 같네요..
폴짝쥐 2021.05.26 17:15

사실 이런 경우가 있는 경우야 왕왕 있겠거니 하는데
m1은 가끔 그거 이상으로 빠른 경우가 있다던 글이 생각나네요 ( ..)

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

MSI MAG 256F 게이밍 모니터

MSI MAG 256F 게이밍 모니터입니다. 화면 크기 24.5인치, 래피드 IPS 패널, 풀 HD 해상도, 밝기 250니트, 명암비 1000:1, 어도비RGB 91%/DCI-P3 96%/sRGB 127%, 10억 7천만 컬러, 178도 시야각 밝기/명암을 최적화하는 AI 비전, Xbox의 가...

Date2024.03.29 소식 By낄낄 Reply0 Views167

Read More
NVIDIA H200, AI 벤치마크에서 최고의 성능 차지

NVIDIA는 AI 처리 성능 벤치마크인 MLPerf Inference v4.0에서 NVIDIA H200의 점수를 공개했습니다. 이전 세대인 H100보다 추론 성능이 1.45배가 올랐습니다. H200은 호퍼 아키텍처에 HBM3e 메모리 조합으로 4.8TB/s 대역폭에 141GB 메모...

Date2024.03.29 소식 By낄낄 Reply1 Views529

Read More
No Image

AMD, 칩렛 표준화로 타사 칩렛 패키지 수용가능 내비쳐

수요일날 AMD CTO인 Mark Papermaster는 수석 부사장인 Sam Naffziger과 함께 표준화를 강조하고 나왔습니다. 그러면서 2022년초에 만들어진 이후 칩렛 통신을 위한 개방형 표준인 UCIe(Universal Chiplet Interconnect Express)를 언급...

Date2024.03.29 소식 By책읽는달팽 Reply6 Views1084

Read More
No Image

재부팅시 공유기 인터넷 연결이 끊기는데 해결방법이 있을까요...

kt 반기가로 올리면서 바꿔줬던 공유기에 플스5랑 피씨를 물려서 이용중입니다. 그런데 플스도 그렇고 컴퓨터도 그렇고 정상적으로 인터넷이 잘 되다가 기기를 종료한 뒤 잠시 시간이 지나서 전원을 켰을 때 인터넷이 안 됩니...

Date2024.03.29 질문 By프리비 Reply8 Views638

Read More
PWM 컨트롤칩 호환 여부...

novoTon 3947S 라는 PWM 컨트롤칩이 탔는데요... 1. 다른 메인보드의 3947SA 칩으로 교체 2. 해당 메인보드의 다른쪽 3947S 칩으로 교체 로 수리가 가능할지 궁금하네요...

Date2024.03.29 질문 Bywakoy Reply11 Views666

Read More
No Image

스냅드래곤 X 엘리트, 발더스 게이트 3 실행 가능

스냅드래곤 X 엘리트가 탑재된 레퍼런스 노트북에서 발더스 게이트 3를 1080p 30fps로 플레이하는 영상입니다. 스냅드래곤 X 엘리트, x64 에뮬레이션으로 윈도우 게임을 제대로 실행 https://gigglehd.com/gg/15736475 퀄컴은 GTC 2024에...

Date2024.03.29 소식 By낄낄 Reply4 Views1111

Read More
인텔 루나레이크 MX의 레퍼런스 플랫폼 사진

인텔 루나레이크 MX의 레퍼런스 플랫폼입니다. 빠르게 분리할 수 있도록 비 표준 장착 시스템을 사용하기에, 최종 양산품이 저런 형태로 나오진 않습니다. 여러 다이와 함께 2개의 LPDDR5X 메모리가 함께 패키징되어 있습니다. 코어 다이...

Date2024.03.29 소식 By낄낄 Reply0 Views940

Read More
Introspect, GDDR7 40Gbps 메모리 테스트 시스템 출시

Introspect가 세계 최초의 GDDR7 메모리 테스트 시스템을 출시했습니다. 72채널, 40Gbps PAM3 ATE-on-Bench 테스트 시스템으로 GDDR7의 PAM3 변조 모드에서 최고 40Gbps까지 전송 가능한 72개의 핀이 있습니다.

Date2024.03.29 소식 By낄낄 Reply0 Views514

Read More
MSI Spatium M580 FROZR PCIe Gen5 SSD 발표

MSI가 Spatium M580 FROZR PCIe Gen5 SSD를 발표했습니다. 파이슨 E26 PCie 5.0 컨트롤러, 232단 3D 낸드 플래시 메모리, 14.6GB/s의 읽기 속도, 12.7GB/s의 쓰기 속도를 냅니다. 디램 캐시 버퍼, SLC 캐시, 데이터 보호 기능, 히트파이...

Date2024.03.29 소식 By낄낄 Reply0 Views298

Read More
신기한(?) 듀얼 챔버 케이스가 나왔네요.

큐브형 듀얼 챔버.... 이건 어항형도 아니고 큐브형 케이스도 아니고 흔히 말하는 그 듀얼 챔버도 아닌 이상한 형태네요;; 정면에서 보면 강화유리랑 아닌 구간이 1:1;;; 상단에는 280수냉을 달 수 있는 등 생각보다 확장성은 나쁘지 ...

Date2024.03.28 일반 By벨드록 Reply7 Views1249

Read More
No Image

USB4 인클로저 컨트롤 만드는데는 어디어디가 있나요?

에... 그러니까 정확하게는 USB4 인클로저에 사용되는 칩셋이 제가 알기론 asmedia 의 asm2464 랑 인텔 JHL7440가 쓰인다고 알고 있는데... 인텔 모델은 asmdia 칩 보다 쫌 느리고, asmedia 칩은 저랑 궁합이악연이쫌 있어...

Date2024.03.28 질문 By포도맛계란 Reply6 Views527

Read More
USB 3.0 과 3.1은 케이블 상 차이가 없나요?

현재 사용하는 DELL의 모니터가 USB 3.1(USB 3.2 Gen2)의 다운스트림을 지원합니다. 문제는 기본 제공하는 케이블이 1m로, 매우 짧다는 데 있습니다. 그래서 2m정도 되는 싸제 케이블을 사려고 하는데... 문제는 3.1 케이블조차 ...

Date2024.03.28 질문 By노예MS호 Reply15 Views829

Read More
No Image

SK 하이닉스, 인디애나주에 40억 달러의 칩 패키징 공장을 계획

SK 하이닉스가 미국 인디애나주에 40억 달러를 들여 대규모 칩 패키징/테스트 시설을 세우는 계획을 검토 중입니다. 여기에선 적층형 HBM 메모리나 고밀도 서버 메모리, 컴퓨트 메모리 등을 다룰 것으로 보입니다. 가동은 2028년부터, 직...

Date2024.03.28 소식 By낄낄 Reply2 Views618

Read More
3nm가 올해 TSMC 수익의 20%를 차지

3nm EUV 노드가 2024년 TSMC 매출의 20%를 차지할 거라고 합니다. 애플은 A17, M3에 이어 내년에 나올 A18, M4까지 3nm를 쓰는 가장 큰 고객이고요. 그 다음에 NVIDIA는 말할 것도 없고 AMD 젠5, 인텔 루나레이크가 3nm를 씁니다. 그래서 ...

Date2024.03.28 소식 By낄낄 Reply0 Views549

Read More
MSI MAG 274UPF E2 게이밍 모니터

MSI MAG 274UPF E2 게이밍 모니터입니다. 화면 크기 27인치, 3840x2160 해상도, 응답 속도 GTG 0.5ms, 160Hz 주사율, 래피드 IPS 패널, 밝기 400니트, 명암비 1000:1, 베사 디스플레이HDR 400, 색영역은 어도비 RGB 93%/DCI-P3 98%/sRGB 1...

Date2024.03.28 소식 By낄낄 Reply0 Views205

Read More