맞춤형 PCB 및 3D 인쇄 냉각 기능을 갖춘 PCIe 카드에 해킹된 서버용 200달러 '소켓형' Nvidia AI GPU - 개조된 Tesla V100 SM 데이터 센터 GPU는 AI LLM을 실행하며 더 효율적입니다.

GPU에서 LLM을 로컬로 실행하려면 많은 VRAM이 필요하므로 요즘 장비 비용이 기하급수적으로 늘어날 수 있습니다.지속적인 AI 붐 속에서 최고의 가치는 여전히 성능을 발휘하는 오래되고 종종 잊혀지는 실리콘에 있는데, 이것이 바로 유튜버 Hardware Haven이 발견한 것입니다.그는 소켓형 프로세서를 사용하는 것과 유사한 SMX 인터페이스를 갖춘 Nvidia V100 서버 GPU를 소비자 마더보드에 연결되는 표준 PCIe 버스로 변환했습니다.최신 SKU에 비해 그 위상(및 비용)에 비해 꽤 좋은 성능을 발휘했습니다.

이 장치는 SMX2 소켓을 사용하고 랙 규모 배포용으로 설계된 Nvidia Tesla V100 AI GPU로 시작됩니다.SMX 인터페이스는 CPU 소켓과 유사한 특수 베이스보드에 GPU를 평평하게 장착한 후 GPU를 베이스보드에 나사로 고정하는 메자닌 기반 커넥터입니다.호스트는 단돈 100달러에 이 GPU를 구입할 수 있었고, 함께 제공되는 SMX-to-PCIe x16 어댑터도 약 100달러이므로 총 설정 비용은 200달러가 되었습니다.V100은 16GB 또는 32GB의 HBM2(여기서는 16GB로 작업하고 있으며 900GB/s의 대역폭을 자랑함)와 함께 제공되며 Turing 아키텍처를 기반으로 합니다.

PCIe 어댑터 카드에는 자체 냉각 기능이 제공되지 않았으며 V100은 말 그대로 PCB의 방열판이므로 YouTuber는 이를 위한 덕트를 설계하고 3D 프린팅했습니다.방열판 쪽으로 신선한 공기를 흡입하기 위해 끝에 80mm Notcua 팬을 부착했습니다.어댑터에는 4핀 PWM 헤더 3개와 함께 전원용 8핀 PCIe 전원 커넥터 2개도 있습니다.NVLink용 보조 SMX 소켓은 없습니다.그러나 이러한 소켓은 훨씬 더 비쌉니다.

GPU가 준비되어 표준 Ryzen 시스템에 장착되면 2017 카드가 얼마나 인공 지능적인지 테스트할 차례입니다.V100에는 디스플레이 출력이 없으므로 실제로 컴퓨터를 사용하려면 CPU에 통합 그래픽이 필요하다는 점을 명심하세요.Ollama에서 gpt-oss-20b를 사용하여 V100은 초당 130개의 토큰을 생성할 수 있었던 반면, 유튜버의 일일 드라이버 시스템에 있는 Radeon RX 7800 XT는 초당 약 90개의 토큰을 달성했습니다.

두 카드 모두 16GB의 VRAM을 갖추고 있으며 RX 7800 XT는 더 효율적인 실리콘을 갖춘 더 새로운 제품이지만 다시 한번 Nvidia는 이러한 벤치마크에서 소프트웨어 지원의 표준입니다.따라서 호스트는 최신 Ampere 아키텍처를 기반으로 구축된 V100과 비교하기 위해 RTX 3060 12GB(그가 보유하고 있는 최고의 Nvidia GPU)로 전환했습니다.

Google의 gemma4: e4b를 실행하면 V100은 초당 108개의 토큰을 처리하는 반면 3060 12GB는 초당 약 76개의 토큰만 관리했지만 전력 소비는 훨씬 적었습니다. V100의 경우 293W, RTX 3060의 경우 235W입니다. 와트당 토큰을 계산하면 V100의 경우 약 0.37로 약간 더 효율적입니다.3060의 와트당 초당 0.33개 토큰보다 많습니다.

V100의 전력을 100W(기본적으로 300W와 함께 제공)로 제한하면 동일한 테스트에서 전력 소모가 170W로 떨어졌지만 여전히 95 tok/s를 생성합니다.비교를 공정하게 하기 위해 YouTube 사용자는 3060을 100W로 제한했습니다.결국 171W를 소비하고 초당 68개의 토큰을 생성했습니다.따라서 두 가지 새로운 결과를 통해 V100은 와트당 0.55토큰/초의 효율성 점수를 달성한 반면, 3060 12GB는 와트당 0.39토큰/초에서 정체되었습니다.

원문 보기

맞춤형 PCB 및 3D 인쇄 냉각 기능을 갖춘 PCIe 카드에 해킹된 서버용 200달러 '소켓형' Nvidia AI GPU - 개조된 Tesla V100 SM 데이터 센터 GPU는 AI LLM을 실행하며 더 효율적입니다.

관련 글