엔비디아(CEO 젠슨 황)가 젯슨 TX1 및 TX2용 리눅스(Linux) 기반 소프트웨어 제품군인 제트팩(JetPack) 3.1을 공개했다.

텐서RT(TensorRT) 2.1 및 cuDNN 6.0으로 업그레이드된 제트팩 3.1은 가속화된 배치 사이즈 1을 활용할 수 있는 비전 가이드 내비게이션 및 모션 컨트롤과 같은 실시간 애플리케이션에서 딥 러닝 성능을 최대 2배 가량 향상시킨다. 이로써 인텔리전스 수준이 크게 향상돼 배달 로봇, 원격현실감(telepresence), 동영상 분석 등 새로운 세대의 자동화 기계(autonomous machines) 구현이 가능해질 전망이다.

엔비디아의 젯슨 임베디드 모듈은 초당 1테라플롭(TELOP)의 서버급 성능을 구현하며, 젯슨 TX2에서는 10와트 미만의 전력에서 2배의 인공지능 성능을 구현한다. 테그라(Tegra)용 리눅스(L4T) R28이 포함된 제트팩 3.1은 장기적인 지원을 제공하는 젯슨 TX1 및 TX2용 소프트웨어 제품군이다. TX1 및 TX2용 L4T 보드 지원 패키지(BSPs)는 고객 제품화에 적합하며, 공유된 리눅스 커널 4.4 코드 기반 두 제품 간의 호환성 및 원활한 포팅을 제공한다. 제트팩 3.1부터 개발자들은 TX1과 TX2에서 전부 동일한 라이브러리, API 및 도구 버전을 이용할 수 있다.

cuDNN 5.1에서 6.0으로 업그레이드 및 CUDA 8로 유지보수 업데이트가 이루어진 것 외에도, 제트팩 3.1에는 스트리밍 애플리케이션 구축을 위한 최신 비전 및 멀티미디어 API가 포함되어 있다. 호스트 PC로 제트팩 3.1을 다운로드하면 젯슨에 최신 BSP 및 도구를 적용할 수 있다.

최신 버전의 텐서RT가 포함된 제트팩 3.1은 젯슨에 최적화된 런타임 딥 러닝 추론을 한다. 텐서RT는 네트워크 그래프 최적화, 커널 퓨전, 반정밀도 FP16을 지원해 추론 성능을 향상시킨다. 텐서RT 2.1에는 멀티 가중치 배칭 등 젯슨 TX1 및 TX2의 딥 러닝 성능과 효율성은 대폭 향상시키고 지연율은 감소시켰다.

배치 사이즈 1의 크게 개선된 성능은 GoogLeNet의 지연율을 5ms로 감소시킨다. 지연율에 민감한 애플리케이션의 경우, 각 프레임이 시스템에 도착하는 즉시 처리돼 지연율이 가장 낮다. 텐서RT 2.1은 GoogLeNet 및 ResNet 이미지 인식 추론 처리량도 텐서RT 1.0 대비 2배 이상이다.

젯슨 TX2 Max-Q 및 Max-P 전력 프로파일을 이용한 GoogLeNet 및 ResNet 50의 추론 처리량. 텐서RT 2.1은 GoogLeNet 및 ResNet에서 텐서RT 1.0 대비 2배 많은 추론 처리량을 기록
젯슨 TX2 Max-Q 및 Max-P 전력 프로파일을 이용한 GoogLeNet 및 ResNet 50의 추론 처리량. 텐서RT 2.1은 GoogLeNet 및 ResNet에서 텐서RT 1.0 대비 2배 많은 추론 처리량을 기록

텐서RT 2를 적용하면, 젯슨 TX2는 Max-P 성능 프로파일에서 GoogLeNet의 지연율이 5ms를, Max-Q 효율성 프로파일에서는 지연율이 7ms이다. ResNet은 보통 이미지 분류에서 텐서RT 2.1을 통해 2배 이상 개선된 런타임 성능을 구현해 GoogLeNet를 능가하는 높은 정확도를 갖는다. 또한 젯슨 TX2의 8GB 메모리 용량으로 ResNet과 같은 복잡한 네트워크에서도 최대 128까지 대형 배치 사이즈 실행이 가능하다.

이처럼 지연율이 감소되면, 고속 드론, 선박의 충돌 방지, 자동화 내비게이션 등 실시간에 가까운 반응성이 필요한 애플리케이션에서도 딥 러닝 추론 접근 방식이 활용될 수 있다.

텐서RT 2.1은 사용자 플러그인 API를 통해 맞춤형 네트워크 레이어를 지원, ResNet, 리커런트 뉴럴 네트워크(RNN), You Only Look Once(YOLO) 및 Faster-RCNN 등 확장된 지원을 제공하는 첨단 네트워크 및 기능을 구동할 수 있다.

사용자는 코드를 통해 사용자 정의 ‘IPlugin’으로 고유한 공유 객체를 구성할 수 있으며, CUDA 커널을 이용한 맞춤형 프로세싱을 적용할 수 있다. 텐서RT 2.1은 이 기능을 이용해 객체 감지 강화를 위한 Faster-RCNN 플러그인을 구현할 수 있다. 뿐만 아니라, 텐서RT는 LSTM(Long Short Term Memory) 유닛을 위한 새로운 RNN 레이어와 시계열 시퀀스의 메모리 기반 인식 향상을 위한 GRU(Gated Recurrent Unit)을 제공한다. 이처럼 강력하고 새로운 레이어 유형들을 통해 임베디드 엣지 애플리케이션에서 첨단 딥 러닝 애플리케이션을 배포하는 작업을 가속화할 수 있다.

이향선기자 hslee@nextdaily.co.kr

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지