- 세상의 모든 계산기 자유(질문) 게시판 일반 ()
알파고 2.0 ??
1. 경향신문 기사 中
작년 3월 이세돌 대국 당시 알파고는 구글이 개발한 AI용 칩인 ‘TPU’ 50개를 동원하는 등 대규모 전산 설비를 썼지만, 올해에는 TPU 4개를 얹은 산업용 컴퓨터(machine) 1대만 썼다.
원문보기:
http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201705251847001&code=970204&nv=stand&utm_source=naver&utm_medium=newsstand&utm_campaign=row1_4#csidx014b2a168e8fece83d99057dbfba69d
2. 블로터 기사 中
이세돌 9단과 대국한 알파고는 구글 클라우드 상 50개의 TPU(Tensor Processing Unit)를 사용했다. TPU는 구글이 머신러닝을 위해 특별히 제작한 처리장치다. 1초에 50개의 수와 10만개의 형태를 탐색할 수 있었다. 현재 커제 9단과 대국 중인 알파고는 ‘알파고 마스터’라고 불리는 버전이다. 이번 구글 I/O 에서 공개된 단일 TPU 머신을 사용하며 2016년 버전 대비 10분의 1의 컴퓨팅 파워를 사용하면서도 더 빨리 계산한다.
http://www.bloter.net/archives/280664
3. NEXTPLATFORM - TPU2에 대한 기사 中
Google’s first generation TPU consumed 40 watts at load while performing 16-bit integer matrix multiplies at a rate of 23 TOPS. Google doubled that operational speed to 45 TFLOPS for TPU2 while increasing the computational complexity by upgrading to 16-bit floating point operations. A rough rule of thumb says that is at least two doublings of power consumption – TPU2 must consume at least 160 watts if it does nothing else other than double the speed and move to FP16. The heat sink size hints at much higher power consumption, somewhere above 200 watts.
https://www.nextplatform.com/2017/05/22/hood-googles-tpu2-machine-learning-clusters/
댓글13
-
세상의모든계산기
In-Datacenter Performance Analysis of a Tensor Processing Unit ™
https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view※ 이 논문은 TPU2 가 아닌 TPU(1세대) 을 대상으로 작성된 논문입니다.
-
세상의모든계산기
NVIDIA V100
출처 : https://devblogs.nvidia.com/parallelforall/inside-volta/?ncid=so-fac-vt-13920
Tesla V100 delivers industry-leading floating-point and integer performance. Peak computation rates (based on GPU Boost clock rate) are:
7.5 TFLOP/s of double precision floating-point (FP64) performance;
15 TFLOP/s of single precision (FP32) performance;
120 Tensor TFLOP/s of mixed-precision matrix-multiply-and-accumulate. -
세상의모든계산기
팩트 정리를 해 보면...
1. 돌파고의 TPU는 TPU1 으로 불림2. 커파고의 TPU는 TPU2 로 불림
(칩을 TPU2 Chip 으로 부르기도 하는 듯)3. TPU2 모듈 1개는 TPU2코어 4개로 구성
4. TPU2 모듈의 성능 = 45테라플롭스/개*4개 = 180테라플롭스 (
5. https://www.tensorflow.org/tfrc/ 구글 텐서 크라우드?는 100개의 TPU2 모듈로 구성
각각의 TPU2 칩은 두개의 BlueLink 25GB/s 케이블로 연결 -
세상의모든계산기
추정
CPU 종류와 그 비율
출처 : https://www.nextplatform.com/2017/05/22/hood-googles-tpu2-machine-learning-clusters/
We believe that Google connected each CPU board to exactly one TPU2 board using both OPA cables to achieve 25 GB/s aggregate bandwidth. This one-to-one connectivity answers a key question for TPU2 – Google designed the TPU2 stamp with a 2:1 ratio of TPU2 chips to Xeon sockets. That is, four TPU2 chips for every dual-socket Xeon server.> 클라우드가 아닌 싱글머쉰에서 알파고가 돌아갔다면 제온 2소켓 보드 + TPU2 모듈*1개 구성이 맞는 듯
> CPU는 구글 문서에 나온대로 INTEL XEON E5-2699v3 인것 같음. 실질적 계산 역할은 그리 크지 않은 듯.
(seldom 하게 2.3GHz 이외 클럭으로 동작)> 전력소모는 구글 문서에 나온대로 TDP 861W, IDLE 290W, BUSY 384W (싱글머쉰 기준) 이 맞는 듯
세상의모든계산기 님의 최근 댓글
fx-CG 의 경우 분모→A, 분자→B 로 저장해 풀어보면 fx-570 과 같이 A,B,C,D 로 나눠서 계산하면 결과는 둘 다 같음. 73.0495070585238 (15 digits) 같은 15digits 정밀도라도, 공학용 계산기에 따라 결과가 달라질 수 있는 건가? 입력 실수했나? - 어쨌건, TI-nspire 보다 정밀한 결과값 - 파이썬 시뮬레이터상 15 digits 값과 같진 않지만, 유사함. 2025 10.22 [공학용 계산기] 계산기 내부에서 사용하는 유효숫자 자릿수 Significant Digits https://allcalc.org/8848 2025 10.22 계산 정확도 (Internal Precision) 저게 맞나 싶은데요? 무슨 의미로 사용된 용어인지 검증이 필요한 듯 합니다. fx-570 ES PLUS 만 해도 내부 유효자릿수가 15-digits 입니다. https://allcalc.org/55918#comment_55944 2025 10.22 TI-nspire 로 동일하게 A, B, C, D 나누어 계산해 봐도... 한꺼번에 계산한 것과 똑같은 결과 "어? TI-nspire가 유효자릿수가 하나 적나?" 하고 1.234567890123456789 입력하고 Ans - 1.2345678 해 보니 내부 유효자릿수가 다르게 나오네요. TI-nspire 는 (십진수) 14-digits CASIO fx-570 ES 는 (십진수) 15-digits 둘 다 같다고 착각하고 있었나봅니다. 2025 10.22 카시오 fx-570 ES 로 계산하면? 카시오도 (십진수) 14digits 한계이므로, 비슷한 값이 나올 것으로 예상됨. 다만, stack 한계로 한번에 계산이 불가능하므로 부분을 나누어 계산 → A → B → C → D 최종 계산 결과에서 73.049507 을 빼면 fx-570 ES가 구한 결과값(Ans)은 73.0495070584404 (15digits) 로 최종 확인됨. - TI-Nspire 보다 오차가 작음. - 파이썬 시뮬레이션 15 digits 와는 차이가 있음. 2025 10.22