close_btn

  • ※ 사이트 내부 통합검색


  • ※ 카카오페이로 기부하기

  • ※ 사이트 내부 통합검색
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

드디어 알파고의 마지막 행보 중 하나인 알파고 논문이 발표 되었습니다. 

https://deepmind.com/blog/alphago-zero-learning-scratch/

아직 자세하게 읽어보진 않았지만 알파고 개발사에 대한 총정리 버전이 될 것 같습니다.

네이쳐 논문 링크 : https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

 

눈에 띄는 점

1. Alpago Zero (A.K.A 제파고) 가 등장했습니다.

인간 기보 학습이나 인간의 어떠한 수동 조작(개입) 없이 오직 self-play training 로만 성장하게 만든 것이 Alphago Zero(A.K.A 제파고)입니다. 이러한 방법으로 단 3일만에 이전 논문의 알파고(=돌파고) 를 압살하는 수준까지 성장할 수 있었으며, 커파고(=마파고=Master) 수준까지는 21일, 커파고 보다 훨 쎈 수준까지는 40일(총 2900만판의 self-play)이 걸렸다고 말하고 있습니다. (40 Block 기준)


* 논문에 따르면 제파고(완성 버전)가 마파고를 89승 11패로 이겼다고 합니다. (게임당 2시간짜리 시합)

2. 기존 알파고와의 차이

기존 알파고들은 가치망(=승률분석), 정책망(=가능성 있는 다음 수 예측)이라는 2가지 신경망을 사용하였는데, 제파고는 이 둘을 통합한 단일 신경망으로 승률분석과 다음 수 예측을 모두 수행한다고 합니다. 그것이 학습이나 가치판단에 더 효율적이었다는 설명입니다. 
그리고 제파고는 "rollouts" 를 하지 않는다고 합니다. (이건 잘 모르겠습니다)

* rollout = fast, random games used by other Go programs to predict which player will win from the current board position

틀린 예측 (알파고에 대한 오해)

  1. TPU 를 보고 놀란 나머지 이전 논문에 적힌 GPU 도 혹시 TPU 인 것은 아닐까 의심했습니다.
    http://www.allcalc.org/18193

    "TPU 를 썼지만 공개할 시점이 아니라서 GPU 숫자로 적당히 에둘러서 표현한 것은 아닐까?" 이런 의심이었는데...
    틀렸네요. 초기버전(판파고)은 GPU로 개발했고, 중간에(돌파고부터) TPU(ver.1) 로 갈아탄게 확인되었습니다. 

     
    1. 돌파고(=Alphago V.18) ELO Rating 이 4500 이라는 스샷이 올라온 적이 있습니다. 
      http://www.allcalc.org/16539


      그런데 이번 발표(그래프)를 통해서 보면 돌파고의 Elo Rating 은 3700~3800 정도로 표시되었습니다.
      당시에도 같거나 더 높은 수준의 (다양한) 상대방이 없어서 (이기는 게임만 하다보니) 레이팅에 인플레이션이 있는 것 같다는 말이 있었습니다만, 제파고(의 성장)를 기준으로 Elo Rating 이 재정립된 것 같습니다. 

      오늘(17.10.19) 기준으로 cgos 에 있는 탑 클래스의 딥젠고 ELO가 4000 내외 수준인데 이것도 더 높은 수준의 상대내지 동급의 상대와 두는 바둑의 횟수가 늘어나면 비슷한 과정을 겪을 것 같고, 인간 최고 수준(커박)의 ELO도 인공지능과의 대국을 추가하여 재평가한다면 다소나마 약간씩 떨어질 가능성이 있어 보입니다.
      ​​​

      * [수정] 논문에 보면 Alphago Fan(3144), Lee(3739), Master(4858), Zero(5185) 로 정확하게 나와 있습니다. 그리고, 그 산출 근거를 다음과 같이 적시하였습니다. "The results of the matches of AlphaGo Fan against Fan Hui and AlphaGo Lee against Lee Sedol were also included to ground the scale to human references, as otherwise the Elo ratings of AlphaGo are unrealistically high due to self-play bias." 알파고끼리의(아마도 여타 AI 포함일 듯) 셀프대국만 반영하면 편향으로 인해 레이팅값이 비현실적으로 높아지는데, 이를 막기 위해 인간(판후이 & 이세돌)과의 대결 결과를 인간 기준 척도의 기준점으로 삼았다고 밝혔습니다. 만약 돌파고 레이팅 ​​​4500이 인간대상으로도 통하였다면 3550인 이세돌과 대국에서 승리할 확률이 99.58% 라는 말인데, 4승1패를 설명하기가 너무 곤혹스러웠던 것 같습니다.
      그럼에도 불구하고 4500을 3739로 깍은 것은 너무 과격?한 것이 아닌가 싶기도 합니다. '인간과의 대결 횟수가 너무 적기 때문'입니다. 그리고 왜 판파고의 레이팅(3144)은 왜 조정하지 않았을까요? 좀 더 자세히 알아볼 필요가 있을 것 같습니다.

 

결론

제목(Learning from scratch)에서 알 수 있듯, 이번 논문의 핵심은 "인간의 개입 없이, AI의 자력으로만 바둑이라는 Category를 마스터하였으며, 그것은 인류가 아직 도달하지 못한 미지의 영역이다."는데 있겠습니다. 
딥마인드(구글)은 이러한 AI의 활동 분야를 바둑이라는 Category 에 한정하지 않고 넓혀 나갈 것이고, 그로 인해 인류가 아직 밟아보지 못한 수많은 길이 새로이 열릴 것입니다.

댓글 '7'
  • profile

    의문점1 : 제파고의 성장은 계속될 것인가? 아니면 어느 점으로 수렴할 것인가? 

    chrome_2017-10-19_12-28-19_1.png

     

    의문점2 : "완성 단계?에 이른 것인지, 성장이 더뎌졌다" 고 판단되어지는 33일 이후에 갑자기 도약하듯? 2차례 성장하였는데 제파고 내부에 어떤 변화가 있었던 것일까? (특정 정석에 대한 선택? 버림? 때문일까?)

  • profile
    세상의모든계산기 2017.11.23 15:37

    DeepMind has yet to find out how smart its AlphaGo Zero AI could be
    Posted Nov 2, 2017 by Darrell Etherington (@etherington)

    https://techcrunch.com/2017/11/02/deepmind-has-yet-to-find-out-how-smart-its-alphago-zero-ai-could-be/

  • profile
    세상의모든계산기 2017.10.19 20:50
    관련 기사
    https://brunch.co.kr/@madlymissyou/18
  • ?
    과객 2017.10.20 08:12
    딥마인드가 영국 회사인데, 이런 거 보면 영국의 과학 기술도 굉장한...
    스마트폰 AP 로 쓰이는 ARM 도 영국 회사...

    하긴 뉴턴, 스티븐 호킹을 배출한 나라이니...
  • profile
    세상의모든계산기 2017.10.20 09:04

    Rollout 과 관련하여 논문에 나온 내용을 뽑아보겠습니다. 

    • Finally, it uses a simpler tree search that relies upon this single neural network to evaluate positions and sample moves, without performing any Monte-Carlo rollouts.
    • In each position st, a Monte-Carlo tree search (MCTS) αθ is executed (see Figure 2) using the latest neural network fθ. Moves are selected according to the search probabilities computed by the MCTS, at ~ πt.
    • Figure 2: Monte-Carlo tree search in AlphaGo Zero.
    • Monte-Carlo tree search (MCTS) may also be viewed as a form of self-play reinforcement learning.
    • MCTS programs have previously achieved strong amateur level in Go, but used substantial domain expertise: a fast rollout policy, based on handcrafted features, that evaluates positions by running simulations until the end of the game; and a tree policy, also based on handcrafted features, that selects moves within the search tree.
    this single neural network to evaluate positions and sample moves,
    without performing any Monte Carlo rollouts.
  • profile
    세상의모든계산기 2017.10.20 09:18

    MCTS 를 여전히? 사용하여 (완전 랜덤은 아니지만) random 한 게임을 진행하는 것은 맞다.

    마파고까지의 프로그램들은 승률 계산을 위해 rollouts(=빠르게 MCTS를 돌리는 것) 을 사용하였는데, 승률 계산을 다른 영역에 맏기므로 rollout을 할 필요가 없다.

    이런 결론이네요.

     

    Compared to the MCTS in AlphaGo Fan and AlphaGo Lee, the principal differences are that AlphaGo Zero does not use any rollouts; it uses a single neural network instead of separate policy and value networks; leaf nodes are always expanded, rather than using dynamic expansion; each search thread simply waits for the neural network evaluation, rather than performing evaluation and backup asynchronously; and there is no tree policy. A transposition table was also used in the large (40 block, 40 day) instance of AlphaGo Zero.

  • profile

    ELO Rating 으로 추정해 본 승률

    TI-Nspire CAS Student Software_2017-10-20_17-37-25.png

    TI-Nspire CAS Student Software_2017-10-20_17-43-23.png

?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수 추천 수
공지 공지 기부와 관련하여 (카카오페이 or 네이버페이 or Paypal) 10 세상의모든계산기 2018.06.27 1536 0
공지 공지 소셜 로그인 기능 (네이버, 구글, 페이스북, 트위터 아이디와 연동) file 세상의모든계산기 2015.09.25 2249 0
공지 공지 [필독] 사이트 운영원칙 & 게시판 이용시 주의사항 (주제 / 제목 / 질문글) 1 세상의모든계산기 2015.03.31 2332 0
공지 공지 [필독] 계산기 질문글 작성시 주의사항! (부제 : 바람직한 질문글 작성 요령) 2 file 세상의모든계산기 2015.03.01 2439 0
183 질문 [TI-nspire CX CAS Student Software] V4.5 프로그램 오류 - 파일 열기 1. 사용 환경 컴퓨터 OS는 윈도우10 Pro(64비트)입니다. 최근에 nspire 계산기 OS를 Ver4.5로 업데이트하면서, PC Software 도 새로 깔게 되었습니다. 기존 버전 ... 12 세상의모든계산기 2017.12.05 1231 0
182 질문 번식에 따른 개체수의 계산 (feat. 피보나치 토끼) 지식인에서 수학(?)문제를 봤는데 채택된 답변이 틀린 것 같아서 한번 올려 봅니다. 링크 : http://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1113&do... 6 세상의모든계산기 2017.12.05 195 0
181 질문 [TI-nspire] 일반계산 답이 하나만 나올경우에는 어떻게 하면되요? + 그래프 모드 실수축,허수축 solve 기능에서는 x=-1 이런식으로 넣어주면 음수값도 출력되는 걸로 알고있는데, 일반 계산에서는 그런기능이 있는지 알고싶습니다.   그리고 혹시 그래프모드에... 2 돈키호테 2017.11.30 128 0
180 일반 그동안 TI-nspire 구버전으로 버티고 있었는데, 이젠 그만 신버전으로 올려야겠습니다. 그동안 업데이트된 것이 너무 많아져서, 더이상 버티는 것은 별로 의미가 없는 것 같습니다. 일시적 불편함을 감수하고 최신 버전으로 넘어가겠습니다. 그런데...... 3 세상의모든계산기 2017.11.30 518 0
179 질문 [ti-nspire] 통계 - 그래프분석 - 면적적분 질문입니다. 스프레드시트에 x값들과 그에 따른 y값을 넣고 그래프로 구현한후 특정 x범위의 적분값을 구하는 방법은 없을까요? 그래프까지 그리는 법은 배웠는데 적분값을 도... 10 벤킴 2017.11.26 1287 0
178 질문 [TI-nspire] 그래프모드, 적분값 계산이 안됩니다 밑에 함수는 f2 함수입니다. 이계산을 하려는데 계산기가 먹통이되버립니다. 어떻게해야 계산이 가능해지는지 궁금합니다 ㅜㅜ 아까전에 알려주셧던 근사값모드... 5 file 강냉이 2017.11.20 714 0
177 질문 nspire 그래프 계산이 안되거나 너무 오래걸려요 적분 할때 시간이 너무 오래걸립니다. 제가알기로 점을 하나하나 계산해서 넣는 걸로 알고있는데 점찍는 횟수를 줄여 줄 수 있는 방법은 없나요? 2 강냉이콩 2017.11.20 99 0
176 질문 [fx-570ES Plus] 이전 계산과정과 답 보는방법 카시오 fx570es plus를 사용중인데 이전 계산과정과 답을 볼 수 있는 방법이 있나요? 어는정도까지 저장이되나요? 2 라이젼 2017.11.05 2140 0
175 질문 TI-nspire cx cas 질문입니다.. 제가 알기로는 어떠한 프로그래밍을 하면 한글입력과 한글텍스트 파일을 추가 할 수 있다고 들었습니다.. 꼭 방법이 알고싶은데 답변 가능한지 궁금합니다..!ㅠㅠ 1 토목in 2017.10.30 508 0
174 질문 fx-9860g2, ti - 89 : 행렬 최대 size는? 행렬계산때매 계산기가 필요한데요 fx-9860g2는 행렬 최대 사이즈가 6*6으로 알고있습니다. 맞나요? ti - 89는 행렬 최대 사이즈가 얼마나 되는지 궁금합니다. ... 4 ㄶㄴ 2017.10.24 404 0
173 일반 바둑(19줄*19줄)에서 모든 경우의 수는? 출처 : http://tromp.github.io/go/legal19.html 모든 경우의 수는 2.08168199381979984699478633344862770286522453884530548425639456820927419612738015378525... 세상의모든계산기 2017.10.19 117 0
» 일반 AlphaGo Zero: Learning from scratch (A.K.A 제파고) 드디어 알파고의 마지막 행보 중 하나인 알파고 논문이 발표 되었습니다. https://deepmind.com/blog/alphago-zero-learning-scratch/ 아직 자세하게 읽어보진 ... 7 세상의모든계산기 2017.10.19 406 0
171 질문 nspire 그래프모드 좌표축 스케일 설정 회로이론의 보드 선도 그래프에서 좌표축 스케일을 Linear 에서 log 형식으로 바꾸는일이 있는데 그런 설정이 있는지 궁금해서 질문을 올립니다.   다큐멘트 세팅... 6 강냉이콩콩 2017.10.17 486 0
170 질문 fx9860 g2 복소방정식 fx-9860 g2 에서 복소행렬 연산은 되는데Eq 모드에서 방정식에 복소수 i 가 포함되면 error 가 뜨네요 ㅠㅠ예를들어 Eq 모드내 solver 에서x + 1 = 3x를 입력하면... 6 hoon 2017.10.14 1121 0
169 질문 casio 9860 질문드립니다 cot 어떻게 하나요??? cot 어떻게 하나요 ???? 2 와꾸대장성그니 2017.10.07 416 0
168 일반 쉐보레 크루즈(2016) 타이어 공기압 관련 정보 정리 0. 차량 매뉴얼 10. 차량 관리 (Vehicle Care) - 휠 및 타이어 항목에서 확인 (Page 354~) http://www.chevrolet.co.kr/chevy/car-manual.gm?carCode=V311 1. 적... 4 세상의모든계산기 2017.09.26 1503 0
167 질문 fx-9860 g2, 보간법 사용 방법 혹시 9860 기능중에 보간법으로 가운데 값 찾는 방법이 있나요?? 4 네스티몽 2017.09.15 1196 0
166 질문 fx-9860 g2 천단위 표기 fx-9860 g2 천단위 표기가 불가능한가요?? 검색해봐도 fx-9860 g2 관련해서는 유효숫자만 나오고 천단위 콤마는 안나오네요 2 dnjstjr37 2017.09.13 772 0
165 질문 nspire 행렬 판별식(절대값 크기) 구하는방법 nspire 행렬 판별식(절대값 크기) 구하는방법   3x3 행렬 판별식 어떻게 구하나요?? 크기요 2 23 2017.09.13 899 0
164 일반 전개하는 방법 궁금해요 ix(ix-1)(ix+2) -> -ix^3-2x^2+x^3-2ix   이런식으로 전개만 하는방법 없나요?? 계산기로 하면 끝까지 계산해버리더라구요 32423 2017.09.12 159 0
Board Pagination Prev 1 ... 18 19 20 21 22 23 24 25 26 27 ... 32 Next
/ 32