이 책은 최근 chatGPT를 비롯한 다양한 LLM 인공지능 모델들이 어떤 발전 과정을 거쳐 현재에까지 이르렀지를 설명해준다. 책은 크게 12부로 이루어져 있다. 우선 1950년대 개발된 인공지능의 초기 모델이라고 생각할 수 있는 퍼셉트론을 거쳐, 기계학습 (Machine Learning, ML)의 기초가 되는 여러 통계 이론, 기초 ML 기술들인 KNN (K-nearest neighbors), SVM (Support vector machine), ANN (Artificial neural network)을 설명한다. 그리고 은닉층 (Hidden layer), 역전파 이론 (Back propagation), 시그모이드 함수 (Sigmoid function) 등의 설명을 통해 기존의 ANN이 어떻게 DNN (Deep neural network)으로 발전했는지를 보여주며 이를 바탕으로 Vision쪽 세계를 점령한 CNN (Convolutional Neural Network)과 대형 언어모델의 기초가 된 Transformer에 대해서도 설명한다.
사실 이 분야를 공부해보거나, 관련 이론적 배경지식이 있는 사람이 아니면 책에서 다루는 수학적 설명에 대해 이해하기는 쉽지 않다. 수학적 증명을 포함한 다양한 수식이 나오고, 그 수식마저 일반적인 convention을 따르지 않는 것도 많아 보면서 헷갈리는 부분도 많다. 나는 대학원에서 관련 수업을 들어서 오랜만에 옛 생각을 추억하는 느낌으로 책 내용을 따라갔지만, 배경지식이 없는 사람은 해당 내용을 이해하긴 쉽지 않을 것 같다. 다만, 책에서는 단순히 수학적 설명 외에도 neural net 기반의 모델이 8-90년대 처음 등장했음에도 오랜기간 주목받지 못하다가 GPU의 등장으로 2010년대 주목받은 배경 등 AI 발전의 역사적인 측면도 설명해준다. 그 과정에서 등장하는 제프린 힌턴, 존 홉필드, 얀 르쿤 등 AI 거장 들에 대한 설명들은 이론적 배경이 없어도 재밌게 볼 수 있다. 또한 LLM이 bias-variance tradeoff 관점에서 기존의 AI 모델과는 다르게 모델이 복잡해짐에도 성능이 지속적으로 향상되는 점 (double descent) 등 최근 AI 모델의 여러 흥미로운 사실들을 말해준다.
하지만, 난 책을 읽으면서 계속 책 제목 '기계는 왜 학습하는가'에 대해 생각했는데, 그 대답은 나오지 않았다. 책은 기본적으로 '기계는 어떻게 학습하는가'에 대한 내용이다. 부제목 'AI를 움직이는 우아한 수학'이 말하듯 '수학'과 관련된 내용이며 '왜'라는 내용은 나오지 않는다. AI는 초기에는 사람의 설계 목적에 따라 작동하였다. KNN, SVM 등은 사람들이 목적을 가지고 설계하였으며, 그 성능에 대한 예측도 가능했다. 물론 최신 LLM 기반의 AI 모델들도 사람들의 생각 수준에서 움직인다. 학습 데이터들 자체가 사람들이 만들어낸 데이터이기 때문이다. 다만 위에서 언급한 double descent 등 아직 이 도구에 대해 우리가 완벽히 이해하지 못한 점 또한 분명히 실제한다. '기계는 왜 학습하는가', '우리는 AI에 대해 어떤 것을 알고, 어떤 것을 모르는가' 정답은 없겠지만 지속적으로 생각해볼만한 주제인 것 같다.
'북 리뷰' 카테고리의 다른 글
| [책 리뷰] 당신 인생의 이야기 - 테드 창 저 (0) | 2026.01.20 |
|---|---|
| [책 리뷰] 세븐 파워 - 해밀턴 헬머 저 (0) | 2025.09.16 |
| [책 리뷰] 벤처딜, 실리콘밸리 투자 바이블 - 브레드 펠드, 제이슨 멘델슨 저 (0) | 2025.06.27 |
| [책 리뷰] 경제적 해자: 부자를 만드는 주식투자의 공식 - 팻 도시 저 (6) | 2025.05.26 |
| [책 리뷰] 기술주 투자 절대 원칙 - 마크 마하니 저 (1) | 2025.01.24 |