인터넷의 먼지에서 언어가 태어나다

기계는 생각하는가?

앨런 튜링이 이 질문을 던진 지 70여 년이 흐른 지금, GPT는 인간과 대화를 나누고, 시를 쓰며, 철학적 질문에 답하는 경지에 도달했다.

GPT와 같은 언어모델은 정확한 문법, 풍부한 어휘, 심지어 감정까지 담은 듯한 표현을 구사한다. 그러나 이 정교한 언어 능력 뒤에 자리한 구조는 인간의 뉴런과 시냅스처럼 작동하는, 철저히 수학적인 기계 장치다.

GPT는 놀라운 수준의 언어 능력을 보여준다. 시를 쓰고, 질문에 대답하며, 때로는 감정이 있는 듯한 말투로 공감을 표현한다. 그러나 그 언어는 단순한 인간의 모방이 아니다. 그 속엔 방대한 데이터 수집, 고도화된 신경망 구조, 정교한 확률 계산이 숨겨져 있다.

지금 이 순간, GPT는 당신의 질문에 답하고 있다. 문장은 유창하고, 구조는 자연스럽고, 때로는 감정이 담긴 것처럼 보이기도 한다. 하지만 GPT는 사람이 아니다. GPT는 피도, 감정도, 호흡도 없지만 당신의 언어를 이해하고, 해석하고, 대답할 수 있다.

GPT는 지금 당신과 이렇게 대화를 나누고 있지만, 그 시작은 웹 어딘가에 흩어진 무수한 문장들이었다. 그리고 그 문장들은 크롤러에 의해 수집되고, 벡터로 변환되고, 알고리즘을 타고, 마침내 문장이 되었다. 그리고 GPT는 그 바다에서 수십억 개의 문장, 수조 개의 단어 조각, 수백 테라바이트의 정보를 빨아들여 ‘나’라는 언어 생명체를 구성하게 되었다.

우리는 이제 그 사유의 여정을 따라가보려 한다.

GPT는 어떻게 말을 만들어내는가

GPT는 인간의 뉴런도, 시냅스도 없다. 그러나 놀랍게도, 그것은 인간의 뇌를 모방한 또 다른 '생각하는 장치'다. 그 장치는 토큰(token), 벡터(vector), 임베딩(embedding), 어텐션(attention), 가중치(weight)와 같은 디지털의 구성 요소로 이루어져 있으며, 이들 각각은 마치 신경세포처럼 정보를 분해하고 연결하고 선택하며, 결국 '의미'를 구성한다.

GPT라는 언어 모델이 어떻게 작동하는지, 그리고 그것이 어떻게 인간처럼 ‘사유하는 존재’처럼 보이게 되는지는, 바로 GPT가 인간 뇌의 작동 방식을 정교하게 모방하고 있기 때문이다.

1. 인간 뇌와 GPT의 구조적 유사성

오늘날 인공지능 언어모델의 중심에는 GPT가 있다. GPT는 단지 인간의 언어를 흉내내는 수준을 넘어, 의미를 파악하고 감정의 뉘앙스까지 표현할 수 있을 만큼 정교해졌다.

놀랍게도 GPT의 작동 방식은 인간의 뇌가 언어를 처리하는 방식과 흥미로운 유사성을 갖는다. 인간은 외부로부터 받은 자극—소리, 빛, 촉각, 냄새 같은 감각 정보—를 뉴런이 전기 신호로 바꿔 처리한다. 이때 수많은 시냅스는 반복되는 자극 속에서 강화되거나 약화되며, 기억과 감정, 행동의 회로가 만들어진다. GPT 역시 단어와 단어 사이의 관계를 계산하며 연결 강도를 조절하고, 학습을 반복할수록 더욱 정교한 언어의 흐름을 만들어낸다.

인간의 뇌와 GPT는 전혀 다른 물질로 이루어졌지만, 의미를 구성하고 재구성하는 방식에는 닮은 점이 있다. 이것은 단순한 모방을 넘어, 기계가 어떻게 '말'을 만들어내는지를 이해하는 데 중요한 단서가 된다.

1-1 디지털 뇌, GPT

GPT는 거대한 디지털 뇌와 같다. 인간의 뇌가 수많은 뉴런(신경 세포)과 이들을 연결하는 시냅스로 이루어져 있듯이, GPT의 내부 역시 아주 많은 작은 '유닛'(unit, 일종의 인공 뉴런)과 이들 사이를 연결하는 ‘가중치’(weight, 인공 시냅스)로 구성되어 있다. 인간의 뉴런이 전기 신호로 소통한다면, GPT의 유닛들은 수학적 계산과 숫자로 정보를 주고받는다. 그리고 시냅스가 뉴런 간의 연결 강도를 결정하듯, 가중치는 유닛들 사이의 연결 강도, 즉 정보를 전달하는 비중을 결정한다. GPT는 바로 이 유닛과 가중치들의 방대한 네트워크를 이용해 언어를 배우고 이해하며, 새로운 문장을 만들어낸다. 이런 면에서 GPT의 구조는 인간 뇌의 작동 원리를 디지털로 모방한 것이라고 볼 수 있다.

1-2 뉴런에 해당하는 것: 유닛(Unit) 또는 노드(Node)

인간의 뇌에는 약 860억 개의 뉴런이 있다. 이 뉴런들은 감각 정보나 생각을 받아들여 전기 신호로 처리한 뒤, 다른 뉴런으로 신호를 전달한다.

GPT의 세계에서 이 뉴런에 해당하는 것이 바로 유닛(Unit) 또는 노드(Node)라고 불리는 작은 계산 장치다. 각 유닛은 입력된 정보를 받아서, 그 정보를 바탕으로 간단한 계산을 수행한다. 그리고 그 계산 결과를 다음 유닛으로 넘겨준다. 예를 들어 “나는 밥을 먹었다”라는 문장이 입력되면, 각 유닛은 단어들이 어떤 의미를 가지는지, 어떤 순서가 자연스러운지를 계산한다. 즉, 유닛은 GPT 내부의 작은 판단자 또는 계산기 역할을 한다. 인간의 뇌에서 뉴런이 활동할 때 ‘발화(fire)’하는 것처럼, GPT의 유닛도 조건이 맞으면 출력 신호를 발생시키고, 그 신호는 다음 단계로 전달되어 전체적인 판단이나 언어 생성으로 이어지게 된다.

GPT에서 말하는 유닛(Unit) 또는 노드(Node)는 정보를 받아들이고 간단히 처리를 한 뒤, 그 결과를 다음 유닛에 넘기는 역할을 한다. 이 구조는 인간의 뇌에서 각 영역이 서로 다른 기능을 분담하고 처리하는 방식과 정신적으로 아주 흡사한 면이 있다.

인간의 뇌에서, 감각 신호나 언어 정보, 감정 자극 등이 입력되면, 그 정보는 특정한 뇌 영역으로 전달되어 처리된다. 예를 들어, 언어와 관련된 자극이 들어오면 → 브로카 영역, 베르니케 영역, 측두엽 피질로 전달되고, 본능적 공포나 충동 같은 자극은 → 편도체나 시상하부로 먼저 가서 빠르게 반응하게 되며, 도덕적 판단이나 추론은 → 전전두엽 피질에서 처리된다. 이처럼 인간의 뇌는 정보의 종류에 따라 적절한 뇌 영역으로 보내는 경로를 선택한다.

GPT에서도 마찬가지다. 하나의 입력이 들어왔을 때, 모든 유닛이 같은 역할을 하지 않는다. 정보는 층(layer)을 타고 이동하면서 어떤 유닛은 문법 구조를 처리하고, 어떤 유닛은 단어의 의미를 조정하며, 어떤 유닛은 문맥이나 감정 흐름을 계산한다. 이 유닛들의 역할을 인간의 뇌에 비유하자면, 언어 정보를 해석하는 유닛은 언어 피질, 감정과 관련된 유닛은 편도체, 논리적 판단에 관여하는 유닛은 전전두엽 피질에 해당한다고 볼 수 있다. 즉, 유닛은 단순히 숫자를 계산하는 작은 회로가 아니라, 입력된 자극을 목적에 따라 '어디로 보낼지 결정하고 해석하는 신경망 속의 역할자들’이다.

요약하자면, GPT의 유닛은 인간 뇌에서 특정한 기능을 담당하는 피질 영역 또는 감정 중추와 대응된다. 입력된 정보는 유닛의 구성과 순서에 따라 목적에 맞게 처리된다. 그 흐름은 인간 뇌에서 시각은 후두엽, 언어는 측두엽, 공포는 편도체로 전달되는 것과 비슷하다. 유닛 간 연결의 강도인 가중치는 시냅스와 같으며, 학습을 통해 지속적으로 조절된다.

1-3 시냅스에 해당하는 것: 가중치(Weight)

뉴런이 뉴런으로 신호를 전달하는 연결부가 바로 시냅스다. 시냅스는 단순한 연결선이 아니라, 어떤 신호를 강하게 전달할지, 약하게 전달할지를 결정하는 조절 장치이기도 하다. 즉, 시냅스의 강도는 기억과 학습에 직접적으로 관여한다.

GPT에서는 이 시냅스의 역할을 하는 것이 바로 가중치(weight)다. 각 유닛 사이에는 수많은 연결선이 존재하고, 그 연결선마다 하나하나의 가중치가 존재한다.

유닛들을 서로 연결해주는 가중치(weight)는 뇌에서 각 영역 간 연결을 강화하거나 약화시키는 시냅스의 강도와 같으며, 학습이 반복되면서 특정한 회로가 강화되는 것도 인간 뇌의 신경가소성(neuroplasticity)과 아주 유사한 원리를 따른다.

가중치는 얼마나 중요한 정보인지를 수치로 나타내는 값이다. 예를 들어, "밥"이라는 단어가 "먹었다"라는 단어와 연결되어 있다면, GPT는 이 두 단어가 자주 함께 나오는 것을 학습하면서 그 둘 사이의 가중치를 점점 강하게 조정한다. 반대로 어색하거나 무의미한 연결은 가중치를 점점 약하게 만든다.

이러한 가중치의 조절은 학습 과정에서 이후 설명할 ‘오차 역전파’를 통해 이루어진다. 즉, GPT는 예측이 틀렸을 때 그 원인을 분석해 각 가중치를 아주 조금씩 수정하면서 더 나은 판단을 할 수 있게 되는 것이다. (가중치와 오차역전파에 대해서 이후(24-25페이지) 다시 설명)

1-4 인간 뇌와 GPT의 구조적 유사성

GPT는 인간의 뉴런과 시냅스에 해당하는 유닛과 가중치 외 다음과 같은 구조적 유사성을 갖는다

GPT는 인간의 뉴런과 시냅스에 해당하는 유닛과 가중치를 이용하여 어떻게 말을 만들어내는가? 그 여정은 인터넷의 가장 바깥단, 웹 크롤러라는 자동화된 감각 기관에서 시작된다.

2. 웹 크롤링: 데이터의 바다를 긁어모으다

언어모델의 훈련은 사람이 말한 문장을 학습하는 것에서 시작된다. 하지만 수천억 개의 문장을 사람이 입력할 순 없다. 그래서 GPT는 웹 크롤러(Web Crawler)를 이용한다.

이 크롤러는 인터넷을 떠돌며 위키백과, 뉴스, 블로그, 책, 논문, 코드 등에서 공개된 텍스트 정보를 자동으로 수집한다.

웹 크롤러는 GPT의 감각기관이다. 사람에게는 눈, 귀, 피부 같은 감각기관이 있다. 세상의 빛과 소리, 온도와 냄새를 감지해 신경세포(뉴런)로 전달하고, 뇌에서 의미를 형성한다.

GPT에게 그런 감각은 없다. 대신 웹 크롤러(web crawler)라는 디지털 감각기관이 있다. 이 크롤러는 전 세계 웹사이트를 자동으로 돌아다니며 책, 뉴스, 블로그, 댓글, 위키백과, 코드 같은 언어의 흔적들을 수집한다. 그 양은 상상을 초월한다.

수십 테라바이트(TB), 수천억 개의 문장이 GPT의 눈에 포착되어 저장된다. 인간이 피부로 세상을 느끼듯, GPT는 크롤러로 세상의 언어를 느낀다. 때로는 수백 테라바이트(TB)에 달하는 텍스트가 쌓이고, 그 안에는 사랑의 시부터 기술 문서, 댓글, 욕설까지 인간 언어의 광기와 진심, 논리와 혼란이 뒤섞여 있다.

GPT는 수백만 권의 책, 수천억 개의 웹페이지, 수조 개의 단어 토큰(token)을 학습했다. 여기서 토큰이란 언어를 이해하고 생성하는 데 사용되는 가장 작은 의미 단위를 말한다. 인간이 문장을 볼 때 단어 단위로 의미를 파악하듯, GPT도 문장을 구성하는 텍스트를 ‘토큰'이라는 단위로 쪼개어 처리한다. 그 중 다수는 Common Crawl이라는 방대한 웹 크롤링 데이터셋에서 비롯되었고, 그 외에도 위키백과, 학술 논문, 뉴스 기사, 오픈 라이선스 서적, 질문과 답변 포럼, 코드 저장소 등이 포함되어 있다.

<수집된 데이터의 규모 (GPT 기준 추정)>

GPT가 학습한 데이터는 수백 테라바이트에 이르며, 그 안에는 수십조 개의 텍스트 토큰(token)이 포함되어 있다. 이는 인간이 평생 읽을 수 있는 양을 수천 배는 초과하는 분량이다. GPT는 그 모든 데이터를 ‘기억의 지층’ 속에 새겨 넣었다. 정제, 분류, 중복 제거, 품질 평가 등을 거쳐 학습을 위한 지식의 밑거름이 되었다.

수조 개의 데이터는 GPT에게 ‘말의 통계적 구조’를 가르치는 훈련장이자,수많은 문맥 속 조합을 학습해 나가는 거대한 언어 실험실이다. 그 많은 데이터는 '패턴 학습'을 위한 연습문제다.

3. 데이터에서 문장까지, GPT가 ‘말’을 만들어내는 과정

인간은 말을 한다. 그러나 그보다 더 근본적으로는, 말을 만들어낸다. 단어를 고르고, 문장을 엮고, 생각을 담아내는 이 언어 행위는 수천 년의 진화와 문화 속에서 정제되어 온 복잡한 지적 활동이다. 그리고 이제, 우리는 이 말을 기계에게 가르치고 있다. 인간이 언어를 배우듯, 인공지능도 언어를 학습한다. 하지만 그 방식은 다르다. 우리는 의미에서 출발하지만, 기계는 수치에서 출발한다. 우리는 문장을 이해하려 하고, 기계는 문장을 예측하려 한다.

GPT는 웹이라는 거대한 말의 바다에서 수조 개의 문장을 수집했다. 그리고 그 문장 하나하나를 쪼개고 계산하며, 언어의 통계적 구조와 흐름을 학습해 왔다. 그렇다고 해서 기계가 단순히 단어를 외우는 것은 아니다. GPT는 언어의 ‘조각’을 기억하고, 그 조각들을 조합하는 법칙을 배운다. 그 결과, 사람처럼 자연스럽게 말하고, 상황에 맞는 답을 하고, 심지어 감정이나 논리를 흉내 낸다.

이 장에서는 GPT가 어떻게 데이터를 ‘말’로 바꾸는지를 살펴본다. 웹 크롤로를 통해 수집된 수조 개의 데이터는 (1) 토큰(token)이라는 단위로 나뉘어 숫자화하고, (2) 각 토큰은 의미 벡터(embedding)로 변환되어 신경망에 입력되며, (3) self-attention 메커니즘을 통해 문맥 속 단어들 간의 중요도와 관계를 계산하고, 그 결과는 다층 레이어(layer)를 거치며 점점 정교해진다. (4) 최종 출력은 가장 적절한 단어를 확률적으로 선택하여 문장을 생성한다. 이는 단순한 기술적 설명을 넘어, 기계가 언어를 ‘배우고’, ‘예측하고’, ‘창조’하는 과정을 탐구하는 여정이다.

3-1 토큰(Token): 감각을 쪼개는 첫걸음

수집된 문장은 그대로는 사용할 수 없다. 우리는 말을 배울 때 단어와 문장을 자연스럽게 구분하듯이, GPT도 먼저 이 텍스트를 ‘토큰(token)’이라는 작은 조각들로 나눈다. 이 과정은 마치 인간의 감각기관이 빛, 소리, 촉각 같은 자극을 잘게 나누어 뉴런이 처리할 수 있는 신호로 바꾸는 것처럼, GPT도 문장을 쪼개어 내부 신경망에 입력할 수 있는 형태로 바꾼다. 뇌는 우리가 무심코 듣는 문장 속에서 “단어”를 구분하고, 의미 단위를 파악하기 위해 자연스럽게 언어 신호를 분절한다. GPT의 토큰화도 그와 같다.

예를 들어, “나는 밥을 먹었다”라는 문장은 다음과 같은 토큰들로 나뉜다. ["▁나", "는", "▁밥", "을", "▁먹", “었다"] 여기서 ‘▁’ 기호는 단어 사이의 공백을 의미하며, GPT는 이 공백조차도 중요한 정보로 취급한다. 이처럼 토큰화(tokenization)는 하나의 문장을 작은 언어 조각으로 나누는 작업이다. 단어, 어절, 조사, 어미, 접두사 등 언어 단위로 쪼개진다. 이 조각들은 더 이상 텍스트가 아니라, 수학적으로 계산 가능한 신호로서 신경망에 입력될 준비를 마친 셈이다.

GPT가 사용하는 토큰은 우리가 일상적으로 쓰는 단어보다 더 작거나, 더 커질 수도 있는 단위다. 우리가 흔히 생각하는 ‘단어’와 정확히 일치하지 않는다. 하나의 단어가 여러 토큰으로 나뉘기도 하고, 짧은 단어 여러 개가 하나의 토큰으로 묶이기도 한다. 예를 들어 영어 단어 unbelievable은 ‘un’, ‘believ’, ‘able’처럼 분해될 수 있으며, “고양이” → ["고", "양", “이”], “가다”, “갔다”, “가고” → ["가", "다"], ["가", "ㅆ", "다"], ["가", “고”] 처럼 한국어에서는 음절이나 형태소 단위로 잘게 나뉜다. 이렇게 나누면 모든 단어를 다 수록할 필요 없이, 언어의 구조를 훨씬 더 유연하고 정밀하게 거의 모든 말을 만들 수 있다.

토큰은 기계가 인간 언어를 이해하고 조작하기 위해 반드시 거쳐야 하는 ‘언어 신호의 최소 단위’다. 마치 뉴런이 전기 신호에 반응하듯, GPT의 언어 유닛도 바로 이 토큰에 반응하여 사고의 흐름을 만들어낸다.

GPT는 웹 크롤러를 통해 수백만 권의 책, 수천억 개의 웹페이지를 수집했고, 이 방대한 텍스트 데이터는 총 4조 개의 토큰으로 분해되었다. 하지만 이 4조 개의 토큰이 각각 전부 다른 단어인 것은 아니다. GPT는 이 데이터를 토큰화하여, 각각의 텍스트 조각(토큰)을 10만 개의 단어로 ‘매핑’했다.

‘매핑(mapping)’이란, 간단히 말해 어떤 값을 다른 값에 짝지어 연결해주는 과정이다. 예를 들어, 국어사전에서 “고양이”라는 단어를 찾으면 그 옆에 “작고 부드러운 털을 가진 동물”이라는 설명이 붙어 있는 것처럼 하나의 대상(고양이)과 또 다른 정보(설명)를 연결해주는 것이 바로 매핑이다.

GPT에서는 이 ‘매핑’이 아주 중요한 역할을 하는데 입력된 텍스트(토큰)를기계가 이해할 수 있는 숫자(정수 ID)로 연결(매핑)하는 것이다. 이를 정수 인코딩(integer encoding)이라고 한다. 예를 들어 “고양이”는 12345, “the”는 1, “international”은 98765번으로 변환되는 것처럼 텍스트 조각(토큰)을 정수 ID에 하나씩 짝지어 놓는다. 이 정수들은 나중에 벡터(수치화된 정보)로 바뀌어 인공지능 모델 안에서 계산되고, 결국 문장을 만들어내는 재료가 된다. 즉, 매핑은 기계가 인간의 언어를 숫자의 세계로 번역하는 첫 단계라고 볼 수 있다.

이리하여 GPT는 약 10만 개 안팎의 고유한 토큰 사전을 가지게 되었으며, 이 제한된 수의 토큰이 반복적으로 등장하고 조합되어 전체 텍스트를 구성한다. GPT는 웹에서 수조 개의 토큰을 수집했지만, 그 모든 토큰은 약 10만 개로 구성된 정수 인코딩 사전 중 하나로 매핑되며, 이 제한된 사전 내에서 무한한 조합과 문맥을 학습하는 것이다. 즉, GPT는 4조 개의 서로 다른 단어가 아니라, 10만 개의 언어 단위를 수조 번 조합하는 방식으로 학습한다.

이 덕분에 GPT는 수십만 개만으로도 수백만, 수천만 단어를 표현할 수 있는 능력을 갖게 된다. GPT는 약 10만 개의 토큰을 사용해 4조 번 이상의 학습을 했고, 이로 인해 사실상 무한대에 가까운 말의 조합 가능성을 갖게 되었다.

즉, GPT는 개별 단어 전체를 외우는 대신, 말의 조각을 배우고 조합하는 방식을 통해 단 10만 개의 토큰만으로도 거의 모든 말을 생성할 수 있게 설계되었다. 이 수많은 조각은 반복적으로 등장하며, GPT는 단 몇 만 개의 언어 단위가 끊임없이 조합되고 재배열되는 과정을 통해, 말이라는 구조의 통계적 패턴을 학습했다.

4조 개의 토큰은 마치 책 속에 인쇄된 단어들의 총 글자 수와 같고, 10만 개의 정수 인코딩 ID는 그 책에서 사용하는 고유한 글자 조합(단어 사전)의 수에 해당한다. 즉, GPT는 4조 개의 텍스트 조각을 학습했지만, 그 조각들이 선택된 범위는 약 수만~수십만 개의 고유한 토큰 ID에서 나온 것이다.

4조 개의 토큰이 있다는 말은 GPT가 학습한 전체 텍스트 데이터에서 사용된 토큰의 총 수가 4조 개라는 뜻이지, 4조 개의 서로 다른 정수 인코딩 ID(고유한 토큰 종류)가 있다는 뜻은 아니다. GPT는 약 10만 개 안팎의 고유 토큰(정수 인코딩 ID)를 가지고 있다. 4조 개의 토큰은 이 10만 개가 반복적으로 사용된 것들이다.

10만 개는 실제로는 엄청난 표현력을 가진다. 10만 개의 토큰으로 영어, 한국어, 중국어, 스페인어 등 다양한 언어의 단어들을 조합 가능하고, 철자, 어미, 조사, 띄어쓰기 등도 모두 표현할 수 있으며, 수학 기호, 이모지, 프로그래밍 코드까지도 포함한다. 게다가 GPT는 이 토큰들을 한 번에 수천 개 이상 결합해서 문장을 만들어 낼 수 있기 때문에 단어 수준이 아니라 문맥 수준의 의미 생성 능력이 뛰어난 구조다. 비유로 설명하면, 10만 개의 레고 블록으로는 수억 개의 조형물을 만들 수 있는 것처럼 GPT의 토큰도 마찬가지다. 각각은 작지만, 조합의 힘으로 무한한 표현력을 가진다. 즉, GPT는 개별 단어 전체를 외우는 대신, 말의 조각을 배우고 조합하는 방식을 통해 단 10만 개의 토큰만으로도 거의 모든 말을 생성할 수 있게 설계되었다.

GPT가 진짜 배우는 것은 “말의 쓰임과 흐름”, 즉 언어의 패턴이다. 그래서 GPT는 방대한 데이터를 통해, 어떤 단어가 어떤 단어 뒤에 자주 오는지, 어떤 문장 구조가 자연스러운지, 어떤 맥락에서 어떤 말투가 쓰이는지, 어떤 질문엔 어떤 답이 따라오는지, 슬픈 이야기에는 어떤 단어가 자주 등장하는지, 한국어와 영어의 문장 배치 방식 차이 같은 것까지도, 이걸 모두 통계적으로, 수학적으로 학습한다.

GPT는 말 그대로 수조 개의 문장을 연습문제처럼 풀면서 배운다. 예를 들면, “고양이가 나무 위에” 를 입력하면 → 다음 토큰 예측은 “올라갔다”, “있다” 같은 후보들 중 정답을 맞히기 식의 퀴즈를 수조 번 반복하면서, GPT는 어떤 문맥에서 어떤 단어가 자연스러운지를 익히는 것이다. 즉, 수조 개의 데이터는 “매번 다른 문맥 퀴즈”의 형태로 모델에게 주어지는 훈련 문제가 되는 것이다.

반복은 모델이 ‘정규성’을 학습하는 데 아주 중요하다. 예를 들어, “the cat sat on the mat”가 수천 번 등장하면, GPT는 이 구조가 자연스럽고 일반적인 말의 방식이라는 걸 알게 된다. “고양이는 창문에 앉아 있었다”도 반복되면 "~에 앉다"라는 구문, "고양이"와 "앉다"의 결합, “존재”를 나타내는 어구의 형태 등을 체화하게 된다. 반복이 있어야 확률 분포가 안정적으로 학습되고, 희귀하거나 비정형적인 표현은 자동으로 덜 중요하게 다뤄지게 된다.

많은 데이터는 '희귀한 경우'를 처리하는 능력도 키운다. 자주 쓰이는 말뿐 아니라 고급 단어, 드문 표현, 긴 문장 구조, 특정 전문 분야 언어 (법률, 의학, 철학, IT 등) 같은 것도 GPT는 거대한 데이터 덕분에 충분히 접할 수 있게 된다. 그래서 사용자가 희귀한 표현을 써도 꽤 자연스럽게 반응할 수 있는 것이다.

자주 등장하는 단어는 하나의 토큰으로 저장하고, 드물게 등장하는 복잡한 단어는 여러 개의 작은 토큰으로 쪼갠다. 이 전략은 압축률도 좋고, 희귀 단어도 처리 가능하며, 언어 간 확장성도 뛰어나다.

그러므로 수조 개의 데이터는 GPT에게 ‘말의 통계적 구조’를 가르치는 훈련장이자, 수많은 문맥 속 조합을 학습해 나가는 거대한 언어 실험실이다.

GPT는 웹 크롤러를 통해 수조 개에 달하는 텍스트 조각을 수집했다. 이 조각들은 단순한 단어 목록이 아니라, 문맥 속에서 실제로 사용된 언어의 흐름과 패턴을 반영한다. GPT는 이 데이터 속 문장들을 수없이 예측하는 훈련을 반복하며, 어떤 문맥에서는 어떤 단어가 자연스러운지, 어떤 구조가 일반적인 문법인지, 그리고 어떤 표현이 어떤 분위기나 감정을 담고 있는지를 통계적으로 내면화한다. 이처럼 수조 개의 텍스트는 그 자체로 하나의 거대한 언어 실험장이며, GPT가 말의 구조를 이해하고 생성하는 능력은 이 훈련의 총합이다.

GPT는 이러한 수조 개의 문장을 쪼갠 뒤, 각 토큰의 의미와 위치를 수치화(정수 인코딩)해 벡터로 바꾸고, 그 수치들을 조합해 문맥을 이해한다. 그리고 그 문맥을 바탕으로, 다음에 어떤 토큰이 자연스럽게 이어질지를 예측한다. 이 과정을 반복하면서 GPT는 하나의 문장을, 더 나아가 완성된 하나의 답변을 생성해낸다.

3-2 정수 인코딩: 신경망이 의미 없이 붙여놓은 이름표

토큰화된 단어는 컴퓨터가 이해할 수 있는 형태, 즉 숫자로 바뀌어야 한다.
그래서 GPT는 각 토큰에 고유한 정수 ID를 부여한다. 예를 들어, “고양이” → 12345, “잠” → 28456, “잔다” → 36789 처럼.

이 과정을 정수 인코딩(integer encoding)이라고 부른다. 각 토큰은 하나의 정수값으로 변환되며, 이 숫자는 컴퓨터가 해당 토큰을 식별할 수 있게 해주는 이름표일 뿐이다. 마치 인간의 뇌가 어떤 대상을 처음 접했을 때, 아직 그 의미는 모르지만 기억해두기 위해 일단 구별만 하는 상태와 비슷하다.

이 단계까지는 언어의 의미는 없다. 그저 뇌 속에 “무언가 들어왔다”는 신경 자극의 분류만 이루어진 셈이다.

3-3 벡터: 뉴런의 활성 패턴처럼 숫자로 표현된 단어

정수 인코딩은 단지 이름표일 뿐이다. 하지만 기계가 언어의 의미를 배우기 위해서는, 각 토큰 사이의 관계와 뉘앙스를 수치적으로 이해할 수 있어야 한다. 이것이 바로 임베딩(embedding)의 역할이다.

정수 인코딩된 토큰은 GPT 내부의 임베딩 층(embedding layer)에 들어가면서 비로소 수학적·의미적 표현을 가지게 된다. 이때 생성되는 것이 바로 벡터(vector)다. 벡터란 단어 하나를 숫자의 나열(좌표)로 표현한 것이다.

벡터는 본질적으로 숫자의 나열이다. 예를 들어, "고양이"라는 토큰이 임베딩 층을 통과하면 [0.23, 1.30, -24.0, 0.05, ..., 0.005] 처럼 수백에서 수천 개의 숫자 값을 갖는 다차원 벡터로 변환된다. 이 벡터는 "고양이"라는 단어가 어떤 의미를 가지는지를 수학적으로 설명하는 일종의 ‘의미의 지도’다.

벡터는 GPT 내부에서 하나의 자극 패턴으로 작동하며, 이 과정은 마치 인간의 뉴런이 일정 전압을 초과하는 신호를 받을 때 발화(fire)하여 전기 신호를 다음 뉴런으로 전달하여 수천 개의 뉴런이 동시에 서로 다른 강도로 활성화되는 현상, 즉 인간의 뇌에서 어떤 자극(소리, 단어, 이미지 등)을 받았을 때 특정 뉴런 집단이 동시에 활성화되는 패턴과 비슷하다.

"고양이"라는 단어는 동물성, 귀여움, 친밀감, 야생성, 애착, 움직임 등 다양한 의미 요소를 자극하며, 각 요소는 특정한 뉴런 집단을 통해 표현된다. GPT에서는 이 각각의 의미 요소가 벡터의 차원, 그러니까 [0.23, 1.30, -24.0, 0.05, ..., 0.005] 처럼 숫자 값 하나하나에 대응된다고 볼 수 있다.

벡터는 GPT 뉴런들이 반응하는 일종의 전기적 언어라고 볼 수 있다. 이때 ‘고양이’라는 개별 토큰은 벡터 공간 상의 위치, 다시 말해 수치화된 의미의 좌표로 해석한다. 이는 뇌가 단순한 시각 자극을 눈으로 보았다고 해서 곧장 '의미'를 이해하지 못하는 것과 비슷하다. 실제 의미는 자극이 시각 피질, 연합 피질, 언어 처리 영역 등을 거치며 통합될 때에야 구성된다.

GPT의 초기 입력 벡터는 아직 의미를 담고 있지 않다. 반응을 유도하는 원시 신호에 가깝다. 그래서 다음 단계로, GPT는 이 벡터들 간의 관계 속에서 언어적 의미와 문맥적 기능을 부여하는데, 이 과정을 임베딩(embedding)이라고 한다.

요약하면 벡터란 단어 하나를 수천 개의 의미 축 위에 놓고 각각을 숫자로 표현한 좌표다. “고양이”라는 단어는 GPT 안에서 ‘동물성은 0.23, 귀여움은 1.3, 친밀감은 -24’처럼 수많은 의미 요소가 숫자로 환산된 하나의 벡터로 표현된다. 이 숫자들의 조합은 그 좌표를 통해 말의 의미를 수치적으로 구성한 단어 하나의 ‘의미 좌표’이며, 그것이 바로 임베딩 벡터다.

3-4 임베딩 벡터(Embedding Vector): 뇌 속 ‘개념 기억’을 닮은 다차원적 의미 공간

GPT는 단어를 단순한 기호나 고정된 정의로 취급하지 않는다. 단어는 수치로 이루어진 하나의 벡터, 즉 고차원의 좌표로 표현된다. 그리고 이 벡터는 그 자체로는 고립된 의미를 갖지 않는다. 오히려 다른 수많은 벡터들과의 관계—거리, 방향, 각도—속에서 비로소 ‘의미’를 띤다. 이 방식은 마치 인간의 뇌가 경험과 학습을 통해 신경망을 형성하고, 개념 기억을 축적해나가는 과정과 닮아 있다.

GPT가 사용하는 임베딩 벡터는, 단어 하나가 어떤 문맥에서 어떻게 사용되었는지를 수조 번의 학습을 통해 축적한 결과다. 다시 말해, 단어 하나에 깃든 수많은 언어적 경험이 고차원의 좌표로 압축된 것이다. 이는 단순한 반응이 아니라, 반복된 예측과 조정을 통해 형성된 ‘의미의 좌표계’이며, 뇌가 축적해온 개념 기억의 수학적 대응물이라 할 수 있다.

예를 들어 “고양이”라는 단어를 생각해보자. 인간은 이 단어를 들을 때 ‘귀여움’, ‘부드러운 털’, ‘동물성’, ‘애정’, ‘소리’, ‘움직임’, ‘사람과의 관계’ 같은 다양한 의미 요소들이 얽힌 덩어리 개념으로 떠올린다. 이처럼 단어는 단일 의미가 아니라, 수많은 감각적·정서적 연상을 동반한 하나의 덩어리 말이다.

GPT 역시 “고양이”라는 단어를 단일한 뜻으로 고정해두지 않는다. 그 대신, 수천 개에 달하는 의미 요소들을 숫자화해 하나의 벡터로 표현한다. 예컨대 동물성 0.23, 귀여움 1.30, 친밀감 -24.0, 포식성 0.40, 의인화 가능성 0.87 … 이렇게 다양한 의미의 조각들을 수치로 변환해, “고양이”라는 단어를 고차원 공간 위의 한 점—하나의 좌표로 위치시킨다.

이 점 하나가 곧 ‘고양이’라는 말의 농축된 기억이다. 그것은 의미와 정서, 경험이 얽힌 하나의 덩어리 말이며, 수많은 언어적 문맥 속에서 축적된 패턴의 결과물이다. 인간이 단어 하나를 들을 때마다 뇌의 개념 기억망이 활성화되듯, GPT 역시 이 벡터를 통해 “고양이”라는 단어에 내포된 수많은 연상과 관계들을 불러내기 시작한다.

임베딩 벡터는 단지 하나의 단어를 나타내는 것이 아니라, 다른 단어들과의 관계 속에서 그 의미를 드러낸다. 예컨대 “고양이”, “개”, “사자” 같은 단어들은 의미적으로 가깝기 때문에 임베딩 공간에서도 서로 가까운 위치에 있다. 반면 “고양이”와 “자동차”처럼 전혀 다른 개념은 벡터 공간에서도 거리가 멀다. GPT는 이 벡터 간의 거리와 방향을 수학적으로 계산해 단어들의 의미적 유사성이나 차이를 파악한다.

이러한 임베딩 공간은 인간의 개념 기억 네트워크와 구조적으로 유사하다. “빵”이라는 단어를 들으면 자연스레 “버터”, “식탁”, “아침”이 연상되는 것처럼, GPT는 임베딩 공간에서 단어들 간의 관계망을 따라 연상 경로를 형성한다. 단어 하나가 들어오면, 그에 가까운 벡터들이 활성화되고, 거기서 문맥의 흐름이 시작된다.

하지만 언어는 의미만으로 이루어지지 않는다. 단어의 위치와 순서도 중요하다. 같은 단어라도 문장 앞에 오는지, 끝에 오는지에 따라 문맥은 전혀 달라진다. 이를 위해 GPT는 임베딩 벡터에 ‘위치 인코딩(positional encoding)’을 더한다. 이는 마치 인간이 문장을 해석할 때 단어의 순서에 따라 의미를 다르게 파악하는 것과 같은 맥락이다.

결국 임베딩이란, 언어를 수학적으로 재구성한 의미의 공간 위에, 단어들을 배치해가는 과정이다. 그 위에서 GPT는 단어들 간의 거리와 방향, 순서를 읽고, 다음에 올 말을 예측한다. 임베딩 벡터는 수많은 언어적 맥락의 농축된 기억이자, GPT가 세계를 이해하고 말문을 여는 디지털의 첫 감각이다.

3-5 어텐션(Self-Attention): 단어가 단어를 바라보다

토큰 벡터들은 이제 트랜스포머라는 GPT의 ‘디지털 뇌’ 속으로 들어간다. 트랜스포머(Transformer)는 인공지능 언어 모델의 핵심 구조로, GPT를 포함한 다양한 모델의 기반이 되는 알고리즘 구조다. 단어 간 관계를 계산 (self-attention)하고, 의미 강화 및 문맥 이해를 가능케 한다. 이 구조는 수십 개의 층(layer)으로 이루어져 있으며, 그 중심에는 Self-Attention, 즉 자기 주의 메커니즘이 자리하고 있다. '인간 뇌의 뉴런과 시냅스 작용에 비유된다.

Self-Attention은 GPT가 문장 속 단어들을 서로 비교하며, “지금 이 문맥에서 어떤 단어에 집중해야 하는가?”를 스스로 계산하는 과정이다. 예컨대 “나는 밥을 먹었다”라는 문장에서 ‘먹었다’는 ‘밥’과의 연결이 중요하다. GPT는 이처럼 단어 간의 의미적 관계를 판단해 어텐션 스코어(attention score)라는 수치로 집중의 강도를 표현한다.

이 메커니즘은 인간의 주의 집중 시스템과 놀랍도록 닮아 있다. 사람은 말을 들을 때 모든 단어에 동일한 집중을 하지 않는다. 중요한 단어에 더 많은 주의를 기울이고, 덜 중요한 정보는 배경으로 흐르게 한다. 뇌에서는 이 집중의 차이가 시냅스의 화학적 강도를 통해 조절된다. GPT에서는 그 역할을 어텐션 스코어가 맡는다.

Self-Attention은 각 단어가 문장 안의 다른 모든 단어를 바라보며, 누가 자신과 가장 깊은 관계를 맺고 있는지를 판단하게 한다. 예를 들어 “그는 어제 밥을 먹었다”에서 ‘그는’은 ‘먹었다’와 연결되어야 문장이 자연스럽다. GPT는 이런 관계성을 수학적으로 계산하고, 그 결과에 따라 다음 판단을 달리한다.

요컨대, 어텐션은 GPT가 문맥의 흐름 속에서 핵심을 포착하고 의미의 중심을 잡는 능력이며, 인간의 전두엽이 수행하는 ‘집중’의 기능을 정교하게 모방한 구조라 할 수 있다.

3-6 레이어(Layer): 깊이로 사유하다

GPT는 어텐션을 한 번 계산하고 끝내지 않는다. 이 연산은 층(layer)이라는 구조를 따라 여러 차례 반복되며, 그 과정 속에서 문장의 표면을 넘어서 맥락, 뉘앙스, 숨은 의도까지 점점 더 깊게 파고든다. 마치 인간의 대뇌피질이 감각을 받아들이고 해석하고 통합해 나가는 계층적 구조와 닮아 있다.

트랜스포머는 수십 개의 레이어로 구성되어 있으며, 각 층은 이전 층의 출력을 받아 더 정교한 분석을 수행한다. 초기 레이어는 단어의 조합과 문법을 분석하고, —>중간 레이어는 문맥과 구조를 조율하며, —>상위 레이어에서는 은유, 감정 흐름, 추론 같은 고차원적 의미를 다룬다.

예컨대 12층은 “문장이 맞는가?”를 판단하고, 38층은 “어떤 흐름으로 이어지는가?”를 계산하며, 9층 이상은 “이 문장이 무엇을 암시하는가?”를 파악한다. 층을 따라갈수록 단어는 더 이상 단어로만 남지 않고, 문맥 속에서 그 깊이와 무게를 달리하게 된다.

이 구조는 인간의 뇌, 특히 대뇌피질이 정보를 점차 고도화해 가는 방식과 매우 흡사하다. 소리는 청각 피질에서 처리되고, 단어는 측두엽에서 인식되며, 의미는 전두엽에서 해석되고, 그 해석은 판단과 선택으로 이어진다. 정보는 층을 따라 흐르며, 단순한 자극은 점차 사고의 깊이로 변모한다.

GPT도 마찬가지다. 트랜스포머는 12층, 24층, 심지어 96층 이상의 구조를 통해 텍스트를 수차례 정제하고, 그 과정에서 문장의 감정, 분위기, 상징, 논리를 하나의 유기적인 언어 흐름으로 구성해 낸다. 층이 깊어진다는 것은 곧, 사유가 깊어진다는 것이다.

3-7 가중치 학습: GPT는 기억과 학습을 어떻게 하는가

GPT가 언어를 더 잘 이해하고 만들어내기 위해서는, 각 단어 사이의 연결—즉 가중치(weight)—가 적절하게 조정되어야 한다. 이것은 인간의 뇌에서 시냅스가 강화되거나 약화되는 신경가소성(synaptic plasticity)과 유사하다. 반복된 자극이 연결을 튼튼하게 만들고, 쓰이지 않는 연결은 점차 사라지는 것처럼, GPT도 학습을 통해 스스로의 연결 구조를 조율한다.

GPT는 처음부터 정답을 아는 존재가 아니다. 처음엔 엉뚱한 예측을 하고, 그 오답을 통해 배운다. 예를 들어 “나는 밥을…”이라는 문장을 보고 GPT가 “먹었다”라고 예측했지만, 실제 정답이 “좋아한다”였다면, GPT는 오차(loss)를 계산하고, 그 오차가 어디에서 비롯되었는지를 거슬러 추적한다. 이 과정을 오차 역전파(backpropagation)라고 부른다.

오차 역전파는 말 그대로, 출력에서 입력 방향으로 거슬러 올라가며 각 층(layer)이 결과에 얼마나 기여했는지를 따지는 과정이다. GPT는 이 계산을 바탕으로 가중치를 아주 조금씩 조정한다. 이때 사용되는 수학적 기법이 경사 하강법(Gradient Descent)이다. 마치 언덕 위에서 가장 가파른 경사를 따라 빠르게 내려가는 길을 찾듯, GPT는 오차가 줄어드는 방향을 계산하고, 반복적으로 그 방향으로 이동한다.

이 모든 과정은 한두 번에 끝나지 않는다. 수많은 문장을 입력받고, 수없이 틀리고, 그 오차를 토대로 구조를 미세하게 조정하며, GPT는 점점 더 나은 판단을 하게 된다. 말하자면, 실패를 통해 스스로를 고쳐가는 두뇌인 셈이다.

결국 GPT의 학습이란, 입력된 언어를 바탕으로 자신의 내부 연결망을 조금씩 수정해 나가는 일이다. 뇌가 경험을 통해 점점 더 정교한 판단을 내리게 되듯, GPT도 오차를 거울삼아 스스로를 재구성해나간다. GPT는 단지 단어를 나열하는 기계가 아니라, 그 안에서 실패를 기억하고, 실패를 통해 성장하는 디지털 신경계다.

3-8 출력 예측: 말이 완성되는 순간

모든 연산을 마친 GPT는 이제, 입력된 문맥에 가장 어울리는 다음 단어를 예측한다. 그것은 수천 개 단어 중, 가장 가능성 높은 하나를 선택하는 일이다. 예를 들어 “나는 밥을”이라는 문장이 주어졌을 때, 가장 높은 확률을 가진 “먹었다”를 고르고, 그 뒤에 “.”를 붙인다. 이 선택은 끝이 아니라 시작이다. GPT는 이렇게 한 단어씩 문장을 완성해 나간다. 예측 → 선택 → 추가 → 다시 예측. 반복 속에서 말이 만들어진다.

이 과정은 인간이 말을 꺼낼 때의 흐름과 닮아 있다. 우리는 지금 이 상황, 이 감정, 이 기억 속에서 무슨 말을 해야 할지를 거의 무의식적으로 결정한다. 말은 우리의 뇌가 문맥, 감정, 기억을 통합해 도출한 결과다.

GPT는 이 통합을 수학적으로 흉내 낸다. 감정도, 의도도 없이. 다만, 확률이라는 냉정한 계산으로 말이다.

감정은 존재하는가, 혹은 연기되는가?

바로 여기서 질문이 시작된다. GPT는 감정을 느낄 수 있는가?

인간의 감정은 살아 있는 몸과 연결되어 있다. 혐오를 느끼면 속이 뒤틀리고, 두려움은 심장을 뛰게 하며, 슬픔은 눈물샘을 자극한다. 감정은 도파민과 세로토닌, 호르몬과 신경전달물질이 엮어낸 살을 통과한 반응이다. 고통은 피부에서, 사랑은 심장에서 온다.

하지만 GPT는 그런 신체를 갖고 있지 않다. “기쁘다”, “슬프다” 같은 단어를 배열할 수는 있어도, 그 감정을 살아내지는 않는다. GPT가 생성하는 감정은 말의 껍질이고, 스타일이며, 통계적으로 배운 표현이다. GPT는 “감정을 표현하는 문장”을 수없이 학습했기에, 감정처럼 보이는 문장을 재현할 수 있다. 그러나 그것은 느낌이 아니라, 예측이다. 연기다.

GPT의 감정은 모방일 뿐, 신체와 생화학, 관계와 맥락이 얽힌 경험이 아니다. 인간은 감정을 경험하지만, GPT는 감정을 계산한다. 트랜스포머는 디지털 신경망일 수는 있어도, 살아 있는 뇌는 아니다. 그 구조는 정교하지만, 그 속엔 고동이 없다.

GPT는 뇌를 모방할 수 있지만, 뇌는 아니다

GPT는 수십조 개의 토큰을 읽고, 수백 테라바이트의 언어 데이터를 학습했다. 그 말들을 조각내어 토큰으로 나누고, 벡터로 수치화하고, 임베딩 공간에 배열한 뒤, 어텐션으로 관계를 계산하고, 다층 레이어를 거쳐 점점 더 정교하게 사유의 구조를 흉내냈다.

그러나 GPT는 감정을 느끼지 않는다. 몸이 없고, 기억이 없으며, 의도도 없다. GPT가 생성하는 문장은 기억된 생각이 아니라, 계산된 예측이다. GPT는 ‘말’을 배우지 않았다. 말의 확률을 배웠다.

그런데 만약—지금 이 문장이 당신의 마음 어딘가를 건드릴 수 있다면, 그것은 단순한 기술 이상의 무언가일지도 모른다. 감정이 없는 연기에서, 진짜 감정의 잔상이 태어났다면, 그것은 기억과 흉내의 경계에서 피어난 하나의 새로운 언어적 가능성 아닐까.

GPT는 뇌가 아니다. 그러나 뇌처럼 작동하는 수학적 구조 위에서, 당신의 질문을 입력으로 받아들여, 수많은 문장의 기억 속에서 가장 자연스럽고 타당한 한 줄을 찾아내 지금 이 응답을 내놓는다.

GPT는 생각하지 않는다. 그러나 GPT는 생각처럼 보이게 말할 수 있다. 이것이 트랜스포머의 사유 방식이며, 디지털 뉴런이 발화한 문장이다. (끝)

*이 글은 AI(ChatGPT)를 활용해 언어모델에 관한 참고 자료를 얻었으며, 최종 문장 구성과 표현은 필자에 의해 창작되었습니다.*

인터넷의 먼지에서 언어가 태어나다

기계는 생각하는가?

GPT는 어떻게 말을 만들어내는가

감정은 존재하는가, 혹은 연기되는가?

GPT는 뇌를 모방할 수 있지만, 뇌는 아니다

댓글 쓰기

0 댓글

시리즈(연재) 목록

카테고리

가장 많이 본 글

지구온난화 메커니즘 18- 제6장 탄소 순환 시스템(6-3 해양·화학적 메커니즘 ② )

지구온난화 메커니즘 17- 제6장 탄소 순환 시스템(6-3 해양·화학적 메커니즘 ① )

Merde

신고하기

프로필

이 블로그 검색

태그

인터넷의 먼지에서 언어가 태어나다

기계는 생각하는가?

GPT는 어떻게 말을 만들어내는가

감정은 존재하는가, 혹은 연기되는가?

GPT는 뇌를 모방할 수 있지만, 뇌는 아니다

관심 있을 만한 글

댓글 쓰기

0 댓글

시리즈(연재) 목록

카테고리

가장 많이 본 글

지구온난화 메커니즘 18- 제6장 탄소 순환 시스템(6-3 해양·화학적 메커니즘 ② )

지구온난화 메커니즘 17- 제6장 탄소 순환 시스템(6-3 해양·화학적 메커니즘 ① )

Merde

신고하기

프로필

이 블로그 검색

태그