오늘날 챗GPT와 같은 인공지능(AI)은 인간의 언어를 효과적으로 이해하고 답변합니다. 하지만 AI는 사람처럼 언어를 직접 이해하는 것이 아닙니다. 컴퓨터는 숫자 형태의 정보만을 처리할 수 있기 때문에, 언어를 배우려면 먼저 텍스트를 컴퓨터가 이해할 수 있는 숫자 형태로 바꿔야 합니다. 이 변환 과정에서 중요한 역할을 하는 도구가 바로 토크나이저(Tokenizer)입니다. AI는 어떻게 언어를 이해할까? 토크나이저 (Tokenizer)토크나이저(Tokenizer)는 긴 텍스트를 AI가 처리하기 쉬운 의미 있는 작은 단위인 토큰(Token)으로 나누는 도구입니다. 이 토큰은 단어, 구두점, 심지어 단어의 일부(서브워드)가 될 수도 있습니다. 예를 들어, "안녕하세요!"라는 문장은 토크나이저를 거쳐 '안녕'..