Sự trỗi dậy của trí tuệ nhân tạo AI (Artificial Intelligence) và đặc biệt là các Mô hình Ngôn ngữ Lớn (LLM) đang định hình lại thế giới công nghệ. Kể từ sau sự kiện OpenAI giới thiệu ChatGPT vào tháng 11 năm 2022, LLM đã nhanh chóng trở thành một hiện tượng, đạt mốc 100 triệu người dùng chỉ trong vòng 2 tháng – một tốc độ tăng trưởng vượt trội so với TikTok (9 tháng) và Facebook (4 năm rưỡi). Tuy nhiên, đằng sau sự phổ biến này, không phải ai cũng hiểu rõ cơ chế hoạt động phức tạp của LLM.
Bài viết này sẽ đi sâu vào khám phá cách thức LLM vận hành, từ quá trình huấn luyện đến các ứng dụng thực tế, đồng thời rút ra những bài học giá trị từ quá trình học máy của LLM để áp dụng vào việc học tập và phát triển bản thân. Khi hiểu rõ bản chất của công nghệ, chúng ta có thể sử dụng nó một cách hiệu quả và sáng tạo hơn.
LLM là gì?
Trước hết, cần làm rõ rằng LLM không chỉ giới hạn ở các mô hình tạo văn bản và giao tiếp như ChatGPT. Theo quyển sách “Hands-on Large Language Models”, LLM có thể được chia thành hai loại chính:
Generative Model: Các mô hình có khả năng tạo ra sản phẩm đầu ra như văn bản, hình ảnh, âm thanh. Representation Model: Các mô hình tiếp nhận và giải mã thông tin, được sử dụng trong các tác vụ như phân loại, thấu hiểu quan điểm (sentiment analysis) hay tìm kiếm thông tin (information retrieval).
Trong bài viết này, chúng ta sẽ tập trung vào LLM như một Generative Model.
Về cơ bản, một LLM như ChatGPT là một thuật toán được huấn luyện để dự đoán từ tiếp theo trong một câu dựa trên dữ liệu từ hàng trăm triệu tài liệu trên internet, sách, báo, v.v. Kích thước “Lớn” ở đây đề cập đến quy mô khổng lồ của các mô hình này, cả về cấu trúc bên trong lẫn lượng dữ liệu mà chúng được tiếp xúc trong quá trình huấn luyện.
Tại sao LLM lại kỳ diệu đến vậy?
Nếu chỉ đơn thuần dự đoán từ tiếp theo, tại sao LLM lại có khả năng thực hiện nhiều tác vụ phức tạp đến vậy? Thực tế, việc dự đoán từ tiếp theo là một nhiệm vụ giúp LLM tăng khả năng đa nhiệm một cách đáng kể. Thông qua việc này, LLM có thể học được nhiều tác vụ khác như dịch thuật, ngữ pháp hoặc giải toán.
Tuy nhiên, cần lưu ý rằng LLM không phải là một thực thể biết tư duy như con người (ít nhất là ở thời điểm hiện tại). Nó chỉ dựa vào các thông số toán học được tạo ra từ hàng tỷ lần học để sao chép những suy nghĩ của con người. Do đó, bạn có thể thấy LLM ban đầu gặp khó khăn với các tác vụ như tính toán, tạo hình, đếm số.
Hơn nữa, LLM không có những kiến thức liên quan đến giác quan như con người. Chúng không thể hiểu được ý nghĩa thực sự của những câu mình nói mà chỉ đơn giản là dựa vào câu lệnh của ta để dự đoán những từ tiếp theo.
Quá trình tạo ra LLM:
Để hiểu rõ hơn về công cụ mà chúng ta đang sử dụng, hãy cùng khám phá quá trình tạo ra LLM (lưu ý rằng bài viết đã tóm lược một số chi tiết kỹ thuật để cung cấp góc nhìn tổng quan):
1. Pre-training (Huấn luyện sơ khai):
Chuẩn bị dữ liệu huấn luyện: Để bắt đầu quá trình huấn luyện, LLM cần một lượng lớn dữ liệu. Với các model sơ khai như GPT 3.5, Lama 2, dữ liệu này hoàn toàn dưới dạng text. Nhưng với các model thế hệ sau như GPT 4o, dữ liệu có thể bao gồm cả hình ảnh và âm thanh. Lượng data này có thể được ví như một internet thu nhỏ.
Tokenization: LLM không tiếp thu câu chữ giống như con người mà chúng sẽ phải chia nhỏ câu lệnh thành những token (từ, cụm từ hoặc ký tự). Sau đó, thông qua quá trình embedding, các token sẽ được chuyển hóa thành các vector (dãy số biểu trưng cho token).
Neural Network Training (Huấn luyện mạng nơ-ron): Neural Network (cụ thể hơn là Transformer) là cấu trúc đứng sau hầu hết các LLM sản xuất sau năm 2017. Sau khi dữ liệu huấn luyện đã được token hóa thành những con số, chúng sẽ được chuyển vào Neuron Network, nơi LLM bắt đầu quá trình học. Đây là quá trình self-supervised (tự giám sát).
2. Tạo ra Base Models (Mô hình gốc): Sau quá trình huấn luyện Neural Network, một mô hình với trọng số hoàn chỉnh có thể dự đoán từ tiếp theo với độ chính xác cao được ra đời. Tuy nhiên, model này vẫn chưa hoàn toàn hữu dụng với các tác vụ hàng ngày.
3. Supervised Fine-Tuning (SFT – Tinh chỉnh có giám sát): Sau khi đã có base model với một lượng lớn kiến thức, ta sẽ đến giai đoạn tinh chỉnh để nó có thể vận dụng kiến thức của mình và một tác vụ cụ thể (ví dụ: trả lời câu hỏi từ người dùng).
4. Reinforcement Learning (RL – Học tăng cường): Sau khi đã có base models và trải qua bước SFT, các AI Labs thường dùng reinforcement learning để tăng khả năng lý luận và tạo ra kết quả đầu ra chất lượng cho LLM. Một phương pháp RL thông dụng trong huấn luyện LLM đó chính là Reinforcement Learning from Human Feedback (RLHF – Học từ phản hồi của con người).
Reasoning Models (Mô hình có khả năng lý luận):
Reasoning Models là một chủ đề rất nổi trong thời gian gần đây. Lý luận (Reasoning) trong bối cảnh của LLM, ám chỉ khả năng tạo ra những bước suy nghĩ trung gian trước khi đưa ra câu trả lời cuối cùng. Quá trình này thường được gọi là Chain of Thought Reasoning (tư duy từng bước).
Khi models tạo ra những bước trung gian như thế để suy nghĩ, chúng có thể bẻ nhỏ những vấn đề phức tạp xuống thành những tác vụ đơn giản hơn, từ đó nâng cao độ chính xác và chất lượng của câu trả lời.
Khi nào nên dùng Reasoning Models?
Mặc dù khả năng của Reasoning Models là rất tuyệt diệu, ta không nên dùng nó trong tất cả tác vụ hàng ngày. Nếu bạn chỉ đơn giản là muốn tổng kết tài liệu, dịch văn bản hay hỏi những câu hỏi thuần liên quan đến kiến thức, bạn không nên dùng reasoning models vì vừa tốn thời gian mà đôi khi còn dễ sai hơn.
Một trong những lần hiếm hoi mình sử dụng Reasoning Model và cảm thấy tuyệt vời đó là khi mình dùng Gr thinking Mode để phân tích kết quả cho bài nghiên cứu tốt nghiệp của mình.
Kết luận:
Sự phát triển của trí tuệ nhân tạo AI, đặc biệt là các Mô hình Ngôn ngữ Lớn (LLM) đang mở ra những cơ hội to lớn trong nhiều lĩnh vực. Bằng cách hiểu rõ cơ chế hoạt động của LLM và các kỹ thuật huấn luyện, chúng ta có thể tận dụng tối đa tiềm năng của công nghệ này để giải quyết các vấn đề phức tạp và tạo ra những giá trị mới. Trong tương lai, ứng dụng trí tuệ nhân tạo AI sẽ còn phát triển mạnh mẽ hơn nữa, đóng góp vào sự tiến bộ của xã hội. Hy vọng bài viết này đã mang đến cho bạn cái nhìn tổng quan và sâu sắc về thế giới trí tuệ nhân tạo AI và LLM.

