Lê Văn Lợi miscellaneous: The evolution of LLM Agents since 2023

2026-05-18

Give me the evolution of LLM Agents since 2023.

The evolution of Large Language Model (LLM) agents since 2023 marks a dramatic shift from passive text-generators to active, autonomous digital workers.

Here is how the architecture, capabilities, and design paradigms of LLM agents have evolved over the last few years.

🚀 2023: The Birth of the Agentic Architecture

In early 2023, the industry realized that simply giving prompts to an LLM was a limiting approach. Systems were single-call "black boxes" with hard knowledge cutoffs. To make them useful, researchers and open-source developers began wrapping LLMs in custom logic loops, birthing the first recognizable AI agents.

Reasoning + Action (ReAct): Models stopped just blurting out answers. Instead, they began to alternate between a "Thought" process and taking an "Action" (like calling an API or looking something up).
The Rise of RAG: Retrieval-Augmented Generation became standard. Instead of hallucinating facts, agents could query external vector databases to look up documents before answering.
Early Autonomous Experiments: Frameworks like AutoGPT and BabyAGI went viral. They proved that an LLM could break a high-level goal down into sub-tasks and execute them in a loop. OpenAI also introduced ChatGPT Code Interpreter, showing how an agent could write and test its own Python code inside a secure sandbox to solve math and data problems.

🛠️ 2024: From Playthings to Production Frameworks

While 2023 was filled with experimental loops that frequently got stuck in infinite circles, 2024 focused on reliability, structure, and enterprise-grade deployment.

Multi-Agent Orchestration: It became clear that one giant agent trying to do everything was inefficient. Industry frameworks like LangGraph, CrewAI, and Microsoft AutoGen popularized Multi-Agent Systems. Instead of one agent, tasks were handed off between specialized agents (e.g., a "Researcher Agent" hands text to a "Writer Agent," who hands it to an "Editor Agent").
Smarter Tool Utilization: Agents shifted from merely browsing the web to executing multi-step API workflows, operating local file systems, and handling complex enterprise databases with built-in error handling.
Advanced Memory Layering: Short-term conversational memory was replaced by sophisticated, tiered architectures. Agents now featured episodic memory (remembering specific past tasks) and semantic memory (retaining long-term, abstracted concepts and user preferences).

🧠 2025: Native Reasoning and "Coding Agents"

The landscape shifted fundamentally due to changes in the underlying foundation models themselves, rather than just the code frameworks wrapping around them.

Native Inference and "Deep Thinking": Models began integrating advanced Reinforcement Learning (RL) directly into the model's inference cycle (popularized by models like OpenAI's o1/o3 and DeepSeek-R1). Instead of relying purely on engineering frameworks to force a "Chain-of-Thought," the foundation models began natively allocating compute time to think, back-track, and self-correct before outputting an answer.
Autonomous Coding Agents (The CLI Era): The agent pattern materialized into highly competent, specialized developer tools. Tools like Claude Code, alongside dedicated agentic CLI environments from major labs, transitioned from "code assistants" (like early Copilot) to full digital teammates. These agents could autonomously clones repositories, run test suites, interpret terminal errors, and write full pull requests entirely on their own.
Agentic Framework Standardization: The fragmentation of early frameworks began consolidating into unified AI agent protocols, allowing different multi-agent ecosystems to communicate and collaborate fluidly across platforms.

🌐 2026: Multimodal World Interaction & Continual Learning

The current era centers on agents that operate seamlessly across environments—whether digital interfaces or physical-world data—boasting deep, human-like adaptability.

"Large World Models" and UI Navigation: Agents have largely mastered GUI navigation. Rather than relying heavily on fragile backend APIs, modern agents can visually read a computer screen, click buttons, fill out forms, and interact with software exactly like a human user.
From "Storage" to "Experience": Research has pushed agent memory from simple trajectory logs (saving historical prompts) to continual learning and dynamic reflection. Today's agents don't just log what they did; they run background evaluation loops to abstract their failures and successes into generalized "lessons learned," evolving their behavioral strategies over time without needing a full model fine-tuning.
Ubiquitous Multimodality: Agent inputs are no longer text-first. Real-time voice interaction, native video processing, and continuous environment scanning (such as looking through a user's smartphone camera feed) act as the primary perception triggers for agents to plan and execute tasks on the fly.

Summary of the Paradigm Shift

Feature	2023 Agent	2026 Agent
Control Flow	Rigid, brittle code-based loops (ReAct).	Elastic, native model-driven inference ("Deep Thinking").
Architecture	Solitary or loosely paired experimental bots.	Scalable, protocol-driven Multi-Agent networks.
Execution	Text processing + basic API/Web-search actions.	Complex UI navigation, sandbox execution, multimodal input.
Learning	In-context memory (wiped after the session ends).	Continual experiential learning and self-evolution.

---

Translate your response into Vietnamese.

Dưới đây là bản dịch về quá trình tiến hóa của các tác nhân AI (LLM Agents) từ năm 2023 đến nay, đánh dấu sự chuyển mình mạnh mẽ từ các bộ tạo văn bản thụ động sang các cộng sự kỹ thuật số chủ động và tự chủ.

🚀 2023: Sự ra đời của kiến trúc Agentic

Vào đầu năm 2023, ngành công nghiệp nhận ra rằng việc chỉ đưa ra câu lệnh (prompt) cho một LLM là một hướng tiếp cận hạn chế. Các hệ thống lúc đó giống như những "hộp đen" một lần phản hồi với kiến thức bị giới hạn. Để chúng trở nên hữu ích hơn, các nhà phát triển bắt đầu bao bọc LLM trong các vòng lặp logic tùy chỉnh, tạo ra những tác nhân AI thực thụ đầu tiên.

Lập luận + Hành động (ReAct): Các mô hình không còn chỉ đưa ra câu trả lời ngay lập tức. Thay vào đó, chúng bắt đầu xen kẽ giữa quy trình "Suy nghĩ" (Thought) và thực hiện "Hành động" (Action) như gọi API hoặc tra cứu thông tin.
Sự trỗi dậy của RAG: Công nghệ Truy xuất-Tăng cường (Retrieval-Augmented Generation) trở thành tiêu chuẩn. Thay vì "ảo tưởng" ra các sự thật, các tác nhân có thể truy vấn cơ sở dữ liệu vector bên ngoài để tìm kiếm tài liệu trước khi trả lời.
Các thử nghiệm tự trị ban đầu: Các khung như AutoGPT và BabyAGI đã trở nên phổ biến rộng rãi. Chúng chứng minh rằng LLM có thể chia nhỏ một mục tiêu cao cấp thành các nhiệm vụ con và thực hiện chúng trong một vòng lặp. OpenAI cũng giới thiệu ChatGPT Code Interpreter, cho thấy một tác nhân có thể tự viết và kiểm tra mã Python để giải quyết các bài toán và dữ liệu phức tạp.

🛠️ 2024: Từ thử nghiệm đến các khung vận hành chuyên nghiệp

Nếu năm 2023 là năm của những vòng lặp thử nghiệm (thường xuyên bị kẹt trong các vòng lặp vô hạn), thì năm 2024 tập trung vào độ tin cậy, cấu trúc và triển khai ở cấp độ doanh nghiệp.

Điều phối đa tác nhân (Multi-Agent Orchestration): Việc một tác nhân khổng lồ cố gắng làm mọi thứ đã bộc lộ sự kém hiệu quả. Các khung như LangGraph, CrewAI và Microsoft AutoGen đã phổ biến Hệ thống đa tác nhân. Thay vì một tác nhân duy nhất, các nhiệm vụ được chuyển giao giữa các tác nhân chuyên biệt (ví dụ: "Tác nhân nghiên cứu" đưa văn bản cho "Tác nhân viết bài", sau đó chuyển cho "Tác nhân biên tập").
Sử dụng công cụ thông minh hơn: Các tác nhân chuyển từ việc chỉ duyệt web sang thực hiện các quy trình API đa bước, vận hành hệ thống tệp cục bộ và xử lý các cơ sở dữ liệu doanh nghiệp phức tạp với khả năng xử lý lỗi tích hợp.
Phân tầng bộ nhớ nâng cao: Bộ nhớ hội thoại ngắn hạn được thay thế bằng các kiến trúc phân tầng tinh vi. Các tác nhân hiện có bộ nhớ tình tiết (nhớ các nhiệm vụ cụ thể trong quá khứ) và bộ nhớ ngữ nghĩa (lưu giữ các khái niệm trừu tượng dài hạn và sở thích của người dùng).

🧠 2025: Lập luận bản thể và "Tác nhân lập trình"

Bối cảnh thay đổi căn bản nhờ những cải tiến từ chính các mô hình nền tảng, thay vì chỉ là các khung mã nguồn bao bọc bên ngoài.

Suy luận bản thể và "Tư duy sâu": Các mô hình bắt đầu tích hợp Học tăng cường (Reinforcement Learning) trực tiếp vào chu kỳ suy luận (được phổ biến bởi các mô hình như o1/o3 của OpenAI và DeepSeek-R1). Thay vì dựa vào kỹ thuật lập trình để ép buộc "Chuỗi suy nghĩ", các mô hình nền tảng bắt đầu tự phân bổ tài nguyên tính toán để suy nghĩ, kiểm tra lại và tự sửa lỗi trước khi đưa ra kết quả.
Tác nhân lập trình tự trị (Kỷ nguyên CLI): Mô hình tác nhân đã cụ thể hóa thành các công cụ phát triển chuyên dụng, năng lực cao. Các công cụ như Claude Code đã chuyển đổi từ "trợ lý viết mã" thành các đồng nghiệp kỹ thuật số thực thụ. Những tác nhân này có thể tự động nhân bản kho mã nguồn, chạy bộ thử nghiệm (test suites), giải thích lỗi terminal và viết các yêu cầu kéo (pull requests) hoàn chỉnh một cách độc lập.
Tiêu chuẩn hóa khung tác nhân: Sự phân mảnh của các khung ban đầu bắt đầu hợp nhất thành các giao thức tác nhân AI thống nhất, cho phép các hệ sinh thái đa tác nhân khác nhau giao tiếp và cộng tác mượt mà trên nhiều nền tảng.

🌐 2026: Tương tác thế giới đa phương thức & Học tập liên tục

Kỷ nguyên hiện tại tập trung vào các tác nhân hoạt động liền mạch trong mọi môi trường—dù là giao diện kỹ thuật số hay dữ liệu thế giới thực—với khả năng thích nghi sâu sắc như con người.

"Mô hình thế giới lớn" và Điều hướng giao diện (UI): Các tác nhân đã thành thạo việc điều hướng giao diện người dùng đồ họa (GUI). Thay vì phụ thuộc vào các API hệ thống cứng nhắc, các tác nhân hiện đại có thể "nhìn" màn hình máy tính, nhấp chuột, điền biểu mẫu và tương tác với phần mềm giống hệt như người dùng thực.
Từ "Lưu trữ" sang "Kinh nghiệm": Nghiên cứu đã đẩy bộ nhớ tác nhân từ việc chỉ lưu nhật ký lịch sử sang Học tập liên tục và Tự phản chiếu động. Các tác nhân ngày nay không chỉ ghi lại những gì họ đã làm; họ chạy các vòng lặp đánh giá ngầm để rút ra các bài học từ thất bại và thành công, từ đó phát triển chiến lược hành vi theo thời gian mà không cần tinh chỉnh (fine-tuning) lại toàn bộ mô hình.
Đa phương thức ở khắp mọi nơi: Đầu vào của tác nhân không còn ưu tiên văn bản. Tương tác giọng nói thời gian thực, xử lý video gốc và quét môi trường liên tục (ví dụ: nhìn qua camera điện thoại) đóng vai trò là các tác nhân kích hoạt nhận thức để AI lập kế hoạch và thực hiện nhiệm vụ ngay lập tức.

Tóm tắt sự thay đổi mô hình

Đặc điểm	Tác nhân năm 2023	Tác nhân năm 2026
Luồng điều khiển	Các vòng lặp dựa trên mã cứng nhắc, dễ gãy (ReAct).	Suy luận dựa trên mô hình bản thể linh hoạt ("Tư duy sâu").
Kiến trúc	Các chatbot thử nghiệm đơn lẻ hoặc đi đôi.	Mạng lưới đa tác nhân có thể mở rộng, dựa trên giao thức.
Khả năng thực thi	Xử lý văn bản + hành động API/tìm kiếm web cơ bản.	Điều hướng giao diện (UI) phức tạp, thực thi trong hộp cát, đầu vào đa phương thức.
Học tập	Bộ nhớ theo ngữ cảnh (bị xóa sau khi phiên kết thúc).	Học tập trải nghiệm liên tục và tự tiến hóa.

Lê Văn Lợi miscellaneous

Chủ Nhật, 17 tháng 5, 2026

The evolution of LLM Agents since 2023 - Gemini (Google)