Google Algorithm Updates

Google MUM and Multi-Modal Understanding in SEO

Khái niệm Google MUM và Khả năng hiểu đa phương thức (Multi-Modal Understanding) đánh dấu một bước ngoặt lớn trong lịch sử SEO. Nội dung bài viết này phân tích chuyên sâu về công nghệ này, tác động của nó đến chiến lược tối ưu hóa công cụ tìm kiếm, cũng như các phương pháp ứng dụng thực tiễn.

👁 1 lượt xem 🕐 23/06/2026

Khái niệm Google MUM và Khả năng hiểu đa phương thức (Multi-Modal Understanding) đánh dấu một bước ngoặt lớn trong lịch sử SEO. Nội dung bài viết này phân tích chuyên sâu về công nghệ này, tác động của nó đến chiến lược tối ưu hóa công cụ tìm kiếm, cũng như các phương pháp ứng dụng thực tiễn.

Giới thiệu về Google MUM và Sự ra đời của khả năng hiểu đa phương thức

Vào ngày 2 tháng 6 năm 2021, tại sự kiện Google I/O, Martijn Westerveld, Giám đốc điều hành mảng AI của Google, đã chính thức giới thiệu một bước đột phá mới trong công nghệ tìm kiếm: Multitask Unified Model, hay còn gọi tắt là MUM. Đây không chỉ là một thuật toán cập nhật thông thường mà là một mô hình trí tuệ nhân tạo (AI) hoàn toàn mới, đại diện cho một bước nhảy vọt về khả năng hiểu và xử lý thông tin của Google. Trước MUM, BERT (Bidirectional Encoder Representations from Transformers) đã cách mạng hóa việc hiểu ngữ cảnh trong các truy vấn tìm kiếm bằng văn bản. Tuy nhiên, MUM được xây dựng để xử lý các tác vụ phức tạp hơn nhiều, đòi hỏi sự hiểu biết sâu sắc và đa chiều.

Đặc điểm cốt lõi của MUM nằm ở khả năng Multi-Modal Understanding (Hiểu đa phương thức). Điều này có nghĩa là MUM không chỉ phân tích văn bản thuần túy mà còn có thể đồng thời xử lý và hiểu thông tin từ nhiều định dạng khác nhau như hình ảnh, video, âm thanh và văn bản. Hơn nữa, MUM có thể tiếp nhận thông tin đầu vào bằng một ngôn ngữ này và cung cấp câu trả lời bằng một ngôn ngữ khác, vượt qua rào cản ngôn ngữ một cách tự nhiên. Về mặt kỹ thuật, MUM là một mô hình Transformer cực lớn, được huấn luyện trên hàng nghìn tác vụ khác nhau, giúp nó phát triển các kỹ năng tổng quát và khả năng suy luận mạnh mẽ. Đối với SEO và Digital Marketing, sự xuất hiện của MUM báo hiệu sự chuyển dịch từ việc tối ưu hóa dựa trên từ khóa đơn lẻ sang tối ưu hóa dựa trên ý định phức tạp, ngữ cảnh và trải nghiệm đa phương tiện.

Khái niệm Multi-Modal Understanding (Hiểu đa phương thức) trong AI và Tìm kiếm

Multi-Modal Understanding là thuật ngữ kỹ thuật chỉ khả năng của một hệ thống AI trong việc nhận diện, phân tích và tổng hợp thông tin từ nhiều nguồn dữ liệu khác nhau (modalities) một cách đồng bộ. Trong bối cảnh của Google MUM, các phương thức này bao gồm văn bản, hình ảnh, video, âm thanh và thậm chí là các định dạng dữ liệu có cấu trúc. Khả năng này mô phỏng cách con người xử lý thông tin trong thế giới thực: chúng ta không chỉ đọc một đoạn văn bản mà còn quan sát hình ảnh, lắng nghe âm thanh và cảm nhận môi trường để đưa ra kết luận toàn diện.

Trước khi MUM ra đời, các mô hình AI của Google chủ yếu tập trung vào văn bản (như BERT) hoặc xử lý từng phương thức riêng lẻ (ví dụ: mô hình nhận diện hình ảnh). Điều này tạo ra một "khoảng trống hiểu biết" khi người dùng đưa ra một truy vấn phức tạp yêu cầu sự kết hợp của nhiều nguồn thông tin. Ví dụ, nếu một người dùng tải lên một bức ảnh của một loài cây và hỏi "Cây này cần bao nhiêu ánh nắng để phát triển tốt?", hệ thống cũ phải tách biệt hai nhiệm vụ: (1) nhận diện loài cây từ ảnh, (2) tìm kiếm thông tin chăm sóc cây từ văn bản. MUM có thể thực hiện cả hai bước này một cách liền mạch, hiểu được mối liên hệ giữa đối tượng trong ảnh và câu hỏi, từ đó đưa ra câu trả lời chính xác và chi tiết hơn.

Tầm quan trọng của Multi-Modal Understanding đối với tương lai của tìm kiếm là không thể phủ nhận. Theo thống kê, hơn 80% thông tin được truyền đến não bộ con người dưới dạng hình ảnh. Sự phổ biến của nội dung video (YouTube, TikTok), hình ảnh (Instagram, Pinterest) và các dạng nội dung tương tác khác trên web đang thay đổi cách người dùng tiêu thụ thông tin. MUM chính là câu trả lời của Google cho xu hướng này, hướng tới một trải nghiệm tìm kiếm mà người dùng có thể đặt câu hỏi bằng bất kỳ phương thức nào và nhận được câu trả lời toàn diện nhất, bất kể nguồn dữ liệu gốc là gì.

Các tính năng nổi bật và khả năng vượt trội của MUM so với BERT

Mặc dù cả MUM và BERT đều là những mô hình AI dựa trên kiến trúc Transformer, nhưng chúng được thiết kế cho những mục đích và phạm vi khác nhau. BERT, được giới thiệu vào năm 2019, chủ yếu tập trung vào việc hiểu ngữ cảnh và ý nghĩa của từ ngữ trong một câu, đặc biệt hiệu quả với các truy vấn có tính chất hội thoại và dài. MUM, ra đời sau đó, được xem là "phiên bản nâng cấp" vượt trội hơn hẳn về nhiều mặt. Dưới đây là bảng so sánh chi tiết giữa hai mô hình để làm rõ sự khác biệt:

Tiêu chí BERT (Bidirectional Encoder Representations from Transformers) MUM (Multitask Unified Model)
Mục tiêu chính Hiểu ngữ cảnh và ý nghĩa của từ trong câu văn bản. Giải quyết các tác vụ phức tạp, đòi hỏi suy luận và hiểu đa phương thức.
Khả năng xử lý phương thức Chỉ xử lý văn bản (Text-only). Đa phương thức: Văn bản, hình ảnh, video, âm thanh.
Khả năng đa ngôn ngữ Hiểu ngữ cảnh trong một ngôn ngữ, nhưng không dịch hoặc tổng hợp xuyên ngôn ngữ một cách chủ động. Hiểu và tổng hợp thông tin từ nhiều ngôn ngữ, có thể trả lời bằng ngôn ngữ khác với ngôn ngữ đầu vào.
Mức độ suy luận Chủ yếu dựa trên thông tin có sẵn trong văn bản, khả năng suy luận hạn chế. Khả năng suy luận mạnh mẽ, có thể kết hợp nhiều nguồn để đưa ra kết luận mới (ví dụ: từ A và B suy ra C).
Phạm vi tác vụ Tối ưu cho các tác vụ hiểu ngôn ngữ tự nhiên (NLU) như phân loại, trả lời câu hỏi đơn giản. Được huấn luyện trên hàng nghìn tác vụ khác nhau, từ dịch thuật, tóm tắt đến trả lời câu hỏi phức tạp.
Ví dụ điển hình Hiểu "cửa hàng gần đây" trong câu "Tôi cần một cửa hàng bán sách gần đây" là tìm kiếm, không phải mô tả. Trả lời câu hỏi: "Tôi muốn tổ chức một chuyến dã ngoại cho nhóm 10 người, có trẻ em, tại một nơi có thác nước gần Hà Nội. Gợi ý địa điểm và những thứ cần chuẩn bị?" (Kết hợp hiểu địa lý, đối tượng người dùng, và danh sách đồ dùng).

Những điểm vượt trội của MUM không chỉ nằm ở quy mô lớn hơn (với hàng nghìn tỷ tham số, so với hàng trăm triệu của BERT) mà còn ở cách nó được huấn luyện. Thay vì chỉ học một tác vụ duy nhất, MUM được huấn luyện một cách "đa nhiệm" (multitask), nghĩa là nó học cách giải quyết đồng thời nhiều vấn đề khác nhau. Điều này giúp nó xây dựng một "mô hình thế giới" (world model) phong phú hơn, cho phép nó hiểu được các mối liên hệ nhân quả và logic phức tạp mà BERT không thể với tới. Đối với SEO, điều này có nghĩa là Google sẽ đánh giá trang web của bạn dựa trên một bức tranh toàn cảnh hơn, không chỉ dựa trên việc xuất hiện từ khóa.

Tác động của MUM và Multi-Modal đến Chiến lược SEO

Sự ra đời của MUM và khả năng hiểu đa phương thức không chỉ là một cải tiến kỹ thuật mà còn là một cuộc cách mạng trong cách Google đánh giá và xếp hạng nội dung. Điều này buộc các chuyên gia SEO phải chuyển dịch tư duy từ "tối ưu hóa cho robot" sang "tạo ra trải nghiệm toàn diện cho con người". Dưới đây là những tác động cụ thể và sâu sắc:

  • Ý định người dùng (User Intent) trở nên phức tạp hơn: MUM có thể hiểu được những truy vấn dài, phức tạp và mang tính hội thoại. Thay vì chỉ tìm kiếm "giày chạy bộ", người dùng có thể hỏi "Giày chạy bộ nào phù hợp cho người mới tập luyện, chân rộng, và có ngân sách dưới 2 triệu đồng?". SEO sẽ phải tập trung vào việc trả lời toàn bộ câu hỏi phức tạp này, không chỉ đáp ứng từ khóa "giày chạy bộ".
  • Nội dung đa phương thức (Multi-Modal Content) là bắt buộc: Để MUM hiểu và đánh giá cao trang web của bạn, nội dung không chỉ dừng lại ở văn bản. Bạn cần tích hợp hình ảnh chất lượng cao, video hướng dẫn, infographic, và có thể là các bản ghi âm podcast. Một bài viết về "Cách trồng hoa hồng" sẽ được đánh giá cao hơn nếu có video hướng dẫn cắt tỉa, hình ảnh minh họa từng bước, và một bảng so sánh các loại phân bón.
  • Chất lượng và chiều sâu nội dung (E-E-A-T) được nâng tầm: MUM có khả năng đọc hiểu và so sánh thông tin từ rất nhiều nguồn. Điều này làm cho các tiêu chí E-E-A-T (Kinh nghiệm, Chuyên môn, Uy tín, Tính đáng tin cậy) trở nên quan trọng hơn bao giờ hết. Nội dung nông, sao chép, chuyên môn sẽ dễ dàng bị MUM nhận diện và xếp hạng thấp. Bạn cần cung cấp thông tin độc quyền, phân tích chuyên sâu và thể hiện rõ kinh nghiệm thực tế.
  • Tối ưu hóa cho tìm kiếm giọng nói và hình ảnh: Với khả năng xử lý âm thanh và hình ảnh, MUM sẽ thúc đẩy mạnh mẽ tìm kiếm bằng giọng nói (voice search) và tìm kiếm hình ảnh (visual search). SEO cần chú trọng đến các truy vấn dài, tự nhiên (long-tail keywords) trong giọng nói và tối ưu hóa metadata cho hình ảnh (alt text, tên file, structured data).
  • Tính toàn cầu hóa và đa ngôn ngữ: Khả năng hiểu đa ngôn ngữ của MUM có thể giúp nội dung của bạn tiếp cận đối tượng quốc tế, ngay cả khi bạn chỉ viết bằng tiếng Việt. Tuy nhiên, để tối ưu, bạn vẫn nên cân nhắc tạo các phiên bản nội dung đa ngôn ngữ chất lượng cao, đặc biệt nếu đối tượng mục tiêu của bạn ở nhiều quốc gia.

Tóm lại, MUM sẽ khiến Google trở nên "thông minh" và "khách quan" hơn trong việc đánh giá nội dung. Chiến lược SEO thành công trong kỷ nguyên MUM là chiến lược tập trung vào việc tạo ra nội dung có giá trị thật, giải quyết triệt để vấn đề của người dùng, và được trình bày một cách đa dạng, hấp dẫn.

Ứng dụng thực tiễn: Cách tối ưu hóa nội dung trong kỷ nguyên MUM

Để ứng phó với sự thay đổi này, các nhà tiếp thị số và SEO cần điều chỉnh chiến lược một cách chủ động. Dưới đây là một khung hành động cụ thể dựa trên các nguyên tắc của MUM và Multi-Modal Understanding.

1. Nghiên cứu từ khóa dựa trên ý định phức tạp (Complex Intent)

Thay vì chỉ liệt kê các từ khóa đơn lẻ, hãy sử dụng công cụ như Google Analytics, Google Search Console, và các công cụ nghiên cứu từ khóa để tìm hiểu các câu hỏi dài, phức tạp mà người dùng đang đặt ra trong lĩnh vực của bạn. Tập trung vào các từ khóa đuôi dài (long-tail keywords) và các câu hỏi dạng "Làm thế nào...", "Tại sao...", "So sánh A và B...". Ví dụ, thay vì chỉ nhắm đến "máy giặt", hãy nhắm đến "máy giặt nào tiết kiệm điện nhất cho gia đình 4 người?".

2. Xây dựng nội dung đa phương thức chất lượng cao

Từng bài viết, landing page hoặc sản phẩm nên được xem như một "trải nghiệm" hoàn chỉnh. Hãy lên kế hoạch tích hợp các yếu tố sau:

  • Văn bản: Viết chi tiết, có cấu trúc rõ ràng (sử dụng H2, H3), trả lời đầy đủ các câu hỏi liên quan. Sử dụng ngôn ngữ tự nhiên, tránh nhồi nhét từ khóa.
  • Hình ảnh: Sử dụng ảnh chất lượng cao, nguyên bản (không phải ảnh stock generic). Tối ưu hóa bằng cách đặt tên file mô tả (ví dụ: `cach-lam-cam-chuan-dong.jpg`), viết alt text chính xác và mô tả nội dung ảnh.
  • Video: Tạo video hướng dẫn ngắn (tutorial), video giới thiệu sản phẩm, hoặc video phỏng vấn chuyên gia. Upload lên YouTube và nhúng vào bài viết. Tối ưu tiêu đề, mô tả và thumbnail cho video.
  • Infographic: Tổng hợp thông tin phức tạp thành biểu đồ, sơ đồ dễ hiểu. Đây là cách tuyệt vời để cung cấp giá trị và tăng thời gian ở lại trang.

3. Tối ưu hóa cấu trúc dữ liệu có sẵn (Structured Data)

Structured Data (Schema.org) là ngôn ngữ giúp Google hiểu rõ hơn về nội dung trang web của bạn. Trong kỷ nguyên MUM, việc sử dụng structured data càng trở nên quan trọng vì nó cung cấp thông tin có cấu trúc rõ ràng cho AI. Hãy áp dụng các loại schema phù hợp như `Article`, `VideoObject`, `ImageObject`, `FAQPage`, `HowTo`, `Product`. Điều này không chỉ giúp Google hiểu mà còn tăng cơ hội xuất hiện ở các vị trí đặc biệt (rich results) trên trang kết quả tìm kiếm.

4. Tập trung vào E-E-A-T một cách toàn diện

Để MUM đánh giá cao trang web của bạn, bạn cần chứng minh rõ ràng về Kinh nghiệm, Chuyên môn, Uy tín và Tính đáng tin cậy.

  • Kinh nghiệm (Experience): Chia sẻ các câu chuyện cá nhân, trường hợp nghiên cứu (case studies), hình ảnh thực tế từ quá trình làm việc. Ví dụ: "Tôi đã thử nghiệm 5 loại máy giặt này trong 3 tháng...".
  • Chuyên môn (Expertise): Đưa ra phân tích sâu, dữ liệu nghiên cứu, dẫn chứng từ các nguồn uy tín. Giới thiệu rõ ràng về tác giả và chuyên môn của họ.
  • Uy tín (Authoritativeness): Xây dựng thương hiệu cá nhân/doanh nghiệp, có nhiều backlink chất lượng từ các trang uy tín, được nhắc đến trên các phương tiện truyền thông.
  • Tính đáng tin cậy (Trustworthiness): Cung cấp thông tin liên hệ rõ ràng, chính sách bảo mật, điều khoản sử dụng. Nội dung phải chính xác, cập nhật và minh bạch.

5. Tối ưu hóa cho tìm kiếm giọng nói (Voice Search)

Với MUM, tìm kiếm giọng nói sẽ trở nên chính xác hơn. Hãy tối ưu nội dung của bạn cho các truy vấn dạng câu hỏi. Sử dụng ngôn ngữ tự nhiên, trả lời trực tiếp câu hỏi trong phần mở đầu của bài viết. Tạo một phần FAQ (Hỏi đáp) với các câu hỏi mà người dùng thường hỏi bằng giọng nói.

Tương lai của SEO: Xu hướng và dự báo

MUM và Multi-Modal Understanding không phải là điểm dừng cuối cùng, mà là một bước đệm cho những đổi mới lớn hơn trong công nghệ tìm kiếm. Dưới đây là những xu hướng có thể hình dung trong tương lai gần và xa.

1. Tìm kiếm chủ động và cá nhân hóa cao độ: Google sẽ không chỉ phản hồi truy vấn mà còn chủ động đề xuất thông tin dựa trên lịch sử, vị trí, sở thích và thậm chí là cảm xúc (thông qua giọng nói, biểu cảm khuôn mặt nếu có tích hợp camera). Điều này đòi hỏi SEO phải cá nhân hóa trải nghiệm người dùng ở mức độ sâu hơn.

2. Tìm kiếm trong thế giới thực (Augmented Reality - AR Search): Khi công nghệ AR phát triển, người dùng có thể chỉ cần hướng camera điện thoại vào một món đồ để tìm kiếm thông tin, giá cả, đánh giá. MUM sẽ là nền tảng để xử lý thông tin hình ảnh thời gian thực này. SEO sẽ cần tối ưu cho các nền tảng AR, ví dụ như tạo mô hình 3D của sản phẩm.

3. Nội dung được tạo bởi AI và vai trò của con người: Với khả năng tạo nội dung ngày càng mạnh mẽ của AI, việc sản xuất nội dung số lượng lớn sẽ dễ dàng hơn. Tuy nhiên, yếu tố "Kinh nghiệm" (E) trong E-E-A-T sẽ trở thành lợi thế cạnh tranh quyết định. Nội dung do con người tạo ra với góc nhìn độc quyền, cảm xúc và trải nghiệm thực tế sẽ có giá trị cao hơn nhiều so với nội dung AI tổng hợp.

4. SEO trở nên "vô hình" hơn: Khi AI hiểu rõ ý định người dùng, các kỹ thuật SEO "cũ" như nhồi từ khóa, tạo liên kết hàng loạt sẽ mất tác dụng. SEO sẽ chuyển sang hướng tạo ra trải nghiệm người dùng xuất sắc (UX), tốc độ website, tính dễ sử dụng trên di động và độ tin cậy của thương hiệu. Nói cách khác, SEO sẽ hòa vào Marketing tổng thể và trải nghiệm khách hàng.

5. Sự thay đổi trong cách đo lường và phân tích: Các công cụ phân tích sẽ phải tiến hóa để đo lường hiệu quả của nội dung đa phương thức và tác động của các truy vấn phức tạp. Các chỉ số như "thời gian tương tác với video", "số lần người dùng thực hiện hành động sau khi xem infographic" có thể trở nên quan trọng hơn chỉ số "lượt xem trang" truyền thống.

Tóm lại, kỷ nguyên của MUM và Multi-Modal Understanding báo hiệu sự kết thúc của "SEO thủ thuật" và sự trỗi dậy của "SEO giá trị". Những ai nhanh chóng thích nghi, tập trung vào việc tạo ra nội dung có giá trị thực sự, đa dạng về hình thức và hướng đến trải nghiệm người dùng toàn diện sẽ là người dẫn đầu trong cuộc chơi mới này. Đây không còn là cuộc đua về kỹ thuật, mà là cuộc đua về sự thấu hiểu con người và khả năng sáng tạo.

×
sale 20%