15:04 - 04/11/2017
Robot thời tự dạy và tự học
Cờ vua là một trận đánh, trong khi cờ vây được ví là một cuộc chiến tranh toàn diện. Vài năm qua, các đại kiện tướng cờ vây thế giới lần lượt bị đánh bại bởi một hệ thống trí tuệ nhân tạo (AI) có tên AlphaGo, gây sửng sốt thế giới.
Và mới đây, phiên bản AlphaGo Zero lại có thể đánh bại chính phiên bản đánh bại loài người. Trong khi AlphaGo được mô phỏng theo cách cổ điển của Deep Blue, tức dựa lên vô số data kinh nghiệm của các kỳ thủ cờ vua đi trước, thì AlphaGo Zero lại hoạt động độc lập với DNA trí tuệ tổng hợp của con người. Nó có thể tự dạy và tự học, tự tương tác với nó, và hoàn thiện năng lực chỉ trong vòng 40 ngày (!). Đó là một sự rẽ nhánh của ngành AI? Cảm hứng, ngưỡng mộ, kính sợ, và lo âu về những ứng dụng của nó trong tương lai?
Không giống như AlphaGo ban đầu, cái mà DeepMind huấn luyện qua thời gian bằng cách sử dụng các số lượng lớn của tri thức con người, có sự giám sát, lần này algorit (thuật toán) của hệ thống mới đã tự dạy cho nó để biết làm chủ cuộc chơi.
AI làm cho máy tính nhận dạng được gương mặt, làm những cuộc giới thiệu mua hàng trực tuyến, và thực hiện cả việc đậu xe song song. Máy tính thu nhận những khả năng này từ các “algorit học” (learning algorithms), được con người viết ra, và nạp những số lượng lớn của các data huấn luyện vào mạng nơron (thần kinh) nhân tạo (được đặt tên như thế vì khả năng của nó xử lý thông tin theo cách thức dựa trên cấu trúc tế bào nơron của não một cách lỏng lẻo). Quá trình này được gọi là máy học (machine learning). Trong trường hợp của AlphaGo, điều này liên quan đến việc phân tích hàng triệu các nước đi mà các chuyên gia người cờ vây đã từng chơi, và thông qua việc chơi đi chơi lại rất nhiều ván cờ với chính nó để củng cố những điều nó đã học được. AlphaGo đã đánh bại Ke Jie, kỳ thủ cờ vây hàng đầu thế giới – vào tháng 5. Tháng 3/2016, nó đã đánh bại một kỳ thủ hàng đầu khác, Lee Sedol, với sự trợ lực của các mạng nơron (neural networks) mà các máy tính của chúng đòi hỏi 48 đơn vị xử lý tenxơ (tensor processing units, TPU) – (là) các microchip chuyên môn hoá được thiết kế đặc biệt cho sự huấn luyện mạng nơ-ron.
Sự huấn luyện của AlphaGo Zero sử dụng bốn TPU và một mạng nơron duy nhất, mạng mà ban đầu chẳng biết gì về cờ vây. AI đã học mà không cần sự giám sát – nó đơn giản tự chơi với nó, và chẳng bao lâu nó đã đoán trước được những bước đi của nó, và có thể hình dung chúng sẽ ảnh hưởng đến kết cục của ván cờ như thế nào. “Kỹ thuật này mạnh hơn các phiên bản trước của AlphaGo bởi vì nó không còn bị ràng buộc bởi các giới hạn của tri thức con người”, theo như một bài viết blog của người đồng sáng lập Demis Hassabis của DeepMind, và David Silver, người hướng dẫn nhóm nghiên cứu học tăng cường (reinforcement learning) của công ty. (DeepMind là một đơn vị của Alphabet, Inc., công ty mẹ của Google.) Một vấn đề với AI là luôn luôn phải dựa lên tri thức con người, do đó thông tin như thế có thể quá đắt, quá không tin cậy, hay đơn giản không tồn tại trong những hoàn cảnh nhất định. “Nếu những kỹ thuật tương tự có thể được áp dụng cho những bài toán có cấu trúc khác như sự cuốn gấp protein (protein folding), giảm bớt sự tiêu thụ năng lượng, hay đi tìm các vật liệu mới có tính cách mạng, các bứt phá tìm được sẽ có tiềm năng ảnh hưởng tốt lên xã hội”, bài viết blog nói.
AlphaGo Zero nghĩ ra ngay cả các chiến lược bất-quy ước của riêng nó. Cờ vây tiêu biểu chơi bằng cách sử dụng các “viên đá” nhuộm màu đen hay trắng trên một bàn cờ với 19 × 19 dòng kẻ. Mỗi người chơi đặt các viên đá (tại các nút giao điểm) với mục tiêu bao vây các viên đá của đối phương. “Trong lúc huấn luyện, AlphaGo Zero đã khám phá, chơi và cuối cùng học cách chọn ưu tiên cho một loạt các biến thể của định thức (joseki, chuỗi nước đi) trước đây chưa được biết”, phát ngôn viên Jon Fildes của DeepMind nói. Cờ vây điển hình bắt đầu với những nước đi trong các góc của đường kẻ, cho phép một người chơi tạo được một vị thế toàn cục tốt cho bàn cờ. “Như nước đi thứ 37 trong ván thứ hai được chơi đấu với Lee Sedol, những khoảnh khắc của cảm hứng thuật toán cho chúng ta một cái nhìn thoáng qua của tính sáng tạo của AlphaGo và tiềm năng của AI”, người phát ngôn nói thêm. An Young-gil, một tay chơi cờ vây chuyên nghiệp của Nam Hàn có trình độ đệ-bát-đẳng (cao nhất là đệ-cửu-đẳng) đã lọc ra được nước thứ 37 là nước “hiếm hoi và làm cho mê hồn” ngay sau cuộc đấu tháng 3/2016.
Sự tập luyện không cần giám sát là chìa khoá thành công để cuối cùng tạo ra AI có thể tự suy nghĩ cho mình, Oren Etzioni, CEO viện Nghiên cứu Allen về AI, nói, nhưng “còn cần đến nhiều nghiên cứu hơn bên ngoài các giới hạn của các trò chơi bảng, và những chức năng khách quan tiền-định (predefined) trước khi các máy tính có bắt đầu tư duy ngoài chiếc hộp.
Trích Larry Greenemeier
chuyển ngữ Võ Thành Minh Tuệ & Nguyễn Xuân Xanh
Theo TGTT
—————-
Nguồn: https://www.scientificamerican.com/article/ai-versus-ai-self-taught-alphago-zero-vanquishes-its-predecessor/
Ý kiến của bạn về bài viết
Không có chức năng bình luận cho bài viết này