Trí tuệ nhân tạo vừa đánh bại cao thủ trong trò poker, thắng 1,7 triệu USD

Từ trò poker, AI này còn có thể ứng dụng trong nhiều lĩnh vực khác nhau như giao dịch tài chính, đàm phán chính trị hay bán đấu giá.

Hôm qua, sau 20 ngày chơi tại một casino ở Pittsburgh, một AI được hai nhà nghiên cứu tại Carnegie Mellon xây dựng đã chính thức đánh bại 4 người chơi hàng đầu trong trò Texas Hold’Em không giới hạn – một dạng đặc biệt phức tạp của trò poker, vốn dựa phần lớn trên các chiến lược đặt cược dài hạn và lý thuyết của trò chơi.

Trong hơn 20 năm qua, những chiếc máy tính đã đánh bại những người giỏi nhất trong rất nhiều trò chơi, như cờ đam, cờ vua, Scrabble, Jeopardy! hay thậm chí cả trò chơi cờ Vây cổ xưa. Nhưng vẫn chưa có AI nào từng đánh bại những người giỏi nhất trong các trò chơi có “thông tin không hoàn hảo”, trò chơi với các yếu tố nhất định bị ẩn giấu – ví dụ như các con bài bị úp trên mặt bàn. Ngay cả đối với con người, để chiến thắng trong trò chơi Texas Hold’Em không giới hạn đòi hỏi mức độ trực giác nhất định ở người chơi, đó là còn chưa kể đến may mắn.


Trong hơn 20 năm qua, những chiếc máy tính đã đánh bại những người giỏi nhất trong rất nhiều trò chơi.

Trong khi đó, giáo sư Tuomas Sandholm của Đại học Carnegie Mellon và học viên cao học của mình Noam Brown đã thiết kế ra một AI, có tên gọi Libratus, có nghĩa là “Sự cân bằng” trong tiếng Latin. Gần hai năm trước, hai nhà nghiên cứu này đã thách thức một số người chơi hàng đầu trong trò Texas Hold’Em này với một AI tương tự như Libratus và đã thất bại. Nhưng lần này họ đã thắng dễ dàng: sau 20 ngày chơi, Libratus đã qua mặt bốn người chơi khác với số tiền đến hơn 1,7 triệu USD, và cả bốn người chơi này đều kết thúc với số chip âm.

Có thể với bạn, poker chỉ là một trò chơi. Nhưng theo giáo sư Michael Wellman của Đại học Washington, một chuyên gia về lý thuyết trò chơi và là người theo dõi sát sao thế giới AI trong poker, phương pháp chơi trò chơi này của Libratus có thể giúp giải quyết nhiều vấn đề, từ giao dịch tài chính cho đến các cuộc đàm phán chính trị, hay thậm chí bán đấu giá.

Trong trò chơi Hold’Em không giới hạn, người chơi không nhất thiết phải thắng trong mỗi ván bài nhỏ. Thay vào đó, họ sẽ cố gắng thắng nhiều tiền nhất, và điều đó có nghĩa là họ sẽ phải phát triển chiến lược đặt cược để có thể trụ lại qua hàng chục ván bài cho đến khi kết thúc. Một máy tính có thể làm chủ trò chơi Texas Hold’Em không giới hạn này nghĩa là nó có thể bắt chước loại trực giác con người mà các chiến lược này đòi hỏi.


Máy tính có thể làm chủ trò chơi Texas Hold’Em không giới hạn.

Theo những người chơi con người đã thất bại trước AI này, Libratus có cách gọi bài rất hợp lý. Nó biết khi nào nên lừa gạt, hay khi nào nên đặt cược thấp với những quân bài tốt, cũng như khi nào nên đổi cược chỉ để bỏ cuộc đấu bài. “Nó có thể chia bài cược của mình thành các vòng chia 3 lá, 4 lá hay 5 lá khác nhau”. Theo Daniel McAulay, 26 tuổi, một trong những người chơi bị đánh bại bởi AI này. “Không con người nào có khả năng làm như vậy”.

Cho đến nay, Sandholm vẫn ngần ngại chia sẻ về cách thức mà Libratus hoạt động, nhưng anh hứa hẹn sẽ cho biết các chi tiết trong những ngày tới đây. Cùng với McAulay, còn có Dong Kim, Jason Les và Jimmy Chou – những người chơi con người tin rằng cách chơi của AI này đã thay đổi từ ngày này sang ngày khác. Vì khi họ cảm thấy có một lỗ hổng nào đó trong chiến lược của cỗ máy này, lỗ hổng đó sẽ bị đóng lại.


Jason Les, một trong bốn người chơi thất bại trước Libratus tại Pittsburg vào ngày 11 tháng Một 2017 vừa qua.

“Nó dường như học được rằng chúng tôi đang làm gì và khai thác nó”, McAulay cho biết. Sandholm và Brown có thể đã nghiên cứu để thay đổi hành vi của cỗ máy từ ngày này sang ngày khác, như họ đã từng làm với phiên bản đầu tiên của mình, Claudiro, AI đã từng thách thức với con người gần hai năm trước. Nhưng AI này cũng có thể đã học từ chính những trận đấu khi nó đang diễn ra.

Việc các nhà nghiên cứu tại Carnegie Mellon có thể chỉnh sửa AI của họ giữa các vòng dường như không công bằng, nhưng rõ ràng các người chơi cũng được sử dụng mọi chiến thuật theo ý muốn của mình. Cho dù trò Hold’Em được chơi theo cách “Heads-up” – nghĩa là cách chơi đối đầu riêng giữa người chơi và máy tính – nhưng các người chơi có thể chia sẻ chiến lược cho nhau vào mỗi tối.

“Chúng tôi dành ra một vài giờ mỗi tối để thảo luận”. McAuley cho biết. “Chúng tôi đấu riêng từng cặp với nhau. Nhưng chúng tôi vẫn cố gắng thắng vì loài người”.

 

Theo Trí Thức Trẻ