Trong khi con người thường thiếu khách quan khi đưa ra các đánh giá này thì trí tuệ nhân tạo lại khắc phục được nhược điểm đó.
Các nhà tâm lý học từ lâu đã biết rằng con người có thể đánh giá nhanh về người khác dựa trên vẻ ngoài của chúng ta, đặc biệt là khuôn mặt. Chúng ta sử dụng những cách phán đoán này để xác định xem liệu người mới quen đó có đáng tin cây, có thông minh hay không, hay là người có khả năng áp đảo người khác, hoặc là người hòa đồng, hài hước.
Các quyết định này có thể đúng hoặc không đúng bởi vì nó hoàn toàn không khách quan, nhưng chúng khá hợp lý. Với cùng một khuôn mặt trong cùng những điều kiện, mọi người có xu hướng phán đoán theo cùng một cách.
Và điều đó đặt ra một khả năng thú vị. Những tiến bộ nhanh chóng trong lĩnh vực thị giác máy tính và nhận diện khuôn mặt đã giúp cho các máy tính có thể dễ dàng nhận ra hàng loạt biểu hiện của khuôn mặt, thậm chí nó còn có thể đánh giá khuôn mặt dựa trên sức hấp dẫn. Vì vậy, liệu một cỗ máy có thể nhìn vào một khuôn mặt và đưa ra ấn tượng đầu tiên như cách con người làm hay không?
Con người có thể đánh giá nhanh về người khác dựa trên vẻ ngoài của chúng ta.
Vậy họ đã làm như thế nào?
Ngày nay, chúng ta đã có câu trả lời nhờ vào nghiên cứu của Mel McCurrie tại Đại học Notre Dame và một vài người đồng nghiệp khác. Họ đã huấn luyện một thuật toán máy học để quyết định liệu khuôn mặt đó có đáng tin hay có khả năng áp đảo, theo cùng một cách mà con người làm.
Phương pháp của họ rất đơn giản. Bước đầu tiên của quá trình máy học là tạo ra một bộ dữ liệu mà thuật toán có thể học từ đó. Điều này có nghĩa là hàng loạt các hình ảnh được gắn nhãn theo cách mà mọi người phán đoán về họ – liệu ai là người đáng tin cậy, ai là người dễ bị chi phối, ai là người thông minh và tương tự như vậy.
McCurrie và đồng nghiệp tạo ra bộ dữ liệu này bằng cách sử dụng một trang web được gọi là TestMyBrain.org, một loại dự án khoa học nhằm mục đích đánh giá các thuộc tính tâm lý của những người ghé thăm website này. Trang web này là một trong những trang web kiểm tra về não bộ phổ biến nhất, với hơn 1,6 triệu người tham gia.
Cả nhóm yêu cầu những người tham gia đánh giá khoảng 6.300 các bức ảnh đen trắng của các khuôn mặt. Mỗi khuôn mặt lại được đánh giá bởi 32 người khác nhau về sự tin tưởng và khả năng áp đảo, ngoài ra còn có 15 người khác để phán đoán về chỉ số thông minh IQ và độ tuổi của gương mặt.
Điều thú vị của cách đánh giá này là không có câu trả lời khách quan.
Một điều thú vị của cách đánh giá này là không có câu trả lời khách quan – bài kiểm tra chỉ đơn giản ghi lại ý kiến của những người đánh giá. Tất nhiên, các nhà nghiên cứu vẫn có thể đo lường chỉ số IQ và độ tuổi của họ để tìm hiểu xem những người đánh giá phán đoán đúng hay không. Nhưng McCurrie và đồng nghiệp không quan tâm đến điều đó. Tất cả những gì họ muốn đo lường là phạm vi ấn tượng của những gương mặt và huấn luyện một cỗ máy để tái tạo lại kết quả đó.
Sau khi thu thập được dữ liệu này, cả nhóm sử dụng khoảng 6.000 hình ảnh để huấn luyện cho thuật toán thị giác máy tính. Sau đó họ sử dụng thêm 200 bức ảnh khác để tinh chỉnh các thông số thị giác máy tính. Tất cả các bài huấn luyện này để máy tính có thể phán đoán gương mặt theo cùng một cách như con người làm.
McCurrie và đồng nghiệp lưu lại 100 bức ảnh cuối để thử nghiệm độ chính xác của thuật toán thị giác máy tính – nói cách khác, để xem cỗ máy có đưa ra những kết luận tương tự với con người hay không.
Kết quả của thuật toán
Kết quả của việc huấn luyện rất thú vị. Tất nhiên, cỗ máy tái tạo lại cùng các phán đoán mà nó được học từ con người. Khi đánh giá về một gương mặt, cỗ máy đưa ra cùng các giá trị về sự tin tưởng, khả năng áp đảo, độ tuổi và chỉ số IQ như cách con người phán đoán. Hơn nữa nhóm của McCurrie còn cho biết cỗ máy phán đoán như thế nào. Ví dụ, họ có thể nói phần nào của gương mặt mà cỗ máy sử dụng để phán đoán.
Cả nhóm nhận ra điều này bằng cách che đi các phần khác nhau của khuôn mặt và yêu cầu cỗ máy đưa ra phán đoán. Nếu kết quả đưa ra khác biệt đáng kể với giá trị thông thường, họ giả định rằng phần này của khuôn mặt phải rất quan trọng. Bằng cách này, họ có thể nói, cỗ máy dựa nhiều vào phần nào nhất của khuôn mặt để đưa ra phán đoán của mình.
Điều kỳ lạ là hóa ra cách cỗ máy dùng để phán đoán cũng tương tự như cách con người dựa vào. Các nhà tâm lý học xã hội biết rằng con người có xu hướng nhìn vào miệng của mỗi người để đánh giá sự tin cậy, và dựa vào độ dốc của lông mày để đánh giá về khả năng áp đảo.
Nhờ học được từ dữ liệu huấn luyện, đây cũng chính là những khu vực mà thuật toán thị giác máy tính sẽ nhìn vào để đưa ra đánh giá của mình. “Những quan sát này chỉ ra rằng các mô hình của chúng tôi đã học được cách nhìn gương mặt tương tự như cách con người làm, và lặp lại cách mà chúng ta đánh giá lẫn nhau”. Ông McCurrie và đồng nghiệp cho biết.
Ứng dụng của nghiên cứu
Điều này dẫn đến một số ứng dụng thú vị. Nhóm của ông McCurrie đầu tiên áp dụng nó vào diễn xuất. Họ sử dụng cỗ máy để đánh giá sự tin cậy và khả năng áp đảo của Edward Snowden, Julian Assange từ các bức ảnh chụp khuôn mặt của họ. Sau đó họ sử dụng cỗ máy để đưa ra đánh giá tương tự về các diễn viên, những người đóng vai hai nhân vật này trong các bộ phim gần đây – Joseph Gordon-Levitt và Benedict Cumberbatch.
Cỗ máy đánh giá cả hai diễn viên theo cách tương tự như nhân vật mà họ đóng vai.
Cách làm này sẽ giúp dự đoán được đám đông sẽ đánh giá mức độ tương đồng giữa một diễn viên và nhân vật mà họ đóng vai trong phim.
Kết quả là rất rõ ràng. Nó chỉ ra rằng cỗ máy đánh giá cả hai diễn viên theo cách tương tự như nhân vật mà họ đóng vai – ví dụ, cả hai đều có điểm số kém về sự tin cậy. “Đầu ra các mô hình của chúng tôi dự đoán sự tương đồng đáng kể giữa nhân vật ngoài đời thực và diễn viên, xác nhận độ chính xác về cách mô tả trong phim”. Ông McCurrie và đồng nghiệp cho biết.
Nhưng cả nhóm còn có thể tiến xa hơn nữa. Họ áp dụng thuật toán thị giác máy tính cho mỗi khung hình trong một bộ phim, để họ có thể đánh giá về mức độ tương đồng thay đổi theo thời gian. Điều này cũng cho thấy cách diễn viên nhận thức về nhân vật thay đổi theo thời gian như thế nào. Đây là điều có thể sử dụng trong các nghiên cứu, các chiến dịch tiếp thị và hoạt động chính trị….
Thuật toán này cũng sẽ cho phép các robot có thể dự đoán và lặp lại các đặc điểm đó.
Ngoài ra nghiên cứu này cũng cho thấy nhiều hướng đi khác trong tương lai. Ví dụ dùng để kiểm tra ấn tượng ban đầu thay đổi như thế nào giữa các nhóm văn hóa và nhân khẩu học.
Điều này sẽ giúp chúng ta tìm ra các yếu tố góp phần hình thành nên định kiến của mỗi người, vốn thường phụ thuộc nhiều vào các đặc điểm xã hội tinh tế. Thuật toán này cũng sẽ cho phép các robot có thể dự đoán và lặp lại các đặc điểm đó.
Một hệ quả thú vị của nghiên cứu này nằm ở chỗ liệu nó có thể tác động ngược lại đến hành vi của con người hay không? Nếu ai đó khám phá ra rằng, khuôn mặt của mình bị đánh giá là không đáng tin tưởng, liệu người đó sẽ phản ứng như thế nào? Liệu họ có thể tìm cách thay đổi nhận thức này, ví dụ bằng cách thay đổi khuôn mặt hay không?
Theo Trí Thức Trẻ