Đại học Bách khoa Hà Nộihttps://hust.edu.vn/uploads/sys/logo-dhbk-1-02_130_191.png
Thứ bảy - 31/05/2025 20:30
Lã Kiều Ngọc Thăng thuyết trình về mô hình LViTES tại Hội nghị Sinh viên Nghiên cứu khoa học lần thứ 42
Lấy cảm hứng từ công việc của bác sĩ nội soi - dành nhiều giờ mỗi ngày phân tích hình ảnh để phát hiện tổn thương trong hệ tiêu hóa, nhưng lại thiếu công cụ hỗ trợ nhanh và chính xác, sinh viên Lã Kiều Ngọc Thăng - K66 ngành Truyền thông số và Kỹ thuật đa phương tiện, Đại học Bách khoa Hà Nội - đã phát triển một “trợ lý AI” thông minh có thể tự động nhận diện và phân vùng các tổn thương trên hình ảnh nội soi, giúp bác sĩ nhanh chóng biết được vị trí, kích thước tổn thương mà không mất nhiều thời gian phân tích thủ công. Sản phẩm nghiên cứu của Ngọc Thăng đã giành giải Nhất tại Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 42, mở ra nhiều triển vọng ứng dụng trí tuệ nhân tạo trong y học, đặc biệt trong lĩnh vực nội soi tiêu hóa.
Hình ảnh nội soi - những “bản đồ” chi tiết về dạ dày, thực quản hay đại tràng - là chìa khóa để bác sĩ phát hiện các tổn thương như ung thư hay polyp. Tuy nhiên, phân tích chúng như thế nào để chẩn đoán chính xác bệnh lại là một thử thách khó nhằn, đặc biệt là khi các mô hình AI hiện nay chỉ dựa vào hình ảnh mà bỏ qua những mô tả bằng văn bản từ bác sĩ. Nhận thấy lỗ hổng này, Ngọc Thăng quyết định xây dựng LViTES (Leveraging Vision and Text for Endoscopic Segmentation) - một mô hình AI kết hợp thị giác máy tính và ngôn ngữ tự nhiên để nâng cao độ chính xác trong việc xác định ranh giới tổn thương.
Dưới sự đồng hành của PGS. Trần Thị Thanh Hải - Giảng viên Trường Điện - Điện tử, Lã Kiều Ngọc Thăng bắt đầu hình thành ý tưởng và bắt tay vào nghiên cứu.
Triển khai từ tháng 5/2024, hành trình xây dựng LViTES của Lã Kiều Ngọc Thăng kéo dài 6 tháng, trải qua ba giai đoạn: Thu thập dữ liệu, Phát triển mô hình và Thử nghiệm thực tế. Mô hình LViTES kết hợp mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) EfficientNet để trích xuất đặc trưng hình ảnh và kiến trúc Transformer để kết hợp thông tin hình ảnh với văn bản.
“LViTES giống như một trợ lý thông minh, vừa xem được hình ảnh nội soi, vừa hiểu được mô tả bệnh lý, từ đó đưa ra kết quả phân vùng chính xác hơn, nhanh hơn.” - Thăng giải thích.
LViTES có bốn đặc trưng nổi bật:
1. Tối ưu hóa kiến trúc: Sử dụng EfficientNet giúp LViTES giảm độ phức tạp tính toán, tăng hiệu quả trích xuất đặc trưng từ hình ảnh, đồng thời áp dụng cơ chế Cross-Attention làm cho mô hình tương tác hiệu quả giữa hai luồng đặc trưng hình ảnh và văn bản.
2. Tự động sinh văn bản: Đối mặt với việc thiếu dữ liệu văn bản mô tả, Thăng tạo ra module sinh văn bản tự động dựa trên các thuộc tính như hình dạng, kích thước, vị trí và số lượng tổn thương.
3. Linh hoạt: Mô hình có thể huấn luyện với cả hình ảnh và văn bản, nhưng vẫn dự đoán chính xác chỉ dựa trên hình ảnh, điều này phù hợp với các tình huống thực tế khi dữ liệu văn bản không có sẵn.
4. Hiệu suất vượt trội: Thử nghiệm trên bộ dữ liệu Kvasir-SEG và hình ảnh nội soi ung thư dạ dày, thực quản cho thấy LViTES vượt xa các phương pháp truyền thống về độ chính xác phân vùng. Cách vận hành của mô hình LViTES
Đề tài của Ngọc Thăng không chỉ là một thành tựu học thuật mà còn hứa hẹn trở thành công cụ hỗ trợ đắc lực cho bác sĩ, giúp xác định chính xác ranh giới tổn thương trong nội soi, từ đó cải thiện chất lượng chẩn đoán và giảm áp lực cho đội ngũ y tế, đặc biệt ở những khu vực thiếu bác sĩ chuyên khoa.
Quyết định thực hiện đề tài một mình, Ngọc Thăng muốn thử thách bản thân và rèn luyện khả năng tự học. “Làm một mình giúp tôi tự do sáng tạo và có thể kiểm soát toàn bộ quá trình nhưng đôi khi cũng khó khăn hơn khi phải tự giải quyết mọi vấn đề.” - Ngọc Thăng chia sẻ.
Trong quá trình triển khai, thách thức lớn nhất với Thăng là sự thiếu hụt dữ liệu văn bản đi kèm hình ảnh nội soi. Để đối mặt với vấn đề này, Thăng phát triển module sinh văn bản tự động, biến các nhãn hình ảnh thành mô tả chi tiết về tổn thương. Ban đầu, Ngọc Thăng lo rằng văn bản tự động sẽ không đủ tốt nhưng kết quả thực nghiệm đã chứng minh điều ngược lại.
Nhìn về tương lai, Thăng dự định mở rộng LViTES để xử lý các loại hình ảnh y tế khác như X-quang, CT scan hay MRI. Thăng cũng mong muốn kết hợp với các lĩnh vực liên ngành như xử lý ngôn ngữ tự nhiên và học sâu, hướng tới xây dựng hệ thống chẩn đoán AI toàn diện cho nhiều chuyên khoa. Lã Kiều Ngọc Thăng tại Hội nghị Sinh viên Nghiên cứu khoa học lần thứ 42 (tháng 5/2025)
Với Lã Kiều Ngọc Thăng, nghiên cứu khoa học không chỉ là cơ hội để vượt qua những giới hạn của bản thân mà còn là nền tảng quan trọng cho sự nghiệp sau này, dù là trong học thuật hay công việc. Giải Nhất tại Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 42, lĩnh vực AI ứng dụng, Blockchain và Dữ liệu lớn là động lực lớn để Kiều Thăng tiếp tục thực hiện được giấc mơ hỗ trợ các bác sĩ chuyên khoa, đặt dấu ấn của mình trên hành trình tận dụng tiềm năng của trí tuệ nhân tạo vào nền y học nước nhà, hứa hẹn một tương lai nơi công nghệ và con người cùng chung tay vì sức khỏe cộng đồng!