การตรวจจับหลายรูปแบบใน AI ทางกายภาพ (PAI) ซึ่งบางครั้งเรียกว่า AI ที่เป็นตัวเป็นตน คือความสามารถของ AI ในการหลอมรวมอินพุตทางประสาทสัมผัสที่หลากหลาย เช่น การมองเห็น เสียง การสัมผัส ลิดาร์ ข้อความ และอื่นๆ จากสภาพแวดล้อมเพื่อสร้างการรับรู้สถานการณ์ที่สมบูรณ์และสมบูรณ์ยิ่งขึ้น
การประยุกต์ใช้หลักของการตรวจจับหลายรูปแบบสําหรับ PAI คือ AI เชิงพื้นที่ (SAI) ที่ช่วยให้เครื่องจักร เช่น หุ่นยนต์อัตโนมัติสามารถเข้าใจและนําทางสภาพแวดล้อม 3 มิติแบบไดนามิกได้แบบเรียลไทม์ ซึ่งตรงกันข้ามกับการจดจําและการจําแนกประเภทภาพทั่วไป ซึ่งจํากัดเฉพาะแอปพลิเคชัน 2 มิติ
Multimodal AI ช่วยให้หุ่นยนต์หรือยานพาหนะไร้คนขับสามารถโต้ตอบกับสภาพแวดล้อมได้อย่างเป็นธรรมชาติโดยการตีความสัญญาณที่ซับซ้อน เช่น ข้อมูลภาพและคําสั่งพูดพร้อมกัน ความสามารถในการปรับให้เข้ากับสภาวะที่เปลี่ยนแปลงแบบเรียลไทม์ช่วยเพิ่มความยืดหยุ่น ความน่าเชื่อถือ และความปลอดภัย
เป้าหมายของ SAI คือการเลียนแบบการรับรู้และความเข้าใจของมนุษย์อย่างใกล้ชิดปูทางไปสู่ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรที่ใช้งานง่ายและเป็นธรรมชาติมากขึ้น สถาปัตยกรรม AI แบบมัลติโมดอลที่จําเป็นในการรองรับ SAI โดยทั่วไปประกอบด้วยบล็อกการทํางานสามบล็อก รวมถึงโมดูลอินพุต โมดูลฟิวชั่น และโมดูลเอาต์พุต (รูป 1)
การใช้การตรวจจับแบบหลายรูปแบบช่วยให้ระบบสามารถทํางานที่ซับซ้อนซึ่งไม่สามารถทําได้โดยใช้เซ็นเซอร์ประเภทเดียว เริ่มต้นด้วยโมดูลอินพุตที่โดยทั่วไปจะมีชุดโครงข่ายประสาทเทียมแบบ unimodal หนึ่งชุดสําหรับเซ็นเซอร์แต่ละตัว ตัวอย่างเช่น LIDAR และกล้องสามารถให้ข้อมูลเสริมได้
เทคนิค AI สําหรับ LIDAR มุ่งเน้นไปที่การประมวลผลพอยต์คลาวด์ 3 มิติที่ไม่มีโครงสร้างเพื่อความเข้าใจเชิงพื้นที่ เรขาคณิต และความลึกที่แม่นยํา โดยทั่วไป AI สําหรับอินพุตของกล้องจะใช้โครงข่ายประสาทเทียมแบบ 2 มิติ (CNN) เพื่อดึงข้อมูลพื้นผิว สี และความหมายจากภาพพิกเซลที่หนาแน่น โดยเน้นที่การจําแนกประเภทพิกเซลที่ชาญฉลาด
การรับข้อมูลเซ็นเซอร์แบบโมงเดียวจะตามด้วยการหลอมรวมอินพุตเหล่านั้นเป็นโมเดลเดียวซึ่งประกอบด้วยหลายรูปแบบ มันไม่ง่ายเหมือนการรวมอินพุตต่างๆ ทั้งหมด กุญแจสําคัญคือการหลอมรวมเฉพาะอินพุตที่เกี่ยวข้องจากรูปแบบต่างๆ และรวมเข้าด้วยกันในลักษณะที่เหมาะสมที่สุด
ซึ่งช่วยให้สามารถใช้ประโยชน์จากความแข็งแกร่งของแต่ละรูปแบบและเพิ่มผลลัพธ์ของกระบวนการหลอมรวมให้สูงสุด อาจเกี่ยวข้องกับเครื่องมือง่ายๆ เช่น การต่อกันหรือเทคนิคขั้นสูง เช่น โมเดล AI ของหม้อแปลง เทคนิคการหลอมรวมที่แตกต่างกันเหมาะสําหรับการใช้งาน PAI เฉพาะ:
เมื่ออินพุตเซ็นเซอร์ต่างๆ ถูกหลอมรวมในลักษณะที่เหมาะสมกับการใช้งานเฉพาะแล้ว โมดูลเอาต์พุตจะสร้างการคาดการณ์ขั้นสุดท้ายในรูปแบบที่เหมาะสมกับงาน ซึ่งอาจรวมถึงการควบคุมความเร็วและทิศทางของการเคลื่อนที่ปริมาณแรงที่ใช้ความสว่างหรือความถี่ของพัลส์เลเซอร์และพารามิเตอร์ทางกายภาพอื่น ๆ
การใช้งานระบบ PAI ที่ใช้ฟิวชั่นเซ็นเซอร์อาจเป็นเรื่องที่ท้าทายและเกี่ยวข้องกับการแลกเปลี่ยนเซ็นเซอร์ คอนโทรลเลอร์หลายตัว และตัวแปลงพลังงาน (รูป 2)
ข้อควรพิจารณาที่ลึกซึ้งกว่าหลายประการ ได้แก่:
การตรวจจับหลายรูปแบบสามารถใช้เพื่อสนับสนุนความเข้าใจที่เหมือนมนุษย์ที่จําเป็นสําหรับการทํางานของ PAI ในยานยนต์ไร้คนขับ หุ่นยนต์ และการใช้งานในโลกแห่งความเป็นจริงอื่นๆ นอกจากนี้ยังรองรับ SAI ที่ให้การรับรู้สถานการณ์ การใช้การตรวจจับแบบหลายรูปแบบในระบบ PAI เกี่ยวข้องกับการแลกเปลี่ยนในประสิทธิภาพและการประมวลผลของเซ็นเซอร์ และการใช้ตัวควบคุมและตัวแปลงพลังงานหลายตัว