การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

ค้นพบวิธีที่การผสานรวมข้อมูลจากเซ็นเซอร์ที่หลากหลายช่วยนำความสามารถในการรับรู้ที่คล้ายมนุษย์มาสู่ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI)

การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

การตรวจจับหลายรูปแบบใน AI ทางกายภาพ (PAI) ซึ่งบางครั้งเรียกว่า AI ที่เป็นตัวเป็นตน คือความสามารถของ AI ในการหลอมรวมอินพุตทางประสาทสัมผัสที่หลากหลาย เช่น การมองเห็น เสียง การสัมผัส ลิดาร์ ข้อความ และอื่นๆ จากสภาพแวดล้อมเพื่อสร้างการรับรู้สถานการณ์ที่สมบูรณ์และสมบูรณ์ยิ่งขึ้น

การประยุกต์ใช้หลักของการตรวจจับหลายรูปแบบสําหรับ PAI คือ AI เชิงพื้นที่ (SAI) ที่ช่วยให้เครื่องจักร เช่น หุ่นยนต์อัตโนมัติสามารถเข้าใจและนําทางสภาพแวดล้อม 3 มิติแบบไดนามิกได้แบบเรียลไทม์ ซึ่งตรงกันข้ามกับการจดจําและการจําแนกประเภทภาพทั่วไป ซึ่งจํากัดเฉพาะแอปพลิเคชัน 2 มิติ

Multimodal AI ช่วยให้หุ่นยนต์หรือยานพาหนะไร้คนขับสามารถโต้ตอบกับสภาพแวดล้อมได้อย่างเป็นธรรมชาติโดยการตีความสัญญาณที่ซับซ้อน เช่น ข้อมูลภาพและคําสั่งพูดพร้อมกัน ความสามารถในการปรับให้เข้ากับสภาวะที่เปลี่ยนแปลงแบบเรียลไทม์ช่วยเพิ่มความยืดหยุ่น ความน่าเชื่อถือ และความปลอดภัย

เป้าหมายของ SAI คือการเลียนแบบการรับรู้และความเข้าใจของมนุษย์อย่างใกล้ชิดปูทางไปสู่ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรที่ใช้งานง่ายและเป็นธรรมชาติมากขึ้น สถาปัตยกรรม AI แบบมัลติโมดอลที่จําเป็นในการรองรับ SAI โดยทั่วไปประกอบด้วยบล็อกการทํางานสามบล็อก รวมถึงโมดูลอินพุต โมดูลฟิวชั่น และโมดูลเอาต์พุต (รูป 1)

รูปที่ 1 บล็อกการทํางานพื้นฐานในแอปพลิเคชันฟิวชั่นเซ็นเซอร์

การใช้การตรวจจับแบบหลายรูปแบบช่วยให้ระบบสามารถทํางานที่ซับซ้อนซึ่งไม่สามารถทําได้โดยใช้เซ็นเซอร์ประเภทเดียว เริ่มต้นด้วยโมดูลอินพุตที่โดยทั่วไปจะมีชุดโครงข่ายประสาทเทียมแบบ unimodal หนึ่งชุดสําหรับเซ็นเซอร์แต่ละตัว ตัวอย่างเช่น LIDAR และกล้องสามารถให้ข้อมูลเสริมได้

เทคนิค AI สําหรับ LIDAR มุ่งเน้นไปที่การประมวลผลพอยต์คลาวด์ 3 มิติที่ไม่มีโครงสร้างเพื่อความเข้าใจเชิงพื้นที่ เรขาคณิต และความลึกที่แม่นยํา โดยทั่วไป AI สําหรับอินพุตของกล้องจะใช้โครงข่ายประสาทเทียมแบบ 2 มิติ (CNN) เพื่อดึงข้อมูลพื้นผิว สี และความหมายจากภาพพิกเซลที่หนาแน่น โดยเน้นที่การจําแนกประเภทพิกเซลที่ชาญฉลาด

ฟิวชั่นเซ็นเซอร์อาจซับซ้อน

การรับข้อมูลเซ็นเซอร์แบบโมงเดียวจะตามด้วยการหลอมรวมอินพุตเหล่านั้นเป็นโมเดลเดียวซึ่งประกอบด้วยหลายรูปแบบ มันไม่ง่ายเหมือนการรวมอินพุตต่างๆ ทั้งหมด กุญแจสําคัญคือการหลอมรวมเฉพาะอินพุตที่เกี่ยวข้องจากรูปแบบต่างๆ และรวมเข้าด้วยกันในลักษณะที่เหมาะสมที่สุด

ซึ่งช่วยให้สามารถใช้ประโยชน์จากความแข็งแกร่งของแต่ละรูปแบบและเพิ่มผลลัพธ์ของกระบวนการหลอมรวมให้สูงสุด อาจเกี่ยวข้องกับเครื่องมือง่ายๆ เช่น การต่อกันหรือเทคนิคขั้นสูง เช่น โมเดล AI ของหม้อแปลง เทคนิคการหลอมรวมที่แตกต่างกันเหมาะสําหรับการใช้งาน PAI เฉพาะ:

  • การรับรู้สถานการณ์มักต้องใช้เทคนิคต่างๆ เช่น เครือข่าย Bayesian เพื่อจัดการกับความไม่แน่นอน ในขณะที่ตัวกรองการเรียนรู้เชิงลึกจะจัดการการจดจําวัตถุจากการรวมกันของ LIDAR, เรดาร์ และกล้อง
  • แอปพลิเคชันการนําทางมีแนวโน้มที่จะใช้ตัวกรอง Kalman สําหรับการหลอมรวมหน่วยวัดแรงเฉื่อย (IMU) และตัวเข้ารหัสล้อเพื่อการแปลและการทําแผนที่ที่แม่นยํา และสนับสนุนการทํางานในสภาพแวดล้อมที่ซับซ้อน
  • หุ่นยนต์กริปเปอร์สามารถใช้ประโยชน์จากโครงข่ายประสาทเทียมแบบ Radial Basis Function (RBF) ที่ให้การประมาณฟังก์ชันแบบไม่เชิงเส้นที่รวดเร็ว แม่นยํา และแข็งแกร่ง เพื่อรวมข้อมูลจากเซ็นเซอร์หลายตัว เช่น เซ็นเซอร์แรง/แรงบิด (สเตรนเกจ) เซ็นเซอร์อุปนัย/โฟโตอิเล็กทริกสําหรับการตรวจจับสิ่งของ และเซ็นเซอร์สัมผัสสําหรับการตรวจจับพื้นผิวและการลื่นไถล

เมื่ออินพุตเซ็นเซอร์ต่างๆ ถูกหลอมรวมในลักษณะที่เหมาะสมกับการใช้งานเฉพาะแล้ว โมดูลเอาต์พุตจะสร้างการคาดการณ์ขั้นสุดท้ายในรูปแบบที่เหมาะสมกับงาน  ซึ่งอาจรวมถึงการควบคุมความเร็วและทิศทางของการเคลื่อนที่ปริมาณแรงที่ใช้ความสว่างหรือความถี่ของพัลส์เลเซอร์และพารามิเตอร์ทางกายภาพอื่น ๆ

เจาะลึกลงไป

รูปที่ 2 ตัวอย่างระบบการแปลและระบบนําทางในหุ่นยนต์อัตโนมัติ

การใช้งานระบบ PAI ที่ใช้ฟิวชั่นเซ็นเซอร์อาจเป็นเรื่องที่ท้าทายและเกี่ยวข้องกับการแลกเปลี่ยนเซ็นเซอร์ คอนโทรลเลอร์หลายตัว และตัวแปลงพลังงาน (รูป 2)

ข้อควรพิจารณาที่ลึกซึ้งกว่าหลายประการ ได้แก่:

  • ฟิวชั่นสามารถเกิดขึ้นได้ที่ระดับข้อมูลหรือระดับการตัดสินใจของระบบ การหลอมรวมระดับข้อมูลจะรวมข้อมูลดิบจากเซ็นเซอร์ต่างๆ เข้าด้วยกัน ซึ่งส่งผลให้มีการป้อนข้อมูลโดยละเอียด ในขณะที่การหลอมรวมระดับการตัดสินใจจะรวมข้อมูลที่กรองจากเซ็นเซอร์แต่ละตัว และมีประสิทธิภาพมากขึ้น แต่มีรายละเอียดน้อยกว่า
  • การปรับสมดุลการตรวจจับเสริมและซ้ําซ้อน การใช้เซ็นเซอร์เสริม เช่น เรดาร์ LIDAR และกล้องสามารถสร้างเอาต์พุตที่สมบูรณ์ยิ่งขึ้น ในขณะที่การใช้เซ็นเซอร์ซ้ําซ้อนรองรับความน่าเชื่อถือของระบบที่สูงขึ้น
  • การลดเสียงรบกวนจากสิ่งแวดล้อมมักเป็นข้อพิจารณาที่สําคัญ ข้อมูลเซ็นเซอร์จริงอาจได้รับผลกระทบจากสภาพแวดล้อม และจําเป็นต้องมีอัลกอริทึมแยกต่างหากเพื่อกรองสัญญาณรบกวน ทําให้ระบบสามารถระบุสัญญาณจริงได้ นอกจากนี้ยังอาจกําหนดให้ต้องชั่งน้ําหนักข้อมูลของเซ็นเซอร์แต่ละตัวเพื่อพิจารณาความไม่แน่นอนที่เกิดจากสิ่งแวดล้อม
  • จําเป็นต้องมีการจัดตําแหน่งที่แม่นยําโดยใช้การสอบเทียบชั่วคราวและเชิงพื้นที่เพื่อรับประกันว่าข้อมูลจากเซ็นเซอร์ต่างๆ ซึ่งมักจะมีเวลาแฝงต่างกันและในตําแหน่งต่างๆ บนแพลตฟอร์ม PAI จะมองเห็นภาพจุดเดียวกันในเวลาและพื้นที่ได้อย่างแม่นยํา

สรุป

การตรวจจับหลายรูปแบบสามารถใช้เพื่อสนับสนุนความเข้าใจที่เหมือนมนุษย์ที่จําเป็นสําหรับการทํางานของ PAI ในยานยนต์ไร้คนขับ หุ่นยนต์ และการใช้งานในโลกแห่งความเป็นจริงอื่นๆ นอกจากนี้ยังรองรับ SAI ที่ให้การรับรู้สถานการณ์ การใช้การตรวจจับแบบหลายรูปแบบในระบบ PAI เกี่ยวข้องกับการแลกเปลี่ยนในประสิทธิภาพและการประมวลผลของเซ็นเซอร์ และการใช้ตัวควบคุมและตัวแปลงพลังงานหลายตัว

บทความที่เกี่ยวข้อง

การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

ค้นพบวิธีที่การผสานรวมข้อมูลจากเซ็นเซอร์ที่หลากหลายช่วยนำความสามารถในการรับรู้ที่คล้ายมนุษย์มาสู่ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI)

นักเขียนบทความ
by 
นักเขียนบทความ
การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

ค้นพบวิธีที่การผสานรวมข้อมูลจากเซ็นเซอร์ที่หลากหลายช่วยนำความสามารถในการรับรู้ที่คล้ายมนุษย์มาสู่ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI)

การตรวจจับหลายรูปแบบใน AI ทางกายภาพ (PAI) ซึ่งบางครั้งเรียกว่า AI ที่เป็นตัวเป็นตน คือความสามารถของ AI ในการหลอมรวมอินพุตทางประสาทสัมผัสที่หลากหลาย เช่น การมองเห็น เสียง การสัมผัส ลิดาร์ ข้อความ และอื่นๆ จากสภาพแวดล้อมเพื่อสร้างการรับรู้สถานการณ์ที่สมบูรณ์และสมบูรณ์ยิ่งขึ้น

การประยุกต์ใช้หลักของการตรวจจับหลายรูปแบบสําหรับ PAI คือ AI เชิงพื้นที่ (SAI) ที่ช่วยให้เครื่องจักร เช่น หุ่นยนต์อัตโนมัติสามารถเข้าใจและนําทางสภาพแวดล้อม 3 มิติแบบไดนามิกได้แบบเรียลไทม์ ซึ่งตรงกันข้ามกับการจดจําและการจําแนกประเภทภาพทั่วไป ซึ่งจํากัดเฉพาะแอปพลิเคชัน 2 มิติ

Multimodal AI ช่วยให้หุ่นยนต์หรือยานพาหนะไร้คนขับสามารถโต้ตอบกับสภาพแวดล้อมได้อย่างเป็นธรรมชาติโดยการตีความสัญญาณที่ซับซ้อน เช่น ข้อมูลภาพและคําสั่งพูดพร้อมกัน ความสามารถในการปรับให้เข้ากับสภาวะที่เปลี่ยนแปลงแบบเรียลไทม์ช่วยเพิ่มความยืดหยุ่น ความน่าเชื่อถือ และความปลอดภัย

เป้าหมายของ SAI คือการเลียนแบบการรับรู้และความเข้าใจของมนุษย์อย่างใกล้ชิดปูทางไปสู่ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรที่ใช้งานง่ายและเป็นธรรมชาติมากขึ้น สถาปัตยกรรม AI แบบมัลติโมดอลที่จําเป็นในการรองรับ SAI โดยทั่วไปประกอบด้วยบล็อกการทํางานสามบล็อก รวมถึงโมดูลอินพุต โมดูลฟิวชั่น และโมดูลเอาต์พุต (รูป 1)

รูปที่ 1 บล็อกการทํางานพื้นฐานในแอปพลิเคชันฟิวชั่นเซ็นเซอร์

การใช้การตรวจจับแบบหลายรูปแบบช่วยให้ระบบสามารถทํางานที่ซับซ้อนซึ่งไม่สามารถทําได้โดยใช้เซ็นเซอร์ประเภทเดียว เริ่มต้นด้วยโมดูลอินพุตที่โดยทั่วไปจะมีชุดโครงข่ายประสาทเทียมแบบ unimodal หนึ่งชุดสําหรับเซ็นเซอร์แต่ละตัว ตัวอย่างเช่น LIDAR และกล้องสามารถให้ข้อมูลเสริมได้

เทคนิค AI สําหรับ LIDAR มุ่งเน้นไปที่การประมวลผลพอยต์คลาวด์ 3 มิติที่ไม่มีโครงสร้างเพื่อความเข้าใจเชิงพื้นที่ เรขาคณิต และความลึกที่แม่นยํา โดยทั่วไป AI สําหรับอินพุตของกล้องจะใช้โครงข่ายประสาทเทียมแบบ 2 มิติ (CNN) เพื่อดึงข้อมูลพื้นผิว สี และความหมายจากภาพพิกเซลที่หนาแน่น โดยเน้นที่การจําแนกประเภทพิกเซลที่ชาญฉลาด

ฟิวชั่นเซ็นเซอร์อาจซับซ้อน

การรับข้อมูลเซ็นเซอร์แบบโมงเดียวจะตามด้วยการหลอมรวมอินพุตเหล่านั้นเป็นโมเดลเดียวซึ่งประกอบด้วยหลายรูปแบบ มันไม่ง่ายเหมือนการรวมอินพุตต่างๆ ทั้งหมด กุญแจสําคัญคือการหลอมรวมเฉพาะอินพุตที่เกี่ยวข้องจากรูปแบบต่างๆ และรวมเข้าด้วยกันในลักษณะที่เหมาะสมที่สุด

ซึ่งช่วยให้สามารถใช้ประโยชน์จากความแข็งแกร่งของแต่ละรูปแบบและเพิ่มผลลัพธ์ของกระบวนการหลอมรวมให้สูงสุด อาจเกี่ยวข้องกับเครื่องมือง่ายๆ เช่น การต่อกันหรือเทคนิคขั้นสูง เช่น โมเดล AI ของหม้อแปลง เทคนิคการหลอมรวมที่แตกต่างกันเหมาะสําหรับการใช้งาน PAI เฉพาะ:

  • การรับรู้สถานการณ์มักต้องใช้เทคนิคต่างๆ เช่น เครือข่าย Bayesian เพื่อจัดการกับความไม่แน่นอน ในขณะที่ตัวกรองการเรียนรู้เชิงลึกจะจัดการการจดจําวัตถุจากการรวมกันของ LIDAR, เรดาร์ และกล้อง
  • แอปพลิเคชันการนําทางมีแนวโน้มที่จะใช้ตัวกรอง Kalman สําหรับการหลอมรวมหน่วยวัดแรงเฉื่อย (IMU) และตัวเข้ารหัสล้อเพื่อการแปลและการทําแผนที่ที่แม่นยํา และสนับสนุนการทํางานในสภาพแวดล้อมที่ซับซ้อน
  • หุ่นยนต์กริปเปอร์สามารถใช้ประโยชน์จากโครงข่ายประสาทเทียมแบบ Radial Basis Function (RBF) ที่ให้การประมาณฟังก์ชันแบบไม่เชิงเส้นที่รวดเร็ว แม่นยํา และแข็งแกร่ง เพื่อรวมข้อมูลจากเซ็นเซอร์หลายตัว เช่น เซ็นเซอร์แรง/แรงบิด (สเตรนเกจ) เซ็นเซอร์อุปนัย/โฟโตอิเล็กทริกสําหรับการตรวจจับสิ่งของ และเซ็นเซอร์สัมผัสสําหรับการตรวจจับพื้นผิวและการลื่นไถล

เมื่ออินพุตเซ็นเซอร์ต่างๆ ถูกหลอมรวมในลักษณะที่เหมาะสมกับการใช้งานเฉพาะแล้ว โมดูลเอาต์พุตจะสร้างการคาดการณ์ขั้นสุดท้ายในรูปแบบที่เหมาะสมกับงาน  ซึ่งอาจรวมถึงการควบคุมความเร็วและทิศทางของการเคลื่อนที่ปริมาณแรงที่ใช้ความสว่างหรือความถี่ของพัลส์เลเซอร์และพารามิเตอร์ทางกายภาพอื่น ๆ

เจาะลึกลงไป

รูปที่ 2 ตัวอย่างระบบการแปลและระบบนําทางในหุ่นยนต์อัตโนมัติ

การใช้งานระบบ PAI ที่ใช้ฟิวชั่นเซ็นเซอร์อาจเป็นเรื่องที่ท้าทายและเกี่ยวข้องกับการแลกเปลี่ยนเซ็นเซอร์ คอนโทรลเลอร์หลายตัว และตัวแปลงพลังงาน (รูป 2)

ข้อควรพิจารณาที่ลึกซึ้งกว่าหลายประการ ได้แก่:

  • ฟิวชั่นสามารถเกิดขึ้นได้ที่ระดับข้อมูลหรือระดับการตัดสินใจของระบบ การหลอมรวมระดับข้อมูลจะรวมข้อมูลดิบจากเซ็นเซอร์ต่างๆ เข้าด้วยกัน ซึ่งส่งผลให้มีการป้อนข้อมูลโดยละเอียด ในขณะที่การหลอมรวมระดับการตัดสินใจจะรวมข้อมูลที่กรองจากเซ็นเซอร์แต่ละตัว และมีประสิทธิภาพมากขึ้น แต่มีรายละเอียดน้อยกว่า
  • การปรับสมดุลการตรวจจับเสริมและซ้ําซ้อน การใช้เซ็นเซอร์เสริม เช่น เรดาร์ LIDAR และกล้องสามารถสร้างเอาต์พุตที่สมบูรณ์ยิ่งขึ้น ในขณะที่การใช้เซ็นเซอร์ซ้ําซ้อนรองรับความน่าเชื่อถือของระบบที่สูงขึ้น
  • การลดเสียงรบกวนจากสิ่งแวดล้อมมักเป็นข้อพิจารณาที่สําคัญ ข้อมูลเซ็นเซอร์จริงอาจได้รับผลกระทบจากสภาพแวดล้อม และจําเป็นต้องมีอัลกอริทึมแยกต่างหากเพื่อกรองสัญญาณรบกวน ทําให้ระบบสามารถระบุสัญญาณจริงได้ นอกจากนี้ยังอาจกําหนดให้ต้องชั่งน้ําหนักข้อมูลของเซ็นเซอร์แต่ละตัวเพื่อพิจารณาความไม่แน่นอนที่เกิดจากสิ่งแวดล้อม
  • จําเป็นต้องมีการจัดตําแหน่งที่แม่นยําโดยใช้การสอบเทียบชั่วคราวและเชิงพื้นที่เพื่อรับประกันว่าข้อมูลจากเซ็นเซอร์ต่างๆ ซึ่งมักจะมีเวลาแฝงต่างกันและในตําแหน่งต่างๆ บนแพลตฟอร์ม PAI จะมองเห็นภาพจุดเดียวกันในเวลาและพื้นที่ได้อย่างแม่นยํา

สรุป

การตรวจจับหลายรูปแบบสามารถใช้เพื่อสนับสนุนความเข้าใจที่เหมือนมนุษย์ที่จําเป็นสําหรับการทํางานของ PAI ในยานยนต์ไร้คนขับ หุ่นยนต์ และการใช้งานในโลกแห่งความเป็นจริงอื่นๆ นอกจากนี้ยังรองรับ SAI ที่ให้การรับรู้สถานการณ์ การใช้การตรวจจับแบบหลายรูปแบบในระบบ PAI เกี่ยวข้องกับการแลกเปลี่ยนในประสิทธิภาพและการประมวลผลของเซ็นเซอร์ และการใช้ตัวควบคุมและตัวแปลงพลังงานหลายตัว

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

การรับรู้แบบหลายโหมดในปัญญาประดิษฐ์เชิงกายภาพคืออะไร?

ค้นพบวิธีที่การผสานรวมข้อมูลจากเซ็นเซอร์ที่หลากหลายช่วยนำความสามารถในการรับรู้ที่คล้ายมนุษย์มาสู่ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI)

Lorem ipsum dolor amet consectetur adipiscing elit tortor massa arcu non.

การตรวจจับหลายรูปแบบใน AI ทางกายภาพ (PAI) ซึ่งบางครั้งเรียกว่า AI ที่เป็นตัวเป็นตน คือความสามารถของ AI ในการหลอมรวมอินพุตทางประสาทสัมผัสที่หลากหลาย เช่น การมองเห็น เสียง การสัมผัส ลิดาร์ ข้อความ และอื่นๆ จากสภาพแวดล้อมเพื่อสร้างการรับรู้สถานการณ์ที่สมบูรณ์และสมบูรณ์ยิ่งขึ้น

การประยุกต์ใช้หลักของการตรวจจับหลายรูปแบบสําหรับ PAI คือ AI เชิงพื้นที่ (SAI) ที่ช่วยให้เครื่องจักร เช่น หุ่นยนต์อัตโนมัติสามารถเข้าใจและนําทางสภาพแวดล้อม 3 มิติแบบไดนามิกได้แบบเรียลไทม์ ซึ่งตรงกันข้ามกับการจดจําและการจําแนกประเภทภาพทั่วไป ซึ่งจํากัดเฉพาะแอปพลิเคชัน 2 มิติ

Multimodal AI ช่วยให้หุ่นยนต์หรือยานพาหนะไร้คนขับสามารถโต้ตอบกับสภาพแวดล้อมได้อย่างเป็นธรรมชาติโดยการตีความสัญญาณที่ซับซ้อน เช่น ข้อมูลภาพและคําสั่งพูดพร้อมกัน ความสามารถในการปรับให้เข้ากับสภาวะที่เปลี่ยนแปลงแบบเรียลไทม์ช่วยเพิ่มความยืดหยุ่น ความน่าเชื่อถือ และความปลอดภัย

เป้าหมายของ SAI คือการเลียนแบบการรับรู้และความเข้าใจของมนุษย์อย่างใกล้ชิดปูทางไปสู่ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรที่ใช้งานง่ายและเป็นธรรมชาติมากขึ้น สถาปัตยกรรม AI แบบมัลติโมดอลที่จําเป็นในการรองรับ SAI โดยทั่วไปประกอบด้วยบล็อกการทํางานสามบล็อก รวมถึงโมดูลอินพุต โมดูลฟิวชั่น และโมดูลเอาต์พุต (รูป 1)

รูปที่ 1 บล็อกการทํางานพื้นฐานในแอปพลิเคชันฟิวชั่นเซ็นเซอร์

การใช้การตรวจจับแบบหลายรูปแบบช่วยให้ระบบสามารถทํางานที่ซับซ้อนซึ่งไม่สามารถทําได้โดยใช้เซ็นเซอร์ประเภทเดียว เริ่มต้นด้วยโมดูลอินพุตที่โดยทั่วไปจะมีชุดโครงข่ายประสาทเทียมแบบ unimodal หนึ่งชุดสําหรับเซ็นเซอร์แต่ละตัว ตัวอย่างเช่น LIDAR และกล้องสามารถให้ข้อมูลเสริมได้

เทคนิค AI สําหรับ LIDAR มุ่งเน้นไปที่การประมวลผลพอยต์คลาวด์ 3 มิติที่ไม่มีโครงสร้างเพื่อความเข้าใจเชิงพื้นที่ เรขาคณิต และความลึกที่แม่นยํา โดยทั่วไป AI สําหรับอินพุตของกล้องจะใช้โครงข่ายประสาทเทียมแบบ 2 มิติ (CNN) เพื่อดึงข้อมูลพื้นผิว สี และความหมายจากภาพพิกเซลที่หนาแน่น โดยเน้นที่การจําแนกประเภทพิกเซลที่ชาญฉลาด

ฟิวชั่นเซ็นเซอร์อาจซับซ้อน

การรับข้อมูลเซ็นเซอร์แบบโมงเดียวจะตามด้วยการหลอมรวมอินพุตเหล่านั้นเป็นโมเดลเดียวซึ่งประกอบด้วยหลายรูปแบบ มันไม่ง่ายเหมือนการรวมอินพุตต่างๆ ทั้งหมด กุญแจสําคัญคือการหลอมรวมเฉพาะอินพุตที่เกี่ยวข้องจากรูปแบบต่างๆ และรวมเข้าด้วยกันในลักษณะที่เหมาะสมที่สุด

ซึ่งช่วยให้สามารถใช้ประโยชน์จากความแข็งแกร่งของแต่ละรูปแบบและเพิ่มผลลัพธ์ของกระบวนการหลอมรวมให้สูงสุด อาจเกี่ยวข้องกับเครื่องมือง่ายๆ เช่น การต่อกันหรือเทคนิคขั้นสูง เช่น โมเดล AI ของหม้อแปลง เทคนิคการหลอมรวมที่แตกต่างกันเหมาะสําหรับการใช้งาน PAI เฉพาะ:

  • การรับรู้สถานการณ์มักต้องใช้เทคนิคต่างๆ เช่น เครือข่าย Bayesian เพื่อจัดการกับความไม่แน่นอน ในขณะที่ตัวกรองการเรียนรู้เชิงลึกจะจัดการการจดจําวัตถุจากการรวมกันของ LIDAR, เรดาร์ และกล้อง
  • แอปพลิเคชันการนําทางมีแนวโน้มที่จะใช้ตัวกรอง Kalman สําหรับการหลอมรวมหน่วยวัดแรงเฉื่อย (IMU) และตัวเข้ารหัสล้อเพื่อการแปลและการทําแผนที่ที่แม่นยํา และสนับสนุนการทํางานในสภาพแวดล้อมที่ซับซ้อน
  • หุ่นยนต์กริปเปอร์สามารถใช้ประโยชน์จากโครงข่ายประสาทเทียมแบบ Radial Basis Function (RBF) ที่ให้การประมาณฟังก์ชันแบบไม่เชิงเส้นที่รวดเร็ว แม่นยํา และแข็งแกร่ง เพื่อรวมข้อมูลจากเซ็นเซอร์หลายตัว เช่น เซ็นเซอร์แรง/แรงบิด (สเตรนเกจ) เซ็นเซอร์อุปนัย/โฟโตอิเล็กทริกสําหรับการตรวจจับสิ่งของ และเซ็นเซอร์สัมผัสสําหรับการตรวจจับพื้นผิวและการลื่นไถล

เมื่ออินพุตเซ็นเซอร์ต่างๆ ถูกหลอมรวมในลักษณะที่เหมาะสมกับการใช้งานเฉพาะแล้ว โมดูลเอาต์พุตจะสร้างการคาดการณ์ขั้นสุดท้ายในรูปแบบที่เหมาะสมกับงาน  ซึ่งอาจรวมถึงการควบคุมความเร็วและทิศทางของการเคลื่อนที่ปริมาณแรงที่ใช้ความสว่างหรือความถี่ของพัลส์เลเซอร์และพารามิเตอร์ทางกายภาพอื่น ๆ

เจาะลึกลงไป

รูปที่ 2 ตัวอย่างระบบการแปลและระบบนําทางในหุ่นยนต์อัตโนมัติ

การใช้งานระบบ PAI ที่ใช้ฟิวชั่นเซ็นเซอร์อาจเป็นเรื่องที่ท้าทายและเกี่ยวข้องกับการแลกเปลี่ยนเซ็นเซอร์ คอนโทรลเลอร์หลายตัว และตัวแปลงพลังงาน (รูป 2)

ข้อควรพิจารณาที่ลึกซึ้งกว่าหลายประการ ได้แก่:

  • ฟิวชั่นสามารถเกิดขึ้นได้ที่ระดับข้อมูลหรือระดับการตัดสินใจของระบบ การหลอมรวมระดับข้อมูลจะรวมข้อมูลดิบจากเซ็นเซอร์ต่างๆ เข้าด้วยกัน ซึ่งส่งผลให้มีการป้อนข้อมูลโดยละเอียด ในขณะที่การหลอมรวมระดับการตัดสินใจจะรวมข้อมูลที่กรองจากเซ็นเซอร์แต่ละตัว และมีประสิทธิภาพมากขึ้น แต่มีรายละเอียดน้อยกว่า
  • การปรับสมดุลการตรวจจับเสริมและซ้ําซ้อน การใช้เซ็นเซอร์เสริม เช่น เรดาร์ LIDAR และกล้องสามารถสร้างเอาต์พุตที่สมบูรณ์ยิ่งขึ้น ในขณะที่การใช้เซ็นเซอร์ซ้ําซ้อนรองรับความน่าเชื่อถือของระบบที่สูงขึ้น
  • การลดเสียงรบกวนจากสิ่งแวดล้อมมักเป็นข้อพิจารณาที่สําคัญ ข้อมูลเซ็นเซอร์จริงอาจได้รับผลกระทบจากสภาพแวดล้อม และจําเป็นต้องมีอัลกอริทึมแยกต่างหากเพื่อกรองสัญญาณรบกวน ทําให้ระบบสามารถระบุสัญญาณจริงได้ นอกจากนี้ยังอาจกําหนดให้ต้องชั่งน้ําหนักข้อมูลของเซ็นเซอร์แต่ละตัวเพื่อพิจารณาความไม่แน่นอนที่เกิดจากสิ่งแวดล้อม
  • จําเป็นต้องมีการจัดตําแหน่งที่แม่นยําโดยใช้การสอบเทียบชั่วคราวและเชิงพื้นที่เพื่อรับประกันว่าข้อมูลจากเซ็นเซอร์ต่างๆ ซึ่งมักจะมีเวลาแฝงต่างกันและในตําแหน่งต่างๆ บนแพลตฟอร์ม PAI จะมองเห็นภาพจุดเดียวกันในเวลาและพื้นที่ได้อย่างแม่นยํา

สรุป

การตรวจจับหลายรูปแบบสามารถใช้เพื่อสนับสนุนความเข้าใจที่เหมือนมนุษย์ที่จําเป็นสําหรับการทํางานของ PAI ในยานยนต์ไร้คนขับ หุ่นยนต์ และการใช้งานในโลกแห่งความเป็นจริงอื่นๆ นอกจากนี้ยังรองรับ SAI ที่ให้การรับรู้สถานการณ์ การใช้การตรวจจับแบบหลายรูปแบบในระบบ PAI เกี่ยวข้องกับการแลกเปลี่ยนในประสิทธิภาพและการประมวลผลของเซ็นเซอร์ และการใช้ตัวควบคุมและตัวแปลงพลังงานหลายตัว

Related articles