Tuesday, May 21, 2024

Spatial inteligence ของ AI ให้เอไอเห็น เพื่อ ทำงาน ได้

 from https://www.facebook.com/photo/?fbid=10160626168918649&set=a.10150195418768649

สรุปอนาคตของ AI จบในโพสต์เดียว พลังแห่ง Spatial Intelligence จากทอล์คของ อ. Fei-Fei Li ผู้บุกเบิกศาสตร์ Computer Vision
.
อ. แกสอนวิชา Computer Science ที่ Stanford เป็นผู้ก่อตั้ง ImageNet หน่วยงาน HAI และอีกหลายโปรเจ็คพลิกโฉมโลก หลายคนตั้งฉายาให้ อ. ว่า "Godmother of AI"
.
นั่งฟังทอล์คนี้ของ อ. Fei-Fei ยังกะดูหนัง Sci-Fi โลกเราไปไกลขนาดนี้แล้วหรอ ตามไม่ทันแล้ว 555+
.
เขียนสรุปเป็น 15 ไอเดียสำคัญ อ่านจบ เข้าใจ AI ง่ายจนงง (ที่เหลือยากหมด) ยั๊งงงง 555+
.
1. 540 ล้านปีก่อน โลกได้รับแสงจากพระอาทิตย์ แต่ทุกอย่างกลับมืดมิด เพราะไม่มีสิ่งมีชีวิตใดรับรู้ถึง "แสงสว่าง" นั้นได้เลย
.
2. Trilobites เป็น Organism สายพันธ์ุแรกในโลกที่เริ่มสัมผัสถึงแสงสว่างได้ เป็นครั้งแรกที่สิ่งมีชีวิตเริ่มรู้ว่าโลกนี้ไม่ได้มีแค่ตัวมันเอง
.
3. เมื่อสิ่งมีชีวิตเปิดรับแสงเข้ามา ระบบประสาทและการรับรู้ทั้งหมดของมันเริ่มวิวัฒนาการ
.
"Sight turning to insight, Seeing becomes understanding"
.
และทั้งหมดนี้คือจุดเริ่มต้นของ "Intelligence" ของสิ่งมีชีวิตบนโลก ขนลู๊กกก
.
4. ความอยากรู้อยากเห็นของมนุษย์ ทำให้เราพยายามสร้างเครื่องจักรที่สามารถมองเห็นได้เหมือนเรา
.
Intelligence ที่เกิดจากการมองเห็น ในศาสตร์ AI เรียกว่า "Computer Vision"
.
// 9 ปีที่แล้วคุณ Fei-Fei เคยมาขึ้น TED เพื่อเล่าเรื่อง Vision มาแล้ว ทอล์คล่าสุดเหมือนแกมาอัปเดตก้าวต่อไปของงานวิจัยสายนี้
.
5. Convergence ของสามพลังที่ทำให้ AI สมัยใหม่เติบโตมาได้ไกลถึงทุกวันนี้คือ
.
- Algorithms เช่น Neural Networks
- Computing Power เช่น GPUs
- และ Big Data เช่น ImageNet ที่มีรูปภาพมากกว่า 15 ล้านรูปไว้สอน AI
.
6. ความสามารถของ AI เก่งขึ้นแบบก้าวกระโดด State-of-The-Art Model ในสาย Vision ทำนายรูปภาพได้แม่นยำขึ้นทุกปี
.
Model Accuracy ของ ImageNet โตขึ้นจาก 50% เป็น 90%+ ภายในเวลาแค่สิบปี
.
7. Vision AI ตอนนี้เริ่มทำอะไรหลายๆอย่างได้เหมือนมนุษย์ตั้งแต่การทำ Segmentation, เขียนอธิบายรูปภาพ และการสร้างรูปจาก Text Prompt
.
เรื่องที่พวกเราคิดว่าเป็นไปไม่ได้เมื่อสิบปีก่อน ทุกวันนี้ AI ทำได้หมดเลย อ้าว 555+
.
Generative AI อย่าง Midjourney, DALL-E, Imagen และล่าสุด Sora ยกระดับ Vision ไปอีกระดับหนึ่งเลย
.
// อ. Fei-Fei บอกว่านักเรียนเค้าสร้าง Gen AI สำหรับสร้างวีดีโอได้ก่อนหน้า Sora หลายเดือนชื่อ "WALT" โดยไม่ต้องใช้ GPU แรงๆก็ได้
.
8. ทุกวันนี้แค่มองเห็น "Seeing" ไม่เพียงพอแล้ว ก้าวต่อไป AI ต้องมองเห็น เข้าใจ และลงมือทำได้ "Doing & Learning"
.
มนุษย์เรียนรู้สิ่งต่างๆผ่านการมองเห็นในโลกจริงแบบสามมิติ Space & Time และเข้าใจทุกอย่างที่เกิดขึ้นได้
.
ผ่านสิ่งที่เรียกว่า "Spatial Intelligence" ผสมผสานการรับรู้และการลงมือทำ (Perception + Action) เรียนรู้สิ่งแวดล้อม เพื่อทำงานที่ซับซ้อน
.
"The urge to act is innate to all beings with spatial intelligence, which links perception with action."
.
9. Spatial Intelligence คือความสามารถในการโมเดลความสัมพันธ์ของวัตถุต่างๆในโลก รวมถึงสถานที่ และเหตุการณ์ ณ ขณะนั้นๆที่ดวงตาเรามองเห็นอยู่
.
อ. Fei-Fei โชว์รูปแมวบนสไลด์ เดินเตะแก้วน้ำกำลังจะตกจากโต๊ะ และถามผู้ฟังว่า "ทุกคนเห็นรูปแล้วนี้แล้วอยากจะทำอะไรใช่ไหม?" (อยากจะจับแก้วที่กำลังจะตกแตก)
.
กว่าที่มนุษย์จะมีความสามารถด้าน Spatial ที่เราทำได้ง่ายๆแบบนี้ ผ่านวิวัฒนาการมาเป็นล้านๆปี อ. บอกว่าจะสอนสิ่งนี้ให้คอมพิวเตอร์เข้าใจ ไม่ใช่เรื่องง่าย
.
แต่ก็ไม่ได้แปลว่า "จะทำไม่ได้" ขนลู๊กกกอีกแล้ว 555+
.
10. เหตุผลที่เราต้องใส่ "เวลา" ในโมเดล Spatial ด้วย เพราะมนุษย์มีความสามารถในการ "ทำนาย" สิ่งที่จะเกิดขึ้นต่อไปได้ แค่วิเคราะห์สิ่งที่เห็นตรงหน้าภายในเสี้ยววินาที
.
// นอกเรื่อง ถ้าเป็นในโลกฟิสิกส์ Einstein บอกว่า Time คือ 4th Dimension เดินทางเป็นเส้นโค้ง จะ Geek ไปแล้ว ยั๊งงง 555+
.
11. ทีมวิจัยของ อ. Fei-Fei ศึกษาและพัฒนาต่อยอดงานวิจัยจาก ImageNet ทุกวันนี้เราสามารถเขียน Prompt เพื่อสร้าง 3D Objects ได้แล้ว
.
12. ไม่ใช่แค่ 3D Objects แต่สร้างได้ทั้งโลก เอาเรื่อง Vision AI เริ่มเรียนรู้ที่จะสร้าง "โลกทั้งใบ" ได้จากรูปถ่ายแค่ใบเดียว (อ. Fei-Fei เปิด Demo ให้ดูในทอล์ค อย่างโหด 555+)
.
// นั่งดูแล้วก็นึกถึง Metaverse ต่อไปอาจจะกลับมาบูมก็ได้ เพราะ AI ตอนนี้เก่งกว่าตอนนั้นเยอะมาก ผ่านมาแค่สองปีเอง ยั๊งงง 555+ 🤣
.
// ลองนึกภาพเกมที่อยากจะจำลองเมือง New York ทั้งเมือง อาจทำได้ง่ายๆแค่เขียน Prompt "สร้างเมืองนิวยอร์กแบบสามมิติ"
.
13. โปรเจ็ค "Behavior" ของ อ. Fei-Fei พยายามสอน AI ให้เข้าใจโลกนี้ผ่าน Simulation ในโลก 3D ที่ให้หุ่นยนต์ทำงานต่างๆที่มนุษย์ทำในชีวิตประจำวัน
.
อย่างที่ อ. บอกไว้ว่า แค่มองเห็นไม่พอแล้ว ต้องเห็น เข้าใจ และลงมือทำงานนั้นๆได้เหมือนมนุษย์ กราบบบ
.
14. งานวิจัยล่าสุดของ อ. ใช้แค่เสียงควบคุมแขนหุ่นยนต์ได้เลย
.
แต่ที่พีคสุดคือการใช้คลื่นสมอง "Brain Waves" ในการสั่งงานหุ่นยนต์ได้แล้ว ไม่ต้องพูด ไม่ต้องเอ่ยคำสั่งใดๆ ใช้พลังสมองล้วนๆ โหดมาก (มี Demo ในคลิป)
.
ใส่หมวก EEG ส่งคลื่นสมองไปที่หุ่นยนต์ หน้า Magneto ใน X-Men ลอยมา นี่มันยิ่งกว่า Comic 555+
.
15. อ. Fei-Fei ปิดท้ายว่าวิธีการเดียวที่จะปลดล็อคพลังขั้นสูงสุดของ AI ต้องทำให้มันเห็น เข้าใจ และทำได้เหมือนพวกเรา
.
ใส่พลัง Spatial Intelligence เข้าไปที่คอมพิวเตอร์และหุ่นยนต์ เหมือนที่ธรรมชาติสร้างสรรค์มนุษย์ขึ้นมา ผ่านวิวัฒนาการล้านปี
.
กำเนิดเป็นศาสตร์ใหม่ "Embodied AI" หรือ EAI ที่สร้างเครื่องจักรให้มีความเป็นมนุษย์มากขึ้น จากแค่มองเห็น เป็นลงมือทำ ขนลู๊กรอบที่สาม 555+
.
✅ ดูทอล์คนี้ของ อ. Fei-Fei Li แบบเต็มๆ 15:11 นาทีได้ที่
https://www.youtube.com/watch?v=y8NtMZ7VGmU
.
ทอล์คนี้เปิดโลกเลย อัปเดตอนาคตของ AI จบในโพสต์เดียว ขอบคุณ อ. Fei-Fei Li มากๆคร้าบ ดูจบ รอยหยักในสมองเพิ่มขึ้นหลายเส้นเลย กราบ 555+
.
EAI: From Seeing to Doing, with Spatial Intelligence.


No comments: