Text-To-3D ใหม่ของ Nvidia หมายถึงอะไรสำหรับวิศวกรรมและการออกแบบผลิตภัณฑ์

TL; DR: เจเนอเรทีฟ AI กำลังพัฒนาอย่างก้าวกระโดด อัลกอริทึมล่าสุดของ Nvidia แปลงข้อความเป็น 3D mesh เร็วเป็น 2 เท่าของโปรเจกต์ที่เผยแพร่เมื่อ XNUMX เดือนที่แล้ว ซึ่งหมายความว่าขณะนี้ความสามารถทางเทคนิคเกินความสามารถของเราที่จะทำงานร่วมกับพวกเขาแล้ว

สัปดาห์ที่แล้ว กระดาษ โดยนักวิทยาศาสตร์ของ Nvidia แสดงให้เห็นถึงความเร็วแบบทวีคูณที่พื้นที่กำเนิด AI กำลังพัฒนา การระเบิดของกิจกรรมนี้ – โดยเฉพาะอย่างยิ่งในช่วง 9 เดือนที่ผ่านมา – จะส่งผลกระทบต่อทุกส่วนของชีวิต ไม่น้อยไปกว่าการออกแบบผลิตภัณฑ์ วิศวกรรม และการผลิต การเปลี่ยนแปลงจะช่วยปลดโซ่ตรวนของอุตสาหกรรมจากข้อจำกัดเชิงโครงสร้างในวิธีการสื่อสารความคิด เพิ่มพลังให้กับวงจรนวัตกรรมที่เร็วขึ้น และท้ายที่สุดจะทำให้สามารถส่งมอบคำมั่นสัญญาด้านความยั่งยืนได้

ตัวอย่าง Meshes จากอัลกอริทึม Magic 3D ของ Nvidia Research พร้อมข้อความแจ้งที่ใช้ในการสร้าง

การวิจัยจินตนาการเชิงลึกของ Nvidia

ได้รับการบอกกล่าวมานานหลายปีว่า AI จะปฏิวัติวิธีการทำงานของเราโดยพื้นฐาน น้อยคนนักที่คาดว่าภาคส่วนสร้างสรรค์จะตกเป็นเหยื่อรายแรกๆ การกำเนิดของเครื่องมือสร้างข้อความที่เหมือนมนุษย์ของ GPT-3 ในปี 2020 ทำให้ความเป็นไปได้มีความคมชัดมากขึ้น ตั้งแต่นั้นเป็นต้นมา DALL-E (ข้อความเป็นรูปภาพ), Whisper (การรู้จำเสียงพูด) และล่าสุด Stable Diffusion (ข้อความเป็นรูปภาพ) ไม่เพียงเพิ่มความสามารถของเครื่องมือ AI คำพูดและภาพเท่านั้น แต่ยังเพิ่มความสามารถอีกด้วย ลดทรัพยากรที่ต้องใช้ (จาก 175 พันล้านพารามิเตอร์สำหรับ GPT-3 เป็น 900 ล้านสำหรับการแพร่กระจายที่เสถียร)

ขนาดของ Stable Diffusion หมายถึงพื้นที่ดิสก์น้อยกว่า 5GB – สามารถทำงานบนแล็ปท็อปเครื่องใดก็ได้ ไม่เพียงแค่นั้น; ซึ่งแตกต่างจาก OpenAI (ซึ่งส่วนใหญ่ได้รับทุนสนับสนุนจาก Microsoft และเผยแพร่ GPT-3, DALL-E และ Whisper) Stable Diffusion เป็นโอเพ่นซอร์ส ซึ่งหมายความว่าผู้อื่นสามารถสร้างจากการเรียนรู้ของมันได้ง่ายกว่ามาก นั่นหมายความว่าเราเพิ่งเห็นจุดเริ่มต้นของวัฏจักรแห่งนวัตกรรมเท่านั้น – มีอะไรอีกมากที่จะตามมาดังที่เอกสารของ Nvidia แสดงให้เห็นแล้ว

ผู้สนับสนุนของ Stable Diffusion (stability.ai) กำลังเร่งขับเคลื่อนเทรนด์นี้ด้วยการให้ทุนทางเทคโนโลยีและการเงินแก่ทีมอื่นๆ เพื่อทำการสำรวจไปสู่ทิศทางใหม่ๆ นอกจากนี้ โครงการมากมายกำลังทำให้เครื่องมือพร้อมใช้งานสำหรับผู้ใช้ที่หลากหลายยิ่งขึ้น หนึ่งในนั้นคือปลั๊กอินสำหรับ Blender ซึ่งเป็นเครื่องมือออกแบบโอเพ่นซอร์ส และเทียบเท่ากับ Photoshop ที่เป็นกรรมสิทธิ์ของ Adobe การเข้าถึงเครื่องมือ API อย่างเต็มรูปแบบได้รับการสนับสนุนด้วยเงินจาก Venture Capital ก้อนใหญ่ ซึ่งหมายความว่านักพัฒนาซอฟต์แวร์หลายร้อยล้านคน ไม่ใช่แค่วิศวกรข้อมูลไม่กี่แสนคน จะสร้างเครื่องมือของตนเองบนอัลกอริทึมเหล่านี้

เสียงพูด รูปภาพ และข้อความเป็นประเภทแรกที่ถูกรบกวนโดยเทคโนโลยีเหล่านี้ แต่ 3D ยังตามหลังอยู่ไม่ไกล นอกเหนือจากศิลปะสร้างสรรค์เฉพาะกลุ่มแล้ว การ์ตูนยังเป็นจุดแรกที่เห็นได้ชัดในการนำไปใช้ มีตัวสร้างโปเกมอนที่อ้างอิงจากการกระจายแบบเสถียรอยู่แล้ว วิชวลเอฟเฟ็กต์และภาพยนตร์อยู่ถัดไป แต่ภาคส่วนอื่น ๆ มีแนวโน้มที่จะหยุดชะงัก – ในบรรดาการออกแบบตกแต่งภายในที่มี Interiorai.com เป็นผู้นำ

ในความตื่นเต้นทั้งหมดนี้ การนำนวัตกรรมมาใช้กับการออกแบบและวิศวกรรมถือเป็นเรื่องที่ต้องคิดในภายหลัง แต่ก็มีแนวโน้มที่จะเป็นพื้นที่ที่ได้รับผลกระทบมากที่สุด แน่นอนว่ามีความท้าทายเริ่มต้น ประการหนึ่ง การแพร่กระจายที่เสถียรและเพื่อนร่วมชาติยังไม่แม่นยำมากนัก นั่นไม่ใช่ปัญหาสำหรับการ์ตูน แต่เป็นความท้าทายที่สำคัญสำหรับความพยายามใด ๆ ในการแปลงข้อความเป็นรูปทรงเรขาคณิต 3 มิติเต็มรูปแบบที่ใช้ในบริบทอุตสาหกรรม นั่นคือพื้นที่ที่ได้รับความสนใจ (โครงการชื่อ Bits101 เปิดตัวในอิสราเอลในปี 2015) นี่อาจเป็นจอกศักดิ์สิทธิ์ของอุตสาหกรรม แต่มีความท้าทายระดับกลางมากมายที่อาจแก้ไขได้ง่ายกว่ามาก สิ่งเหล่านี้รวมถึงการจดจำวัตถุที่ได้รับการปรับปรุง (อัลกอริทึม Yolo ถูกนำมาใช้แล้วเพื่อให้ได้ผลลัพธ์ที่ยอดเยี่ยม) ซึ่งจะนำไปสู่การปรับปรุงคำพูดและคำอธิบายประกอบ – ปรับปรุงคุณภาพและลดข้อผิดพลาด ปลั๊กอินควรช่วยให้ใช้ Generative AI เพื่อพัฒนาการออกแบบพื้นฐาน (Primitives) ได้ง่ายขึ้น ซึ่งสามารถแก้ไขเพิ่มเติมในเครื่องมือออกแบบเพื่อปรับปรุงความคลาดเคลื่อนตามความต้องการ นั่นเป็นแนวทางที่ใช้แล้วใน Inspire ของ Altair ซึ่งใช้การวิเคราะห์องค์ประกอบจำกัดเพื่อทำเช่นเดียวกัน Primitives เหล่านี้ยังสามารถทำหน้าที่เป็นฐานข้อมูลสังเคราะห์ของโมเดลที่มีคำอธิบายประกอบ ซึ่งเป็นสิ่งที่ขาดหายไปในอุตสาหกรรม 3D CAD ซีอีโอและผู้ก่อตั้ง Physna ชี้ให้เห็นในบทความ ให้รายละเอียดเกี่ยวกับความพยายามของพวกเขาเองในการใช้วิธีการใหม่ๆ เหล่านี้เพื่อสร้างการออกแบบ 3 มิติที่มีรายละเอียด ซึ่งยังเน้นย้ำถึงข้อผิดพลาดหลายประการในการใช้ข้อมูลสังเคราะห์เพื่อขับเคลื่อนอัลกอริทึมเหล่านี้ การสร้างการออกแบบ 3 มิติจากภาพวาด 2 มิติเป็นอีกหนึ่งแอปพลิเคชันที่มีศักยภาพ เช่นเดียวกับ CAM อัจฉริยะ – ป้อน ไลบรารีการสึกหรอของเครื่องมือเพื่อกำหนดกลยุทธ์การตัดเฉือนที่ดีที่สุด

ความท้าทายเหล่านี้มีความสำคัญและให้ผลตอบแทนสูงในการแก้ไขและเพื่อตัวมันเอง ผลกระทบหลักของพวกเขาคือการช่วยพัฒนาเส้นทางความคิดสู่การออกแบบโดยลดการพึ่งพาการออกแบบ 3 มิติในการสื่อสารความตั้งใจในที่สุด การออกแบบไม่ว่าจะเป็น 2D หรือ 3D ได้ทำหน้าที่เป็นวิธีการหลักในการแปลความต้องการของลูกค้าให้เป็นผลิตภัณฑ์ขั้นสุดท้าย ซึ่งเป็นข้อจำกัดของอุตสาหกรรมเนื่องจากการออกแบบเหล่านี้ทำหน้าที่เป็นกล่องดำซึ่งเก็บข้อมูลเชิงลึกของลูกค้าที่มีค่า ข้อจำกัดในการผลิต และวัตถุประสงค์ของบริษัททั้งหมดไว้ ซึ่งไม่สามารถแยกออกได้ ซึ่งหมายความว่าเมื่อมีการเปลี่ยนแปลงบางอย่าง แทบจะเป็นไปไม่ได้เลยที่จะปรับการออกแบบ นี่คือเหตุผลที่นวัตกรรมการผลิตเช่นการพิมพ์ 3 มิติใช้เวลานานมากในการนำมาใช้และทำให้นักลงทุนระยะสั้นผิดหวังอย่างต่อเนื่อง ส่วนประกอบต่างๆ ที่ประกอบกันเป็นเครื่องบินนั้น "ถูกตั้งค่า" ตั้งแต่วินาทีที่ได้รับการออกแบบ แม้ว่าจะมีอายุการใช้งานยาวนานกว่า 20 ปีก็ตาม แทบไม่มีขอบเขตของนวัตกรรม - สิ่งเหล่านี้ต้องรอการเปิดตัวรุ่นต่อไป

ความสามารถในการเปลี่ยนข้อจำกัดเดียวและอนุญาตให้อัลกอริทึม เช่น Stable Diffusion สร้างพารามิเตอร์การออกแบบและการผลิตใหม่ จะช่วยเร่งการนำนวัตกรรมใหม่ๆ มาใช้อย่างมาก และช่วยให้เราสร้างผลิตภัณฑ์ที่เบาลงและมีประสิทธิภาพดีขึ้นได้เร็วขึ้น เช่นเดียวกับที่พวกเขาทำใน Formula 1 หรือการออกแบบระบบ วิศวกรในอนาคตจะทำหน้าที่เป็นผู้จัดการข้อจำกัดที่สามารถแสดงออกด้วยคำพูดและอ้างอิงถึงแหล่งข้อมูลว่าวัตถุประสงค์และข้อจำกัดของผลิตภัณฑ์คืออะไร

หากไม่เร่งกระบวนการทางวิศวกรรมสำหรับผลิตภัณฑ์ใหม่และผลิตภัณฑ์ที่มีอยู่ด้วยวิธีนี้ เราก็แทบไม่มีหนทางที่จะบรรลุเป้าหมายความยั่งยืนที่ทะเยอทะยานซึ่งเราต้องตั้งขึ้นเอง ในการทำเช่นนี้ ก่อนอื่นเราต้องตกลงเกี่ยวกับภาษาที่เราสามารถใช้สื่อสารนอกเหนือจากการออกแบบ โมเดลความหมายใหม่นี้เป็นช่องว่างที่ชัดเจนในนวัตกรรมที่สรุปไว้ข้างต้น หลายบริษัทได้เริ่มทดลองใช้แล้ว เช่น nโทโพโลยีกับแนวคิดของฟิลด์. ถึงกระนั้น การเปลี่ยนแปลงนั้นช้า ซึ่งแตกต่างจากอัลกอริทึมที่โมเดลความหมายจะป้อน มีรายงานว่าอัลกอริทึมใหม่ของ Nvidia เร็วกว่าสองเท่า ดรีมฟิวชั่นเผยแพร่น้อยกว่า 2 เดือนที่ผ่านมา บริษัทด้านผลิตภัณฑ์และวิศวกรรมจำเป็นต้องดำเนินการเพื่อรวบรวมแนวคิดของตนในรูปแบบใหม่และรองรับอนาคตในขณะนี้ เพื่อที่จะใช้ประโยชน์สูงสุดจากความเป็นไปได้ที่การระเบิดของ AI กำเนิดนี้มีอยู่ ความเร็วของการเปลี่ยนแปลงในอัลกอริทึมได้แสดงให้เห็นอีกครั้งว่ากฎหมายมอร์สมีผลบังคับใช้ในทุกที่ที่เครื่องมือถูกแปลงเป็นดิจิทัล ความท้าทายยังคงอยู่ที่มนุษย์เราไม่สามารถยอมรับการเปลี่ยนแปลงนี้และปรับใช้วิธีการสื่อสารใหม่ที่สามารถปลดล็อกศักยภาพได้ แม้ว่างานนั้นจะเร่งด่วนก็ตาม

ที่มา: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/