วันโลกาวินาศทางกฎหมายสำหรับ AI ChatGPT เจนเนอเรชั่น หากถูกจับได้ว่าลอกเลียนหรือละเมิด ให้เตือนจริยธรรม AI และกฎหมาย AI

ให้เครดิตเมื่อถึงกำหนดชำระเครดิต

นั่นเป็นคำปราชญ์เล็กน้อยที่คุณอาจถูกเลี้ยงดูมาให้เชื่ออย่างแน่วแน่ อันที่จริง ใครๆ ก็คิดหรือจินตนาการว่าเราทุกคนอาจเห็นพ้องต้องกันพอสมควรว่านี่เป็นกฎง่ายๆ ที่ยุติธรรมและสมเหตุสมผลในชีวิต เมื่อมีคนทำบางสิ่งที่ควรค่าแก่การได้รับการยอมรับ ให้แน่ใจว่าพวกเขาได้รับการชื่นชมที่สมควรได้รับ

มุมมองที่แตกต่างจะดูน่าสนใจน้อยกว่ามาก

หากมีคนเดินไปมายืนยันว่าควรให้เครดิต ไม่ ได้รับการยอมรับเมื่อครบกำหนดเครดิต คุณอาจยืนยันว่าความเชื่อดังกล่าวไม่สุภาพและอาจมีเล่ห์เหลี่ยม เรามักพบว่าตัวเองกระวนกระวายใจเมื่อเครดิตถูกโกงจากคนที่ทำสิ่งที่โดดเด่นได้สำเร็จ ฉันกล้าพูดได้เลยว่าเราไม่ชอบใจเป็นพิเศษเมื่อคนอื่นเอาเครดิตงานของคนอื่นไปใช้อย่างผิดๆ นั่นเป็นคำสาปแช่งสองครั้งที่ไม่สงบ บุคคลที่ควรได้รับเครดิตถูกปฏิเสธช่วงเวลาของพวกเขาในดวงอาทิตย์ นอกจากนี้ นักต้มตุ๋นยังเพลิดเพลินกับความสนใจแม้ว่าพวกเขาจะหลอกเราอย่างผิดๆ ให้แย่งชิงความรักที่ดีของเราไปใช้ในทางที่ผิด

เหตุใดวาทกรรมทั้งหมดนี้เกี่ยวกับการสะสมเครดิตด้วยวิธีที่ถูกต้องที่สุดและการหลีกเลี่ยงวิธีที่ผิดและดูหมิ่น

เพราะดูเหมือนว่าเรากำลังเผชิญกับสถานการณ์ที่คล้ายคลึงกันเมื่อพูดถึงปัญญาประดิษฐ์ (AI) ล่าสุด

ใช่ อ้างว่าสิ่งนี้เกิดขึ้นอย่างพิสูจน์ได้ผ่าน AI ประเภทหนึ่งที่เรียกว่า กำเนิด AI. มีข้อผิดพลาดมากมายที่ Generative AI ซึ่งเป็น AI ที่ร้อนแรงที่สุดในข่าวทุกวันนี้ ได้รับเครดิตในสิ่งที่มันไม่สมควรได้รับเครดิตแล้ว และมีแนวโน้มที่จะเลวร้ายลงเมื่อ AI กำเนิดได้รับการขยายและใช้งานมากขึ้นเรื่อยๆ เครดิตที่เพิ่มพูนให้กับ AI เจนเนอเรทีฟมากขึ้นเรื่อยๆ ในขณะที่น่าเศร้าที่ผู้ที่สมควรได้รับเครดิตที่แท้จริงกลับถูกทิ้งให้จมอยู่ในฝุ่น

วิธีที่ฉันเสนอเพื่อระบุปรากฏการณ์ที่อ้างว่านี้อย่างชัดเจนคือผ่านบทกลอนที่โก๋ ๆ สองคำ:

  • 1) การขโมยความคิดในวงกว้าง
  • 2) การละเมิดลิขสิทธิ์ในวงกว้าง

ฉันคิดว่าคุณอาจรู้จัก AI กำเนิด เนื่องจากแอป AI ยอดนิยมอย่างแพร่หลายที่รู้จักกันในชื่อ ChatGPT ซึ่งเปิดตัวในเดือนพฤศจิกายนโดย OpenAI ฉันจะพูดเพิ่มเติมเกี่ยวกับ generative AI และ ChatGPT อีกสักครู่ อดทนหน่อย.

เรามาเริ่มกันที่ปมของสิ่งที่ทำให้ผู้คนตกเป็นแพะเหมือนเดิม

บางคนบ่นอย่างหนักว่า AI กำเนิดอาจฉีกมนุษย์ที่สร้างเนื้อหา คุณคงเห็นแล้วว่า แอป AI ที่สร้างสรรค์ส่วนใหญ่เป็นข้อมูลที่ฝึกฝนโดยการตรวจสอบข้อมูลที่พบในอินเทอร์เน็ต จากข้อมูลดังกล่าว อัลกอริทึมสามารถฝึกฝนเครือข่ายการจับคู่รูปแบบภายในที่กว้างใหญ่ภายในแอป AI ซึ่งต่อมาสามารถสร้างเนื้อหาที่ดูเหมือนใหม่ซึ่งดูน่าอัศจรรย์ราวกับว่าประดิษฐ์ขึ้นด้วยมือมนุษย์แทนที่จะเป็นชิ้นส่วนของระบบอัตโนมัติ

ความสามารถที่โดดเด่นนี้มีมากเนื่องจากการใช้เนื้อหาที่สแกนทางอินเทอร์เน็ต หากปราศจากปริมาณและความสมบูรณ์ของเนื้อหาทางอินเทอร์เน็ตเพื่อเป็นแหล่งข้อมูลสำหรับการฝึกอบรมข้อมูล AI เชิงกำเนิดจะค่อนข้างว่างเปล่าและไม่ค่อยสนใจหรือไม่มีเลยสำหรับการใช้งาน ด้วยการให้ AI ตรวจสอบเอกสารและข้อความออนไลน์หลายล้านรายการพร้อมกับเนื้อหาที่เกี่ยวข้องทุกรูปแบบ การจับคู่รูปแบบจะค่อยๆ ได้รับมาเพื่อพยายามเลียนแบบเนื้อหาที่มนุษย์สร้างขึ้น

ยิ่งตรวจสอบเนื้อหามากเท่าไร โอกาสที่การจับคู่รูปแบบจะได้รับการฝึกฝนมากขึ้นและการเลียนแบบก็จะดียิ่งขึ้น อย่างอื่นเท่ากันหมด

นี่คือคำถามหนึ่งล้านดอลลาร์:

  • คำถามใหญ่: หากคุณหรือคนอื่นๆ มีเนื้อหาบนอินเทอร์เน็ตที่แอป generative AI ได้รับการฝึกอบรมมา การทำเช่นนั้นอาจไม่ได้รับอนุญาตโดยตรงจากคุณและอาจโดยที่คุณไม่รู้ตัวเลยด้วยซ้ำ การฝึกอบรมข้อมูล AI กำเนิดนั้น

บางคนแย้งอย่างรุนแรงว่าคำตอบที่ถูกต้องคือ ใช่โดยเฉพาะอย่างยิ่งว่าผู้สร้างเนื้อหาที่เป็นมนุษย์เหล่านั้นสมควรได้รับการกระทำดังกล่าว ประเด็นก็คือ คุณคงจะลำบากใจที่จะหาใครก็ตามที่ได้รับส่วนแบ่งที่ยุติธรรม และแย่กว่านั้น แทบจะไม่มีใครได้รับส่วนแบ่งเลย ผู้สร้างเนื้อหาทางอินเทอร์เน็ตที่มีส่วนร่วมโดยไม่สมัครใจและไม่รู้ตัวจะถูกปฏิเสธเครดิตโดยชอบธรรม

สิ่งนี้อาจมีลักษณะที่เลวร้ายและอุกอาจ เราเพิ่งผ่านการแกะกล่องภูมิปัญญาของนักปราชญ์ว่าควรให้เครดิตเมื่อเครดิตถึงกำหนด ในกรณีของ AI กำเนิด ดูเหมือนจะไม่เป็นเช่นนั้น กฎง่ายๆ ที่มีมายาวนานและมีคุณธรรมเกี่ยวกับสินเชื่อดูเหมือนจะถูกละเมิดอย่างใจแข็ง

โว้ว โต้กลับ คุณกำลังพูดเกินจริงและทำให้สถานการณ์ผิดไปอย่างสิ้นเชิง แน่นอนว่า AI กำเนิดได้ตรวจสอบเนื้อหาบนอินเทอร์เน็ต แน่นอนว่าสิ่งนี้มีประโยชน์อย่างมากในฐานะส่วนหนึ่งของการฝึกอบรมข้อมูลของ AI กำเนิด เป็นที่ยอมรับว่าแอพ AI กำเนิดที่น่าประทับใจในปัจจุบันจะไม่น่าประทับใจหากปราศจากแนวทางที่พิจารณานี้ แต่คุณทำเกินเลยไปเมื่อบอกว่าผู้สร้างเนื้อหาควรได้รับเครดิตที่มีลักษณะเฉพาะ

ตรรกะมีดังนี้ มนุษย์ออกไปใช้อินเทอร์เน็ตและเรียนรู้สิ่งต่างๆ จากอินเทอร์เน็ต ทำเป็นประจำและไม่ยุ่งยาก คนที่อ่านบล็อกเกี่ยวกับการประปาและดูวิดีโอซ่อมท่อประปาที่มีให้ฟรีในวันรุ่งขึ้นอาจออกไปทำงานเป็นช่างประปา พวกเขาจำเป็นต้องส่งเงินส่วนหนึ่งที่เกี่ยวข้องกับระบบประปาให้กับบล็อกเกอร์ที่เขียนเกี่ยวกับวิธีการวางท่อประปาในอ่างล้างจานหรือไม่ พวกเขาจำเป็นต้องจ่ายค่าธรรมเนียมให้กับวิดีโอบล็อกเกอร์ที่ทำวิดีโอแสดงขั้นตอนในการซ่อมแซมอ่างอาบน้ำที่รั่วหรือไม่

แทบไม่มีเลย

การฝึกอบรมข้อมูลของ generative AI เป็นเพียงวิธีในการพัฒนารูปแบบเท่านั้น ตราบใดที่ผลลัพธ์จาก AI กำเนิดไม่ได้เป็นเพียงการสำรอกสิ่งที่ตรวจสอบออกมาอย่างแม่นยำ คุณสามารถโต้แย้งอย่างโน้มน้าวใจได้ว่าพวกเขาได้ "เรียนรู้" ดังนั้นจึงไม่ต้องให้เครดิตใด ๆ แก่แหล่งข้อมูลเฉพาะใด ๆ เว้นแต่คุณจะจับได้ว่า AI กำเนิดกำลังสำรอกออกมาอย่างแม่นยำ แสดงว่า AI นั้นมีลักษณะทั่วไปนอกเหนือจากแหล่งใดแหล่งหนึ่ง

ไม่มีเครดิตเพราะใคร หรืออาจกล่าวได้ว่าเครดิตเป็นของทุกคน ข้อความส่วนรวมและเนื้อหาอื่น ๆ ของมนุษยชาติที่พบในอินเทอร์เน็ตได้รับเครดิต เราทุกคนได้รับเครดิต การพยายามระบุเครดิตไปยังแหล่งใดแหล่งหนึ่งนั้นไร้เหตุผล จงยินดีที่ AI กำลังก้าวหน้าและมนุษยชาติทุกคนจะได้รับประโยชน์ การโพสต์บนอินเทอร์เน็ตเหล่านั้นควรรู้สึกเป็นเกียรติที่ได้มีส่วนร่วมในอนาคตของความก้าวหน้าใน AI และสิ่งนี้จะช่วยมนุษยชาติไปชั่วนิรันดร์ได้อย่างไร

ฉันจะพูดเพิ่มเติมเกี่ยวกับมุมมองที่ตัดกันทั้งสองแบบ

ในขณะเดียวกัน คุณเอนเอียงไปทางค่ายที่ระบุว่าเครดิตมีกำหนดชำระและค้างชำระอย่างล่าช้าสำหรับผู้ที่มีเว็บไซต์บนอินเทอร์เน็ต หรือคุณพบว่าฝ่ายตรงข้ามที่ระบุว่าผู้สร้างเนื้อหาบนอินเทอร์เน็ตนั้นเด็ดขาด ไม่ การโดนหลอกเป็นท่าทางที่สมเหตุผลมากกว่า?

ปริศนาและปริศนาทั้งหมดถูกรวมเข้าด้วยกัน

มาแกะสิ่งนี้กันเถอะ

ในคอลัมน์ของวันนี้ ฉันจะกล่าวถึงความกังวลเหล่านี้ว่า AI กำเนิดนั้นเป็นการลอกเลียนแบบหรืออาจละเมิดลิขสิทธิ์ของเนื้อหาที่โพสต์บนอินเทอร์เน็ต (ถือเป็นสิทธิ์ในทรัพย์สินทางปัญญาหรือปัญหา IP) เราจะดูพื้นฐานสำหรับคุณสมบัติเหล่านี้ ฉันจะอ้างถึง ChatGPT เป็นครั้งคราวในระหว่างการสนทนานี้เนื่องจากเป็นกอริลลาน้ำหนัก 600 ปอนด์ของ AI กำเนิด แต่โปรดจำไว้ว่ามีแอป AI กำเนิดอื่น ๆ มากมายและโดยทั่วไปแล้วจะอิงตามหลักการโดยรวมเดียวกัน

ในขณะเดียวกัน คุณอาจสงสัยว่าแท้จริงแล้ว AI กำเนิดคืออะไร

ก่อนอื่นเรามาพูดถึงพื้นฐานของ AI เชิงกำเนิด จากนั้นเราจะพิจารณาประเด็นเร่งด่วนอย่างใกล้ชิด

ในทั้งหมดนี้มีข้อพิจารณาหลายประการเกี่ยวกับจริยธรรมของ AI และกฎหมาย AI

โปรดทราบว่ามีความพยายามอย่างต่อเนื่องในการนำหลักการด้านจริยธรรมของ AI เข้ามาใช้ในการพัฒนาและเผยแพร่แอป AI ความกังวลที่เพิ่มขึ้นของนักจริยธรรมด้าน AI ที่เกี่ยวข้องและในอดีตกำลังพยายามทำให้แน่ใจว่าความพยายามในการประดิษฐ์และนำ AI มาใช้นั้นคำนึงถึงมุมมองของการทำ AI เพื่อความดี และหลีกเลี่ยง AI สำหรับไม่ดี. ในทำนองเดียวกัน มีการเสนอกฎหมาย AI ฉบับใหม่ซึ่งกำลังถูกรวมเป็นหนึ่งเดียวเพื่อเป็นทางออกที่เป็นไปได้เพื่อป้องกันไม่ให้ความพยายามของ AI ก้าวก่ายการละเมิดสิทธิมนุษยชนและอื่นๆ สำหรับความครอบคลุมอย่างต่อเนื่องและกว้างขวางของฉันเกี่ยวกับจริยธรรม AI และกฎหมาย AI โปรดดู ลิงค์ที่นี่ และ ลิงค์ที่นี่เพียงเพื่อชื่อไม่กี่

การพัฒนาและการประกาศใช้หลักปฏิบัติด้านจริยธรรมของ AI กำลังดำเนินการอยู่เพื่อหวังว่าจะป้องกันไม่ให้สังคมตกหลุมพรางที่ชักนำให้เกิด AI จำนวนนับไม่ถ้วน สำหรับความครอบคลุมของฉันเกี่ยวกับหลักจริยธรรมของ UN AI ที่คิดค้นและสนับสนุนโดยเกือบ 200 ประเทศผ่านความพยายามของ UNESCO ดู ลิงค์ที่นี่. ในทำนองเดียวกัน กฎหมาย AI ใหม่กำลังถูกสำรวจเพื่อพยายามรักษา AI ไว้บนกระดูกงู หนึ่งในเทคล่าสุดประกอบด้วยชุดของข้อเสนอ AI บิลสิทธิ ที่ทำเนียบขาวของสหรัฐฯ เพิ่งเผยแพร่เพื่อระบุสิทธิมนุษยชนในยุคของ AI ดู ลิงค์ที่นี่. ต้องใช้หมู่บ้านหนึ่งแห่งเพื่อให้ AI และนักพัฒนา AI อยู่บนเส้นทางที่ถูกต้อง และยับยั้งความพยายามที่มีจุดมุ่งหมายหรือโดยไม่ได้ตั้งใจที่อาจบ่อนทำลายสังคม

ฉันจะรวมข้อควรพิจารณาที่เกี่ยวข้องกับจริยธรรมของ AI และกฎหมาย AI ไว้ในการสนทนานี้

พื้นฐานของ AI กำเนิด

อินสแตนซ์ของ AI เชิงกำเนิดที่เป็นที่รู้จักอย่างกว้างขวางที่สุดแสดงโดยแอป AI ชื่อ ChatGPT ChatGPT ผุดขึ้นมาในจิตสำนึกสาธารณะในเดือนพฤศจิกายนเมื่อเปิดตัวโดย OpenAI บริษัทวิจัย AI นับตั้งแต่ที่ ChatGPT ได้รวบรวมพาดหัวข่าวขนาดใหญ่และมีชื่อเสียงเกินกว่าสิบห้านาทีที่จัดสรรไว้อย่างน่าประหลาดใจ

ฉันเดาว่าคุณคงเคยได้ยินเกี่ยวกับ ChatGPT หรืออาจจะรู้จักคนที่เคยใช้มันมาก่อน

ChatGPT ถือเป็นแอปพลิเคชัน AI กำเนิด เนื่องจากใช้เป็นการป้อนข้อความจากผู้ใช้และจากนั้น สร้าง หรือสร้างผลลัพธ์ที่ประกอบด้วยเรียงความ AI เป็นตัวสร้างข้อความเป็นข้อความ แม้ว่าฉันจะอธิบายว่า AI เป็นตัวสร้างข้อความเป็นเรียงความ เนื่องจากมันอธิบายได้ง่ายขึ้นว่าโดยทั่วไปจะใช้ทำอะไร คุณสามารถใช้ generative AI เพื่อเขียนเรียงความยาว ๆ หรือคุณสามารถทำให้มันแสดงความคิดเห็นสั้น ๆ ที่มีเหตุผลได้ อยู่ที่การเสนอราคาของคุณ

สิ่งที่คุณต้องทำคือป้อนข้อความแจ้ง แล้วแอป AI จะสร้างเรียงความที่พยายามตอบกลับข้อความแจ้งให้คุณ ข้อความที่แต่งจะดูราวกับว่าเรียงความเขียนขึ้นด้วยมือและจิตใจของมนุษย์ หากคุณต้องป้อนข้อความแจ้งที่ระบุว่า "บอกฉันเกี่ยวกับอับราฮัม ลินคอล์น" AI กำเนิดจะให้เรียงความเกี่ยวกับลินคอล์นแก่คุณ มีโหมดอื่นๆ ของ AI กำเนิด เช่น text-to-art และ text-to-video ฉันจะเน้นที่นี่ในรูปแบบข้อความเป็นข้อความ

ความคิดแรกของคุณอาจเป็นความสามารถในการสร้างสรรค์นี้ดูเหมือนจะไม่ใช่เรื่องใหญ่ในแง่ของการผลิตเรียงความ คุณสามารถค้นหาออนไลน์บนอินเทอร์เน็ตได้อย่างง่ายดายและค้นหาบทความมากมายเกี่ยวกับประธานาธิบดีลินคอล์นได้อย่างง่ายดาย จุดเด่นในกรณีของ AI เชิงกำเนิดคือเรียงความที่สร้างขึ้นนั้นค่อนข้างมีเอกลักษณ์เฉพาะตัวและให้องค์ประกอบดั้งเดิมมากกว่าของลอกเลียนแบบ หากคุณพยายามค้นหาเรียงความที่ผลิตโดย AI ทางออนไลน์สักแห่ง คุณจะไม่มีทางค้นพบมันได้

Generative AI ได้รับการฝึกอบรมล่วงหน้าและใช้ประโยชน์จากสูตรทางคณิตศาสตร์และการคำนวณที่ซับซ้อนซึ่งตั้งค่าไว้โดยการตรวจสอบรูปแบบในคำที่เขียนและเรื่องราวทั่วทั้งเว็บ ผลจากการตรวจสอบบทความที่เป็นลายลักษณ์อักษรนับพันนับล้านฉบับ AI สามารถพ่นเรียงความและเรื่องราวใหม่ๆ ที่ผิดเพี้ยนไปจากสิ่งที่พบได้ ด้วยการเพิ่มฟังก์ชันความน่าจะเป็นที่หลากหลาย ข้อความที่ได้จึงค่อนข้างไม่ซ้ำใครเมื่อเปรียบเทียบกับที่ใช้ในชุดการฝึก

มีความกังวลมากมายเกี่ยวกับ AI กำเนิด

ข้อเสียที่สำคัญประการหนึ่งคือเรียงความที่ผลิตโดยแอป AI เชิงกำเนิดสามารถมีความเท็จต่างๆ ฝังอยู่ รวมถึงข้อเท็จจริงที่ไม่เป็นความจริงอย่างชัดแจ้ง ข้อเท็จจริงที่แสดงให้เข้าใจผิด และข้อเท็จจริงที่ชัดเจนซึ่งประดิษฐ์ขึ้นทั้งหมด ลักษณะที่ประดิษฐ์ขึ้นเหล่านั้นมักเรียกว่ารูปแบบของ ภาพหลอน AIคำพูดติดปากที่ฉันไม่ชอบ แต่น่าเสียดายที่ดูเหมือนว่าจะได้รับความนิยมอย่างมากอยู่ดี (สำหรับคำอธิบายโดยละเอียดของฉันเกี่ยวกับสาเหตุที่คำศัพท์นี้ใช้ไม่ได้ศัพท์และไม่เหมาะสม โปรดดูความครอบคลุมของฉันที่ ลิงค์ที่นี่).

ข้อกังวลอีกประการหนึ่งคือมนุษย์สามารถรับเครดิตสำหรับเรียงความที่สร้างโดย AI ได้อย่างง่ายดาย แม้ว่าจะไม่ได้แต่งเรียงความเองก็ตาม คุณอาจเคยได้ยินว่าครูและโรงเรียนค่อนข้างกังวลเกี่ยวกับการเกิดขึ้นของแอป AI กำเนิด นักเรียนสามารถใช้ generative AI เพื่อเขียนเรียงความที่ได้รับมอบหมาย หากนักเรียนอ้างว่าเรียงความเขียนด้วยมือของพวกเขาเอง มีโอกาสเพียงเล็กน้อยที่ครูจะสามารถแยกแยะได้ว่าเนื้อหานั้นถูกปลอมแปลงโดย AI กำเนิดหรือไม่ สำหรับการวิเคราะห์ของฉันเกี่ยวกับแง่มุมที่สับสนระหว่างนักเรียนและครู ดูความครอบคลุมของฉันได้ที่ ลิงค์ที่นี่ และ ลิงค์ที่นี่.

มีการอ้างสิทธิ์เกินจริงบางอย่างบนโซเชียลมีเดียเกี่ยวกับ กำเนิด AI ยืนยันว่าเป็น AI เวอร์ชันล่าสุดนี้จริง ความรู้สึก AI (ไม่ พวกเขาผิด!) ผู้ที่อยู่ในจริยธรรมของ AI และกฎหมาย AI รู้สึกกังวลอย่างยิ่งเกี่ยวกับแนวโน้มที่เพิ่มขึ้นของการเรียกร้องที่ขยายออกไป คุณอาจพูดอย่างสุภาพว่าบางคนพูดเกินจริงว่า AI ในปัจจุบันสามารถทำอะไรได้บ้าง พวกเขาถือว่า AI มีความสามารถที่เรายังไม่สามารถบรรลุได้ น่าเสียดาย ยิ่งไปกว่านั้น พวกเขาสามารถปล่อยให้ตัวเองและคนอื่นๆ ตกอยู่ในสถานการณ์เลวร้ายได้เนื่องจากข้อสันนิษฐานที่ว่า AI จะมีความรู้สึกหรือเหมือนมนุษย์ในการดำเนินการ

อย่าเปลี่ยนมนุษย์เป็น AI

การทำเช่นนี้จะทำให้คุณติดกับดักเหนียวแน่นและพึ่งพาไม่ได้ในการคาดหวังให้ AI ทำสิ่งที่ไม่สามารถทำได้ จากที่กล่าวมา AI เจนเนอเรทีฟล่าสุดค่อนข้างน่าประทับใจสำหรับสิ่งที่ทำได้ โปรดทราบว่ามีข้อจำกัดสำคัญที่คุณควรคำนึงถึงอย่างต่อเนื่องเมื่อใช้แอป AI กำเนิด

คำเตือนครั้งสุดท้ายสำหรับตอนนี้

สิ่งที่คุณเห็นหรืออ่านในการตอบสนอง AI กำเนิดนั้น ดูเหมือนว่า เพื่อถ่ายทอดเป็นข้อเท็จจริงเท่านั้น (วันที่ สถานที่ ผู้คน ฯลฯ) อย่าลืมสงสัยและเต็มใจที่จะตรวจสอบสิ่งที่คุณเห็นอีกครั้ง

ใช่ วันที่สามารถปรุงได้ สถานที่สามารถประกอบขึ้นได้ และองค์ประกอบที่เรามักจะคาดหวังให้เหนือกว่าคำตำหนิก็คือ ทั้งหมด อยู่ภายใต้ความสงสัย อย่าเชื่อสิ่งที่คุณอ่านและตั้งตาสงสัยเมื่อตรวจสอบเรียงความหรือผลลัพธ์ที่เกิดจาก AI หากแอป AI กำเนิดบอกคุณว่าอับราฮัม ลินคอล์นบินไปทั่วประเทศด้วยเครื่องบินเจ็ตส่วนตัว คุณจะรู้ได้อย่างไม่ต้องสงสัยว่านี่คือโรคร้าย น่าเสียดายที่บางคนอาจไม่รู้ว่าเครื่องบินไอพ่นไม่ได้มีอยู่ในยุคของเขา หรือพวกเขาอาจรู้แต่ไม่ได้สังเกตว่าเรียงความนี้เป็นการกล่าวอ้างที่ไร้เหตุผลและอุกอาจ

ความสงสัยอย่างแรงกล้าและความคิดที่ไม่เชื่ออย่างต่อเนื่องจะเป็นทรัพย์สินที่ดีที่สุดของคุณเมื่อใช้ AI เชิงสร้างสรรค์

เราพร้อมที่จะเข้าสู่ขั้นตอนต่อไปของการอธิบายนี้

อินเทอร์เน็ตและ AI กำเนิดอยู่ในสิ่งนี้ด้วยกัน

ตอนนี้คุณมีความคล้ายคลึงกันว่า AI เชิงกำเนิดคืออะไร เราสามารถสำรวจคำถามที่น่ารำคาญที่ว่า AI เชิงกำเนิดนั้นเป็น "การใช้ประโยชน์" อย่างยุติธรรมหรือไม่ยุติธรรม หรือบางคนอาจพูดว่า โจ๋งครึ่ม การใช้ประโยชน์จาก เนื้อหาอินเทอร์เน็ต

ต่อไปนี้เป็นสี่หัวข้อสำคัญของฉันที่เกี่ยวข้องกับเรื่องนี้:

  • 1) ปัญหาสองเท่า: การลอกเลียนแบบและการละเมิดลิขสิทธิ์
  • 2) กำลังพยายามพิสูจน์การลอกเลียนแบบหรือการละเมิดลิขสิทธิ์
  • 3) การทำคดีสำหรับการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์
  • 4) ทุ่นระเบิดที่ถูกกฎหมายรออยู่

ฉันจะครอบคลุมแต่ละหัวข้อที่สำคัญเหล่านี้และเสนอข้อควรพิจารณาอย่างลึกซึ้งที่เราทุกคนควรไตร่ตรองให้ดี แต่ละหัวข้อเหล่านี้เป็นส่วนสำคัญของปริศนาที่ใหญ่กว่า คุณไม่สามารถดูเพียงชิ้นเดียว คุณไม่สามารถมองชิ้นส่วนใดชิ้นหนึ่งแยกออกจากชิ้นอื่นๆ ได้

นี่เป็นภาพโมเสคที่ซับซ้อนและปริศนาทั้งหมดจะต้องได้รับการพิจารณาอย่างกลมกลืนอย่างเหมาะสม

ปัญหาสองเท่า: การลอกเลียนแบบและการละเมิดลิขสิทธิ์

ปัญหาสองเท่าที่ต้องเผชิญกับผู้สร้างและภาคสนาม AI กำเนิดคือสินค้าของพวกเขาอาจทำสิ่งเลวร้ายสองประการ:

  • 1) การลอกเลียนแบบ AI กำเนิดสามารถตีความได้ว่าเป็น plagiarizing เนื้อหาที่มีอยู่บนอินเทอร์เน็ตตามการสแกนอินเทอร์เน็ตที่เกิดขึ้นระหว่างการฝึกอบรมข้อมูลของ AI
  • 2) การละเมิดลิขสิทธิ์ AI กำเนิดสามารถอ้างว่าเป็นการดำเนินการ การละเมิดลิขสิทธิ์ ที่เกี่ยวข้องกับเนื้อหาอินเทอร์เน็ตที่ถูกสแกนระหว่างการฝึกอบรมข้อมูล

เพื่อให้ชัดเจนขึ้น มีเนื้อหาบนอินเทอร์เน็ตมากกว่าที่สแกนโดยทั่วไปสำหรับการฝึกอบรมข้อมูลของ generative AI โดยปกติจะใช้อินเทอร์เน็ตเพียงเล็กน้อยเท่านั้น ดังนั้นเราจึงสันนิษฐานได้ว่าเนื้อหาใดๆ ที่ไม่ได้สแกนระหว่างการฝึกอบรมข้อมูลนั้นไม่มีเนื้อหาเฉพาะที่มี AI กำเนิด

สิ่งนี้ค่อนข้างเป็นที่ถกเถียงกันเนื่องจากคุณอาจวาดเส้นที่เชื่อมโยงเนื้อหาอื่นที่สแกนกับเนื้อหาที่ไม่ได้สแกน นอกจากนี้ เงื่อนไขสำคัญอีกประการหนึ่งคือ แม้ว่าจะมีเนื้อหาที่ไม่ได้สแกน แต่ก็ยังสามารถโต้แย้งได้ว่าเป็นการลอกเลียนและ/หรือละเมิดลิขสิทธิ์ หากผลลัพธ์ของ AI กำเนิดมาจากการใช้คำฟุ่มเฟือยเดียวกัน ประเด็นของฉันคือมีความนุ่มนวลมากมายในทั้งหมดนี้

บรรทัดด้านล่าง: AI เจนเนอเรทีฟเต็มไปด้วยปัญหาทางกฎหมายด้านจริยธรรมและกฎหมาย AI ที่อาจเกิดขึ้นเมื่อพูดถึงการลอกเลียนแบบและการละเมิดลิขสิทธิ์ สนับสนุนแนวปฏิบัติด้านการฝึกอบรมข้อมูลที่มีอยู่ทั่วไป

จนถึงตอนนี้ ผู้ผลิตเอไอและนักวิจัยเอไอได้ก้าวข้ามสิ่งนี้ไปโดยปราศจากการหลอกลวง แม้จะมีดาบที่ดูล่อแหลมและห้อยต่องแต่งอย่างล่อแหลมที่แขวนอยู่เหนือพวกมันก็ตาม ปัจจุบันมีการฟ้องร้องเพียงไม่กี่คดีเท่านั้นที่ต่อต้านการปฏิบัติเหล่านี้ คุณอาจเคยได้ยินหรือเห็นบทความข่าวเกี่ยวกับการดำเนินการทางกฎหมายดังกล่าว ตัวอย่างเช่น บริษัทแปลงข้อความเป็นรูปภาพของ Midjourney และ Stability AI เกี่ยวข้องกับการละเมิดเนื้อหาศิลปะที่โพสต์บนอินเทอร์เน็ต อีกรายการหนึ่งเกี่ยวข้องกับการละเมิดข้อความเป็นโค้ดต่อ GitHub, Microsoft และ OpenAI เนื่องจากซอฟต์แวร์ Copilot ที่ผลิตแอป AI เก็ตตี้อิมเมจยังตั้งเป้าที่จะติดตาม Stability AI สำหรับการละเมิดข้อความเป็นรูปภาพ

คุณสามารถคาดหวังได้ว่าจะมีการยื่นฟ้องคดีดังกล่าวอีก

ตอนนี้เป็นโอกาสเล็กน้อยที่จะเริ่มต้นการฟ้องร้องเนื่องจากยังไม่ทราบผล ศาลจะเข้าข้างผู้สร้าง AI หรือผู้ที่เชื่อว่าเนื้อหาของพวกเขาถูกใช้ประโยชน์อย่างไม่เป็นธรรมจะเป็นผู้ชนะหรือไม่? การต่อสู้ทางกฎหมายที่มีค่าใช้จ่ายสูงเป็นเรื่องที่ร้ายแรงเสมอ ค่าใช้จ่ายด้านกฎหมายจำนวนมากต้องนำมาชั่งน้ำหนักกับโอกาสที่จะชนะหรือแพ้

ผู้ผลิต AI ดูเหมือนจะแทบไม่มีทางเลือกอื่นนอกจากต้องต่อสู้ หากพวกเขายอมจำนนแม้เพียงเล็กน้อย โอกาสที่คดีความเพิ่มเติมจะตามมา (โดยพื้นฐานแล้วเป็นการเปิดประตูสู่โอกาสที่สูงขึ้นของผู้อื่นเช่นกัน) เมื่อมีเลือดที่ถูกกฎหมายอยู่ในน้ำ ฉลามที่ถูกกฎหมายที่เหลือจะรีบวิ่งไปที่ “คะแนนง่าย” ที่ถือว่าถูกพิจารณา และการฟาดฟันและการนองเลือดทางการเงินจะเกิดขึ้นอย่างแน่นอน

บางคนเชื่อว่าเราควรผ่านกฎหมาย AI ใหม่ที่จะปกป้องผู้สร้าง AI การป้องกันอาจมีผลย้อนหลังด้วยซ้ำ พื้นฐานสำหรับสิ่งนี้คือ หากเราต้องการเห็นความก้าวหน้าของ AI เชิงกำเนิด เราต้องให้ทางวิ่งในโซนปลอดภัยแก่ผู้สร้าง AI เมื่อการฟ้องร้องเริ่มได้รับชัยชนะต่อผู้สร้าง AI หากเป็นเช่นนั้น (เรายังไม่รู้) ความกังวลก็คือ AI กำเนิดจะระเหยไปเนื่องจากไม่มีใครเต็มใจให้การสนับสนุนใด ๆ กับ บริษัท AI

ตามที่ได้ชี้ให้เห็นอย่างชัดเจนในบทความล่าสุดของ Bloomberg Law เรื่อง “ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” โดย Dr. Ilia Kolochenko และ Gordon Platt, Bloomberg Law, กุมภาพันธ์ 2023 ต่อไปนี้คือข้อความที่ตัดตอนมาที่สำคัญสองเรื่องที่สะท้อนมุมมองเหล่านี้:

  • “ตอนนี้การถกเถียงอย่างเผ็ดร้อนกำลังเดือดดาลในหมู่นักวิชาการด้านกฎหมายของสหรัฐฯ และอาจารย์ด้านกฎหมายทรัพย์สินทางปัญญาว่าการขูดข้อมูลโดยไม่ได้รับอนุญาตและการใช้ข้อมูลที่มีลิขสิทธิ์ในภายหลังถือเป็นการละเมิดลิขสิทธิ์หรือไม่ หากผู้ปฏิบัติงานด้านกฎหมายเห็นว่ามีการละเมิดลิขสิทธิ์ในแนวปฏิบัติดังกล่าว ผู้ใช้ระบบ AI ดังกล่าวอาจต้องรับผิดต่อการละเมิดลิขสิทธิ์รองและอาจต้องเผชิญกับการแตกสาขาทางกฎหมาย”
  • “เพื่อจัดการกับความท้าทายอย่างครอบคลุม ผู้ร่างกฎหมายควรพิจารณาไม่เพียงแค่ปรับปรุงกฎหมายลิขสิทธิ์ที่มีอยู่ให้ทันสมัยเท่านั้น แต่ยังต้องนำชุดกฎหมายและระเบียบข้อบังคับเฉพาะด้าน AI มาใช้ด้วย”

โปรดจำไว้ว่าในฐานะสังคมเราได้วางความคุ้มครองทางกฎหมายไว้สำหรับ การขยายตัว ของอินเทอร์เน็ต ดังที่เห็นในขณะนี้โดยศาลฎีกาที่ทบทวนมาตรา 230 ที่มีชื่อเสียงหรือน่าอับอาย ดังนั้น ดูเหมือนว่ามีเหตุผลและแบบอย่างที่เราอาจเต็มใจทำการปกป้องที่คล้ายกันสำหรับความก้าวหน้าของ AI กำเนิด บางทีการป้องกันอาจถูกตั้งค่าชั่วคราว ซึ่งจะหมดอายุหลังจาก AI กำเนิดถึงระดับความสามารถที่กำหนดไว้ล่วงหน้า อาจมีการจัดทำข้อกำหนดการป้องกันอื่น ๆ

เร็วๆ นี้ ผมจะโพสต์บทวิเคราะห์การประเมินของศาลฎีกาและคำตัดสินขั้นสูงสุดในมาตรา 230 อาจส่งผลกระทบต่อการกำเนิดของ AI มองหาโพสต์ที่จะเกิดขึ้น!

กลับไปที่ความคิดเห็นที่เปล่งออกมาอย่างเคร่งขรึมว่าเราควรจะให้เวลากับนวัตกรรมทางเทคโนโลยีที่สร้างแรงบันดาลใจทางสังคมที่รู้จักกันในชื่อ AI กำเนิด บางคนอาจกล่าวว่าแม้ว่าการละเมิดลิขสิทธิ์ที่อ้างสิทธิ์จะมีหรือกำลังเกิดขึ้น สังคมโดยรวมควรเต็มใจที่จะอนุญาตสิ่งนี้เพื่อวัตถุประสงค์เฉพาะในการทำให้ AI กำเนิดก้าวหน้าขึ้น

ความหวังคือกฎหมาย AI ใหม่จะถูกสร้างขึ้นอย่างระมัดระวังและปรับให้เข้ากับรายละเอียดที่เกี่ยวข้องกับการฝึกอบรมข้อมูลสำหรับ AI กำเนิด

มีข้อโต้แย้งมากมายเกี่ยวกับแนวคิดนี้ในการออกกฎหมาย AI ใหม่เพื่อจุดประสงค์นี้ ข้อกังวลประการหนึ่งคือกฎหมาย AI ใหม่ดังกล่าวจะเปิดประตูระบายน้ำสำหรับการละเมิดลิขสิทธิ์ทุกรูปแบบ เราจะถึงวันที่เราอนุญาตให้กฎหมาย AI ใหม่ดังกล่าวลงจอดในหนังสือ ไม่ว่าคุณจะพยายามจำกัดสิ่งนี้ให้เป็นเพียงการฝึกอบรมข้อมูล AI มากแค่ไหน คนอื่นๆ ก็จะพบช่องโหว่อย่างลับๆ หรือแยบยล ซึ่งจะนำไปสู่การละเมิดลิขสิทธิ์อย่างไม่มีขอบเขตและลุกลาม

ปัดเศษและปัดเศษอาร์กิวเมนต์ไป

ข้อโต้แย้งข้อหนึ่งที่ไม่ถือน้ำเกี่ยวข้องกับการพยายามฟ้อง AI เอง ขอให้สังเกตว่าฉันได้อ้างถึงผู้สร้าง AI หรือนักวิจัย AI ว่าเป็นผู้มีส่วนได้ส่วนเสียที่น่าตำหนิ นี่คือผู้คนและบริษัท บางคนแนะนำว่าเราควรกำหนดเป้าหมายให้ AI เป็นฝ่ายถูกฟ้อง ฉันได้พูดคุยกันในคอลัมน์ของฉันว่าเรายังไม่ได้กำหนดคุณลักษณะของบุคคลตามกฎหมายให้กับ AI ดู ลิงค์ที่นี่ ตัวอย่างเช่น ดังนั้นการฟ้องร้องดังกล่าวที่มุ่งเป้าไปที่ AI ต่อ se จะถือว่าไร้เหตุผลในตอนนี้

ในฐานะที่เป็นภาคผนวกของคำถามที่ว่าใครหรืออะไรควรถูกฟ้องร้อง สิ่งนี้ทำให้เกิดหัวข้อที่น่าสนใจอีกประเด็นหนึ่ง

สมมติว่าแอป AI กำเนิดเฉพาะนั้นประดิษฐ์ขึ้นโดยผู้สร้าง AI บางราย ซึ่งเราจะเรียกว่า Widget Company Widget Company มีขนาดค่อนข้างเล็กและมีรายได้ไม่มากนัก หรือมีทรัพย์สินมากมาย การฟ้องพวกเขาไม่น่าจะรวบรวมความร่ำรวยมหาศาลอย่างที่ใคร ๆ อาจแสวงหา อย่างมากที่สุด คุณก็แค่พอใจที่จะแก้ไขสิ่งที่คุณเห็นว่าผิด

อยากไปหาปลาใหญ่

นี่คือวิธีที่จะเกิดขึ้น ผู้ผลิต AI เลือกที่จะให้ AI กำเนิดของพวกเขาพร้อมใช้งานสำหรับ Big Time Company ซึ่งเป็นกลุ่มบริษัทใหญ่ที่มีแป้งและสินทรัพย์มากมาย การฟ้องร้องที่ชื่อว่า Widget Company จะมีเป้าหมายที่ดีกว่าในมุมมอง กล่าวคือด้วยการตั้งชื่อ Big Time Company นี่คือการต่อสู้ของเดวิดและโกลิอัทที่นักกฎหมายจะเพลิดเพลิน แน่นอนว่า Big Time Company จะพยายามสะบัดออกจากเบ็ดอย่างไม่ต้องสงสัย พวกเขาจะทำเช่นนั้นได้หรือไม่เป็นคำถามทางกฎหมายอีกครั้งที่ไม่แน่นอน และพวกเขาอาจติดหล่มอย่างสิ้นหวังในโคลนตม

ก่อนที่เราจะพูดถึงเรื่องนี้มากไปกว่านี้ ฉันต้องการได้รับสิ่งที่สำคัญในตารางเกี่ยวกับการบุกรุกที่มีการโต้แย้งกันของ AI กำเนิดเนื่องจากการฝึกอบรมข้อมูล ฉันแน่ใจว่าคุณตระหนักโดยสัญชาตญาณว่าการลอกเลียนแบบและการละเมิดลิขสิทธิ์เป็นสัตว์สองชนิดที่แตกต่างกัน พวกเขามีหลายอย่างเหมือนกันแม้ว่าจะแตกต่างกันมากก็ตาม

นี่คือคำอธิบายสั้น ๆ จากมหาวิทยาลัย Duke ที่อธิบายทั้งสอง:

  • “การลอกเลียนความหมายได้ดีที่สุดคือการใช้งานของบุคคลอื่นโดยไม่ได้รับทราบ เป็นปัญหาทางจริยธรรมที่เกี่ยวข้องกับการเรียกร้องเครดิตสำหรับงานที่ผู้อ้างสิทธิ์ไม่ได้สร้างขึ้น เราสามารถลอกเลียนแบบงานของผู้อื่นได้โดยไม่คำนึงถึงสถานะลิขสิทธิ์ของงานนั้น ตัวอย่างเช่น การคัดลอกจากหนังสือหรือบทความที่เก่าเกินกว่าจะอยู่ภายใต้ลิขสิทธิ์ถือเป็นการลอกเลียนแบบ นอกจากนี้ยังเป็นการขโมยความคิดในการใช้ข้อมูลที่นำมาจากแหล่งที่ไม่ได้รับการยอมรับ แม้ว่าเนื้อหาที่เป็นข้อเท็จจริง เช่น ข้อมูลอาจไม่ได้รับการคุ้มครองทางลิขสิทธิ์ก็ตาม อย่างไรก็ตาม การขโมยความคิดนั้นรักษาให้หายได้ง่าย – การอ้างอิงแหล่งที่มาดั้งเดิมของเนื้อหาอย่างเหมาะสม”
  • “ในทางกลับกัน การละเมิดลิขสิทธิ์คือการนำผลงานของผู้อื่นไปใช้โดยไม่ได้รับอนุญาต นี่เป็นปัญหาทางกฎหมายที่ขึ้นอยู่กับว่างานนั้นได้รับการคุ้มครองโดยลิขสิทธิ์ตั้งแต่แรกหรือไม่ เช่นเดียวกับเรื่องเฉพาะ เช่น ปริมาณการใช้งานและวัตถุประสงค์ของการใช้งาน หากมีการคัดลอกงานที่ได้รับการคุ้มครองมากเกินไป หรือคัดลอกเพื่อวัตถุประสงค์ที่ไม่ได้รับอนุญาต การรับทราบแหล่งที่มาต้นฉบับเพียงอย่างเดียวจะไม่สามารถแก้ปัญหาได้ โดยการขออนุญาตล่วงหน้าจากเจ้าของลิขสิทธิ์เท่านั้นที่จะหลีกเลี่ยงความเสี่ยงของข้อหาละเมิดได้”

ฉันชี้ให้เห็นถึงความสำคัญของข้อกังวลทั้งสองนี้ เพื่อที่คุณจะได้ตระหนักว่าการเยียวยาอาจแตกต่างกันไปตามนั้น นอกจากนี้ ทั้งสองยังรวมอยู่ในข้อพิจารณาที่สอดแทรกจริยธรรมของ AI และกฎหมายของ AI ซึ่งทำให้คุ้มค่าแก่การพิจารณาอย่างเท่าเทียมกัน

มาสำรวจวิธีแก้ไขหรือวิธีแก้ปัญหาที่อ้างสิทธิ์กัน คุณจะเห็นว่ามันอาจช่วยหนึ่งในปัญหาสองปัญหา แต่ไม่ใช่ปัญหาอื่น

บางคนยืนยันว่าผู้สร้าง AI ทั้งหมดต้องทำคืออ้างอิงแหล่งที่มาของพวกเขา เมื่อ generative AI สร้างเรียงความ ให้ใส่การอ้างอิงเฉพาะสำหรับสิ่งใดก็ตามที่ระบุไว้ในเรียงความ ระบุ URL ต่างๆ และข้อบ่งชี้อื่นๆ ว่ามีการใช้เนื้อหาอินเทอร์เน็ตใดบ้าง สิ่งนี้ดูเหมือนจะทำให้พวกเขาปราศจากความมั่นใจเกี่ยวกับการลอกเลียนแบบ เรียงความที่ส่งออกน่าจะระบุอย่างชัดเจนว่าแหล่งใดที่ใช้สำหรับถ้อยคำที่กำลังผลิต

มีบางอย่างที่พูดไม่ชัดในวิธีแก้ปัญหาที่อ้างสิทธิ์ แต่ในระดับ 30,000 ฟุตสมมติว่าทำหน้าที่เป็นวิธีรักษากึ่งที่น่าพอใจสำหรับภาวะที่กลืนไม่เข้าคายไม่ออกของการลอกเลียนแบบ ตามที่ระบุไว้ข้างต้นในคำอธิบายเรื่องการละเมิดลิขสิทธิ์ การอ้างถึงเนื้อหาต้นฉบับไม่ได้ทำให้คุณออกจากวังวนเสมอไป สมมติว่าเนื้อหามีลิขสิทธิ์ และขึ้นอยู่กับปัจจัยอื่นๆ เช่น ปริมาณการใช้เนื้อหา ดาบแห่งการละเมิดลิขสิทธิ์ที่รอคอยอาจแกว่งลงอย่างรวดเร็วและสิ้นสุด

ปัญหาสองเท่าคือคำหลักที่นี่

การพยายามพิสูจน์การลอกเลียนแบบหรือการละเมิดลิขสิทธิ์กำลังพยายามอยู่

พิสูจน์สิ!

นั่นเป็นบทร้องที่ดีที่เราเคยได้ยินมาหลายครั้งในชีวิตของเรา

คุณรู้ว่ามันไปอย่างไร คุณอาจอ้างว่ามีบางอย่างเกิดขึ้นหรือได้เกิดขึ้นแล้ว คุณอาจรู้ในใจว่าสิ่งนี้เกิดขึ้นแล้ว แต่เมื่อพูดถึงการผลักและผลัก คุณต้องมีหลักฐาน

ในสำนวนวันนี้คุณต้องแสดง รายรับตามที่พวกเขาพูด

คำถามของฉันสำหรับคุณคือ: เราจะพิสูจน์ได้อย่างไรว่า AI กำเนิดใช้ประโยชน์จากเนื้อหาอินเทอร์เน็ตอย่างไม่เหมาะสม

หนึ่งคิดว่าคำตอบควรจะง่าย คุณถามหรือบอกให้ AI กำเนิดสร้างเรียงความที่ส่งออก จากนั้นคุณนำเรียงความและเปรียบเทียบกับสิ่งที่พบได้บนอินเทอร์เน็ต หากคุณพบเรียงความ แบม คุณมี AI เจเนอเรทีฟติดอยู่ที่กำแพงสุภาษิต

ชีวิตดูเหมือนจะไม่ง่ายนัก

ลองนึกภาพว่าเราได้รับ AI เชิงกำเนิดเพื่อสร้างเรียงความที่มีคำประมาณ 100 คำ เราไปรอบ ๆ และพยายามเข้าถึงทุกซอกทุกมุมของอินเทอร์เน็ตเพื่อค้นหา 100 คำเหล่านั้น หากเราพบคำศัพท์ 100 คำที่แสดงตามลำดับเดียวกันและรูปแบบที่เหมือนกัน ดูเหมือนว่าเราจะจับใจความได้

สมมติว่าเราพบเรียงความที่ดูเหมือน "เปรียบเทียบได้" บนอินเทอร์เน็ตแม้ว่าจะตรงกับ 80 คำจาก 100 คำเท่านั้น ดูเหมือนว่ายังเพียงพอบางที แต่ลองจินตนาการว่าเราพบเพียง 10 คำจาก 100 คำที่ตรงกัน เพียงพอแล้วหรือยังที่จะโวยวายว่ามีการลอกเลียนแบบเกิดขึ้นหรือมีการละเมิดลิขสิทธิ์เกิดขึ้น?

ความเทามีอยู่

ข้อความนั้นตลกดี

เปรียบเทียบสิ่งนี้กับข้อความเป็นรูปภาพหรือข้อความเป็นข้อความ เมื่อ AI กำเนิดมีความสามารถแปลงข้อความเป็นรูปภาพหรือแปลงข้อความเป็นอักษรศิลป์ คุณป้อนข้อความแจ้งและแอป AI จะสร้างรูปภาพตามข้อความแจ้งที่คุณระบุ ภาพนั้นอาจไม่เหมือนกับภาพใด ๆ ที่เคยเห็นบนโลกใบนี้หรือบนโลกใบนี้

ในทางกลับกัน ภาพนั้นอาจชวนให้นึกถึงภาพอื่นๆ ที่มีอยู่ เราสามารถดูภาพที่สร้างโดย AI และสัญชาตญาณบอกว่ามันดูเหมือนภาพอื่น ๆ ที่เราเคยเห็นมาก่อน โดยทั่วไปแล้ว ภาพ แง่มุมของการเปรียบเทียบและความคมชัดนั้นดำเนินการได้ง่ายกว่าเล็กน้อย ดังที่ได้กล่าวไปแล้ว โปรดทราบว่าการถกเถียงทางกฎหมายครั้งใหญ่ทำให้แน่ใจได้ว่าสิ่งใดที่ก่อให้เกิดการทับซ้อนหรือการจำลองของภาพหนึ่งจากอีกภาพหนึ่ง

มีสถานการณ์อื่นที่คล้ายกันเกิดขึ้นกับดนตรี มีแอพ AI กำเนิดที่ให้คุณป้อนข้อความแจ้งและผลลัพธ์ที่ AI สร้างขึ้นคือเสียงดนตรี ความสามารถ AI แปลงข้อความเป็นเสียงหรือแปลงข้อความเป็นเพลงเพิ่งเริ่มปรากฏขึ้น สิ่งหนึ่งที่คุณสามารถวางเดิมพันได้คือเพลงที่ผลิตโดย generative AI จะถูกตรวจสอบอย่างถี่ถ้วนว่ามีการละเมิดลิขสิทธิ์ ดูเหมือนเราจะรู้เมื่อเราได้ยินการละเมิดลิขสิทธิ์ดนตรี แต่อีกครั้งนี่เป็นปัญหาทางกฎหมายที่ซับซ้อนซึ่งไม่ได้ขึ้นอยู่กับความรู้สึกของเราที่มีต่อการจำลองที่รับรู้เท่านั้น

ให้ฉันอีกหนึ่งตัวอย่าง

AI กำเนิดข้อความเป็นโค้ดให้คุณสามารถป้อนข้อความแจ้ง และ AI จะสร้างโค้ดโปรแกรมให้คุณ จากนั้นคุณสามารถใช้รหัสนี้เพื่อเตรียมโปรแกรมคอมพิวเตอร์ คุณอาจใช้รหัสตรงตามที่สร้างขึ้น หรือคุณอาจเลือกที่จะแก้ไขและปรับรหัสให้เหมาะกับความต้องการของคุณ นอกจากนี้ จำเป็นต้องตรวจสอบให้แน่ใจว่าโค้ดนั้นเหมาะสมและใช้งานได้จริง เนื่องจากมีความเป็นไปได้ที่จะเกิดข้อผิดพลาดและความเท็จในโค้ดที่สร้างขึ้น

ข้อสันนิษฐานแรกของคุณคือโค้ดโปรแกรมไม่ต่างไปจากข้อความ มันเป็นเพียงข้อความ แน่นอนว่าเป็นข้อความที่มีจุดประสงค์เฉพาะ แต่ก็ยังเป็นข้อความ

ก็ไม่เชิง ภาษาโปรแกรมส่วนใหญ่มีรูปแบบและโครงสร้างที่เข้มงวดตามลักษณะของคำสั่งการเข้ารหัสของภาษานั้น ในแง่นี้แคบกว่าภาษาธรรมชาติที่ไหลลื่น คุณค่อนข้างมีกรอบในการกำหนดสูตรคำสั่งการเข้ารหัส ในทำนองเดียวกัน ลำดับและวิธีการใช้คำสั่งและอาร์เรย์นั้นค่อนข้างอยู่ในกล่อง

สรุปแล้ว ความเป็นไปได้ในการแสดงให้เห็นว่าโค้ดโปรแกรมถูกลอกเลียนหรือละเมิดนั้นแทบจะง่ายกว่าภาษาธรรมชาติที่บอกกันทั้งหมด ดังนั้น เมื่อ AI เจนเนอเรทีฟไปสแกนโค้ดโปรแกรมบนอินเทอร์เน็ตและสร้างโค้ดโปรแกรมในภายหลัง โอกาสที่จะโต้แย้งว่าโค้ดนั้นลอกเลียนแบบอย่างโจ๋งครึ่มจะค่อนข้างน่าเชื่อถือกว่า ไม่ใช่สแลมดังค์ ดังนั้นคาดว่าการต่อสู้ที่ขมขื่นจะเกิดขึ้นกับสิ่งนี้

ประเด็นหลักของฉันคือเรากำลังจะมีประเด็นด้านจริยธรรมของ AI และกฎหมายเกี่ยวกับ AI แบบเดียวกันที่ต้องเผชิญกับ AI กำเนิดทุกรูปแบบ

การคัดลอกผลงานและการละเมิดลิขสิทธิ์จะเป็นปัญหาสำหรับ:

  • ข้อความเป็นข้อความหรือข้อความเป็นเรียงความ
  • ข้อความเป็นรูปภาพหรือข้อความเป็นศิลปะ
  • ข้อความเป็นเสียงหรือข้อความเป็นเพลง
  • ข้อความเป็นวิดีโอ
  • ข้อความเป็นรหัส
  • เป็นต้น

พวกเขาทั้งหมดอยู่ภายใต้ข้อกังวลเดียวกัน บางคนอาจจะ "พิสูจน์" ได้ง่ายกว่าคนอื่นเล็กน้อย พวกเขาทั้งหมดกำลังจะมีฝันร้ายที่หลากหลายเกี่ยวกับหลักจริยธรรมของ AI และกฎหมายของ AI

การทำคดีสำหรับการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์

สำหรับวัตถุประสงค์ในการอภิปราย เราจะมุ่งเน้นไปที่การสร้างข้อความเป็นข้อความหรือข้อความเป็นเรียงความ AI ส่วนหนึ่งเป็นเพราะความนิยมอย่างมากของ ChatGPT ซึ่งเป็นประเภทข้อความเป็นข้อความของ generative AI มีผู้คนมากมายที่ใช้ ChatGPT และคนอื่นๆ อีกจำนวนมากที่ใช้แอป AI ที่สร้างข้อความเป็นข้อความที่คล้ายกัน

คนเหล่านั้นที่ใช้แอป AI กำเนิดรู้หรือไม่ว่าพวกเขาอาจพึ่งพาการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์?

ดูเหมือนว่าน่าสงสัยว่าพวกเขาทำ

ฉันกล้าพูดได้ว่าข้อสันนิษฐานที่แพร่หลายคือหากแอพ generative AI พร้อมใช้งาน ผู้ผลิต AI หรือบริษัทที่ให้ข้อมูล AI จะต้องรู้หรือมั่นใจว่าไม่มีสิ่งใดที่ไม่ดีเกี่ยวกับสินค้าที่พวกเขาเสนอให้ใช้ หากจะใช้ได้ ต้องเป็นบอร์ดด้านบน

มาดูความคิดเห็นก่อนหน้าของฉันเกี่ยวกับวิธีที่เราจะลองและพิสูจน์ว่า AI เชิงกำเนิดนั้นทำงานบนพื้นฐานที่ไม่ถูกต้องเกี่ยวกับการฝึกอบรมข้อมูล

ฉันอาจเสริมด้วยว่าถ้าเราสามารถจับ AI กำเนิดได้ตัวหนึ่งทำเช่นนั้น โอกาสในการจับตัวอื่นๆ ก็น่าจะเพิ่มขึ้น ฉันไม่ได้บอกว่าแอป AI ทั้งหมดจะอยู่ในเรือลำเดียวกัน แต่พวกเขาจะพบว่าตัวเองอยู่ในทะเลที่ค่อนข้างรุนแรงเมื่อหนึ่งในนั้นถูกตรึงไว้กับกำแพง

นั่นเป็นเหตุผลว่าทำไมการจับตาดูคดีที่มีอยู่จึงคุ้มค่าอย่างมาก หากสิ่งนี้เกิดขึ้น คนแรกที่ชนะในการละเมิดที่อ้างสิทธิ์ อาจสะกดความหายนะและความโศกเศร้าสำหรับแอป AI กำเนิดอื่นๆ เว้นแต่ความคับแคบบางอย่างจะหลีกหนีปัญหาที่กว้างขึ้น ผู้ที่แพ้ในการละเมิดที่อ้างสิทธิ์ไม่ได้แปลว่าแอป AI กำเนิดสามารถส่งเสียงระฆังและเฉลิมฉลองได้ อาจเป็นไปได้ว่าการสูญเสียเกิดจากปัจจัยอื่นๆ ที่ไม่เกี่ยวข้องกับแอป AI กำเนิดอื่นๆ เป็นต้น

ผมเคยกล่าวไว้ว่าหากเราเขียนเรียงความ 100 คำและพยายามค้นหาคำเหล่านั้นในลำดับเดียวกันบนอินเทอร์เน็ต เราอาจมีคดีที่ค่อนข้างชัดเจนสำหรับการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์ อย่างอื่นเท่าเทียมกัน แต่ถ้าจำนวนคำที่ตรงกันมีน้อย ดูเหมือนว่าเราจะอยู่บนน้ำแข็งบางๆ

ฉันอยากจะเจาะลึกลงไปในนั้น

ลักษณะที่ชัดเจนของการเปรียบเทียบประกอบด้วยคำที่เหมือนกันทุกประการในลำดับเดียวกัน สิ่งนี้อาจเกิดขึ้นได้กับข้อความทั้งหมด สิ่งนี้จะสะดวกต่อการสังเกต เกือบจะเหมือนยื่นจานเงินมาให้เรา

นอกจากนี้ เราอาจสงสัยหากมีการจับคู่คำเพียงบางส่วนเท่านั้น แนวคิดคือการดูว่าคำเหล่านี้เป็นคำสำคัญหรือคำเสริมที่เราสามารถลบหรือเพิกเฉยได้หรือไม่ นอกจากนี้ เราไม่ต้องการถูกหลอกโดยการใช้คำในอดีตกาลหรืออนาคตของพวกเขา หรือเรื่องตลกขบขันอื่นๆ ควรพิจารณารูปแบบคำเหล่านั้นด้วย

การเปรียบเทียบอีกระดับหนึ่งคือเมื่อคำต่างๆ นั้นไม่ใช่คำเดียวกันโดยเฉพาะอย่างยิ่งในระดับที่ดี แต่คำต่างๆ แม้จะอยู่ในสถานะที่แตกต่างกันก็ยังดูเหมือนจะมีประเด็นเดียวกัน ตัวอย่างเช่น บทสรุปมักจะใช้คำที่ค่อนข้างคล้ายกันเป็นแหล่งข้อมูลต้นฉบับ แต่เราสามารถแยกแยะได้ว่าบทสรุปนั้นดูเหมือนมีการระบุแหล่งที่มาต้นฉบับไว้ล่วงหน้า

ระดับการเปรียบเทียบที่ยากที่สุดจะขึ้นอยู่กับแนวคิดหรือความคิด สมมุติว่าเราเห็นเรียงความที่ไม่มีคำเหมือนหรือคล้ายกันเป็นฐานเปรียบเทียบแต่ใจความหรือแนวคิดเหมือนกัน เรายอมรับว่าเราล้ำเข้าไปในดินแดนที่ขรุขระ หากเราพร้อมที่จะพูดว่าความคิดได้รับการคุ้มครองอย่างใกล้ชิด เราจะปิดความรู้และการขยายความรู้ในเกือบทุกรูปแบบ

เราสามารถอ้างถึงคำอธิบายที่มีประโยชน์จากมหาวิทยาลัย Duke อีกครั้ง:

  • “ลิขสิทธิ์ไม่ได้คุ้มครองความคิด เฉพาะการแสดงออกของความคิดเท่านั้น ตัวอย่างเช่น ศาลตัดสินว่าแดน บราวน์ไม่ได้ละเมิดลิขสิทธิ์ของหนังสือเล่มก่อนหน้านี้เมื่อเขาเขียน ดาวินชีโค้ด เพราะทั้งหมดที่เขายืมมาจากงานก่อนหน้านี้คือแนวคิดพื้นฐาน ไม่ใช่เฉพาะโครงเรื่องหรือบทสนทนา เนื่องจากลิขสิทธิ์มีไว้เพื่อสนับสนุนการผลิตที่สร้างสรรค์ การใช้ความคิดของผู้อื่นในการสร้างสรรค์ผลงานใหม่และเป็นต้นฉบับที่สนับสนุนวัตถุประสงค์ของลิขสิทธิ์ จึงไม่ถือเป็นการละเมิดลิขสิทธิ์ เฉพาะในกรณีที่คัดลอกการแสดงออกของผู้อื่นโดยไม่ได้รับอนุญาตเท่านั้นที่อาจถูกละเมิดลิขสิทธิ์”
  • “เพื่อหลีกเลี่ยงการขโมยความคิด ในทางกลับกัน เราต้องยอมรับแหล่งที่มาของความคิดที่ยืมมาจากคนอื่น โดยไม่คำนึงว่าการแสดงออกของความคิดเหล่านั้นจะถูกยืมมาพร้อมกับพวกเขาหรือไม่ ดังนั้น การถอดความจำเป็นต้องมีการอ้างอิงถึงแม้ว่าจะไม่ค่อยทำให้เกิดปัญหาลิขสิทธิ์ก็ตาม”

โปรดทราบตามที่ระบุก่อนหน้านี้ถึงความแตกต่างระหว่างปัญหาสองด้าน

ตอนนี้การนำวิธีการเปรียบเทียบไปใช้จริงเป็นสิ่งที่เกิดขึ้นมาหลายปีแล้ว ลองคิดดูตามนี้ นักเรียนที่เขียนเรียงความสำหรับการบ้านอาจถูกล่อลวงให้คว้าเนื้อหาจากอินเทอร์เน็ตและแสร้งทำเป็นว่าพวกเขาเขียนคำที่ได้รับรางวัลพูลิตเซอร์เกรดเอ

ครูใช้โปรแกรมตรวจสอบการลอกเลียนแบบมาเป็นเวลานานเพื่อจัดการกับสิ่งนี้ ครูนำเรียงความของนักเรียนและป้อนลงในเครื่องตรวจสอบการลอกเลียนแบบ ในบางกรณี ทั้งโรงเรียนจะอนุญาตให้ใช้โปรแกรมตรวจสอบการลอกเลียนแบบ เมื่อใดก็ตามที่นักเรียนจะส่งเรียงความ นักเรียนจะต้องส่งเรียงความไปยังโปรแกรมตรวจสอบการลอกเลียนแบบก่อน ครูได้รับแจ้งว่าโปรแกรมรายงานอะไร

น่าเสียดายที่คุณต้องระมัดระวังอย่างมากเกี่ยวกับสิ่งที่โปรแกรมตรวจสอบการลอกเลียนแบบเหล่านี้กล่าวไว้ สิ่งสำคัญคือต้องประเมินอย่างมีสติว่าสิ่งบ่งชี้ที่รายงานนั้นถูกต้องหรือไม่ ดังที่ได้กล่าวไปแล้ว ความสามารถในการตรวจสอบว่างานถูกคัดลอกนั้นคลุมเครือหรือไม่ หากคุณยอมรับผลลัพธ์ของโปรแกรมการตรวจสอบโดยไม่ใช้ความคิด คุณสามารถกล่าวหานักเรียนอย่างผิดๆ ว่าลอกเลียนแบบทั้งๆ ที่พวกเขาไม่ได้ทำเช่นนั้น สิ่งนี้สามารถทำลายจิตวิญญาณได้

ต่อไป เราสามารถลองใช้โปรแกรมตรวจสอบการลอกเลียนแบบในขอบเขตของการทดสอบเอาต์พุต AI เชิงกำเนิด ปฏิบัติต่อเรียงความที่ส่งออกจากแอป generative AI ราวกับว่าเขียนโดยนักเรียน จากนั้นเราจะวัดสิ่งที่เครื่องมือตรวจสอบการคัดลอกผลงานพูด ทำได้ด้วยเกลือเม็ดหนึ่ง

มีการศึกษาวิจัยล่าสุดที่พยายามดำเนินการเปรียบเทียบประเภทนี้ในบริบทของ AI กำเนิดในลักษณะนี้ ฉันอยากจะพูดถึงข้อค้นพบที่น่าสนใจกับคุณ

ขั้นแรก จำเป็นต้องเพิ่มพื้นหลังบางส่วน AI เจเนอเรทีฟบางครั้งเรียกว่า LLM (โมเดลภาษาขนาดใหญ่) หรือเรียกง่ายๆ ว่า LMs (โมเดลภาษา) ประการที่สอง ChatGPT ใช้เวอร์ชันของแพ็คเกจ OpenAI generative AI อื่นที่เรียกว่า GPT-3.5 ก่อน GPT-3.5 มี GPT-3 และก่อนหน้านั้นคือ GPT-2 ทุกวันนี้ GPT-2 ถือว่าค่อนข้างล้าสมัยเมื่อเทียบกับซีรีส์รุ่นหลังๆ และเราทุกคนต่างเฝ้ารอการเปิดตัว GPT-4 ที่กำลังจะมีขึ้น ดูการสนทนาของฉันที่ ลิงค์ที่นี่.

การศึกษาวิจัยที่ข้าพเจ้าต้องการจะศึกษาโดยสังเขป ได้แก่ การตรวจสอบ GPT-2 สิ่งสำคัญคือต้องตระหนัก เนื่องจากขณะนี้เราก้าวไปไกลเกินขีดความสามารถของ GPT-2 อย่าด่วนสรุปผลการวิเคราะห์ GPT-2 นี้ อย่างไรก็ตาม เราสามารถเรียนรู้มากมายจากการประเมิน GPT-2 การศึกษานี้มีชื่อว่า “Do Language Models Plagiarize?” โดย Jooyoung Lee, Thai Le, Jinghui Chen และ Dongwon Lee ปรากฏใน ACM WWW '23, 1–5 พฤษภาคม 2023, Austin, TX, USA

นี่คือคำถามหลักในการวิจัย:

  • “LMs ใช้ประโยชน์จากวลีหรือประโยคจากตัวอย่างการฝึกอบรมในระดับใด (ไม่จำกัดเฉพาะการท่องจำ)”

พวกเขาใช้สามระดับหรือประเภทของการลอกเลียนแบบที่อาจเกิดขึ้น:

  • “การคัดลอกแบบคำต่อคำ: สำเนาคำหรือวลีที่แน่นอนโดยไม่มีการเปลี่ยนแปลง”
  • “การลอกเลียนแบบการถอดความ: การแทนที่คำพ้องความหมาย การเรียงลำดับคำใหม่ และ/หรือการแปลย้อนกลับ”
  • “การลอกเลียนความคิด: การแสดงเนื้อหาหลักในรูปแบบยาว”

GPT-2 ได้รับการฝึกอบรมเกี่ยวกับข้อมูลทางอินเทอร์เน็ตอย่างแท้จริง ดังนั้นจึงเป็นตัวเลือกที่เหมาะสมสำหรับการวิเคราะห์ประเภทนี้:

  • “GPT-2 ได้รับการฝึกอบรมล่วงหน้าบน WebText ซึ่งมีเอกสารมากกว่า 8 ล้านฉบับที่ดึงมาจากลิงก์ Reddit 45 ล้านลิงก์ เนื่องจาก OpenAI ไม่ได้เผยแพร่ WebText สู่สาธารณะ เราจึงใช้ OpenWebText ซึ่งเป็นการจำลองแบบโอเพ่นซอร์สของคลังข้อมูล WebText มันถูกใช้อย่างน่าเชื่อถือโดยวรรณกรรมก่อนหน้า”

การค้นพบที่สำคัญโดยคัดเลือกที่ตัดตอนมาจากการศึกษาประกอบด้วย:

  • “เราค้นพบว่าตระกูล GPT-2 ที่ผ่านการฝึกอบรมมาล่วงหน้าลอกเลียนแบบจาก OpenWebText”
  • “ผลการวิจัยของเราแสดงให้เห็นว่าการปรับแต่งอย่างละเอียดช่วยลดกรณีการคัดลอกแบบคำต่อคำจาก OpenWebText ได้อย่างมาก”
  • “สอดคล้องกับ Carlini และคณะ และ Carlini et al. เราพบว่าโมเดล GPT-2 ที่ใหญ่กว่า (ขนาดใหญ่และ xl) โดยทั่วไปจะสร้างลำดับการลอกเลียนบ่อยกว่าโมเดลที่เล็กกว่า”
  • “อย่างไรก็ตาม LM ที่แตกต่างกันอาจแสดงรูปแบบการลอกเลียนแบบที่แตกต่างกัน ดังนั้นผลลัพธ์ของเราจึงอาจไม่ครอบคลุมถึง LM อื่นๆ โดยตรง รวมถึง LM ใหม่ๆ เช่น GPT-3 หรือ BLOOM”
  • “นอกจากนี้ เครื่องตรวจจับการลอกเลียนแบบอัตโนมัติยังมีโหมดความล้มเหลวมากมาย (ทั้งในเชิงลบที่ผิดพลาดและผลบวกที่ผิดพลาด)
  • “เนื่องจากข้อมูลการฝึกอบรมส่วนใหญ่ของ LMs ถูกคัดลอกมาจากเว็บโดยไม่ได้แจ้งให้เจ้าของเนื้อหาทราบ การย้ำคำ วลี และแม้แต่แนวคิดหลักจากชุดการฝึกอบรมเป็นข้อความที่สร้างขึ้นจึงมีนัยทางจริยธรรม”

เราต้องการการศึกษาประเภทนี้อีกมาก

หากคุณสงสัยว่า GPT-2 เปรียบเทียบกับ GPT-3 เกี่ยวกับการฝึกอบรมข้อมูลอย่างไร มีข้อแตกต่างที่ชัดเจน

ตามข้อบ่งชี้ที่รายงาน การฝึกอบรมข้อมูลสำหรับ GPT-3 นั้นกว้างขวางกว่ามาก:

  • “แบบจำลองได้รับการฝึกอบรมโดยใช้ฐานข้อมูลข้อความจากอินเทอร์เน็ต ซึ่งรวมถึงข้อมูลจำนวนมหาศาล 570GB ที่ได้รับจากหนังสือ ข้อความบนเว็บ วิกิพีเดีย บทความ และงานเขียนอื่นๆ บนอินเทอร์เน็ต เพื่อให้แม่นยำยิ่งขึ้น 300 พันล้านคำถูกป้อนเข้าสู่ระบบ” (บีบีซี ไซแอนซ์ โฟกัส นิตยสาร “ChatGPT: ทุกสิ่งที่คุณต้องรู้เกี่ยวกับเครื่องมือ GPT-3 ของ OpenAI” โดย Alex Hughes, กุมภาพันธ์ 2023)

สำหรับผู้ที่สนใจคำอธิบายเชิงลึกเพิ่มเติมของการฝึกอบรมข้อมูลสำหรับ GPT-3 ต่อไปนี้เป็นข้อความที่ตัดตอนมาจากการ์ดโมเดล GPT-3 อย่างเป็นทางการที่โพสต์บน GitHub (วันที่อัปเดตล่าสุดที่ระบุในเดือนกันยายน 2020):

  • “ชุดข้อมูลการฝึกอบรม GPT-3 ประกอบด้วยข้อความที่โพสต์บนอินเทอร์เน็ต หรือข้อความที่อัปโหลดไปยังอินเทอร์เน็ต (เช่น หนังสือ) ข้อมูลอินเทอร์เน็ตที่ได้รับการฝึกอบรมและประเมินจนถึงปัจจุบันประกอบด้วย: (1) เวอร์ชันของชุดข้อมูล CommonCrawl ซึ่งกรองตามความคล้ายคลึงกับองค์กรอ้างอิงคุณภาพสูง (2) เวอร์ชันขยายของชุดข้อมูล Webtext (3 ) คลังหนังสือบนอินเทอร์เน็ตสองเล่ม และ (4) วิกิพีเดียภาษาอังกฤษ”
  • “จากข้อมูลการฝึกอบรม ผลลัพธ์และประสิทธิภาพของ GPT-3 เป็นตัวแทนของประชากรที่เชื่อมต่ออินเทอร์เน็ตมากกว่ากลุ่มที่แพร่หลายในวัฒนธรรมทางวาจาและไม่ใช่ดิจิทัล ประชากรที่เชื่อมต่ออินเทอร์เน็ตเป็นตัวแทนของประเทศที่พัฒนาแล้ว มีฐานะร่ำรวย อายุน้อยกว่า และมีมุมมองที่เป็นผู้ชาย และส่วนใหญ่มีสหรัฐฯ เป็นศูนย์กลาง ประเทศที่ร่ำรวยกว่าและประชากรในประเทศที่พัฒนาแล้วแสดงให้เห็นถึงการเข้าถึงอินเทอร์เน็ตที่สูงขึ้น การแบ่งเพศทางดิจิทัลยังแสดงให้เห็นผู้หญิงออนไลน์ทั่วโลกน้อยลง นอกจากนี้ เนื่องจากส่วนต่าง ๆ ของโลกมีระดับการเข้าถึงและการเข้าถึงอินเทอร์เน็ตที่แตกต่างกัน ชุดข้อมูลจึงไม่ได้แสดงถึงชุมชนที่เชื่อมต่อกันน้อยกว่า”

ประเด็นสำคัญประการหนึ่งจากข้อบ่งชี้ข้างต้นเกี่ยวกับ GPT-3 คือหลักทั่วไปในการสร้าง AI เชิงกำเนิดคือยิ่งคุณสแกนข้อมูลอินเทอร์เน็ตได้มากเท่าใด โอกาสของการปรับปรุงหรือความก้าวหน้าของ AI เชิงกำเนิดก็จะสูงขึ้น

คุณสามารถดูสิ่งนี้ได้สองวิธี

  • 1) การปรับปรุง AI. เรากำลังจะมี AI กำเนิดที่รวบรวมข้อมูลผ่านอินเทอร์เน็ตมากที่สุดเท่าที่จะเป็นไปได้ ผลลัพธ์ที่น่าตื่นเต้นคือ AI กำเนิดจะดีกว่าที่เป็นอยู่ นั่นเป็นสิ่งที่รอคอย
  • 2) การคัดลอกศักยภาพมากมาย. การสแกนอินเทอร์เน็ตที่กว้างขึ้นนี้เป็นสิ่งที่น่าขยะแขยงและมีส่วนร่วมทำให้ปัญหาการลอกเลียนแบบและการละเมิดลิขสิทธิ์อาจใหญ่ขึ้นเรื่อย ๆ เมื่อก่อนผู้สร้างเนื้อหาไม่ได้รับผลกระทบมากขนาดนี้ หากคุณเป็นนักกฎหมายที่อยู่ฝ่ายผู้สร้างเนื้อหา สิ่งนี้จะทำให้คุณน้ำตาไหล (อาจเป็นน้ำตาแห่งความผิดหวังหรือน้ำตาแห่งความปิติยินดีในสิ่งที่โอกาสนี้นำมาซึ่งการฟ้องร้อง)

แก้วมีน้ำอยู่ครึ่งหนึ่งหรือครึ่งหนึ่งว่างเปล่า?

คุณตัดสินใจ.

ทุ่นระเบิดถูกกฎหมายรออยู่

คำถามที่คุณอาจครุ่นคิดก็คือเนื้อหาทางอินเทอร์เน็ตที่โพสต์ของคุณถือเป็นเกมที่ยุติธรรมสำหรับการสแกนหรือไม่ หากเนื้อหาของคุณอยู่หลังเพย์วอลล์ สันนิษฐานว่าเนื้อหานั้นไม่ใช่เป้าหมายในการสแกนเนื่องจากไม่สามารถเข้าถึงได้อย่างง่ายดาย ทั้งนี้ขึ้นอยู่กับความแข็งแกร่งของเพย์วอลล์

ฉันเดาว่าผู้คนทั่วไปส่วนใหญ่ไม่มีเนื้อหาของพวกเขาซ่อนอยู่หลังเพย์วอลล์ พวกเขาต้องการให้เนื้อหาของพวกเขาเปิดเผยต่อสาธารณะ พวกเขาคิดว่าผู้คนจะดูมัน

การมีเนื้อหาของคุณเผยแพร่ต่อสาธารณะหมายความว่าคุณกำลังอนุมัติให้สแกนเพื่อใช้งานโดย generative AI ที่กำลังฝึกข้อมูลอยู่หรือไม่

อาจจะใช่อาจจะไม่ใช่

มันเป็นหนึ่งในเรื่องทางกฎหมายที่ต้องตาต้องใจ

ย้อนกลับไปก่อนหน้านี้ที่อ้างถึง กฎหมาย Bloomberg บทความ ผู้เขียนกล่าวถึงความสำคัญของข้อกำหนดและเงื่อนไข (T&C) ที่เกี่ยวข้องกับเว็บไซต์หลายแห่ง:

  • “ทุ่นระเบิดที่ถูกกฎหมาย—ซึ่งถูกละเลยอย่างมากมายโดยบริษัท AI โดยไม่รู้ตัวซึ่งดำเนินการบอทออนไลน์เพื่อขูดข้อมูล—ถูกซ่อนอยู่ในข้อกำหนดและเงื่อนไขที่มีอยู่ทั่วไปบนเว็บไซต์สาธารณะทุกประเภท ตรงกันข้ามกับกฎหมายทรัพย์สินทางปัญญาที่ยังไม่เรียบร้อยในปัจจุบันและปัญหาการละเมิดลิขสิทธิ์ ข้อกำหนดและเงื่อนไขของเว็บไซต์ได้รับการสนับสนุนโดยกฎหมายสัญญาที่มีการจัดตั้งขึ้นอย่างดี และโดยปกติแล้วสามารถบังคับใช้ในศาลได้โดยอาศัยแบบอย่างที่มีจำนวนมากเพียงพอ”

พวกเขาระบุว่าสมมติว่าเว็บไซต์ของคุณมีหน้าที่เกี่ยวข้องกับการให้สิทธิ์การใช้งาน โอกาสที่หากคุณใช้เทมเพลตสมัยใหม่ที่ได้มาตรฐาน ไซต์นั้นอาจมีส่วนสำคัญ:

  • “ด้วยเหตุนี้ ข้อกำหนดและเงื่อนไขสำเร็จรูปส่วนใหญ่สำหรับเว็บไซต์—มีให้มากมายในการเข้าถึงฟรี—มีข้อกำหนดห้ามการขูดข้อมูลอัตโนมัติ แดกดัน เทมเพลตที่มีให้ใช้งานฟรีดังกล่าวอาจถูกนำมาใช้สำหรับการฝึกอบรม ChatGPT ดังนั้น เจ้าของเนื้อหาอาจต้องการตรวจสอบข้อกำหนดและเงื่อนไขของตน และใส่ข้อความแยกต่างหากที่ห้ามการใช้เนื้อหาทั้งหมดจากเว็บไซต์เพื่อการฝึกอบรม AI หรือวัตถุประสงค์ที่เกี่ยวข้อง ไม่ว่าจะรวบรวมด้วยตนเองหรือโดยอัตโนมัติ โดยไม่ได้รับอนุญาตเป็นลายลักษณ์อักษรล่วงหน้าจากเจ้าของเว็บไซต์ ”

นักเตะที่เพิ่มเข้ามารวมอยู่ในการวิเคราะห์การดำเนินการที่เป็นไปได้สำหรับผู้สร้างเนื้อหาเกี่ยวกับเว็บไซต์ของตน:

  • “ดังนั้น การใส่บทบัญญัติเกี่ยวกับความเสียหายที่ชำระแล้วซึ่งบังคับใช้ได้สำหรับการละเมิดแต่ละข้อของประโยคที่ไม่มีการขูด ซึ่งเสริมด้วยบทบัญญัติคำสั่งห้ามโดยไม่มีข้อผูกมัด อาจเป็นวิธีแก้ปัญหาที่พอใช้ได้สำหรับผู้เขียนเนื้อหาที่สร้างสรรค์ซึ่งไม่กระตือรือร้นที่จะให้ผลของพวกเขา แรงงานทางปัญญาเพื่อจุดประสงค์ในการฝึกอบรม AI โดยไม่ได้รับค่าตอบแทนหรืออย่างน้อยก็ได้รับเครดิตที่เหมาะสมสำหรับงานของพวกเขา”

คุณอาจต้องการปรึกษาทนายความของคุณเกี่ยวกับเรื่องนี้

บางคนบอกว่านี่เป็นวิธีที่สำคัญในการพยายามบอกผู้สร้าง AI ว่าผู้สร้างเนื้อหาจริงจังอย่างมากกับการปกป้องเนื้อหาของตน ตรวจสอบให้แน่ใจว่าใบอนุญาตของคุณมีถ้อยคำที่เหมาะสม ดูเหมือนว่าจะทำให้ผู้สร้าง AI สังเกตเห็น

แม้ว่าคนอื่นจะค่อนข้างตกต่ำ พวกเขาพูดอย่างสลดใจว่าคุณสามารถใส่ภาษากฎหมายที่รุนแรงและอันตรายที่สุดในเว็บไซต์ของคุณได้ แต่ท้ายที่สุดแล้วผู้สร้าง AI จะสแกนมัน คุณจะไม่รู้ว่าพวกเขาทำเช่นนั้น คุณจะมีปีศาจแห่งเวลาพิสูจน์ว่าพวกเขาทำ คุณไม่น่าจะค้นพบว่าผลลัพธ์ของพวกเขาสะท้อนถึงเนื้อหาของคุณ เป็นการต่อสู้ที่ยากเย็นแสนเข็ญที่คุณจะไม่มีวันชนะ

ข้อโต้แย้งคือคุณกำลังยอมจำนนในการสู้รบก่อนที่จะมีการสู้รบด้วยซ้ำ หากคุณไม่มีภาษากฎหมายที่เพียงพอ และหากคุณจับได้ พวกเขาจะกระดิกตัวและหาทางหนีความรับผิดชอบใดๆ ทั้งหมดเป็นเพราะคุณไม่ได้โพสต์ภาษากฎหมายที่ถูกต้อง

ส่วนอีกแนวทางหนึ่งที่กำลังพยายามดึงดันอยู่นั้นได้แก่ เครื่องหมาย เว็บไซต์ของคุณที่มีข้อความระบุว่าเว็บไซต์นั้นไม่ถูกสแกนโดย AI กำเนิด แนวคิดก็คือว่าจะมีการคิดค้นเครื่องหมายมาตรฐาน เว็บไซต์อาจเพิ่มเครื่องหมายในเว็บไซต์ของตน ผู้สร้าง AI จะได้รับแจ้งว่าควรแก้ไขการสแกนข้อมูลเพื่อข้ามเว็บไซต์ที่ทำเครื่องหมายไว้

วิธีการทำเครื่องหมายจะประสบความสำเร็จได้หรือไม่? ข้อกังวลรวมถึงค่าใช้จ่ายในการจัดหาและโพสต์เครื่องหมาย พร้อมกับดูว่าผู้สร้าง AI จะปฏิบัติตามเครื่องหมายและตรวจสอบให้แน่ใจว่าพวกเขาหลีกเลี่ยงการสแกนไซต์ที่ทำเครื่องหมายไว้หรือไม่ อีกมุมมองหนึ่งคือแม้ว่าผู้สร้าง AI จะไม่ปฏิบัติตามเครื่องหมายนี้ แต่ก็ให้เบาะแสอีกประการหนึ่งสำหรับการขึ้นศาลและการโต้เถียงว่าผู้สร้างเนื้อหาพยายามและเตือนการสแกน AI

ใช่ มันทำให้หัวคุณหมุนไปหมด

สรุป

ข้อสังเกตสุดท้ายบางประการเกี่ยวกับหัวข้อที่ยุ่งยากนี้

คุณพร้อมสำหรับมุมมองที่น่าเหลือเชื่อเกี่ยวกับ AI ทั้งหมดนี้ในฐานะผู้ลอกเลียนแบบและปัญหาที่กลืนไม่เข้าคายไม่ออกของผู้ละเมิดลิขสิทธิ์หรือไม่?

ข้อสันนิษฐานส่วนใหญ่เกี่ยวกับการ "จับ" เจเนอเรชันเอไอในการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์ขึ้นอยู่กับการค้นพบผลลัพธ์ที่ มีความคล้ายคลึงอย่างมาก งานก่อนหน้านี้ เช่น เนื้อหาบนอินเทอร์เน็ตที่อาจถูกสแกนระหว่างการฝึกอบรมข้อมูล

สมมติว่าแผนการแบ่งและพิชิตกำลังเล่นที่นี่

นี่คือสิ่งที่ฉันหมายถึง

หาก AI เจนเนอเรทีฟยืมเพียงเล็กน้อยจากที่นี่และเล็กน้อยจากตรงนั้น ท้ายที่สุดแล้วผสมมันเข้าด้วยกันเพื่อผลิตผลลัพธ์ใด ๆ ที่เฉพาะเจาะจง โอกาสที่จะได้ช่วงเวลาแห่งความสุขก็จะน้อยลงอย่างมาก เอาต์พุตใด ๆ ดูเหมือนจะไม่เพิ่มขึ้นถึงเกณฑ์ที่เพียงพอซึ่งคุณสามารถพูดได้อย่างแน่นอนว่าคัดลอกมาจากรายการแหล่งที่มาหนึ่งรายการ เรียงความผลลัพธ์หรือโหมดผลลัพธ์อื่น ๆ จะจับคู่ได้เพียงเศษส่วนเท่านั้น และด้วยวิธีการปกติในการพยายามโต้แย้งว่าการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์เกิดขึ้น คุณมักจะต้องแสดงให้มากกว่าที่เห็นเล็กน้อย โดยเฉพาะอย่างยิ่งหากอาหารชิ้นเล็กๆ นั้นไม่ได้โดดเด่นและสามารถพบได้ทั่วไปในอินเทอร์เน็ต (การตัดราคา ภาระการพิสูจน์การยักยอกที่เพียงพอ)

คุณยังคงประกาศอย่างโน้มน้าวใจได้หรือไม่ว่าการฝึกอบรมข้อมูลโดย generative AI ได้ฉีกเว็บไซต์และผู้สร้างเนื้อหาออก แม้ว่าหลักฐานที่แนะนำจะเป็นสัดส่วนที่ไม่มีนัยสำคัญอย่างเห็นได้ชัด

คิดเกี่ยวกับเรื่องนี้

หากเราเผชิญกับการลอกเลียนแบบที่อาจเกิดขึ้นในวงกว้างและการละเมิดลิขสิทธิ์ในวงกว้าง เราอาจต้องเปลี่ยนแนวทางของเราในการกำหนดว่าอะไรที่ก่อให้เกิดการลอกเลียนแบบและ/หรือการละเมิดลิขสิทธิ์ อาจมีกรณีเกิดขึ้นสำหรับการลอกเลียนแบบหรือการละเมิดลิขสิทธิ์ในส่วนหลักหรือส่วนรวม โมเสกที่ประกอบด้วยตัวอย่างเล็กๆ น้อยๆ นับพันหรือหลายล้านชิ้นอาจตีความได้ว่าเป็นการละเมิดดังกล่าว ปัญหาที่ชัดเจนคือสิ่งนี้สามารถทำให้เนื้อหาทุกประเภทอยู่ภายใต้การละเมิดได้ในทันที นี่อาจเป็นทางลาดลื่น

คิดหนัก.

ลีโอ ตอลสตอย นักเขียนระดับตำนานกล่าวถึงความคิดอันหนักแน่นว่า “ความหมายเดียวของชีวิตคือการรับใช้มนุษยชาติ”

หากเว็บไซต์ของคุณและเว็บไซต์ของผู้อื่นถูกสแกนเพื่อปรับปรุง AI และแม้ว่าคุณจะไม่ได้รับเงินสักบาท คุณอาจมีความเชื่ออันแรงกล้าว่าคุณกำลังมีส่วนสนับสนุนอนาคตของมนุษยชาติหรือไม่? ดูเหมือนเป็นราคาเล็กน้อยที่ต้องจ่าย

เว้นแต่ว่า AI จะกลายเป็นความเสี่ยงที่มีอยู่อย่างน่าสะพรึงกลัวที่จะกำจัดมนุษย์ทุกคนจากการดำรงอยู่ คุณไม่ควรใช้เครดิตสำหรับสิ่งนั้น ฉันคิดว่าคุณจะไม่มีส่วนร่วมในผลลัพธ์ที่เลวร้ายนั้นในไม่ช้า นอกเหนือจากการทำนายที่เลวร้าย คุณอาจคิดว่าหากผู้สร้าง AI กำลังทำเงินจาก AI กำเนิดของพวกเขา และดูเหมือนว่าพวกเขากำลังเพลิดเพลินกับการตักตวงกำไร คุณควรจะได้รับชิ้นส่วนของพายด้วย แชร์และแชร์เหมือนกัน ผู้ผลิต AI ควรขออนุญาตสแกนเว็บไซต์ใด ๆ จากนั้นจึงต่อรองราคาที่จะต้องจ่ายสำหรับการได้รับอนุญาตให้ทำการสแกน

ให้เครดิตเมื่อถึงกำหนดชำระเครดิต

ตอนนี้ขอให้คำพูดสุดท้ายของเซอร์วอลเตอร์ สก็อตต์: “โอ้ ช่างเป็นใยที่พันกันยุ่งเหยิง เมื่อแรกเริ่มเราฝึกฝนที่จะหลอกลวง”

สิ่งนี้อาจใช้หากคุณเชื่อว่าการหลอกลวงกำลังดำเนินอยู่ หรืออาจไม่มีผลหากคุณคิดว่าทุกอย่างเรียบร้อยดีและตรงไปตรงมาและถูกต้องตามกฎหมาย โปรดให้เครดิตตัวเองอย่างใจกว้างสำหรับการคิดทบทวนเรื่องนี้ คุณคู่ควรกับมัน.

ที่มา: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- และ-ai-กฎหมาย/