Google และ Harvard เปิดตัวชุดข้อมูลพร้อมหนังสือที่เป็นสาธารณสมบัติ 1 ล้านเล่มสำหรับการฝึกอบรม AI

Cryptopolitan12 ธ.ค. 2024 เวลา 23:45

หนังสืออื่นๆ ที่อยู่ในชุดข้อมูล ได้แก่ หนังสือเรียนคณิตศาสตร์ภาษาเช็ก และพจนานุกรมพกพาภาษาเวลส์

มหาวิทยาลัยล้อเลียน IDI ในเดือนมีนาคมโดยระบุแผนการที่จะสร้าง "ช่องทางที่เชื่อถือได้สำหรับข้อมูลทางกฎหมายสำหรับ AI" ตั้งแต่นั้นมา ก็ไม่ค่อยมีใครได้ยินข่าวนี้มากนัก จนกระทั่งมีการเปิดตัวอย่างเป็นทางการในวันพฤหัสบดี และยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Microsoft และ OpenAI ก็ให้ทุนสนับสนุนโครงการนี้

ชุดข้อมูลนี้ไม่ได้สงวนไว้เฉพาะ Silicon Valley เพียงอย่างเดียว แต่ IDI ได้เปิดให้ใครก็ตามตั้งแต่ห้องปฏิบัติการวิจัยไปจนถึงสตาร์ทอัพ AI ที่ต้องการฝึกโมเดลภาษาขนาดใหญ่ของพวกเขา

Greg Leppert ผู้อำนวยการบริหารของ IDI เปิดเผยว่า ชุดข้อมูลนี้มีจุดมุ่งหมายเพื่อยกระดับสนามแข่งขัน ในเวลาที่ต้นทุนในการฝึกอบรม AI ยังคงสูงอยู่และเป็นอุปสรรคต่อบริษัทขนาดเล็ก และทำให้ชุดข้อมูลดังกล่าวสงวนไว้สำหรับบริษัทที่มีงบประมาณมหาศาล โดยการเปิดชุดข้อมูลให้กับใครก็ตาม

Leppert เสริมว่าชุดข้อมูลนี้ "ได้รับการตรวจสอบอย่างเข้มงวด" ซึ่งตาม Fudzilla สันนิษฐานว่าหมายถึงมีคนตรวจสอบเพื่อให้แน่ใจว่า Bard หายไปจริงๆ และออกไปให้พ้นทาง

ชุดข้อมูลของ Harvard จะต้องมีทรัพยากรเพิ่มเติม

ตามที่ Leppert ซึ่งเปรียบเทียบศักยภาพของชุดข้อมูลกับ Linux ซึ่งเป็นระบบปฏิบัติการโอเพ่นซอร์ส ความสำเร็จของชุดข้อมูล Harvard จะขึ้นอยู่กับตัวแปรจำนวนหนึ่ง Leppert กล่าวว่าความสำเร็จจะต้องใช้ทรัพยากร ความเชี่ยวชาญ และ “เวทย์มนตร์ที่เพิ่มมากขึ้น” จากบริษัทที่มีกระเป๋าลึกแบบเดียวกับที่โครงการริเริ่มนี้ออกแบบมาเพื่อท้าทาย

หนังสือหลายล้านเล่มที่อยู่ในชุดข้อมูลได้รับการสแกนโดยเป็นส่วนหนึ่งของโปรแกรม Google หนังสือ Fudzilla อธิบายความคิดริเริ่มนี้ว่าเป็นแคปซูลเวลาดิจิทัล เมื่อความทะเยอทะยานของ Google ในการสแกนหนังสือทุกเล่มดูแปลกตามากกว่าที่จะเป็นดิสโทเปีย

อย่างไรก็ตาม Leppert มีทัศนคติที่ดีเกี่ยวกับการใช้งานที่เป็นไปได้ของโครงการ และยังบอกอีกว่าอาจเป็นขุมทรัพย์ที่ช่วยฝึกฝนโมเดล AI สำหรับทุกคนตั้งแต่สตาร์ทอัพในโรงรถไปจนถึงกลุ่มบริษัท

ในขณะที่บางคนยกย่องความคิดริเริ่มนี้ว่าเป็นการปฏิวัติก้าวกระโดดในการทำให้ AI เป็นประชาธิปไตย แต่ Fudzilla คิดว่าบางคนอาจมองว่านี่เป็นวิธีการอันละเอียดอ่อนในการรับรองว่าผู้ที่ทะเยอทะยานพุ่งพรวดด้วยพื้นที่เซิร์ฟเวอร์ไม่กี่เทราไบต์สามารถแข่งขันกันเพื่อพัฒนา ChatGPT ตัวต่อไปได้ .

อย่างไรก็ตามพวกเขาจะต้องการทรัพยากรเพิ่มเติมเพื่อแข่งขันและ dent ตลาด ChatGPT เปิดตัวในเดือนพฤศจิกายน 2022 จนประสบความสำเร็จในทันที ซึ่งกระตุ้นให้เกิดการแข่งขันสำหรับโมเดล AI เชิงสร้างสรรค์ทั่วโลก อย่างไรก็ตาม การพัฒนาโมเดลเหล่านี้ได้สร้างความกระหายในข้อมูลเพื่อทำให้โมเดลสมบูรณ์แบบ และความต้องการข้อมูลเพิ่มเติมนี้ทำให้เกิดปัญหาว่าพวกเขาสามารถรับข้อมูลได้มากน้อยเพียงใดโดยไม่ถูกขโมยไป

ในปัจจุบัน ผู้จัดพิมพ์เช่น Wall Street Journal และ New York Times ได้ ฟ้องร้อง OpenAI และ Perplexity เกี่ยวกับการใช้ข้อมูลของตนโดยไม่ได้รับอนุญาต

จากศูนย์ถึง Web3 Pro: แผนเปิดตัวอาชีพ 90 วันของคุณ

ข้อจำกัดความรับผิดชอบ: ข้อมูลที่ให้ไว้บนเว็บไซต์นี้มีไว้เพื่อวัตถุประสงค์ทางการศึกษาและให้ข้อมูลเท่านั้น และไม่ควรถือเป็นคำแนะนำทางการเงินหรือการลงทุน