ไซมอน วิลลิสัน นักวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษถามว่า “มี OpenAI ได้แชร์ตัวอย่างที่เป็นรูปธรรมของการแจ้งเตือนที่ล้มเหลวใน o1 ปกติ แต่ประสบความสำเร็จใน o1-pro หรือไม่” ในทางตรงกันข้าม ความล้มเหลวได้รับการบันทึกไว้แล้ว ซูโดกุเป็นความท้าทายสำหรับโหมด o1 pro และถูกขัดขวางด้วยภาพลวงตาที่ตลกขบขันซึ่งมนุษย์ทุกคนสามารถเห็นได้ Tibor Blaho วิศวกร AI เขียน บน X ว่า “o1 และ o1-pro ทั้งคู่ล้มเหลวที่นี่ อาจเป็นเพราะข้อจำกัดด้านการมองเห็น (เช่นเดียวกับปริศนา Sudoku)” Tibor Blaho ยัง ตั้งข้อสังเกต อีกว่าทั้ง o1 และ o1-pro ล้มเหลวในแง่ของความสามารถด้านการมองเห็น o1 และ o1-pro ทั้งคู่ล้มเหลวที่นี่ อาจเป็นเพราะข้อจำกัดด้านการมองเห็น (เช่นเดียวกับปริศนา Sudoku) https://t.co/maVK7WxBrq pic.twitter.com/O9boSv7ZGt
o1-pro code failed to understand/read the puzzle properly.
According to OpenAI’s internal benchmarks, the standard o1 performs only marginally better than the o1 pro mode on coding and math problems.
In order to demonstrate the consistency of the o1 pro mode, OpenAI conducted a more stringent evaluation of the same benchmarks. The model was only deemed to have solved a question if it correctly identified the answer four out of four times. However, the enhancements were not substantial in these assessments.
On Thursday, OpenAI CEO Sam Altman was compelled to reiterate that ChatGPT Pro is not suitable for the majority of individuals, despite his previous assertion that OpenAI was progressing toward intelligence that was “too cheap to meter.”
He said, “Most users will be very happy with the o1 in the [ChatGPT] Plus tier!”
Bob McGrew said that improved reliability may be the most important unlock for o1 pro, especially for the medical field.
Ameet Talwalkar, an associate professor of machine learning at Carnegie Mellon and a venture partner at Amplify Partners, said “It seems like a big risk to me to raise the price tenfold,” he added, “I think we’ll have a much better sense in just a few weeks as to the appetite for this functionality.”
Guy Van den Broeck, a computer scientist at UCLA, said, “I don’t know if the price point makes sense and if pricey reasoning models will be the norm.”
Prospective consumers are not provided with a significant amount of information when the o1 pro mode is described as the most effective at resolving “the hardest problems.”
It is difficult to rationalize paying more in the absence of specific examples of the model’s purportedly enhanced capabilities, which include the ability to “think longer” and exhibit “intelligence.”
From Zero to Web3 Pro: Your 90-Day Career Launch Plan