รวมความสามารถด้านเสียง การถอดความ และสติปัญญาเข้าไว้ในโมเดลเดียว มันทรงพลัง ใช้งานง่าย และเหมือนมนุษย์อย่างน่าตกใจ OpenAI ได้สร้าง Her ตัวจริงออกมา
จำหนังเรื่อง Her ได้ไหม? หนังรักแห่งปี 2013 ที่ตัวเอกตกหลุมรัก AI เสียงหวาน AI ในเรื่อง Her นั้นเหนือกว่าระบบสั่งงานด้วยเสียงในปัจจุบันมาก มันตลก มีอารมณ์ และเข้าใจความซับซ้อนของบทสนทนามนุษย์ได้
และแล้ววันนี้ก็มาถึง OpenAI ประกาศเปิดตัว ChatGPT เวอร์ชั่นใหม่ ที่รวมความสามารถด้านเสียง การถอดความ และสติปัญญาเข้าไว้ในโมเดลเดียว มันทรงพลัง ใช้งานง่าย และเหมือนมนุษย์อย่างน่าตกใจ OpenAI ได้สร้าง Her ในโลกแห่งความเป็นจริงขึ้นมาแล้ว
จริงๆ แล้ว ChatGPT มีความสามารถด้านเสียงมาหลายเดือนแล้ว เปิดแอป ChatGPT บนมือถือ กดไอคอนหูฟัง แล้วสนทนากับระบบด้วยเสียงได้เลย แต่ปัญหาคือ ChatGPT เป็นนักสนทนาที่แย่มาก ความสามารถด้านเสียงของ ChatGPT เป็นแค่การจับแพะชนแกะโมเดลสามแบบเข้าด้วยกัน
นี่ทำให้ระบบสามารถสนทนาได้ในระดับหนึ่ง แต่การสนทนาจริงๆ นั้น เชื่องช้าและอึดอัด การส่งข้อมูลระหว่างโมเดลต่างๆ ทำให้ระบบล่าช้า การทดสอบพบว่าใช้เวลา 3-5 วินาทีในการตอบสนอง
บทสนทนาของมนุษย์อาศัยความละเอียดอ่อนที่เกิดขึ้นในเสี้ยววินาที ระบบที่ใช้เวลาถึงห้าวินาทีในการตอบสนองจึงรู้สึกเชื่องช้าและเหมือนหุ่นยนต์
ระบบก่อนหน้านี้ยังขาดแง่มุมพื้นฐานของคำพูดของมนุษย์ เช่น ไม่สามารถขัดจังหวะได้ คุณต้องรอให้มันพูดจบก่อนจึงจะตอบได้ การสนทนากับมันจึงเหมือนคุยกับคนที่พูดไม่หยุด ไม่สนใจคนอื่น
นอกจากนี้ยังถูกจำกัดด้วย การตีความอารมณ์ในเสียง หรือการเลียนแบบอารมณ์มนุษย์ในคำตอบ มนุษย์เก่งในการอ่านระหว่างบรรทัด เพราะเราจับสัญญาณอารมณ์ที่ละเอียดอ่อนในน้ำเสียงของผู้พูดได้
ChatGPT ทำสิ่งเหล่านี้ไม่ได้ ทำให้การสนทนารู้สึกเหมือนคุยกับมนุษย์ต่างดาว ไม่ใช่มนุษย์
โดยสรุป ระบบก่อนหน้านี้ตกอยู่ในหุบเขาลึกลับ มันเก่งในการสนทนาและมีน้ำเสียงที่น่าเชื่อถือจนบางส่วนของบทสนทนาอาจรู้สึกเหมือนมนุษย์ แต่ การหยุดชั่วคราวที่แปลกๆ การขาดความเข้าใจด้านอารมณ์ และความล่าช้า ทำลายภาพลวงตา ทำให้มันดูน่าขนลุกมากกว่ามีประโยชน์
วันนี้ OpenAI กำลังเปลี่ยนแปลงทั้งหมดนั้น บริษัทเปิดเผยว่ากำลังปล่อยโมเดลใหม่ GPT-4o GPT-4o รวมการรู้จำเสียงพูด การสร้างเสียงพูด และสติปัญญาเข้าไว้ในระบบเดียว
ไม่มีอีกแล้ว ระบบโค้ดสปาเก็ตตี้ที่รวมโมเดลสามแบบเพื่อจำลองการสนทนา ChatGPT เวอร์ชั่นใหม่จะสามารถรับเสียงพูด ประมวลผลได้ทันที และตอบสนองด้วยเสียงพูดที่สร้างขึ้นอย่างสมจริง
สำหรับผู้ใช้ สิ่งนี้จะช่วยให้สามารถใช้งานได้หลายอย่าง CEO ของ OpenAI Sam Altman อธิบายว่า เหมือนเวทมนตร์
ระดับสติปัญญาด้านอารมณ์ที่เพิ่มขึ้น นี้จะทำให้ระบบเป็นนักสนทนาที่ดีขึ้น ความสามารถใหม่ๆ อื่นๆ ก็เช่นกัน ผู้ใช้สามารถขัดจังหวะ GPT-4o กลางคันได้ พนักงาน OpenAI มักขัดจังหวะโมเดลเมื่อเริ่มพูดนอกเรื่อง เหมือนที่คนเราขัดจังหวะเพื่อนเพื่อตอบคำถามในชีวิตจริง
ตัวอย่างที่แสดงให้เห็นนั้นดูเบาสมองและตลก แต่เราจะเห็นได้อย่างรวดเร็วว่าโมเดลที่สามารถตีความ ประมวลผลอย่างรวดเร็ว และสร้างคำพูดของมนุษย์ได้อย่างสมจริงนั้นทรงพลังอย่างไม่น่าเชื่อ หลายครั้งระหว่างการสาธิต ChatGPT ตอบสนองในแบบที่ชวนให้นึกถึง AI ตัวละครสมมติจาก Her
ทั้งหมดนี้วิเศษมากบนกระดาษ อย่างไรก็ตาม ยังไม่ชัดเจนว่ามีผู้ใช้กี่คนที่ต้องการ AI เสียงหวาน คนส่วนใหญ่ใช้ ChatGPT ไม่ใช่เพื่อนคุย แต่เพื่อจุดประสงค์ที่เป็นประโยชน์ เช่น เขียนสำเนาหน้า Landing Page สำหรับการสัมมนาผ่านเว็บ ตอบอีเมลจากเจ้าของบ้าน หรือเขียนบทความบล็อก
ไม่มีฟังก์ชันที่เป็นประโยชน์เหล่านี้ต้องการการสนทนา ยังไม่ชัดเจนว่าการพูดคำขอเหล่านี้กับ AI จะเป็นประโยชน์หรือไม่ ดังนั้น การทดสอบที่แท้จริงไม่ใช่ความสามารถของระบบใหม่ของ OpenAI แต่เป็น วิธีการรวมเข้ากับสถานที่ที่ผู้คนกำลังโต้ตอบกับคอมพิวเตอร์ผ่านเสียงอยู่แล้ว
ในความเป็นจริง ไม่เห็นภาพผู้ใช้หลายคนนั่งคุยกับ AI ที่ทำงาน แต่ถ้า OpenAI รวม GPT-4o เข้ากับอินเทอร์เฟซเสียงบนโทรศัพท์มือถือ ในรถยนต์ หรือบนอุปกรณ์อัจฉริยะ ความสามารถด้านอารมณ์ของระบบอาจมีประโยชน์มากขึ้น
แม้ว่าผู้คนจะไม่ต้องการพูดคุยกับ ChatGPT มากนัก ความสามารถใหม่ๆ ของโมเดลเสียงและภาพแบบหลายรูปแบบโดยกำเนิดจะมีประโยชน์อย่างเหลือเชื่อสำหรับนักพัฒนาที่สร้างแอปพลิเคชันบน API ที่มีอยู่ของ OpenAI
OpenAI กล่าวว่า GPT-4o จะพร้อมใช้งานผ่านอินเทอร์เฟซนักพัฒนาที่มีอยู่ ระบบจะมีราคาถูกกว่า GPT-4 รุ่นก่อนหน้า 50% การเปลี่ยนแปลงเหล่านี้ยิ่งใหญ่มาก ไม่ว่าองค์ประกอบด้านคำพูดจะประสบความสำเร็จหรือไม่ สติปัญญาที่ให้พลังงานแก่ GPT-4o จะทำให้แอปพลิเคชันที่ขับเคลื่อนด้วย GPT-4 นับร้อยฉลาดขึ้น เร็วขึ้น ดีขึ้น และถูกกว่าในการใช้งาน
องค์ประกอบการสนทนาของระบบใหม่ อาจกลายเป็นลูกเล่นที่เจ๋ง แต่ผลกระทบที่แท้จริงจะละเอียดอ่อนและกว้างขึ้น การพูดคุยกับเครื่องจักรนั้นเจ๋ง แต่โมเดล AI แบบหลายรูปแบบที่เข้าใจอารมณ์ของมนุษย์ และเรียกใช้ได้ด้วยโค้ด Python เพียงไม่กี่บรรทัด ในราคาถูก? นั่นสามารถเปลี่ยนโลกได้อย่างแท้จริง
รอติดตามดูว่าผู้ใช้ในชีวิตจริงโต้ตอบกับ GPT-4o อย่างไร พวกเขาจะขนลุก? ทึ่ง? หลงใหล?
Categories: : Other