OpenAI ปล่อย GPT-4o - AI สุดล้ำ เข้าใจอารมณ์มนุษย์มากขึ้น

รวมความสามารถด้านเสียง การถอดความ และสติปัญญาเข้าไว้ในโมเดลเดียว มันทรงพลัง ใช้งานง่าย และเหมือนมนุษย์อย่างน่าตกใจ OpenAI ได้สร้าง Her ตัวจริงออกมา

OpenAI ปล่อย GPT-4o: AI สุดล้ำ เข้าใจอารมณ์มนุษย์มากขึ้น

จำหนังเรื่อง Her ได้ไหม? หนังรักแห่งปี 2013 ที่ตัวเอกตกหลุมรัก AI เสียงหวาน AI ในเรื่อง Her นั้นเหนือกว่าระบบสั่งงานด้วยเสียงในปัจจุบันมาก มันตลก มีอารมณ์ และเข้าใจความซับซ้อนของบทสนทนามนุษย์ได้

และแล้ววันนี้ก็มาถึง OpenAI ประกาศเปิดตัว ChatGPT เวอร์ชั่นใหม่ ที่รวมความสามารถด้านเสียง การถอดความ และสติปัญญาเข้าไว้ในโมเดลเดียว มันทรงพลัง ใช้งานง่าย และเหมือนมนุษย์อย่างน่าตกใจ OpenAI ได้สร้าง Her ในโลกแห่งความเป็นจริงขึ้นมาแล้ว

ChatGPT ไม่เวิร์คในบทสนทนา?

จริงๆ แล้ว ChatGPT มีความสามารถด้านเสียงมาหลายเดือนแล้ว เปิดแอป ChatGPT บนมือถือ กดไอคอนหูฟัง แล้วสนทนากับระบบด้วยเสียงได้เลย แต่ปัญหาคือ ChatGPT เป็นนักสนทนาที่แย่มาก ความสามารถด้านเสียงของ ChatGPT เป็นแค่การจับแพะชนแกะโมเดลสามแบบเข้าด้วยกัน

  • เมื่อคุณพูด ระบบจะใช้โมเดลถอดความ เปลี่ยนเสียงเป็นข้อความ
  • จากนั้นป้อนข้อความนั้นไปยังโมเดลสติปัญญา ซึ่งเป็นระบบเดียวกับที่หนุน GPT-4
  • ระบบสติปัญญา สร้างข้อความ ChatGPT ป้อนกลับเข้าสู่ระบบแปลงข้อความเป็นเสียงพูด เพื่อสร้างเสียงตอบสนอง

นี่ทำให้ระบบสามารถสนทนาได้ในระดับหนึ่ง แต่การสนทนาจริงๆ นั้น เชื่องช้าและอึดอัด การส่งข้อมูลระหว่างโมเดลต่างๆ ทำให้ระบบล่าช้า การทดสอบพบว่าใช้เวลา 3-5 วินาทีในการตอบสนอง

บทสนทนาของมนุษย์อาศัยความละเอียดอ่อนที่เกิดขึ้นในเสี้ยววินาที ระบบที่ใช้เวลาถึงห้าวินาทีในการตอบสนองจึงรู้สึกเชื่องช้าและเหมือนหุ่นยนต์

ระบบก่อนหน้านี้ยังขาดแง่มุมพื้นฐานของคำพูดของมนุษย์ เช่น ไม่สามารถขัดจังหวะได้ คุณต้องรอให้มันพูดจบก่อนจึงจะตอบได้ การสนทนากับมันจึงเหมือนคุยกับคนที่พูดไม่หยุด ไม่สนใจคนอื่น

นอกจากนี้ยังถูกจำกัดด้วย การตีความอารมณ์ในเสียง หรือการเลียนแบบอารมณ์มนุษย์ในคำตอบ มนุษย์เก่งในการอ่านระหว่างบรรทัด เพราะเราจับสัญญาณอารมณ์ที่ละเอียดอ่อนในน้ำเสียงของผู้พูดได้

ChatGPT ทำสิ่งเหล่านี้ไม่ได้ ทำให้การสนทนารู้สึกเหมือนคุยกับมนุษย์ต่างดาว ไม่ใช่มนุษย์

โดยสรุป ระบบก่อนหน้านี้ตกอยู่ในหุบเขาลึกลับ มันเก่งในการสนทนาและมีน้ำเสียงที่น่าเชื่อถือจนบางส่วนของบทสนทนาอาจรู้สึกเหมือนมนุษย์ แต่ การหยุดชั่วคราวที่แปลกๆ การขาดความเข้าใจด้านอารมณ์ และความล่าช้า ทำลายภาพลวงตา ทำให้มันดูน่าขนลุกมากกว่ามีประโยชน์

โมเดลใหม่ปฏิวัติวงการของ OpenAI

วันนี้ OpenAI กำลังเปลี่ยนแปลงทั้งหมดนั้น บริษัทเปิดเผยว่ากำลังปล่อยโมเดลใหม่ GPT-4o GPT-4o รวมการรู้จำเสียงพูด การสร้างเสียงพูด และสติปัญญาเข้าไว้ในระบบเดียว

ไม่มีอีกแล้ว ระบบโค้ดสปาเก็ตตี้ที่รวมโมเดลสามแบบเพื่อจำลองการสนทนา ChatGPT เวอร์ชั่นใหม่จะสามารถรับเสียงพูด ประมวลผลได้ทันที และตอบสนองด้วยเสียงพูดที่สร้างขึ้นอย่างสมจริง

สำหรับผู้ใช้ สิ่งนี้จะช่วยให้สามารถใช้งานได้หลายอย่าง CEO ของ OpenAI Sam Altman อธิบายว่า เหมือนเวทมนตร์

  • สนทนากับ ChatGPT ได้อย่างเป็นธรรมชาติมากขึ้น ไม่ต้องพิมพ์คำถามลงในอินเทอร์เฟซ พูดคุยกับแอปได้เหมือนคุยกับเพื่อน
  • การตอบสนองที่รวดเร็ว ระบบสามารถฟังผู้ใช้และตอบสนองด้วยผลลัพธ์ที่ชาญฉลาดภายในไม่กี่มิลลิวินาที เป็นไปได้เพราะโมเดลใหม่ไม่ต้องเสียเวลาสลับโหมด สามารถประมวลผลเสียงและตอบสนองด้วยเสียงของตัวเองในขั้นตอนเดียว
  • ตีความและสร้างอารมณ์ได้ ในตัวอย่างหนึ่ง พนักงาน OpenAI ขอให้ระบบนำเขาผ่านการฝึกหายใจ จากนั้นแสร้งทำเป็นหายใจเร็ว ChatGPT สัมผัสได้ถึงความเร็วในการหายใจและความตื่นตระหนกในน้ำเสียง จึงกระตุ้นให้เขาหายใจช้าลงและหายใจเข้าลึกๆ ระบบยังสามารถปรับอารมณ์ในคำตอบของตัวเองได้
  • รวมเข้ากับความสามารถด้านวิสัยทัศน์ของ GPT-4 สามารถทำหน้าที่ต่างๆ เช่น การตีความอารมณ์บนใบหน้าของบุคคล

ระดับสติปัญญาด้านอารมณ์ที่เพิ่มขึ้น นี้จะทำให้ระบบเป็นนักสนทนาที่ดีขึ้น ความสามารถใหม่ๆ อื่นๆ ก็เช่นกัน ผู้ใช้สามารถขัดจังหวะ GPT-4o กลางคันได้ พนักงาน OpenAI มักขัดจังหวะโมเดลเมื่อเริ่มพูดนอกเรื่อง เหมือนที่คนเราขัดจังหวะเพื่อนเพื่อตอบคำถามในชีวิตจริง

ศักยภาพอันยิ่งใหญ่

ตัวอย่างที่แสดงให้เห็นนั้นดูเบาสมองและตลก แต่เราจะเห็นได้อย่างรวดเร็วว่าโมเดลที่สามารถตีความ ประมวลผลอย่างรวดเร็ว และสร้างคำพูดของมนุษย์ได้อย่างสมจริงนั้นทรงพลังอย่างไม่น่าเชื่อ หลายครั้งระหว่างการสาธิต ChatGPT ตอบสนองในแบบที่ชวนให้นึกถึง AI ตัวละครสมมติจาก Her

  • แปลภาษาได้อย่างรวดเร็วและแม่นยำ ฟังคำพูดภาษาอิตาลีและแปลเป็นคำพูดภาษาอังกฤษอย่างรวดเร็วและแม่นยำ และในทางกลับกัน สามารถทำให้การโต้ตอบแบบหลายภาษาเป็นเรื่องง่าย กำจัดอุปสรรคด้านภาษา
  • ใช้งานในด้านต่างๆ แพทย์สามารถดึง ChatGPT ขึ้นมาใช้เพื่อพูดคุยกับคนไข้ในภาษาใดก็ได้ ขณะเดินทาง สามารถดึงแอปขึ้นมาบนโทรศัพท์และใช้เป็นนักแปลฟรีเพื่อถามเส้นทาง
  • รวมความสามารถด้านวิสัยทัศน์ แสดงเมนูร้านอาหารต่างประเทศให้ ChatGPT ดู ขอคำแปล บอกว่าคุณชอบกินอะไรที่บ้าน และขอให้แนะนำอาหารที่คุณอาจต้องการสั่ง (หรือหลีกเลี่ยง)

จะใช้จริงไหม?

ทั้งหมดนี้วิเศษมากบนกระดาษ อย่างไรก็ตาม ยังไม่ชัดเจนว่ามีผู้ใช้กี่คนที่ต้องการ AI เสียงหวาน คนส่วนใหญ่ใช้ ChatGPT ไม่ใช่เพื่อนคุย แต่เพื่อจุดประสงค์ที่เป็นประโยชน์ เช่น เขียนสำเนาหน้า Landing Page สำหรับการสัมมนาผ่านเว็บ ตอบอีเมลจากเจ้าของบ้าน หรือเขียนบทความบล็อก

ไม่มีฟังก์ชันที่เป็นประโยชน์เหล่านี้ต้องการการสนทนา ยังไม่ชัดเจนว่าการพูดคำขอเหล่านี้กับ AI จะเป็นประโยชน์หรือไม่ ดังนั้น การทดสอบที่แท้จริงไม่ใช่ความสามารถของระบบใหม่ของ OpenAI แต่เป็น วิธีการรวมเข้ากับสถานที่ที่ผู้คนกำลังโต้ตอบกับคอมพิวเตอร์ผ่านเสียงอยู่แล้ว

ในความเป็นจริง ไม่เห็นภาพผู้ใช้หลายคนนั่งคุยกับ AI ที่ทำงาน แต่ถ้า OpenAI รวม GPT-4o เข้ากับอินเทอร์เฟซเสียงบนโทรศัพท์มือถือ ในรถยนต์ หรือบนอุปกรณ์อัจฉริยะ ความสามารถด้านอารมณ์ของระบบอาจมีประโยชน์มากขึ้น

โมเดล AI แบบหลายรูปแบบ

แม้ว่าผู้คนจะไม่ต้องการพูดคุยกับ ChatGPT มากนัก ความสามารถใหม่ๆ ของโมเดลเสียงและภาพแบบหลายรูปแบบโดยกำเนิดจะมีประโยชน์อย่างเหลือเชื่อสำหรับนักพัฒนาที่สร้างแอปพลิเคชันบน API ที่มีอยู่ของ OpenAI

OpenAI กล่าวว่า GPT-4o จะพร้อมใช้งานผ่านอินเทอร์เฟซนักพัฒนาที่มีอยู่ ระบบจะมีราคาถูกกว่า GPT-4 รุ่นก่อนหน้า 50% การเปลี่ยนแปลงเหล่านี้ยิ่งใหญ่มาก ไม่ว่าองค์ประกอบด้านคำพูดจะประสบความสำเร็จหรือไม่ สติปัญญาที่ให้พลังงานแก่ GPT-4o จะทำให้แอปพลิเคชันที่ขับเคลื่อนด้วย GPT-4 นับร้อยฉลาดขึ้น เร็วขึ้น ดีขึ้น และถูกกว่าในการใช้งาน

องค์ประกอบการสนทนาของระบบใหม่ อาจกลายเป็นลูกเล่นที่เจ๋ง แต่ผลกระทบที่แท้จริงจะละเอียดอ่อนและกว้างขึ้น การพูดคุยกับเครื่องจักรนั้นเจ๋ง แต่โมเดล AI แบบหลายรูปแบบที่เข้าใจอารมณ์ของมนุษย์ และเรียกใช้ได้ด้วยโค้ด Python เพียงไม่กี่บรรทัด ในราคาถูก? นั่นสามารถเปลี่ยนโลกได้อย่างแท้จริง

รอติดตามดูว่าผู้ใช้ในชีวิตจริงโต้ตอบกับ GPT-4o อย่างไร พวกเขาจะขนลุก? ทึ่ง? หลงใหล?

Categories: : Other