
การสร้างภาพด้วย AI กลายเป็นหนึ่งในตัวอย่างที่เห็นได้ชัดที่สุดของการแข่งขันระหว่างยักษ์ใหญ่ด้านเทคโนโลยี OpenAI ได้ตัดสินใจจะเคลื่อนไหว พร้อมการอัปเดตครั้งใหญ่ของ รูปภาพ ChatGPTโดยเฉพาะระบบสร้างภาพแบบบูรณาการ ในบริบทที่โมเดลอย่าง Google Nano Banana Pro กำลังเป็นที่พูดถึงอย่างมาก
ด้วยการเปิดตัวครั้งนี้ บริษัทผู้พัฒนา ChatGPT ต้องการให้เครื่องมือของตนก้าวข้ามการเป็นเพียงส่วนเสริมสำหรับการแชท และทำหน้าที่เป็นฟีเจอร์เต็มรูปแบบ สตูดิโอสร้างสรรค์แบบบูรณาการอย่างแท้จริงเร็วขึ้น แม่นยำยิ่งขึ้น และมีอินเทอร์เฟซที่ออกแบบมาตั้งแต่เริ่มต้นเพื่อใช้งานกับรูปภาพ แทนที่จะจำกัดอยู่แค่ข้อความ
GPT Image 1.5 รุ่นใหม่: ความเร็วและความแม่นยำคือจุดเด่น
หัวใจสำคัญของการอัปเดตครั้งนี้คือ GPT รูปภาพ 1.5โมเดลเรือธงรุ่นใหม่ของ OpenAI สำหรับการประมวลผลภาพ บริษัทอ้างว่าสามารถสร้างเนื้อหาภาพได้สูงสุดถึง เร็วกว่าถึงสี่เท่า เมื่อเทียบกับเวอร์ชันก่อนหน้า ซึ่งในทางปฏิบัติแล้วจะเห็นได้ชัดเจนเป็นพิเศษในช่วงเวลาที่มีผู้ใช้งานหนาแน่นและบนอุปกรณ์เคลื่อนที่ ซึ่งก่อนหน้านี้ไม่ใช่เรื่องแปลกที่กระบวนการเปลี่ยนแอปพลิเคชันจะถูกขัดจังหวะหรือใช้เวลานานมาก
นอกเหนือจากประสิทธิภาพแล้ว การปรับปรุงที่สำคัญยังอยู่ที่การติดตามคำสั่ง ระบบสามารถตีความคำสั่งได้อย่างแม่นยำยิ่งขึ้น คำสั่งที่ซับซ้อนและความสัมพันธ์เชิงพื้นที่ที่แม่นยำเพื่อให้คำขอต่างๆ เช่น การเปลี่ยนวัตถุเพียงชิ้นเดียว การปรับแสง หรือการแก้ไขเสื้อผ้าของบุคคล ไม่ก่อให้เกิดการเปลี่ยนแปลงที่ไม่คาดคิดในส่วนอื่นๆ ของฉากอีกต่อไป
OpenAI อธิบายว่า GPT Image 1.5 ได้รับการฝึกฝนให้คงองค์ประกอบสำคัญของภาพไว้ เช่น เอกลักษณ์ใบหน้า องค์ประกอบโดยรวม หรือโทนสีแม้หลังจากผ่านการแก้ไขต่อเนื่องหลายรอบแล้วก็ตาม ประเด็นนี้มีความสำคัญอย่างยิ่งสำหรับการใช้งานระดับมืออาชีพ ซึ่งความสอดคล้องทางด้านภาพไม่ใช่เรื่องตามใจชอบ แต่เป็นสิ่งจำเป็น
การแก้ไขเฉพาะจุดและแบบต่อเนื่อง: เปลี่ยนแปลงเฉพาะสิ่งที่สำคัญเท่านั้น
หนึ่งในจุดที่แบบจำลองก่อนหน้านี้ทำได้ไม่ดีคือ... การแก้ไขแบบเจาะจงในส่วนที่เฉพาะเจาะจงการเปลี่ยนหมวก การปรับแสง หรือการเพิ่มองค์ประกอบในฉากหลัง อาจทำให้ฉากทั้งหมดเปลี่ยนไปได้ ChatGPT Images รุ่นใหม่นี้แก้ปัญหาดังกล่าวโดยตรง
แบบจำลองมีความสามารถ เพิ่ม ลบ รวม ผสม และสลับตำแหน่งองค์ประกอบ ภายในภาพเดียวกันโดยที่ส่วนประกอบสำคัญอื่นๆ ยังคงเหมือนเดิม ในทางปฏิบัติ หมายความว่าสามารถสั่งการให้ดำเนินการต่างๆ เช่น เปลี่ยนสีเสื้อ ปรับเปลี่ยนหมวก ปรับป้ายจราจร หรือเปลี่ยนรถบรรทุกให้เป็นรถดับเพลิง โดยไม่ทำให้สภาพแวดล้อมโดยรอบบิดเบี้ยว
พฤติกรรมในการสนทนาทางโทรศัพท์ก็ได้รับการเน้นย้ำเช่นกัน รุ่นต่อเนื่องก่อนหน้านี้ การเปลี่ยนแปลงครั้งที่สามหรือสี่มักจะทำให้โมเดลต้อง "สร้างภาพใหม่" อย่างสิ้นเชิง แต่ด้วย GPT Image 1.5 เครื่องมือนี้จะรักษาลักษณะ ท่าทาง และฉากไว้ได้อย่างน่าเชื่อถือมากขึ้น ทำให้คุณสามารถปรับปรุงแก้ไขจากพื้นฐานเดิมได้โดยไม่ต้องเริ่มต้นใหม่ทุกครั้งที่มีการแก้ไข
การแปลงโฉมอย่างสร้างสรรค์: จากเซลฟี่สู่โปสเตอร์ภาพยนตร์
นอกเหนือจากความแม่นยำทางเทคนิคแล้ว OpenAI ยังผลักดัน ChatGPT Images ไปสู่ขอบเขตความคิดสร้างสรรค์ที่โดดเด่น ระบบนี้อนุญาตให้ผู้ใช้สามารถอัปโหลดรูปถ่ายของตนเอง และด้วยคำแนะนำที่ค่อนข้างง่าย ก็จะได้รับภาพในเวลาเพียงไม่กี่วินาที เวอร์ชันที่เปลี่ยนแปลงแล้วที่น่าเชื่อถือจากโฆษณาในยุค 90 ไปจนถึงฉากในไทม์สแควร์กลางฤดูหนาว หรือเมืองในญี่ปุ่นที่มีสุนทรียภาพแบบไซเบอร์พังก์
โมเดลนี้ยังสามารถสร้างขึ้นใหม่ได้อีกด้วย รูปแบบศิลปะเฉพาะเช่น โปสเตอร์ภาพยนตร์คลาสสิก ภาพประกอบสไตล์อนิเมะ หรือองค์ประกอบภาพที่ดูเหมือนภาพในอดีต โดยเคารพคุณลักษณะสำคัญของบุคคลต้นฉบับ แนวคิดก็คือผู้ใช้สามารถ "เห็น" ตัวเองในบริบทที่แตกต่างกันมาก โดยไม่สูญเสียความรู้สึกว่าเป็นคนเดียวกัน
แนวทางนี้ชวนให้นึกถึงสิ่งที่โมเดลอย่าง Nano Banana เคยทำมาก่อน แต่ OpenAI พยายามสร้างความแตกต่างด้วยการเดิมพันกับ... การเปลี่ยนแปลงเชิงแนวคิดที่ควบคุมได้มากขึ้นโดยระบบจะคงสาระสำคัญของภาพต้นฉบับไว้ ในขณะที่เปลี่ยนเสื้อผ้า สภาพแวดล้อม แสง หรือยุคสมัย ด้วยความสอดคล้องทางภาพอย่างมาก
ChatGPT Images บอกลาโทนสีเหลืองๆ และปรับปรุงภาพในฉากที่ซับซ้อนให้ดียิ่งขึ้น
เป็นเวลานานแล้วที่การระบุว่าภาพใดถูกสร้างขึ้นด้วย ChatGPT เวอร์ชันแรกๆ นั้นค่อนข้างง่าย เนื่องจากภาพเหล่านั้นมีจำนวนมากกว่า โทนสีอบอุ่น เนื้อสัมผัสเนียนนุ่ม และโทนสีเหลืองอ่อนๆ ซึ่งเปิดเผยถึงต้นกำเนิดที่สร้างขึ้นโดยฝีมือมนุษย์ การเปรียบเทียบภายในที่แสดงโดย OpenAI และการทดสอบอิสระ เมื่อเทียบกับทางเลือกอื่นๆ เช่น ผู้สร้างรูปภาพ Bingดูเหมือนว่าลักษณะนิสัยนั้นจะหายไปแล้ว
โมเดลใหม่นี้มีคุณสมบัติ สเปktrumสีที่เป็นกลางและหลากหลายมากขึ้นวิธีนี้จะทำให้ภาพดูเหมือนภาพถ่ายทั่วไปมากขึ้น เว้นแต่ผู้ใช้จะระบุความต้องการเป็นอย่างอื่นอย่างชัดเจนในข้อความแจ้งเตือน ซึ่งจะช่วยให้ภาพดูไม่เหมือนภาพถ่ายที่ติดตราสินค้า และมีประโยชน์มากขึ้นในบริบทที่ต้องการความสมจริงหรือการผสานรวมกับภาพถ่ายที่มีอยู่แล้ว
นอกจากนี้ยังมีการปรับปรุงการนำเสนอของ ฉากที่มีองค์ประกอบเล็กๆ จำนวนมากเช่น ฝูงชนหรือฉากหลังที่มีรายละเอียดมากมาย ใบหน้าในกลุ่มคนจำนวนมากมีความโดดเด่นแตกต่างกันมากขึ้น มีท่าทางและการแสดงออกที่เป็นธรรมชาติมากขึ้น และข้อบกพร่องทั่วไป เช่น รอยมือ รอยขีดเล็กๆ หรือการซ้ำซ้อนที่แปลกประหลาดก็ลดลง
ChatGPT Images ช่วยให้คุณแทรกข้อความลงในรูปภาพได้: ใส่ในโปสเตอร์ อินโฟกราฟิก และภาพจำลองได้เลย
การสร้างข้อความที่อ่านได้ภายในภาพนั้นเป็นจุดอ่อนสำคัญอย่างหนึ่งของปัญญาประดิษฐ์เชิงสร้างสรรค์มาโดยตลอด OpenAI อ้างว่า GPT Image 1.5 ได้ก้าวไปอีกขั้นอย่างมีนัยสำคัญในด้านนี้ ด้วย... การแสดงผลตัวอักษรมีความสม่ำเสมอมากขึ้น กว่าในเวอร์ชันก่อนหน้านี้
โมเดลสามารถจัดการได้ ข้อความขนาดเล็กหนาแน่นสิ่งนี้เปิดโอกาสให้สร้างโปสเตอร์ อินโฟกราฟิก ภาพจำลองหน้าหนังสือพิมพ์ หรือการออกแบบที่มีตารางและรูปแบบคล้ายมาร์กดาวน์ ด้วยระดับความอ่านง่ายที่ถึงแม้จะไม่สมบูรณ์แบบ แต่ก็ใกล้เคียงกับสิ่งที่ใช้งานได้โดยไม่ต้องปรับแต่งอย่างมาก
สำหรับผู้ที่ทำงานด้านการตลาด การศึกษา อีคอมเมิร์ซ หรือเนื้อหาดิจิทัล การปรับปรุงนี้หมายถึงการลดเวลาที่ใช้ไปกับ... แก้ไขตัวอักษรที่ผิดรูปหรือคำที่ไม่สมบูรณ์ในบริบทที่ต้องการผลิตสื่อภาพที่มีข้อความชัดเจนพร้อมสำหรับการเผยแพร่ ข้อเท็จจริงที่ว่าตัวแบบเองสามารถสร้างข้อความที่ค่อนข้างสะอาดตาได้นั้น กลายเป็นปัจจัยที่สร้างความแตกต่าง
ประสบการณ์การใช้งานใหม่: ส่วนรูปภาพโดยเฉพาะใน ChatGPT
การอัปเดตไม่ได้หยุดอยู่แค่ที่โมเดลเท่านั้น แต่ยังส่งผลต่อวิธีการใช้งานด้วย OpenAI ได้เพิ่มฟีเจอร์ใหม่ลงในแถบด้านข้างของ ChatGPT แล้ว ส่วนเฉพาะที่เรียกว่า “รูปภาพ”หลักการนี้ใช้ได้ทั้งกับแอปพลิเคชันบนมือถือและเวอร์ชันบนเว็บ เป้าหมายคือการแยกประสบการณ์การใช้งานแบบภาพออกจากแชทแบบดั้งเดิม และทำให้ผู้ที่ไม่ต้องการยุ่งยากกับคำถามที่ซับซ้อนสามารถใช้งานได้ง่ายขึ้น
จากพื้นที่ใหม่นี้ ผู้ใช้จะพบว่า รูปแบบที่กำหนดไว้ล่วงหน้า คำแนะนำเกี่ยวกับเทรนด์ และแม่แบบ สำหรับงานที่ทำบ่อย เช่น การสร้างคำอวยพร การปรับปรุงภาพถ่ายเก่า การสลับระหว่างสไตล์ศิลปะต่างๆ หรือการสร้างผลิตภัณฑ์เดียวกันในรูปแบบต่างๆ วิธีการนี้ช่วยลดอุปสรรคสำหรับผู้ที่ไม่มีประสบการณ์ด้านเทคนิค
อีกแง่มุมที่เป็นประโยชน์คือ ส่วนรูปภาพนั้นทำหน้าที่เป็น... คลังข้อมูลส่วนกลาง จากผลงานสร้างสรรค์ทางภาพทั้งหมดของผู้ใช้ ทำให้ง่ายต่อการตรวจสอบเวอร์ชันก่อนหน้า ทำซ้ำสไตล์ด้วยเนื้อหาใหม่ หรือแก้ไขภาพที่สร้างไว้แล้วต่อ ซึ่งมีประโยชน์อย่างยิ่งในขั้นตอนการทำงานต่อเนื่อง
จากเครื่องประดับสะดุดตา สู่เครื่องมือทำงานเชิงภาพ
OpenAI เองก็ยอมรับว่า จนถึงปัจจุบัน การสร้างภาพภายใน ChatGPT ทำงานในลักษณะที่คล้ายกับ... โดดเด่นสะดุดตาเป็นพิเศษในอินเทอร์เฟซที่ออกแบบมาสำหรับข้อความ ซึ่งทำหน้าที่เป็นสภาพแวดล้อมการทำงานด้านภาพที่แข็งแกร่ง ด้วยการอัปเดตครั้งนี้ บริษัทตั้งเป้าที่จะก้าวไปอีกขั้นอย่างมีคุณภาพ: เปลี่ยนจากภาพ "ทดสอบ" สำหรับโซเชียลมีเดียไปสู่เครื่องมือที่ใช้งานได้จริงในกระบวนการทำงาน
การปรับปรุงในด้านความสม่ำเสมอและการทำงานซ้ำๆ มีผลกระทบโดยตรงต่อภาคส่วนต่างๆ เช่น การออกแบบ การตลาด อีคอมเมิร์ซ หรือการสร้างแบรนด์บริษัทต่างๆ ที่ต้องการปรับแนวคิดสร้างสรรค์เดียวกันให้เข้ากับรูปแบบต่างๆ ทดสอบผลิตภัณฑ์หลายรูปแบบ หรือรักษาความสม่ำเสมอของโลโก้และองค์ประกอบองค์กรในชิ้นงานหลายร้อยชิ้น จะพบว่าการควบคุมประเภทนี้เป็นข้อได้เปรียบอย่างชัดเจน
แพลตฟอร์มสร้างสรรค์ที่ดำเนินงานในยุโรป เช่น โปรแกรมแก้ไขเว็บและเครื่องมือออกแบบบนระบบคลาวด์พวกเขากำลังนำโมเดลเหล่านี้ไปผสานรวมเข้ากับขั้นตอนการทำงานของตนอยู่แล้ว ในด้านนี้ ความมุ่งมั่นของ OpenAI ในการสร้างสภาพแวดล้อมด้านภาพที่ครอบคลุมมากขึ้น สามารถตอบโจทย์ได้ดีทั้งสำหรับ SMEs ที่ต้องการเร่งการผลิตสื่อกราฟิก และทีมสื่อสารภายในองค์กรขนาดใหญ่
พร้อมใช้งานแล้วสำหรับอิมเมจ ChatGPT สำหรับผู้ใช้ ธุรกิจ และนักพัฒนา
OpenAI ได้เริ่มทยอยเปิดใช้งานอิมเมจ ChatGPT ใหม่แล้ว ผู้ใช้ส่วนใหญ่ของแพลตฟอร์ม รวมถึงผู้ใช้บัญชีฟรีด้วยผู้ใช้จำนวนมากเริ่มเห็นการแจ้งเตือนเมื่อเปิดแอป ซึ่งเชิญชวนให้ลองใช้ฟังก์ชันรูปภาพ และมีแท็บใหม่ในเมนูด้านข้างเพื่อรวมการใช้งานฟังก์ชันนี้ไว้ด้วยกัน
ในภาคธุรกิจ บริษัทได้ยืนยันว่าการเข้าถึงขั้นสูงสำหรับบัญชีธุรกิจและองค์กรจะทยอยเปิดใช้งาน โดยเน้นที่การบูรณาการภายใน เวิร์กโฟลว์ระดับมืออาชีพสำหรับองค์กรในยุโรปที่ใช้ ChatGPT สำหรับงานภายในอยู่แล้ว นี่หมายความว่าพวกเขาสามารถขยายการใช้งานจากข้อความไปสู่สื่อกราฟิกที่สร้างขึ้นภายใต้ข้อมูลประจำตัวเดียวกันได้
ในขณะเดียวกัน GPT Image 1.5 ก็สามารถใช้งานได้ผ่านทาง OpenAI APIสิ่งนี้ช่วยให้นักพัฒนาสามารถผสานรวมความสามารถในการสร้างและแก้ไขภาพเข้ากับแอปพลิเคชันของตนเองได้ บริษัทระบุว่าต้นทุนในการรับและส่งออกภาพนั้นต่ำกว่ารุ่นก่อนประมาณ 20% ซึ่งเป็นข้อได้เปรียบที่สำคัญสำหรับโครงการขนาดใหญ่หรือบริการที่ดำเนินงานด้วยกำไรที่จำกัด
แข่งขันกับ Nano Banana Pro และโมเดลภาพอื่นๆ
การเคลื่อนไหวของ OpenAI เกิดขึ้นในช่วงเวลาที่การแข่งขันดุเดือดมาก Google ได้ผลักดันอย่างหนัก นาโน บานาน่า โปร ในฐานะที่เป็นหนึ่งในโมเดลสร้างภาพชั้นนำที่ผสานรวมเข้ากับระบบนิเวศของเครื่องมือสร้างสรรค์และ เชื่อมโยงกับเขา ครอบครัวราศีเมถุนซึ่งส่งผลให้มีการใช้งานอย่างแพร่หลายทั่วโลก
สถานการณ์นี้ส่งผลให้เกิดการก่อตั้ง [ไม่ชัดเจน] ในบริการคู่แข่งบางแห่ง ข้อจำกัดที่เข้มงวดสำหรับผู้ใช้ฟรีตัวอย่างเช่น การลดจำนวนภาพที่สามารถสร้างได้ต่อวัน ซึ่งส่วนหนึ่งเป็นผลมาจากความต้องการที่สูง ในทางตรงกันข้าม OpenAI ดูเหมือนจะมุ่งเน้นไปที่การเข้าถึงที่กว้างขวาง ความเร็วที่มากขึ้น และสภาพแวดล้อมการแก้ไขที่ได้รับการปรับปรุงให้ดียิ่งขึ้น เพื่อรักษาและดึงดูดผู้ใช้
ในขณะเดียวกัน ผู้เล่นรายอื่นๆ เช่น xAI กับแชทบอท Grok หรือผู้เชี่ยวชาญด้านภาพต่างๆ ก็กำลังผลักดันเรื่องนี้อยู่ การสร้างสรรค์ภาพกลายเป็นแนวหน้าสำคัญ ในการแข่งขันเพื่อดึงดูดความสนใจของผู้ใช้ กลยุทธ์ของ OpenAI คือการรวม ChatGPT ให้เป็น "แอปพลิเคชันแบบครบวงจร" ที่ซึ่งการค้นหา เสียง ข้อความ รูปภาพ และวิดีโออยู่ร่วมกันในจุดเข้าใช้งานเดียว
ด้วยภาพ ChatGPT ใหม่นี้ OpenAI ได้ก้าวไปอีกขั้นที่สำคัญสู่การพัฒนา เครื่องมือภาพที่มีความสมบูรณ์ยิ่งขึ้นโมเดลที่เร็วขึ้นและแม่นยำยิ่งขึ้น อินเทอร์เฟซที่แตกต่าง และความสามารถในการแก้ไขที่มุ่งเน้นการใช้งานจริงอย่างชัดเจน ทั้งในบริบทส่วนตัวและระดับมืออาชีพ ยังคงต้องรอดูว่าการปรับปรุงเหล่านี้จะถูกนำไปใช้ในชีวิตประจำวันของผู้ใช้และธุรกิจในสเปนและยุโรปมากน้อยเพียงใด แต่ข้อความนั้นชัดเจน: รูปภาพไม่ได้เป็นเพียงส่วนเสริมที่สนุกสนานในการแชทอีกต่อไป แต่ได้กลายเป็นส่วนประกอบสำคัญของระบบนิเวศของ ChatGPT แล้ว
