อาลีบาบา คลาวด์ เปิดตัว AI Image Generation Model

อาลีบาบา คลาวด์ เปิดตัว AI Image Generation Model - Tongyi Wanxiang เพื่อช่วยให้ธุรกิจต่าง ๆ ปลดปล่อยความคิดสร้างสรรค์ และเพิ่มประสิทธิผลในการทำงาน

พร้อมเปิดตัว ModelScopeGPT เพื่อช่วยให้ผู้ใช้งานทำงานด้าน AI ที่ซับซ้อนได้สำเร็จ

อาลีบาบา คลาวด์ ธุรกิจด้านเทคโนโลยีดิจิทัล และหน่วยงานหลักด้านอินเทลลิเจนซ์ของอาลีบาบา กรุ๊ป เปิดตัว Tongyi Wanxiang – ทงอี้ ว่านเซี่ยง (‘Wanxiang’ หมายถึง ‘ภาพนับหมื่น ๆ ภาพ) ณ งาน World Artificial Intelligence Conference 2023, Tongyi Wanxiang เป็นโมเดล generative AI ที่ล้ำสมัย และพร้อมให้ลูกค้าองค์กรในประเทศจีนได้ทดสอบการใช้งานแบบ beta แล้ว

นอกจากนี้ อาลีบาบา คลาวด์ เปิดตัว ModelScopeGPT เฟรมเวิร์กที่มีความสามารถรอบตัวและออกแบบมาเพื่อช่วยผู้ใช้งานบรรลุเป้าหมายการทำงานด้าน AI ที่ซับซ้อนและเฉพาะทางทั้งโดเมนภาษา วิชั่น และคำพูด ด้วยการใช้ประโยชน์จากโมเดล AI ต่าง ๆ ที่ ModelScope มีให้ ModelScope เป็นแพลตฟอร์ม Model-as-a-Service (MaaS) ที่เป็นโอเพ่นซอร์สของอาลีบาบา คลาวด์ เปิดตัวไปเมื่อปีที่ผ่านมา ประกอบด้วยโมเดล AI มากกว่า 900 รายการ

นายจิงเหริน โซว ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี ของอาลีบาบา คลาวด์ กล่าวว่า “Tongyi Wanxiang เป็นตัวแทนของอีกหนึ่งความสำเร็จครั้งสำคัญในการสรรหาโมเดล generative AI ที่ล้ำหน้า เช่นเดียวกับที่เรายังเดินหน้าสำรวจเทคโนโลยีที่เป็นการเปลี่ยนกระบวนทัศน์ต่าง ๆ เพื่อส่งเสริมให้ธุรกิจและชุมชนสามารถนำพลังแห่งความคิดสร้างสรรค์ และความสามารถในการสร้างผลงานออกมาใช้งานได้มากขึ้น”

“การเปิดตัว Tongyi Wanxiang จะช่วยให้การสร้างรูปภาพด้วย generative AI คุณภาพสูงได้รับการใช้งานอย่างกว้างขวางมากขึ้น และช่วยสนับสนุนการพัฒนาศิลปะที่เป็น innovative AI และการแสดงออกที่สร้างสรรค์ของธุรกิจในหลากหลายอุตสาหกรรม เช่น อีคอมเมิร์ซ เกม การออกแบบ และ การโฆษณา”

แนะนำการสร้างรูปภาพด้วย Tongyi Wanxiang

โมเดล generative AI นี้สามารถจัดการงานต่าง ๆ ได้อย่างเชี่ยวชาญ สามารถตอบสนองต่อการป้อนข้อความ (text prompts) ภาษาจีนและภาษาอังกฤษ เพื่อสร้างรูปภาพที่เก็บรายละเอียดได้มากและหลากหลายสไตล์ ไม่ว่าจะเป็นภาพที่ใช้สีน้ำ สีน้ำมัน และจิตกรรมจีน ไปจนถึงแอนิเมชั่น ภาพสเก็ตช์ ภาพประกอบที่เน้นความเรียบง่าย (flat illustration) และการ์ตูนสามมิติ นอกจากนี้โมเดลยังสามารถแปลงรูปภาพใดก็ได้ให้เป็นรูปภาพใหม่ที่มีสไตล์คล้ายกัน และกำหนดสไตล์ของรูปภาพผ่านการทรานส์เฟอร์สไตล์ ซึ่งจะคงเนื้อหาของรูปภาพต้นฉบับไว้ในขณะที่ใช้การมองเห็นสไตล์ของอีกภาพหนึ่ง

โมเดลนี้ใช้ประโยชน์จากการฝึกและเรียนรู้เนื้อหาจากแหล่งที่มาหลายภาษา ที่ขับเคลื่อนโดยเทคโนโลยีการจัดเตรียมด้านความรู้, วิชวล AI และการประมวลผลภาษาธรรมชาติ (NLP) ที่ล้ำหน้าของอาลีบาบา คลาวด์ จึงสามารถเข้าใจความหมายของคำได้ดีมาก ดังนั้นจึงสามารถสร้างรูปภาพได้ถูกต้องและตรงตามบริบทที่ป้อนเข้ามายังโมเดลมากขึ้น

นอกจากนี้ ด้วยการเพิ่มประสิทธิภาพให้กับกระบวนการกระจายที่มีความละเอียดสูงตามอัตราส่วน signal-to-noise โมเดลนี้สามารถสร้างความสมดุลระหว่างความแม่นยำขององค์ประกอบและความคมชัดของรายละเอียด ในขณะที่เพิ่มความสามารถในการสร้างรูปภาพที่มีคอนทราสต์สูง สวยงามตระการตา และมีพื้นหลังที่สะอาดตา

Tongyi Wanxiang พัฒนาโดยใช้ Composer ซึ่งเป็นโมเดลขนาดใหญ่ที่อาลีบาบา คลาวด์ เป็นเจ้าของ ช่วยให้สามารถควบคุมเอาต์พุตขั้นสุดท้ายของรูปภาพได้เป็นอย่างดี เช่น การจัดวางเชิงพื้นที่ (spatial layout) และกลุ่มเครื่องมือที่ใช้กำหนดคุณสมบัติต่าง ๆ ของรูปภาพ (palette) ในขณะที่ยังคงรักษาคุณภาพการผสานรวมรูปภาพและความคิดสร้างสรรค์ไว้ได้

กรุณาดูวิดีโอสาธิต Tongyi Wanxiang และข้อมูลที่เกี่ยวข้องอื่น ๆ ที่ https://www.alizila.com/video/wach-how-alibaba-tongyi-wanxiang-creates-generative-ai-image/

ลูกค้าองค์กรในประเทศจีนสามารถสมัครใช้การทดสอบรุ่นเบต้าของ Tongyi Wanxiang ได้ที่ https://wanxiang.aliyun.com/

เปิดตัว ModelScopeGPT เพื่อจัดการกับงาน AI ที่ซับซ้อน

อาลีบาบา คลาวด์ได้เปิดตัว ModelScopeGPT (https://modelscope.cn/studios/damo/ModelScopeGPT/) เฟรมเวิร์กทรงพลังที่ใช้ประโยชน์จากประสิทธิภาพของโมเดลด้านภาษาขนาดใหญ่ต่าง ๆ (LLMs) ที่มีอยู่บนแพลตฟอร์ม โดย ModelScopeGPT จะใช้ LLMs เป็นเครื่องมือควบคุมการเชื่อมต่อกับโมเดลที่เชี่ยวชาญเฉพาะโดเมนจำนวนมากใน ModelScope open-source community ทั้งนี้ ModelScopeGPT สร้างอยู่ภายในระบบนิเวศ Model-as-a-Service ที่พรั่งพร้อม และใช้ความสามารถด้าน AI ต่าง ๆ ที่ให้บริการบนอาลีบาบา คลาวด์ ทั้งนี้องค์กรและนักพัฒนาสามารถใช้ ModelScopeGPT ได้ฟรี โดยสามารถเข้าถึงและใช้โมเดลที่เหมาะกับตนเองมากที่สุดเพื่อการทำงานด้าน AI ที่ซับซ้อน ตามคำขอของผู้ใช้งาน เช่น การพัฒนาวิดีโอหลายภาษา

อาลีบาบา คลาวด์ เปิดตัวโมเดลขนาดใหญ่ด้านภาษา (LLM) ที่มีชื่อว่า Tongyi Qianwen เมื่อเดือนเมษายน และวางแผนที่จะนำ LLM นี้ไปใช้กับธุรกิจต่าง ๆ ของอาลีบาบาในอนาคตอันใกล้ เพื่อเพิ่มประสบการณ์ที่ดีให้กับผู้ใช้งาน ลูกค้าของบริษัทฯ และนักพัฒนาจะสามารถเข้าใช้โมเดลนี้ เพื่อสร้างฟีเจอร์ AI ที่เหมาะกับตนเองด้วยค่าใช้จ่ายที่ไม่แพง ทั้งนี้ตั้งแต่เปิดตัวโมเดลนี้มา มีคำขอเข้าทดสอบแบบเบต้ามากกว่า 300,000 รายการจากองค์กรหลายภาคส่วน เช่น ฟินเทค อิเล็กทรอนิกส์ ภาคการขนส่ง แฟชั่น และผลิตภัณฑ์จากนม

นอกจากนี้ยังมีการนำ Tongyi Qianwen ผสานรวมกับ Tingwu ซึ่งเป็นผู้ช่วยที่ชาญฉลาดของอาลีบาบา คลาวด์ เพื่อช่วยให้ผู้ช่วยนี้เข้าใจและวิเคราะห์เนื้อหามัลติมีเดียได้อย่างแม่นยำและมีประสิทธิภาพสูง ตั้งแต่เปิดตัวมา มีผู้ใช้งานผู้ช่วยที่ขับเคลื่อนด้วย AI นี้กว่า 360,000 ราย

การแข่งขัน AI Hackathon เพื่อสร้างแรงบันดาลใจให้สร้างนวัตกรรม

นอกจากนี้ยังมีการจัดงาน AI Hackathon เป็นครั้งแรกโดย ModelScope งานครั้งแรกนี้จัดขึ้นที่ประเทศจีน เพื่อสนับสนุนการใช้แอปพลิเคชันที่เป็นโมเดลด้าน AI ต่าง ๆ โดยมีรางวัลจูงใจเป็นเงินสดและโอกาสในการระดมทุนจากบริษัทร่วมทุนชั้นนำต่าง ๆ

การแข่งขันนี้มี 56 ทีมจากผู้เข้าร่วมมากกว่า 300 ทีมผ่านเข้ารอบสุดท้าย โดยต้องเข้าร่วมการแข่งขันสองแทร็กเพื่อชิงรางวัลใหญ่ แทร็กแรกคือสร้างนวัตกรรมด้วยโมเดลด้านภาษาขนาดใหญ่ เพื่อแก้ปัญหาในชีวิตจริง แทร็กที่สองคือทำภารกิจที่ได้รับมอบหมายให้สำเร็จโดยใช้ pretrained model ต่าง ๆ เช่น การสร้างภาพจากข้อความคำสั่ง หรือ สร้างเอเจนต์อิสระที่ขับเคลื่อนด้วย LLM เพื่อใช้โมเดลที่ถูกต้องกับงานที่เฉพาะเจาะจง

นายจิงเหริน โซว กล่าวว่า “เราจัดการแข่งขันและกิจกรรมชุมชนอื่น ๆ เหล่านี้ เพราะต้องการให้นักพัฒนาและผู้ประกอบการมีส่วนร่วมมากขึ้น และส่งเสริมพวกเขาให้นำและทำไอเดียของตนให้เป็นจริง ปลดล็อกประสิทธิภาพการทำงาน และสร้างเครื่องมือ AI ที่เปลี่ยนและกำหนดอนาคตของอุตสาหกรรมของเราได้หลากหลายมากขึ้น”