Alibaba Introduces Open-Source Model for Digital Human Video Generation

Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

Alibaba Introduces Open-Source Model for Digital Human Video Generation

Speech-to-Video model, Wan2.2-S2V, brings portraits to life

Alibaba has unveiled Wan2.2-S2V (Speech-to-Video), its latest open-source model designed for digital human video creation. This innovative tool converts portrait photos into film-quality avatars capable of speaking, singing, and performing.

Part of Alibaba’s Wan2.2 video generation series, the new model can generate high-quality animated videos from a single image and an audio clip.

Wan2.2-S2V offers versatile character animation capabilities, enabling the creation of videos across multiple framing options including portrait, bust, and full-body perspectives. It can generate character actions and environmental factors dynamically based on prompt instructions, allowing professional content creators to capture precise visual representations tailored to specific storytelling and design requirements.

Powered by advanced audio-driven animation technology, the model delivers lifelike character performances, ranging from natural dialogue to musical performances, and seamlessly handles multiple characters within a scene. Creators can now transform voice recordings into lifelike animated movements, supporting a diverse range of avatars, from cartoon and animals to stylized characters.

To meet the diverse needs of professional content creators, the technology provides flexible output resolutions of 480P and 720P. This ensures high-quality visuals output that meets various professional and creative standards, making it suitable for both social media content and professional presentations.

Innovative Technologies

Wan2.2-S2V transcends traditional talking-head animations by combining text-guided global motion control with audio-driven fine-grained local movements. This enables natural and expressive character performances across complex and challenging scenarios.

Another key breakthrough lies in the model’s innovative frame processing technique. By compressing historical frames of arbitrary length into a single, compact latent representation, the technology significantly reduces computational overhead. This approach allows for remarkably stable long-video generation, addressing a critical challenge in extended animated content production.

The model’s advanced capabilities are further amplified by the model’s comprehensive training methodology. Alibaba’s research team constructed a large-scale audio-visual dataset specifically tailored to film and television production scenarios. Using a multi-resolution training approach, Wan2.2-S2V supports flexible video generation across diverse formats – from vertical short-form content to traditional horizontal film and television productions.

Wan2.2-S2V model is available to download on Hugging Face and GitHub, as well as Alibaba Cloud’s open-source community, ModelScope. A major contributor to the global open-source community, Alibaba open sourced Wan2.1 models in February 2025 and Wan 2.2 models in July. To date, the Wan series has generated over 6.9 million downloads on Hugging Face and ModelScope.

Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

Alibaba เปิดตัวโมเดลโอเพ่นซอร์สสำหรับการสร้าง Digital Human Video

Wan2.2-S2V สร้างสรรค์ภาพถ่ายให้มีชีวิต ด้วยโมเดลแปลงเสียงพูดเป็นวิดีโอ (Speech-to-Video model)

อาลีบาบา เปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดที่ออกแบบมาสำหรับการสร้างวิดีโอมนุษย์ดิจิทัล (digital human video) ที่สามารถแปลงภาพถ่ายบุคคลให้กลายเป็นอวทาร์คุณภาพระดับภาพยนตร์ที่พูด ร้องเพลง และแสดงท่าทางได้ 

โมเดลนี้เป็นส่วนหนึ่งของ Wan2.2 ซึ่งเป็นชุดโมเดลการสร้างวิดีโอของอาลีบาบา โมเดลนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพภาพเดียวและคลิปเสียงหนึ่งคลิป

Wan2.2-S2V มอบความสามารถด้านการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ทั้งแบบพอร์ตเทรต ครึ่งตัว และเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมแบบไดนามิกตามคำสั่งที่กำหนด ช่วยให้ครีเอเตอร์สามารถถ่ายทอดภาพได้อย่างแม่นยำ ตรงตามเรื่องราวและการออกแบบ

โมเดลนี้สามารถสร้างตัวละครที่แสดงได้เสมือนจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติ ไปจนถึงการแสดงดนตรี โดยอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง และยังจัดการกับตัวละครหลายตัวภายในฉากได้อย่างราบรื่น ครีเอเตอร์สามารถแปลงเสียงบันทึกให้เป็นภาพเคลื่อนไหวที่สมจริง รองรับอวทาร์ที่หลากหลาย ตั้งแต่การ์ตูนและสัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว  

เทคโนโลยีนี้มอบความละเอียดของการแสดงผลที่ยืดหยุ่น ทั้ง 480P และ 720P เพื่อตอบโจทย์ความต้องการที่หลากหลายของคอนเทนต์ครีเอเตอร์มืออาชีพให้มั่นใจได้ว่าจะได้ภาพคุณภาพสูงที่ตรงตามมาตรฐานทางวิชาชีพและงานสร้างสรรค์ที่หลากหลาย จึงเหมาะอย่างยิ่งสำหรับคอนเทนต์บนสื่อโซเชียลและงานนำเสนอระดับมืออาชีพ 

นวัตกรรมทางเทคโนโลยีที่หลากหลาย

Wan2.2-S2V มีประสิทธิภาพเหนือแอนิเมชันแบบ talking-head ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักในภาพรวมด้วยคำสั่งจากข้อความ และการเคลื่อนไหวเฉพาะจุดที่มีรายละเอียดสูงด้วยข้อมูลจากเสียงเข้าด้วยกัน ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้อย่างลึกซึ้ง แม้ในสถานการณ์ที่ซับซ้อนและท้าทาย

เทคนิคการประมวลผลเฟรมที่เป็นนวัตกรรมของโมเดลนี้ เป็นอีกหนึ่งความล้ำหน้าสำคัญ เทคโนโลยีนี้ช่วยลดค่าใช้จ่ายในการประมวลผลได้อย่างมีนัยสำคัญ จากการบีบอัดเฟรมที่มีอยู่เดิมซึ่งมีความยาวแบบไม่จำกัดให้เป็นภาพแฝง (latent representation) ที่มีขนาดกะทัดรัดเพียงภาพเดียว ซึ่งช่วยให้สามารถสร้างวิดีโอยาว ๆ ที่มีความเสถียรได้อย่างน่าทึ่ง เป็นการจัดการกับความท้าทายสำคัญในการผลิตคอนเทนต์แอนิเมชันที่ขยายเพิ่มเติม

ความสามารถที่ก้าวล้ำของโมเดลได้รับการยกระดับให้โดดเด่นยิ่งขึ้นด้วยกระบวนการเทรนที่ครอบคลุม ทีมวิจัยของอาลีบาบาได้สร้างชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ออกแบบมาเพื่อรองรับการผลิตภาพยนตร์และรายการโทรทัศน์โดยเฉพาะ Wan2.2-S2V ได้รับการเทรนด้วยความละเอียดหลายระดับ (multi-resolution) จึงสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบอย่างยืดหยุ่น ไม่ว่าจะเป็นคอนเทนต์วิดีโอสั้นที่ถ่ายทำแบบแนวตั้ง ไปจนถึงงานผลิตภาพยนต์และรายการโทรทัศน์แบบเดิมที่ถ่ายทำเป็นแนวนอน 

Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ นอกจากนี้ในฐานะผู้มีส่วนร่วมสำคัญต่อชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 เมื่อเดือนกุมภาพันธ์ พ.ศ. 2568 และโมเดล Wan2.2 เมื่อเดือนกรกฎาคมที่ผ่านมา ปัจจุบันโมเดลที่อยู่ใน Wan series มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งบน Hugging Face และ ModelScope

Standard Chartered and Alibaba Group Sign Strategic Technology and Growth Partnership

Standard Chartered และ Alibaba Group ลงนามความร่วมมือเชิงกลยุทธ์ด้านเทคโนโลยีและการสร้างความเติบโต รวมพลังพัฒนาและใช้เทคโนโลยี AI ที่ล้ำหน้า

Standard Chartered and Alibaba Group Sign Strategic Technology and Growth Partnership

Two industry powerhouses will work together to advance development and implementation of AI technologies

Standard Chartered (“the Bank”) and Alibaba Group Holding Limited (“Alibaba” or “Alibaba Group”) have entered into a strategic partnership, utilising Alibaba Cloud’s Artificial Intelligence (AI) technologies to accelerate the pace at which the financial services sector embraces AI.

According to the Memorandum of Understanding, Standard Chartered will work with Alibaba Cloud as its strategic partner for AI technologies to enhance operational efficiency and elevate the customer experience. Leveraging Alibaba Cloud’s intelligent solutions and AI technologies, the collaboration aims to help the Bank elevate its competitive edge. This includes developing AI-powered customer service and sales intelligence to raise the bar on customer engagement, automating AI-driven risk management and compliance, and upskilling its talents through AI workshops and certifications.  

The partnership will also support Alibaba Group’s strategic development globally, with Standard Chartered providing a comprehensive range of banking services that is tailored to meet Alibaba Group’s business needs, from financial support, supply chain financing support, cross border fund management solutions, to deepening the collaboration in financial market. Both parties will also actively enhance cooperation in the areas of sustainable development and sustainable finance. 

Bill Winters, Group Chief Executive of Standard Chartered, said: “We are investing heavily in cutting-edge technologies like AI, which are transforming our own business model and reshaping the future of finance. I am excited to build on our existing relationship with Alibaba Group – a global leader in AI and other areas including e-commerce and retail – and advance our shared commitment to transformative innovation. By combining Alibaba Group’s technological prowess with our financial expertise, we look to harness the full potential of AI technologies to advance on our innovation agenda while also creating long-term value for our clients, colleagues, and communities.” 

Eddie Wu, CEO of Alibaba Group, added: “From education to healthcare and scientific research, AI has already shown its potential to drive transformational change. We are thrilled to partner with Standard Chartered, a global leader in financial services, to shape the transformation in the financial sector. Through this strategic alliance, we will combine Alibaba’s technological expertise with Standard Chartered’s deep industry knowledge to unlock new possibilities.”

Standard Chartered และ Alibaba Group ลงนามความร่วมมือเชิงกลยุทธ์ด้านเทคโนโลยีและการสร้างความเติบโต รวมพลังพัฒนาและใช้เทคโนโลยี AI ที่ล้ำหน้า

Standard Chartered และ Alibaba Group ลงนามความร่วมมือเชิงกลยุทธ์ด้านเทคโนโลยีและการสร้างความเติบโต รวมพลังพัฒนาและใช้เทคโนโลยี AI ที่ล้ำหน้า

Standard Chartered และ Alibaba Group ลงนามความร่วมมือเชิงกลยุทธ์ด้านเทคโนโลยีและการสร้างความเติบโต

รวมพลังพัฒนาและใช้เทคโนโลยี AI ที่ล้ำหน้า

สแตนดาร์ดชาร์เตอร์ด (Standard Chartered) และบริษัทอาลีบาบา กรุ๊ป โฮลดิ้ง จำกัด (อาลีบาบา หรือ อาลีบาบา กรุ๊ป) ร่วมเป็นพันธมิตรเชิงกลยุทธ์เพื่อเร่งนำ AI มาใช้ในภาคบริการทางการเงินให้รวดเร็วยิ่งขึ้นโดยใช้เทคโนโลยีปัญญาประดิษฐ์ (AI) ของอาลีบาบา คลาวด์

ภายใต้บันทึกความเข้าใจนี้ สแตนดาร์ดชาร์เตอร์ดจะทำงานร่วมกับอาลีบาบา คลาวด์ ในฐานะพันธมิตรเชิงกลยุทธ์ด้านเทคโนโลยี AI เพื่อเพิ่มประสิทธิภาพให้กับการดำเนินงาน และยกระดับประสบการณ์ลูกค้า ความร่วมมือนี้มีเป้าหมายเพื่อช่วยให้ธนาคารฯ เพิ่มความได้เปรียบทางการแข่งขัน ด้วยการใช้โซลูชันที่ชาญฉลาดและเทคโนโลยี AI ของอาลีบาบา คลาวด์ ซึ่งรวมถึงการพัฒนาบริการลูกค้า และข้อมูลเชิงลึกด้านการขายที่ช่วยให้ตัดสินใจได้อย่างชาญฉลาดโดยมี AI เป็นเทคโนโลยีเบื้องหลัง เพื่อให้ลูกค้ามีส่วนร่วมมากขึ้น ใช้การบริหารความเสี่ยงและการปฏิบัติตามกฎระเบียบที่ขับเคลื่อนด้วย AI ได้อย่างอัตโนมัติ และ ยกระดับทักษะความสามารถบุคลากรด้วยการเข้าร่วมเวิร์กช็อปด้าน AI และการได้รับการรับรองต่าง ๆ

ความร่วมมือครั้งนี้ยังเป็นการสนับสนุนการพัฒนากลยุทธ์ของอาลีบาบา กรุ๊ป ทั่วโลก โดยสแตนดาร์ดชาร์เตอร์ดให้บริการด้านการธนาคารที่ครอบคลุมที่ปรับแต่งให้ตรงตามความต้องการทางธุรกิจของกลุ่มธุรกิจอาลีบาบา กรุ๊ป ไม่ว่าจะเป็นการสนับสนุนทางการเงิน การสนับสนุนทางการเงินให้กับระบบซัพพลายเชน โซลูชันบริหารจัดการกองทุนข้ามประเทศ ไปจนถึงการกระชับความร่วมมือในตลาดการเงินเชิงลึก ทั้งนี้ทั้งสองฝ่ายจะเสริมสร้างความร่วมมือด้านการพัฒนาที่ยั่งยืนและด้านการเงินที่ยั่งยืนอย่างแข็งขัน

นายบิล วินเทอร์ส ประธานเจ้าหน้าที่บริหารกลุ่มสแตนดาร์ดชาร์เตอร์ด กล่าวว่า “เรากำลังลงทุนอย่างมากในเทคโนโลยีล้ำสมัยต่าง ๆ เช่น AI ซึ่งมีบทบาทเข้ามาปรับเปลี่ยนรูปแบบทางธุรกิจของเรา และพลิกโฉมอนาคตด้านการเงิน ผมรู้สึกตื่นเต้นที่ได้ต่อยอดความสัมพันธ์ที่มีอยู่กับอาลีบาบา กรุ๊ป ซึ่งเป็นผู้นำระดับโลกด้าน AI และด้านอื่น ๆ เช่น อีคอมเมิร์ซและค้าปลีก รวมถึงความมุ่งมั่นร่วมกันของเราในการสร้างสรรค์นวัตกรรมที่นำไปสู่การเปลี่ยนแปลงที่ตอบรับความต้องการได้อย่างเจาะจง เรามุ่งหวังว่า เมื่อรวมความสามารถทางเทคโนโลยีของอาลีบาบา กรุ๊ป เข้ากับความเชี่ยวชาญด้านการเงินของเรา เราจะสามารถใช้ศักยภาพของ AI อย่างเต็มที่ เพื่อต่อยอดงานด้านนวัตกรรมของเรา ในขณะที่ยังคงสร้างคุณค่าในระยะยาวให้กับลูกค้า ผู้ร่วมงาน และชุมชนของเรา” 

นายเอ็ดดี้ วู ซีอีโอของอาลีบาบา กรุ๊ป กล่าวเสริมว่า “AI ได้แสดงให้เห็นแล้วถึงศักยภาพในการขับเคลื่อนการเปลี่ยนแปลงเชิงโครงสร้างหรือเชิงปฏิรูป ไม่ว่าจะเป็นในภาคการศึกษาไปจนถึงการดูแลสุขภาพและการวิจัยทางวิทยาศาสตร์ เรารู้สึกตื่นเต้นที่ได้ร่วมมือกับสแตนดาร์ดชาร์เตอร์ด ซึ่งเป็นบริการด้านการเงินชั้นนำของโลก เพื่อกำหนดทิศทางการเปลี่ยนผ่านในภาคการเงิน การเป็นพันธมิตรเชิงกลยุทธ์ครั้งนี้จะเป็นการผสานรวมความเชี่ยวชาญของอาลีบาบา เข้ากับความรู้เชิงลึกในอุตสาหกรรมของสแตนดาร์ดชาร์เตอร์ด เพื่อปลดล็อกโอกาสและความเป็นไปได้ใหม่ ๆ” 

Alibaba Releases Wan2.2 to Uplift Cinematic Video Production

อาลีบาบา ปล่อย Wan2.2 ยกระดับการผลิตวิดีโอคุณภาพระดับภาพยนตร์

Alibaba Releases Wan2.2 to Uplift Cinematic Video Production

The Industry’s first open-source MoE large video generation models offering superb control for global creators and developers

Alibaba has released Wan2.2, the industry’s first open-source large video generation models incorporating the MoE (Mixture-of-Experts) architecture, that will significantly elevate the ability of creators and developers to produce cinematic-style videos with a single click. 

The Wan2.2 series feature a text-to-video model Wan2.2-T2V-A14B and image-to-video model Wan2.2-I2V-A14B, and Wan2.2-TI2V-5B, a hybrid model that supports both text-to-video and image-to-video generation tasks within a single unified framework. 

Built on the MoE architecture and trained on meticulously curated aesthetic data, Wan2.2-T2V-A14B and Wan2.2-I2V-A14B generates videos with cinematic-grade quality and aesthetics, offering creators precise control over key dimensions such as lighting, time of day, color tone, camera angle, frame size, composition, focal length, etc. 

The two MoE models also demonstrate significant enhancements in producing complex motions – including vivid facial expressions, dynamic hand gestures, and intricate sports movements. Additionally, the models deliver realistic representations with enhanced instruction following and adherence to physical laws.

To address the issue of high computational consumption in video generation caused by long tokens, Wan2.2-T2V-A14B and Wan2.2-I2V-A14B implement a two-expert design in the denoising process of diffusion models, including a high-noise expert focusing on overall scene layout and a low-noise expert to refine details and textures. Though both models comprise a total of 27 billion parameters, only 14 billion parameters are activated per step, reducing computational consumption by up to 50%.

Wan2.2 incorporates fine-grained aesthetic tuning through a cinematic-inspired prompt system that categorizes key dimensions such as lighting, illumination, composition, and color tone. This approach enables Wan2.2 to accurately interpret and convey users’ aesthetic intentions during the generation process. 

To enhance generalization capabilities and creative diversity, Wan2.2 was trained on a substantially larger dataset, featuring 65.6% increase in image data and 83.2% increase in video data compared to Wan2.1. Wan2.2 demonstrates enhanced performance in producing complex scenes and motions, as well as an enhanced capacity for artistic expression. 

A Compact Model to Enhance Efficiency and Scalability

Wan2.2 also introduces its hybrid model Wan2.2-TI2V-5B, a dense model utilizes a high-compression 3D VAE architecture to achieve a temporal and spatial compression ratio of 4x16x16, enhancing the overall information compression rate to 64. The TI2V-5B can generate a 5-second 720P video in several minutes on a single consumer-grade GPU, enabling efficiency and scalability to developers and content creators.  

Wan2.2 models are available to download on Hugging Face and GitHub, as well as Alibaba Cloud’s open-source community, ModelScope. A major contributor to the global open source community, Alibaba open sourced four Wan2.1 models in February 2025 and Wan 2.1-VACE (Video All-in-one Creation and Editing) in May 2025. To date, the models have attracted over 5.4 million downloads on Hugging Face and ModelScope.