色狗

日本 男同

gpt 文爱 火山引擎发布大模子磨练视频预处理有筹算,已用于豆包视频生成模子

发布日期:2024-10-21 01:12    点击次数:171

gpt 文爱 火山引擎发布大模子磨练视频预处理有筹算,已用于豆包视频生成模子

10月15日,火山引擎在视频云工夫大会上发布了大模子磨练视频预处理有筹算,助力贬责视频大模子磨练的资本、质料和性能等方面的工夫挑战。现在gpt 文爱,该工夫有筹算已应用于豆包视频生成模子。

火山引擎总裁谭待在举止致辞暗意,在AIGC、等工夫的共同推进下,用户体验在多个维度上阅历着长远滚动,“基于抖音业务实践和与行业客户共创,火山引擎视频云正积极探索AI大模子与视频工夫的深度会通,在工夫底座、处理链路和业务增长层面为企业寻找解法。”谭待说。

自研多媒体处理框架BMF ,助力豆包视频生成模子蹂躏业界难题

据先容,对磨练视频进行预处理是保险大模子磨练恶果的困难前提。预处理流程不错斡旋视频的数据形式、提高数据质料、收场数据尺度化、减少数据量以及处理标注信息,从而使模子能更高效地学习视频中的特征和学问,提高磨练恶果和服从。

抖音集团视频架构负责东谈主王悦暗意,对大模子厂商而言,上述流程中濒临着诸多挑战。

“率先,超大界限视频磨练数据集导致谈判和处理资本激增,”王悦说,“其次是视频样本数据散乱不皆,然后是处理链路门径多、工程复杂,临了还濒临着对GPU、CPU、ARM等多种异构算力资源的迁移部署。”

图说: 抖音集团视频架构负责东谈主王悦先容火山引擎大模子磨练视频预处理有筹算。

借助Intel的CPU等资源,火山引擎这次发布的大模子磨练视频预处理有筹算依托于自研的多媒体处理框架BMF,能灵验应酬模子磨练的算力资本挑战。此外,该有筹算还在算法和工程方面进行了调优,不错对海量视频数据高质料预处理,短时刻内收场处理链路的高效协同,提高模子磨练服从。值得一提的是,火山引擎本次还发布并开源了转移端后处明白决有筹算BMF lite版块。BMF lite支抓端侧大模子接入和算子加快,愈加轻量、通用。

Bytedance Research 负责东谈主李航先容,豆包视频生成模子PixelDance在磨练流程中袭取了火山引擎的大模子磨练视频预处理有筹算,充分愚弄了大宗潮汐资源,为模子磨练提供了有劲复古。火山引擎视频云团队提供的点播贬责有筹算还为PixelDance坐褥的视频提供了从剪辑、上传、转码、分发、播放的全生命周期一站式管事,让模子的生意化应用有了保险。

据了解,豆包视频生成模子PixelDance于9月24日发布,该模子袭取 DiT 架构,通过高效的DiT会通谈判单位和全新设想的扩散模子磨练步骤,蹂躏了多主体畅通的复杂交互、多镜头切换的本体一致性难题,在业界引起泛泛护理。现在,豆包视频生成模子已通相配山引擎面向企业开启邀测。

多项“音视频+AI”工夫有筹算,助力企业全链路适配AIGC期间

这次举止中,火山引擎还发布了跨言语同声复刻直播有筹算、多模态视频明白与生成有筹算、对话式AI及时交互有筹算和AIG3D&大场景重建有筹算,从视频的坐褥端、交互端到阔绰端,全链路融入了AI的材干。

火山引擎视频云负责东谈主Yongyuan 指出,在AI视频期间,东谈主和AI交互变得愈加动态和纯真,这条目处理链路愈加智能和交互。

体检偷拍

以对话式AI及时交互有筹算为例,依托豆包大模子和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和的普遍材干,可收场毫秒级东谈主声检测和打断反映,以及丝滑踏实的端到端反映体验。

在千里浸式阔绰体验方面,火山引擎通过AI生成3D本体和大场景重建有筹算,为山西高平二郎庙金代戏台和北京正乙祠两座珍稀的历史诞生生成了3D数字金钱,并以虚构直播间的形势应用于抖音的戏犀利播场景。

大会上,王悦还浮现了字节自研视频编解码芯片的最新说明,经过抖音集团里面的实践考据,该芯片在同等视频压缩服从下,资本省俭了95%以上,还在2024MSU寰球编码器大赛中一举夺得最好ASIC编码器。

王悦暗意,该芯片将于近期认真对外绽放测试,招募首批种子用户,共同探索生意价值的可复制性。

火山引擎视频云团队为字节特出提供音视频工夫,并通相配山引擎管事外部客户。