codecamp

ArkClaw LAS 多模态数据处理 skills

火山引擎 LAS 为您提供多种多模态数据处理 skill，可用于对音视频、文档等多模态数据处理的场景，您可以在OpenClaw、IDE等多种场景便捷地完成安装、使用。以下为您介绍当前支持的 LAS 官方 skill 列表。

LAS skills 与对应的LAS 数据处理算子的能力本质上一致，因此：

LAS skill 的计费与 skill 对应算子的计费逻辑一致，详情可参见LAS 大模型调用计费。
在使用 skill 时，您也可以在与 OpenClaw/IDE 的 Agent 交互过程中，根据需要通过 skill 参数指定数据处理的要求，各 skill 支持的 skill 参数可参见 skill 对应算子的请求API 参数中的 data 请求参数。

文档

Skill 名称	skill 获取链接	Skill 介绍
PDF内容解析 Skill： · skill 名称：byted-las-document-parseskill · 参数说明：PDF 文档解析（豆包）使用skill时可参考其中的data请求参数。	Clawhub镜像站链接：Byted Las Document Parse	· PDF内容解析Skill，孵化于豆包大模型训练场景，提供对PDF 文件的视觉级结构化解析、高保真 Markdown 输出、图片识别、灵活输出模式，可广泛应用于需要将 PDF 精准转为结构化 Markdown、还原图文公式、批量处理与构建知识库的各类文档自动化场景。 · 【应用场景】论文研读、财报分析、合同审查 · 【核心优势】支持复杂版面解析，对标题、页眉、页脚、页码等元素的识别更为全面和准确，token 成本更低

视频

Skill 名称	skill 获取链接	Skill 介绍
视频智能剪辑 Skillskill · 名称：byted-las-video-edit · 参数说明：视频智能剪辑使用skill时可参考其中的data请求参数。	Clawhub镜像站链接：Byted Las Video Edit	· 视频智能剪辑Skill，基于多模态大模型构建智能视频剪辑能力，可从长视频中快速提取高价值片段，支持自然语言需求理解、参考图像辅助识别、多模态内容分析，输出标准化剪辑决策并自动生成与上传片段文件，适用于高光提取、角色追踪、商品片段筛选、自定义剪辑等视频生产与内容处理场景。 · 【应用场景】短漫剧制作、电商广告、课程切片 · 【核心优势】切分规则无限制（自定义），如根据角色、季节、剧情等维度切分，内置调优 Prompt，效果更优
视频内容理解 Skillskill · 名称：byted-las-vlm-video · 参数说明：视频内容理解（豆包系列）增强版使用skill时可参考其中的data请求参数。	Clawhub镜像站链接：Byted Las Vlm Video	· 本 Skill 用于调用 LAS las_vlm_video 算子进行视频理解（会先压缩视频到 50MB 以内，再调用豆包模型进行理解），并将同步 process 调用封装为可重复执行的脚本化工作流 · 【应用场景】影视营销、课程提炼、内容打标 · 【核心优势】视频长度/大小/格式/语种无限制，应用场景更广泛，开发交付更快
视频修复 Skillskill 名称：byted-las-video-inpaint参数说明：视频修复使用skill时可参考其中的data请求参数。	Clawhub镜像站链接：Byted Las Video Inpaint	· 修复视频，包含水印/字幕擦除，支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容，输出修复后的视频文件。 · 【应用场景】短剧出海与翻译、短视频创作、品牌宣传 · 【核心优势】擦除目标无限制，如水印、字幕、滚动字幕，支持视频分段处理，处理长视频更稳定
视频分辨率调整 Skill · skill 名称：byted-las-video-resize · 参数说明：视频分辨率调整（在线）使用skill时可参考其中的data请求参数。	Clawhub镜像站链接：Byted Las Video Resize	· 调整视频的分辨率，调高或调低 · 【应用场景】AI 短漫剧制作、渠道广告营销、 · 【核心优势】视频格式无限制，支持多种宽高比，可控制视频质量，音频不受损

音频

Skill 名称	skill 获取链接	Skill 介绍
语音识别 Skillskill · 名称：byted-las-asr-pro · 参数说明：语音转文字(Doubao-录音文件识别)增强版使用skill时可参考其中的data请求参数。	· Clawhub镜像站链接：Byted Las Asr Pro	· 语音识别Skill，基于 LAS ASR 打造录音转写服务，提供自动断句、数字规整、说话人 / 通道分离、长音频适配、标点补全能力，支持多音频并发处理与 JSON / 文本双格式输出，可广泛应用于会议记录、访谈整理、音视频字幕、客服质检与音频内容数字化等场景。 · 【应用场景】会议总结、客服质检、字幕生成 · 【核心优势】支持音频&视频，语种无限制，支持99种外国语&方言，内置降噪能力，准确率更优
音频格式转换 Skillskill · 名称：byted-las-audio-convert · 参数说明：音频格式转换（在线）使用skill时可参考其中的data请求参数。	· Clawhub镜像站链接：Byted Las Audio Convert	· 将音频/视频转换成指定格式，支持 wav、mp3、flac 音频格式 · 【应用场景】数据服务商清洗、模型预训练、音乐发行 · 【核心优势】输入输出格式无限制（自定义），支持高并发要求和大规模数据处理
音频切分 Skillskill · 名称：byted-las-audio-extract-and-split · 参数说明：音频切分使用skill时可参考其中的data请求参数。	· Clawhub镜像站链接：Byted Las Audio Extract And Split	· 用于从音频或视频文件中提取音频，并按照指定规则将音频切分为多个片段，输出到用户指定的存储路径 · 【应用场景】会议纪要、教学素材生产、AI 客服模型训练 · 【核心优势】切分规则无限制（自定义），如根据时长、时间、人物等维度切分，内置调优 Prompt，效果更优

图片

Skill 名称	skill 获取链接	Skill 介绍
图片重采样 Skillskill · 名称：byted-las-image-resampleskill · 参数说明：图片重采样使用skill时可参考其中的data请求参数。	· Clawhub镜像站链接：Byted Las Image Resample	· 对输入图像进行尺寸重采样（仅支持降采样），并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法（nearest/bilinear/bicubic/lanczos）与 `.jpg` / `.png` 输出格式，适用于图像预处理、数据标准化、离线数据集构建等场景。 · 【应用场景】图像预处理、AIGC 平台、机器视觉与训练 · 【核心优势】输入输出格式无限制，在确保图片质量前提下，速度更快

温馨提示

下载编程狮App，免费阅读超1000+编程语言教程

取消

确定

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }