codecamp

ArkClaw LAS 多模态数据处理 skills

火山引擎 LAS 为您提供多种多模态数据处理 skill,可用于对音视频、文档等多模态数据处理的场景,您可以在OpenClaw、IDE等多种场景便捷地完成安装、使用。以下为您介绍当前支持的 LAS 官方 skill 列表。

LAS skills 与对应的LAS 数据处理算子的能力本质上一致,因此:

  • LAS skill 的计费与 skill 对应算子的计费逻辑一致,详情可参见LAS 大模型调用计费
  • 在使用 skill 时,您也可以在与 OpenClaw/IDE 的 Agent 交互过程中,根据需要通过 skill 参数指定数据处理的要求,各 skill 支持的 skill 参数可参见 skill 对应算子的请求API 参数中的 data 请求参数。

文档

Skill 名称 skill 获取链接 Skill 介绍
PDF内容解析 Skill:
· skill 名称:byted-las-document-parseskill 
· 参数说明:PDF 文档解析(豆包)
使用skill时可参考其中的data请求参数。
Clawhub镜像站链接:Byted Las Document Parse · PDF内容解析Skill孵化于豆包大模型训练场景,提供对PDF 文件的视觉级结构化解析、高保真 Markdown 输出、图片识别、灵活输出模式,可广泛应用于需要将 PDF 精准转为结构化 Markdown、还原图文公式、批量处理与构建知识库的各类文档自动化场景。
· 【应用场景】论文研读、财报分析、合同审查
· 【核心优势】支持复杂版面解析,对标题、页眉、页脚、页码等元素的识别更为全面和准确,token 成本更低

视频

Skill 名称 skill 获取链接 Skill 介绍
视频智能剪辑 Skillskill 
· 名称:byted-las-video-edit 
· 参数说明:视频智能剪辑 
使用skill时可参考其中的data请求参数。
Clawhub镜像站链接:Byted Las Video Edit · 视频智能剪辑Skill基于多模态大模型构建智能视频剪辑能力,可从长视频中快速提取高价值片段,支持自然语言需求理解、参考图像辅助识别、多模态内容分析,输出标准化剪辑决策并自动生成与上传片段文件,适用于高光提取、角色追踪、商品片段筛选、自定义剪辑等视频生产与内容处理场景。
· 【应用场景】短漫剧制作、电商广告、课程切片
· 【核心优势】切分规则无限制(自定义),如根据角色、季节、剧情等维度切分,内置调优 Prompt,效果更优
视频内容理解 Skillskill 
· 名称:byted-las-vlm-video 
· 参数说明:视频内容理解(豆包系列)增强版
使用skill时可参考其中的data请求参数。
Clawhub镜像站链接:Byted Las Vlm Video · 本 Skill 用于调用 LAS las_vlm_video 算子进行视频理解(会先压缩视频到 50MB 以内,再调用豆包模型进行理解),并将同步 process 调用封装为可重复执行的脚本化工作流
· 【应用场景】影视营销、课程提炼、内容打标
· 【核心优势】视频长度/大小/格式/语种无限制,应用场景更广泛,开发交付更快
视频修复 Skillskill 名称:byted-las-video-inpaint参数说明:视频修复
使用skill时可参考其中的data请求参数。
Clawhub镜像站链接:Byted Las Video Inpaint · 修复视频,包含水印/字幕擦除,支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容,输出修复后的视频文件。
· 【应用场景】短剧出海与翻译、短视频创作、品牌宣传
· 【核心优势】擦除目标无限制,如水印、字幕、滚动字幕,支持视频分段处理,处理长视频更稳定
视频分辨率调整 Skill
· skill 名称:byted-las-video-resize
· 参数说明:视频分辨率调整(在线)
使用skill时可参考其中的data请求参数。
Clawhub镜像站链接:Byted Las Video Resize · 调整视频的分辨率,调高或调低
· 【应用场景】AI 短漫剧制作、渠道广告营销、
· 【核心优势】视频格式无限制,支持多种宽高比,可控制视频质量,音频不受损

音频

Skill 名称 skill 获取链接 Skill 介绍
语音识别 Skillskill 
· 名称:byted-las-asr-pro
· 参数说明:语音转文字(Doubao-录音文件识别)增强版使用skill时可参考其中的data请求参数。
· Clawhub镜像站链接:Byted Las Asr Pro · 语音识别Skill,基于 LAS ASR 打造录音转写服务,提供自动断句、数字规整、说话人 / 通道分离、长音频适配、标点补全能力,支持多音频并发处理与 JSON / 文本双格式输出,可广泛应用于会议记录、访谈整理、音视频字幕、客服质检与音频内容数字化等场景。
· 【应用场景】会议总结、客服质检、字幕生成
· 【核心优势】支持音频&视频,语种无限制,支持99种外国语&方言,内置降噪能力,准确率更优
音频格式转换 Skillskill 
· 名称:byted-las-audio-convert
· 参数说明:音频格式转换(在线)使用skill时可参考其中的data请求参数。
· Clawhub镜像站链接:Byted Las Audio Convert · 将音频/视频转换成指定格式,支持 wav、mp3、flac 音频格式
· 【应用场景】数据服务商清洗、模型预训练、音乐发行
· 【核心优势】输入输出格式无限制(自定义),支持高并发要求和大规模数据处理
音频切分 Skillskill 
· 名称:byted-las-audio-extract-and-split
· 参数说明:音频切分使用skill时可参考其中的data请求参数。
· Clawhub镜像站链接:Byted Las Audio Extract And Split · 用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径
· 【应用场景】会议纪要、教学素材生产、AI 客服模型训练
· 【核心优势】切分规则无限制(自定义),如根据时长、时间、人物等维度切分,内置调优 Prompt,效果更优

图片

Skill 名称 skill 获取链接 Skill 介绍
图片重采样 Skillskill 
· 名称:byted-las-image-resampleskill 
· 参数说明:图片重采样
使用skill时可参考其中的data请求参数。
· Clawhub镜像站链接:Byted Las Image Resample · 对输入图像进行尺寸重采样(仅支持降采样),并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法(nearest/bilinear/bicubic/lanczos)与 .jpg / .png 输出格式,适用于图像预处理、数据标准化、离线数据集构建等场景。
· 【应用场景】图像预处理、AIGC 平台、机器视觉与训练
· 【核心优势】输入输出格式无限制,在确保图片质量前提下,速度更快
ArkClaw 问题反馈
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

为 ArkClaw 组建 Agent 团队

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }