GitHub 一周热点汇总第13期来啦!本期内容包括AI图像生成、智能证件照处理、自动撰写论文工具、文本标注 、UI界面定制、摄像头实时换脸,一起来看具体内容吧,可以关注点赞支持一下哦!!
PhotoMakerV2-腾讯推出的AI图像生成框架!
PhotoMaker V2是腾讯推出的Al图像生成框架,能在极短的时间内生成逼真的人物照片。与初代相比,V2版本在角色的一致性和可控性上实现了显著提升,用户可通过文本指令精确控制生成结果。腾讯还提供了丰富的集成脚本,如ControlNet和T2l-Adapter,以及IP-Adapter-FaceelD和InstantID等,进一步增强了角色个性化生成的能力。
PhotoMakerV2的主要功能
1.快速生成逼真人物照片:能在几秒钟内生成高质量的逼真人物图像.
2.角色多样性:确保生成的人物照片具有多样性,避免角色"撞脸"
3.文本控制:用户可通过文本指令来控制生成的人物特征,实现个性化定制。
4.集成脚本支持:提供与ControlNet、T2l-Adapter等工具的集成脚本,以及IP-Adapter-FacelD或InstantID的整合选项,增强角色生成的可控性和个性化。
github:https://github.com/TencentARC/PhotoMaker
UniPortrait:在单人和多人场景中保持身份一致 并进行风格转换!
UniPortrait 是一个用于人像图像个性化的统一框架,专注于在单人和多人场景中保持身份一致性的同时,提供高度可编辑的图像生成。该框架由阿里巴巴集团的研究团队开发。
它能够:
- 单人和多人图像个性化:统一处理单人和多人图像的个性化生成,确保在复杂场景中的身份一致性。
- 高保真度的身份保持:在生成图像时,能够准确地保持参考图像中的面部特征和身份信息。
- 广泛的面部可编辑性:允许用户根据文本描述对图像进行灵活编辑和定制,而不会丢失原始身份特征。
- 自由形式的输入描述:支持使用多样化的文本提示,无需预先设定布局或格式限制。
主要特点:
- 高保真度: UniPortrait 画出来的人物肖像非常逼真,能够清晰地展现出每个人的独特面部细节。
- 可编辑性强: 你可以根据自己的喜好,对 UniPortrait 画出来的人物肖像进行修改,比如改变发型、表情等等,UniPortrait 都能很好地满足你的需求。
- 自由创作: 你可以尽情发挥你的想象力,用文字描述你想要 UniPortrait 画什么样的人物肖像,UniPortrait 会尽力理解你的意思,并将其转化为生动的画面。
项目地址:
https://aigcdesigngroup.github.io/UniPortrait-Page/
GitHub:https://github.com/junjiehe96/UniPortrait
论文:
https://arxiv.org/pdf/2408.05939
在线演示:
https://huggingface.co/spaces/Junjie96/UniPortrait
HivisionIDPhotos:一款智能证件照片处理利器!
HivisionIDPhotos的核心在于其先进的抠图技术和灵活的证件照生成机制。项目采用了MTCNN进行高精度的人脸检测,结合MODNet以实现轻量级目精准的人物抠图。这背后的关键是模型训练优化和巧妙的工作流设计,确保了在不同光照条件和背景复杂度下的稳定性。
此外,项目支持动态调整的证件照尺寸,不仅限于常规尺寸,还允许用户定制特殊需求。这种灵活性得益于高效的图像处理算法和智能布局规划,保证了输出的照片既符合标准又美观自然。
应用场景
个人信息管理:需要频繁上传身份证照片的用户,可以通过该工具快速整理和优化自己的身份证照片。
企业服务:HR部门在处理员工信息时,可以批量处理身份证照片,节省大量手动操作时间。
在线申报系统:对于需要身份证照片的线上服务平台,可以集成此项目作为预处理工具,提高用户提交资料的准确性。
GitHub:https://github.com/Zeyi-Lin/HivisionIDPhotos?tab=readme-ov-file
Clarity AI:一款开源的AI图片放大和增强工具!
Clarty AI是一款利用最新AI技术的高分辨率图片放大增强工具,它能够增强图片细节并提供超高分辨率,适用于多种场景如风景、肖像、插图、动漫、室内设计等。这表明Clarty AI不仅是一个高质量的图片放大工具,而且还是一个开源项目,允许用户自由使用和修改基代码。
Clarity AI的主要特点包括其开源性质、无损放大能力以及对多种图像类型的适用性。这些特性使其成为一个强大的工具,用于提升低分辨率图像的质量,同时保持图像的原始细节和清晰度。此外,Clarity AI作为一个免费且开源的Magnific替代品,提供了与Magnific相似的功能,但以更开放的方式提供给用户。
Clarity AI无损图片放大AI工具的主要优势在于其采用最新的A!技术进行高分辨率图片的放大和增强,同时作为一个开源项目,它允许用户自由地访问和修改源代码,以满足特定的需求或进行个性化定制。
GitHub:https://github.com/philz1337x/clarity-upscaler/
自动撰写论文!The AIScientist:全自动的完成科学研究 !
The AI Scientist 是一个全面的自动化科学发现框架,利用先进的大语言模型(LLMs)来执行科学研究的各个环节。这个框架能够生成研究想法、编写代码、执行实验、生成图表、撰写科学论文,并进行同行评审。整个过程都是自动化的,不需要人类干预。
主要功能特点
- The AI Scientist 的核心技术依赖于基础模型,特别是大语言模型(LLMs),如GPT-4。这些模型通过对大量数据的预训练,具备了生成和理解自然语言的强大能力,使其能够独立构思研究问题、生成代码、撰写论文等。
- 应用:
- 文本生成:利用LLMs生成研究想法、实验计划和科学论文的文本部分。
- 代码生成:使用LLMs编写实验代码和分析脚本。
- 文献检索:通过语义分析,LLMs可以自动检索相关文献并生成引用。
官方介绍及演示:
https://sakana.ai/ai-scientist/
论文:
https://arxiv.org/pdf/2408.06292
GitHub:https://github.com/SakanaAI/AI-Scientist
Linly-Dubbing:一个开源的多语言AI配音和视频翻译工具
Linly-Dubbing是一个开源AI视频工具,支持配音、翻译、对口型,能自动将视频内容翻译成多种语言,并生成字幕。通过OpenAI API和Qwen模型等进行字幕翻译,并且通过声音分离技术和口型同步技术,视频配音自然流畅,对口型准确。用户可以上传视频,选择翻译语言,实现个性化的多语言配音,用Linly-Dubbing轻松实现视频内容的国际化。
主要功能:
多语言支持:提供中文及其他多种语言的配音和字幕翻译服务,满足不同语言市场的需求。
AI语音识别:采用WhisperX和FunASR技术,实现精准的语音到文本转换,包括说话者识别。
AI语音合成:集成Edge TTS、XTTS和CosyVoice等工具,生成自然流畅的语音输出,支持声音克隆。
AI字幕翻译:使用OpenAI AP、Qwen模型和Google Translate,确保翻译的准确性和自然性。
声音分离:可以分离人声和伴毒,为视频后期制作提供便利。
口型同步:基于Linly-Talker技术,实现虚拟角色口型与配音的精确匹配,提高视频的真实性。
视频处理:用户可以上传视频,自定义字幕、背景音乐、音量和播放速度等,增加视频吸引力。
GitHub:https://github.com/Kedreamix/Linly-Dubbing
多功能模型!ReSyncer:可实现音视频口型同步、说话风格迁移和换脸
ReSyncer是由清华大学、百度和南洋理工大学 S-Lab 实验室共同开发的一种新型框架,它能够生成非常逼真、与音频同步的口型视频,并且具备多种功能,如个性化调整、根据视频驱动的口型同步、改变说话风格以及进行人脸交换。
- 高保真度的音频同步口型视频:ReSyncer可以制作出非常逼真、准确地跟随音频同步的嘴部动作视频。
- 个性化微调:允许用户对生成的内容进行个性化调整,以满足不同的需求。
- 视频驱动的口型同步:除了音频,它还可以根据其他视频的嘴部动作来驱动同步,让新视频中的角色模仿已有视频中的说话动作。
- 说话风格迁移:ReSyncer可以将一个人的说话风格(如语气、节奏)迁移到另一个人身上。
- 人脸交换:它还可以在视频中替换说话者的面部,同时保持口型与音频的同步。
论文:
https://arxiv.org/pdf/2408.03284
项目地址:
https://github.com/danielepantaleone/Resyncer
文本标注,LabelU轻松拿下!支持图像、视频、音频标注!
LabelU提供了多种标注工具和功能,可广泛适用于文生视频、文生图片、文生音频、目标检测、分类、分割、关键点、折线、OCR等算法场景,具体包括:
·基于视频,具备强大视频处理能力,可实现视频分割、视频分类、视频时间戳等功能,为模型训练提供高质量标注数据。
·基于图像,提供多功能图像处理工具,涵盖2D框、语义分割、多段线、关键点等多种标注工具,协助你轻松完成图像的标识、注释和分析。
·基于音频,提供高效精准的音频分析工具,能够进行音频分割、音频分类、音频时间戳等,更好地注释复杂的声音信息。
关键还有一点,Labelu支持导入预标注 JSONL 文件进行二次修改,这意味着什么?(划重点!)用大模型自动标注,如果结果不准确,可以导入Labelu进行人工批量审核、二次修改,相当实用的功能!用来制作视频生成大模型常用的微调数据,也能轻松搞定。
GitHub:https://github.com/opendatalab/labelU
28.5Kstar!Flowise :开发人员无需编写代码即可创建LLM应用程序!
Flowise,一个用户友好的、无代码的平台,它简化了构建LangChain工作流的过程,允许开发人员创建LLM应用程序,而无需编写代码。
Flowise的关键特性,包括拖放式UI、用户友好性和多功能性。
FlowiseAI不仅降低了AI应用的准入门槛,还极大加速了创意到现实的转化进程。我们可以通过可视化推拽的方式创建自己的LLM应用, 同时还能通过git一键部署到自己的服务器上. 无需深厚的编程知识,就能轻松搭建自己的AI模型和工作流.
GitHub:https://github.com/FlowiseAI/Flowise
OpenUI:仅通过和AI聊天就可定制UI界面!
OpenUI 旨在使这一过程变得有趣、快速和灵活。它也是我们在 W&B 使用的工具,用于测试和原型设计我们的下一代工具,以在LLM之上构建强大的应用程序。
OpenUI 让您可以使用您的想象力来描述 UI,然后实时看到它被渲染。您可以请求更改并将 HTML 转换为 React、Svelte、Web Components 等。它支持三种终端的UI设计,pc端,平板端以及手机端,具体你可以在聊天框中上方选择显示。你也可以直接打开代码编辑页面,直接进行手动修改。
GitHub:https://github.com/wandb/openui
可实时AI换脸直播!Deep-Live-Cam开启AI换脸技术的新篇章!
Deep-Live-Cam 是一款极具创新性的 AI 应用,它犹如一把神奇的魔法钥匙,为我们打开了一个充满无限可能的世界。这款工具利用先进的深度学习算法,仅需一张照片,就能在视频中实现令人惊叹的人脸实时替换效果。其应用范围之广泛,犹如一片广阔的海洋,涵盖了娱乐、教育、艺术创作、商业广告等多个领域,展现出了巨大的潜力。
Deep-Live-Cam实时换脸的效果优秀。无论是做鬼脸、挑眉毛、左右摇头,还是切换各种刁钻角度,脸部表现都相当自然,没有时间延迟和崩坏的情况。不仅如此,该工具还功能齐全、操作简单,对比其他类似软件其UI设计更加友好,它不仅允许用户对替换后的面部特征进行自定义调整(包括肤色、光线、表情等参数支持修改)还内置多种风格的滤镜和特效,满足了用户个性化需求。
核心特性
实时性:Deep-Live-Cam 能够实现毫秒级的换脸效果,满足直播和实时视频会议的需求。
易用性:用户界面简洁直观,即便是初学者也能快速上手。
多平台兼容性:支持主流操作系统和硬件平台,包括 CPU、NVIDIACUDA、Apple Silicon、Core ML 等。
防滥用机制:内置内容审核机制,防止技术被用于不当场景。
GitHub:https://github.com/hacksider/Deep-Live-Cam
Open-LLM-VTuber:实现跟虚拟主播自然流畅的对话体验!
Open-LLM-VTuber:一个开源的数字人对话项目。通过语音交互、面部表情捕捉和长期记忆功能,实现自然流畅的对话体验。
它适用于 macOS
现有的很多解决方案都是通过 VTube Studi0 展示 Live2D 模型,并通过将桌面内置音频导入 VTube Studi0 并控制嘴唇来实现嘴唇同步。然而,在 macOS 上,没有简单的方法让 VTuber Studio 在桌面上收听内置音频。
很多现有的解决方案缺乏对 macOS 上 GPU 加速的支持,这导致它们在 mac 上的运行速度很慢。
该项目支持MemGPT实现永久聊天。聊天机器人会记住您说过的话。
基本目标
与 LLM 语音聊天
选择您自己的 LLM 后端
选择您自己的语音识别和文本转语音提供商
长期记忆
Live2D 前端
GitHub:https://github.com/t41372/Open-LLM-VTuber