Lazy loaded image
生成式人工智能
字数 2584阅读时长 7 分钟
2025-8-21
type
status
date
slug
summary
tags
category
icon
password
生成式人工智能(Generative Artificial Intelligence,简称 GenAI)作为一种前沿的人工智能技术,能够通过对海量数据的学习与模仿,进而生成文本、图像、音乐、视频、代码等多种类型的内容。该技术的实现依赖于大语言模型(LLMs),这类模型具备处理信息并生成贴近人类自然语言输出的能力。借助机器学习技术,GenAI 可以识别数据中蕴含的模式,并将其运用到内容创作和响应生成的过程中。
目前常见的生成式 AI 工具涵盖文心一言、智谱清言、Kimi、ChatGPT、Google Gemini、Claude 等文本生成工具,以及 DALL-E、Midjourney、Stable Diffusion 等图像生成工具。尽管这些工具在功能上存在相似性,但它们各自拥有独特的特点和优势,能够提供不同的响应结果。
考虑到这些 AI 工具在教学和研究领域具有潜在价值,本专题将对这些工具的有效使用方法及相关注意事项进行介绍。

通用大模型

DeepSeek提供网页版、移动端App和API接口,支持联网搜索和深度思考,能高效处理复杂问题和推理任务,是科研、商业和日常生活中的智能助手。
 
Kimi支持中英文对话,并支持多种文件格式,具备搜索能力,提供网页版和App使用,最高支持200万tokens的上下文窗口,即能够处理长达200万汉字的文本。
 
文心一言可以进行自然语言交互、信息检索和任务执行,支持文本、语音等多种交互方式,提供网页版和App使用。
 
讯飞星火拥有跨领域知识和语言理解能力,支持多语种语音识别与合成,提供网页版和App使用。
 
智谱清言能够进行文件处理、数据分析、图表绘制等复杂任务,并支持多种文件格式,提供网页版和App使用。
 
通义千问以对话形式解答问题,提供信息查询及知识分享,适用教育、咨询、企业服务等多种场景,提供网页版和App使用。
 
百川智能推出了包括Baichuan-7B和Baichuan-13B在内的多款AI产品,支持自然语言处理、知识问答和文本生成等功能。
 
豆包一款多功能人工智能助手,基于云雀大模型,提供聊天机器人、写作助手、英语学习助手、AI图片生成和数据可视化等主要功能,广泛应用于教育、内容创作和音乐生成等场景,提供网页版、APP版和插件使用。
 
 
 
 

翻译辅助

Deepl与先进的人工智能技术结合,可实现PDF、Word 和 PowerPoint 一键翻译整篇文档,所有的翻译文档可实现原格式保存。新用户可享受2次免费全文上传翻译,段落翻译不受使用次数限制。需使用Edge、google Chrome浏览器安装插件。
 
Immersive Translate双语对照网页翻译插件,可免费进行外语网页、Word文档、PDF、EPUD电子书、视频双语字幕翻译等。需使用Edge、google Chrome浏览器安装插件。
 
 

编程辅助

通义灵码是阿里云推出的智能编码辅助工具,基于通义大模型训练。它能够自动生成行级或函数级代码、单元测试和代码注释,并提供代码解释和智能问答功能。支持多种编程语言和主流集成开发环境(IDE)。
 
Cursor是由Anysphere公司推出的AI代码编辑器,支持多种编程语言。基于GPT-3.5和GPT-4模型,它能够自动生成、优化和重构代码。Cursor集成了版本控制和自动化测试等功能,提升开发效率和代码质量。它兼容Mac、Windows和Linux操作系统。
 
GitHub Copilot是由GitHub和OpenAI合作开发的AI编程助手,基于OpenAI Codex模型。它支持多种编程语言,并能在主流开发环境中自动生成和补全代码。Copilot还提供错误检测、代码优化和文档生成功能,显著提升编程效率和代码质量。
 

多模态应用

Midjourney可以创建多样化的图像,对设备硬件无要求,运行需全程联网,数据存在服务器上。
 
Dall-E 3基于ChatGPT构建的图像生成模型,能够理解自然语言并生成高分辨率图像,支持多种图像尺寸和风格。
 
Stable Diffusion一个开源的图像生成模型,支持本地离线使用,对硬件要求较高,但允许用户在生成图像后进行图像元素调整,并以稳定和高质量图像输出而闻名,入门门槛较高。
 
Leonardo采用SD的方案,在线版生图质量高,有实时绘画、图片放大、图片视频生成等功能。
 
Runway支持文本到视频(T2V)和图像到视频(I2V)的创作,用户可以通过输入文本或上传图像生成视频。Runway还提供视频抠像、慢动作效果等多种AI工具,且无需下载,直接在浏览器中使用。
 
一帧视频其功能包括秒创数字人、秒创AI帮写、秒创图文转视频、秒创AI视频、秒创AI语音、秒创AI作画等,提供网页版和App使用。
 
即梦AI支持AI配音、自动生成字幕、以及数字人物生成等,适用于iOS、Android、Windows和Mac OS多种操作系统。
 
可灵AI采用3D时空联合注意力机制和自研3D VAE网络,支持文本和图像生成高质量视频。其应用涵盖广告制作、社交媒体内容创作、在线教育、娱乐产业等。
 
 
剪映由字节跳动旗下的脸萌科技开发的一款视频编辑工具,适合需要丰富音乐素材和简便操作的用户,尤其是抖音等短视频平台的创作者。
 
Stable Audio用户可以通过输入文本提示生成多种类型的背景音乐,音频长度可达3分钟。免费版每月可生成20个音乐,不能用于商业用途;每月收费11.99美元,可生成500个音乐,允许商业用途。
 
腾讯智影一款云端智能视频创作工具,提供数字人播报、AI文本配音、自动字幕识别、智能去水印和文章转视频等特色功能,帮助用户高效便捷地制作高质量视频内容。
 
万彩AI一款数字人制作工具,提供多样化角色、智能面部识别、语音合成与配音、个性化定制和一键生成动画等功能。
 
HeyGen一个基于人工智能的视频生成平台,支持文本转语音、多语言翻译配音、AI数字人和语音克隆等功能。平台提供免费版本和多种付费方案,创作者版本每月29美元起,商业版本每月89美元起,分别提供不同的积分和功能支持。
 
上一篇
温铁军:从一个有机农场的生根发芽看社会化生态农业的发展【温言铁语】
下一篇
浅谈“预制菜”:别只纠结 “是不是预制”,看看预制背后有哪些门道