我是一名喜欢动手的开发者,平时对人工智能、语音、物联网、计算机视觉这些方向都挺感兴趣。这个站点用来整理我自己学习过程中的笔记、跑过的小 Demo,以及一些零碎的想法。
内容大多是边学边记,可能不严谨,纯属个人兴趣,欢迎一起交流。
本站为个人学习 / 测试用途的非经营性网站业余时间断断续续做的几个练手小项目,纯学习目的。
试着把语音识别、翻译和语音合成串起来,做了个能边说边出译文的小 Demo,顺便研究了下延迟和断句的处理。
买了块 ESP32 玩,自己写了个简单的后端服务跟它通信,折腾了 MQTT、WebSocket,还顺手研究了下语音唤醒。
把一堆自己的笔记喂给向量库,做了个能"问文档"的小工具,体会了下切分、召回和流式输出这几步的坑。
用来练习实时通信的小玩具,多个人进一个房间收发消息,主要是想搞明白 WebSocket 的连接管理和房间状态。
从学生时代到现在断断续续摸过的一些技术领域,大多是兴趣驱动、边学边做的练手项目,按方向大致归个类。
对"让机器听懂并开口说话"这件事很着迷,试过把语音识别、翻译、语音合成串成实时管线,也做过多人语音房间和语音助手的小玩具。
喜欢买各种小板子回来折腾。写过给 ESP32、树莓派用的后端服务,研究过 MQTT、串口通信和一堆传感器模块,做过能联网说话的小音箱。
对无人机和遥控设备很感兴趣,研究过 MAVLink 通信协议,自己写过简单的地面站界面,也玩过云台 / 摄像头的控制和画面传输。
用 OpenCV 和一些模型练手,做过图像里的缺陷 / 测量、文字 OCR 识别,还研究过基于物理模型的颜色测量与配色,挺有意思的小课题。
大模型火起来之后跟着学,做过 RAG 检索问答、对话 Agent,也试过让模型把一段自然语言整理成结构化的数据,体会了不少 prompt 和工程上的坑。
为了把上面这些 Demo 跑起来,前后端都得自己来。常用 React / Vue 写界面,FastAPI / Node 写后端,偶尔用 Docker 打包,做点自用的小工具。
学习过程里随手记的东西,主要给自己回顾用。
记录了一次把模型输出做成逐字流式显示时遇到的缓冲和断流问题,以及前端怎么平滑渲染。
关于文档切分粒度、向量维度和召回数量怎么取舍的一点不成熟的总结。
整理了一个最小可用的心跳 + 重连思路,自己的小 Demo 够用了。
记一下用 PyInstaller 打包时关于隐藏依赖和资源文件路径的几个注意点。
就是个普通的技术爱好者,喜欢在业余时间瞎折腾点东西。这个站点纯粹是个人用来记录和分享学习心得的地方,不涉及任何商业用途。
关于个人 · 非经营性 · 仅代表个人观点