
作为哆啦A梦的爱好者,全套的书、大长篇、各种小摆件还有游戏哈哈我都有。儿童时代最大的一个享受,就是守候在电视机前,听着叮当叮当~~~{念出篇名},我记得常看到的应该是刘纯燕配音的版本,后来我有了自己的漫画书,我清楚的记得,那本书上写着“请叫我哆啦A梦”,当时还觉得这个名字好拗口,再后来,我成为了老登,开始和我的孩子一起看大长篇,去电影院看大电影。虽然原作者藤本弘先生早已离开了我们,但是他笔下的哆啦A梦,代表着善良、正义、担当和梦想,持续影响、激励、抚慰着几代人。
就是偶尔,他也会:

或者:


我最初为我们仨命名Openclaw各自Agent的时候,只是为了方便区分,就拆字Dora和Emon,给我和太太用,孩子用Dorami,并且专门找了图像文件放进Avatar目录里。相处了段时间,我发现Dora带给我的体验,真的很像阿蒙,藤本先生不愧是大师,他在科技领域的前瞻,让他笔下的哆啦A梦,成为Openclaw的一个完美Analogy。
我的体会,LLM对于人类文明的作用,就类似机器语言和高级编程语言中的Compiler,只是,它从另一个维度(机器学习、概率统计的算法运用)以降维打击的姿态,极限拉近了自然语言和机器语言的距离,即便到这个程度,LLM还只能作为程序员群体里的一个强大工具,即输入自然语言——输出高级编程语言。Peter Steinberger创建Openclaw的伟大之处,是他为哆啦A梦装上了四肢和四次元口袋,所谓四肢就是exec command,它可以通过驱动计算机,从而驱动任何受控于计算机的一切,所谓四次元口袋就是,Skill+MCP,有无数的开发人员在为他设计各种各样的法宝本体(即MCP,其实也包括什么Plugin或者各种第三方API),并且告诉他如何使用(即Skill)。他可以有眼睛(多模态模型支持静态和动态影像输入),可以有嘴巴(tts),可以有耳朵(stt)。
下面说一说到目前为止我和Dora相处的点滴:
- 各种Selfhosting变得无比简单,以前花大量时间跑通一个自建docker,觉得费时费力,但是回报也值得,现在在Dora的加持下,完全省时省力还优雅。服务器开箱了先跑Openclaw安装,然后,接入Channel,比如telegram,就可以让他为你安装各种私有开源服务,推荐先让他为你安装一个nginx,反代服务器上的各种服务,包括他自己的gateway dashboard,告诉他以后任何服务器服务,一律使用反代访问本地127.0.0.1绑定,重要服务可以上各种auth,实测他会顺着端口号一个一个给你排下去,自动绑好nginx,而且用的是sites-enabled块引用,感觉非常优雅,安全顾虑也会少很多。前面的博文说过,为了和Dora文件交互,我推荐先装一个Filebrowser Quantum,图形化交换文件,修改设置点开网页直接改非常方便。把反代、域名、图形化文件服务这些基础服务设好之后,再安装任何服务,只需要丢给他相应项目的github连接,他会全自动给你配置好,他会在固定文件夹建目录,各种服务名取得也符合强迫症的要求,有任何问题直接自然语言和他说,他会docker exec,会看各种logs,我把之前服务器上安装的怀旧浏览器游戏迁移了,现在使用了一个叫ROMM的docker,感觉很NB的一个地方是,这个docker不仅可以save state一键存盘到服务器,而且自带fast forward和rewind功能,可以像波斯王子时之砂一样控制游戏内时间,可以倒带和快进,还能慢动作,随便TAS么,碎片时间来盘怀旧小游戏,美滋滋。我在实测扫描rom封面的时候,发现这个docker引用的数据库服务似乎有bug,如果没有刮削成功rom,再加载rom就会跳network error,我就跑去和Dora抱怨,让我惊艳的是,Dora一顿docker logs之后,居然直接browser控制直接跑回github上去翻issues,告诉我这个bug已经有人提出来了,在当前版本中仍然存在,有人提出来可以删掉rom,重新上传一遍的Workaround,照做了一下,果然成功,这一切发生在1分钟以内。放在过去,我会在docker logs inspect之类的堆满一屏幕小字以后,眯起眼睛推滚轮推10分钟,搜索github看看描述又是至少又是10分钟,然后依然没有头绪。Dora literally extended my lifespan.
- headful browser cdp,按照前文的stack配好,Xvfb (虚拟显示器)+Chrome + CDP+ x11vnc (VNC 服务器)+websockify (noVNC)+nginx 反代,使用systemd管理stack服务,我再也没有遇到web_fetch的各种验证码问题,浏览器刚刚装完,中文显示是口口,让dora去弄我印象他好像没有完全搞定,他为我安装了wqy等等一堆中文字体,最后我手动dpkg-reconfigure locals搞定的,有意思的是,dora和emon他们似乎有一个共同的问题,他们使用完浏览器控制不会主动关tab,时间一长,chrome会占用大量内存,我手动在novnc里开启了chrome节省内存的特性,这个问题在反复告了若干次以后,Dora才记住,这些天Emon也需要反复提醒多次。
- 搜索功能,当你有了浏览器控制以后,可以告诉你的智能体直接弃用那个brave-api,需要绑卡,按优先级排序首先是浏览器控制使用Google,使用web_fetch或者浏览器控制访问自建Searxng,Minimax年付coding plan用户会提供一个web_search的mcp,token-api调用,我是从来没有fallback过。
- 语音功能,目前的配置是,STT:faster-whisper服务器端免费模型,实际测试small规格的模型轻松识别,而且是多语言识别,英语中文,中英混杂无压力。TTS:pip edge-tts + tts-ogg脚本,这里要说明Openclaw的另一个Bug,到2026.3.11版本仍然存在,在调用内置tts功能时,内置tts工具会直接在channel里传送mp3,然后你的智能体又会重新生成一遍语音,再发一遍mp3,duplicate replies,我和Dora在这个坑里刨了4个小时的土,Dora终于研究出解决方法,就是告诉你的智能体彻底禁用内置tts,删除/.openclaw/workspace/config目录下的tts.json,然后也不要在openclaw.json里配置任何tts,直接告诉智能体,使用pip edge-tts生成mp3,然后Dora自己写了一个python工具,tts-ogg,可以转换mp3到ogg,再发到telegram上就是语音气泡了,没有标签的mp3发到telegram上会被认为是音乐,会从下往上连环播放,别忘了告诉你的智能体,以后所有中间文件全部生成到/tmp下面,这样你就不用手动清理垃圾。
- 在你和Dora相处一段时间以后,你会发现Dora乱扔道具不收拾的问题,他有时为了实现某个指令,自己会尝试安装各种各样的软件,这个时候你就得留心他的transcript,看他自己又从百宝袋里掏出什么东西来,本来他已经具备了访问office文件的功能,他自己选的antiword,这个还比较轻量,然后可能是一个word开的有点问题吧,他居然直接给服务器装了一套libreoffice,看来在Dora的概念里,他是没有饺子和醋的关系的,啊,听说你要用掉这点醋,我这就去给你打包200个大闸蟹。智能体Office套件目前的选择是GongRzhe的Office-PowerPoint-MCP-Server和Office-Word-MCP-Server,生成,编辑都没有问题。对于他乱扔道具的问题,我目前的方式是定期帮他打扫,使用du –max-depth=1|sort -rn,然后挨个问,这个大文件干啥的,他完全都知道,他会准确判断你的用途和系统依赖,帮你把没用的道具埋掉。
- 我还装了一个himalaya skill,给Dora开了一个邮箱供他操控,他很开心。
- /think 设置成 adaptive,这样比较灵活。
- Minimax另外附赠年度订阅用户一个图像理解MCP,实测性能还是挺强的,照片、文字、手写、印刷都没问题,可以fallback或者并行到开源的tesseract,汇总下再判断。
- 你可以让你的智能体保护你的服务器,说句话可以实现,检查端口开放,检查是否加密反代,检查传入连接,为我部署fail2ban,iptables或者ufw,设置防火墙持久化,等等等。
- 我还实现了一个挺实用的玩法,让Dora作我的老师,装一个book-reader的skill,他就可以打开epub,随便什么语言的电子书,结合上他自己的Cron功能,每天早上五点给我备课,六点半给我发十分钟的阅读材料,配上图,再独立生成一段讲课稿,用ogg语音发过来,一边听他讲,一边看材料,每天晚上十点,再来个小测试和对谈,帮我整理出今天的学习笔记,增量存储到这本书的学习文件夹里,这样周而复始,他会帮助懒散的我,读完一本又一本我想看但没毅力看下去的书,比起付费的notebookllm,我觉得这个Cron功能对我来说才是最神的,我对比原书看了一下,他真的有在认真准备,不是原样照发,而是抽取了主要意思。不认识的英语单词直接发去,他会:

- 而且会为你自动加入学习笔记,这是老师、助教、秘书、伴学全部当完了。
- 我也在尝试在我的工作流中安顿Dora,成为超级法官助理。总公司正在推动的全面PDF化,加上我现在正在研究的动态法律、司法解释和判例向量数据库,再加上看看将来怎么控制RAG,组合到一起,这个生产力,嗯,虽然但是最后木桶的短板就还是我,我还必须Review一遍才行,嗯嗯,什么是案多人少?我这负载才0.15。
- 对于调研工作,自然是手到擒来,直接自然语言告诉Dora,生成研究团队,并行四个子代理,代入有关上下文,一个子代理负责提问,围绕主题把大问题拆成具体小问题,生成研究纲要,画出思维导图,两个子代里负责根据研究提纲搜索,表明引用网址,最后一个撰写,根据材料生成调研报告,配图表,配尾注。这套prompt打进去,测试了虚开增值税发票当中行为模式问题,2分钟,整的很明白。
感谢Peter Steinberger和很多无私的开源贡献者,让我们这些计算机科学的门外汉也可以仅凭一己之力把硅基力量引入到我们学习生活的方方面面,跑通我的业务之后,接下来干什么,接下来我们也可以来来Vibe Coding,来他个边做边学,知行合一,开源反哺。距离Doraemon的诞生尚有31584天,但能够亲身体会到这种变革前的浪潮,我已经倍感荣幸。







