阅读视图

发现新文章,点击刷新页面。
🔲 ☆

用MOSS-TTSD生成相声

昨天看到周舒畅老师的AI短剧 论视觉大模型 VLM 的轻量化,以讲相声的形式来表现,觉得很有意思,如果加上声音,就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD,还没来得及试,正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频,对上面AI短剧的内容进行格式化整理,然后直接跑MOSS-TTSD的开源代码,第一次跑就成功了,还是很丝滑的。

生成的效果如下:

视频

发音效果挺好,中文、英文单词发音都没明显问题,音色相似度差一些,孙越的参考声音换了几个都不太行,可能还有细节问题待定位。

总之,这个方向能玩的东西还是很多,未来可期。

🔲 ☆

从摩尔斯电码到密码学

起源

早期的密码学 目前已知最早的密码是大约公元前1900年的埃及古王国时期,用特殊的埃及象形文字雕刻在墓碑上。 但这些文字并不被认为是某种秘密通信的真正尝试,而是在增加神秘和阴谋气氛,甚至是为了给能看懂的观者提供乐趣。 这是密码学在其它用途上的应用,或者只是看上去是这样(如果这是某种密码的误导或伪装,那确实令人印象深刻)。

至于最有名的密码,也可以说是代码,肯定就是耳熟能详的莫斯电报码了。著名的 三短三长三短 的 SOS 求救信号应该无人不知无人不晓。

Moss Code

摩尔斯电码(又译为摩斯密码,英语:Morse code)是一种时通时断的信号代码。通过不同的排列顺序来表达不同的英文字母、数字和标点符号。

是由美国人艾尔菲德·维尔与萨缪尔·摩尔斯在1836年发明。

摩尔斯电码是一种早期的数码化通信形式, 它依靠一系列的 点和划 来传递编码信息 ,它的代码包括五种:

  1. 点(·):1 (读 “滴” dit ,时间占据1t)

  2. 划(—):111 (读 “嗒” dah ,时间占据3t)

  3. 字符内部的停顿(在点和划之间):0 (时间占据1t)

  4. 字符间停顿:000 (时间占据3t)

  5. 单词间的停顿:0000000 (时间占据7t)

点的长度(也就是上面的时间长度t)决定了发报的速度

❌