阅读视图

发现新文章,点击刷新页面。
🔲 ☆

DataMeasurementsTool介绍

资源

引子

随着机器学习数据集统一平台的快速发展(Lhoest et al. 2021),HuggingFace团队开始探索如何管理数据集文档(McMillan-Major et al., 2021)。文档是认识数据集必要的第一步,通过文档我们知道如何统计和查看这份数据集,动态观察数据集的不同角度。

在这里,我们介绍一个开源Python库和零代码界面,名为Data Measurements Tool。通过DatasetSpaces社区,搭配Streamlit tool工具,它可以用来帮助理解、构建、洞察和比较数据集。

🔲 ☆

Transformers仓库解读之序

Transformers仓库是HuggingFace公司开源的非常火的预训练模型仓库,它把预训练模型处理的流程抽象包装成了高级的api接口,非常适合掉包侠快速使用。但如果是新手第一次分析源码,拆开一步步的功能的话,是有一定学习成本的。而且仓库源码太多,涉及到方方面面的细节,一时间难以抓住重点。


介于此,作为掉包侠的我,尝试将仓库各个模块从类的角度拆分,结合实操代码,系统分析每个模块基本功能。

🔲 ⭐

python服务镜像编译so

为什么要编译so

  • 源码安全:
    1. 当服务部署后,别人很容易进入docker容器内部,对你的py脚本一览无余。
    2. 即使py脚本编译pyc再部署,也是可以很轻易反编译的。但是若编译成so文件,反编译成本就非常高了。

什么是so文件

Unix系統下的动态库文件

❌