Supernan1994's Personal Blog

2021年Gartner数据科学与机器学习(DSML)平台魔力象限报告解读

Gartner是全球最具权威的IT研究与顾问咨询公司,Gartner魔力象限(Magic Quadrant,简称MQ)是一种针对企业级IT市场的分析方法,用来形象化的阐述公司间的实力及差异。谷歌、微软、甲骨文、IBM等科技巨头都非常在意Gartner魔力象限的评价,并以上榜为荣;同时,世界五百强的CIO们在采购技术产品时,也大多将Gartner魔力象限作为一个重要评价依据。 今年3月Gartner发布了2021年Data Science and Machine Learning Platform Magic Quadrant(简称DSML MQ),8月我听了一场由Gartner研究总监孙鑫主持的Webinar[Slides]。 这篇文章主要是Webinar的学习笔记,总结一些核心观... Read more

一个专业词汇聚类实践

在搭建对话机器人(QA)过程中,我们通常需要对客户的语料做一些专业词汇的挖掘。不同领域的客户挖掘出来的专业词汇差异性很大: 酒类行业:产品名;口感;颜色;送礼场景(如结婚、家庭聚会等) 母婴行业:宝宝、妈妈的各种说法;新生儿会得的各种疾病;不舒服时表现的各种症状 我在网上找了疫情相关的问答对语料,语料是短文本问答对,挖掘的时候用了标准问题和相似问题两列。我们来看下挖掘的效果: 专业词汇挖掘有很多种方法,比如无监督的TFIDF、左右熵、互信息;半监督的模板+bootstrap+清洗筛选;有监督的神经网络+CRF等。上面看到的效果是在一个空知识库里导入语料挖掘的结果,是参考KDD ‘19腾讯发表的concepT思路开发的;当词库里有已经标注好的专业词汇时也会走CRF模型... Read more

[Paper Reading][OSDI’10] Finding a needle in Haystack: Facebook’s photo storage

这篇论文2010年发表在OSDI上,当时Facebook着面临一个没有人解决过的问题:由于社交网络的业务特点,用户会上传大量小图片,如何以最低成本提供最高效稳定的小文件读写服务是这篇论文探讨的核心问题。 文中所提出的思想非常简洁,概括来说,作者认为linux的文件系统在读文件时需要做多次的磁盘操作,其中对文件元信息inode的读取操作是限制小文件服务读呑吐量的主要原因。因此作者抛弃了linux文件组织形式,在内存中构建最适合业务特点的自建索引加速查询效率。 尽管想法朴素,但Haystack具有很高的商业价值,成为此后海量小文件存储的事实标准。 1. 业务特点 1.1 数据量 1.2 并发量 2. 优化目标 3. 背景知识... Read more

code review工具:gerrit实战

一、意义 二、选型原因 三、开发规范 四、踩坑指南 1. 处理gerrit和gitlab不同步 2. 缺少change id 2.1. git clone的时候没有选择带git hook的方式 2.2. 某些操作不会自动添加change id 2.3. 批量提交多个commit,中间一个commit没加change id 2.3.1. 多个commit需要分开提交到多个change 2.3.2. 多个commit提交到一个change ... Read more

工程团队需要注意的20个工作模式

0. 背景 1. 个人层面的工作模式 模式1:领域冠军 (Domain Champion) 模式2:囤积代码 (Hoarding the Code) 模式3:大量废代码 (Unusually High Churn) 模式4:百发百中 (Bullseye Commits) 模式5:个人英雄主义 (Heroing) 模式6:过度帮助 (Over Helping) 模式7:随手收拾 (Clean As You Go) 模式8:得心应手 (In the Zone) 模式9:乱试一通 (Bit Twiddling) 模式10:打杂 (The Busy Bod... Read more