最近去了TikTok实习,已经实习了2周。记录一点实习的经历和一些体会。
实习做的是业务而不是研究,具体内容简单来说就是在电商组里做TikTok Shop货单量的时序预测。这个和我博士做的研究没有关系,倒也不是我不想做视频传输相关的工作,主要有2个原因。
一,我实习的目的是为了体验。我就要到博士生第4年了,读了8年大学,我一次实习都没有过,从来没有去过公司,体验过工作的感觉。而我即将毕业,马上就要做选择了,是继续留在学术界,还是去工业界(我一直想写一写自己对此的纠结和迷茫,可能会是下一篇博客吧)。目前我已经看到了学术界的运行逻辑,但是对工业界还是一知半解。总是听别人说工作有多累多辛苦,但我过惯了懒散的生活,内心对工作的想象肯定会和现实有不小的差距。所以这次实习,我的主要目的就是看看这些Big Tech是如何运转的:几千几万的员工是如何成为小螺丝钉被管理的、一个大业务是怎么被拆解成几个板块分别由几个小团队负责的、一个人是如何在其中发挥作用的,等等……
我在3、4月份的时候开始找实习,因为本来也没有想拿Return Offer,所以投得很随意,就只是联系了阿里(在杭州离家近)、字节(HR主动打电话给我问我要不要试一下)和华为(开会的时候遇到华为HR,他们很热情)。我其实很想去阿里,因为做的是视频编解码标准化的工作,而且离家很近,但是负责人嫌弃我实习时间短,说要半年以上才好。最后是新加坡的TikTok和华为给了我offer,我最后选了TikTok,因为我觉得这是一家很大并且还在快速增长的公司,我挺好奇他们内部的情况,另外他们工资给得确实蛮多的……
二,事实是,现在很难找到和我研究相关的实习。一方面是现在公司不是很好过,在萎缩招人的规模,另一方面是在当前这个全民AI的情况下,大公司把大部分资源投入到了大模型,很夸张地大量招做大模型的实习生,压缩了其他方向的资源。在招聘网站上,举目都是NLP或者CV大模型实习生,而我不愿意去碰大模型。
我一直不否认大模型对我们生活革命性的作用,但我不觉得它值得现在如此海量的资源投入。每个大公司都砸钱搞大模型,不停地炒作大模型,目的是很不纯粹的。金融家需要抛出一个个磨人的概念,勾引大家把钱投进股市,简单来说就是制造泡沫。当然了,虽然是一个泡沫,但在泡沫破掉之前挤进去赚点钱,也不失为一个理由,很多人就是这么想的。但我是一个很讨厌风险的人,我不想也当不好一个机会主义者,这也是我选择当前这个研究领域的动机。不管是做科研也好,找工作也好,我一直认为核心的原则就是去一个自己能长期成为稀缺资源的领域。如今我看到学院新招的博士生有90%以上都在做LLM,我觉得很恐怖,4、5年后,他们真的能找到LLM相关的工作吗?
在TikTok这2周,感觉还是挺有趣的。机器学习本质上就是构建算法模型,去在数据中挖掘出来一个隐藏着的模式,所以“机器学习”、“模式识别”、“数据挖掘”这三个领域高度交叉,只是因为构建算法的应用目的是不同的,所以发展方向就因此各有不同。TikTok的业务遍布世界,而每一个地区的用户购买行为都不一样,个人数据又很敏感,所以基本上每个区域都有一个小团队在做。比如说,欧洲国家严格不加班,因此每到周末和节假日,仓库工人就绝对不会上班,揽件发货的数量是铁打不动的0,这些货物累积到节假日后的第一天工作日,数据就会暴涨,这就是一个很特殊的特征。此外,欧盟的数据保护非常严格,合规上的问题就十分重要,即使是很常见的数据,只要涉及到用户行为,就需要严格控制数据获取权限。
我们的工作主要是数据处理和模型搭建,而数据处理在其中占了最重要的一环,因为模型很简单,一些常见的模型就已经够用了,没必要用上复杂的模型,比如说深度学习模型。数据处理则主要是特征工程和数据库管理(也就是写SQL)。除了算法层面,另一个很重要的内容就是流程的标准化和工程化。简单来说,就是Pipeline中的每一步,就要尽力做到解耦,这样后续在维护过程中,只需要改动一个小版块,不会牵一发而动全身。
我真实地感觉到,在公司里和在大学里的人,处理同一个问题的区别。大学里,我们更关注的是模型的构建:如何用XXX技巧构建了一个很好的模型,实现了XXX的效果。但是在公司里,我们更关注的是整个流程的标准化,确保整条业务链路的畅通(你看,我已经学会了一点黑话),降低后期的维护成本,至于模型的效果,当然重要,但不是最重要的。总的来说,在公司里人关注的不仅仅是技术问题,还有把每个人螺丝钉化,即使有频繁的人员更替和业务变化,整个链路也能保持运转。再简单来说,就是两个字:成本。这些东西我当然在实习前就知道,因为这是很符合逻辑的,但是亲身体验就是另一回事了。
- 本文作者: YA
- 本文链接: http://www.yuuuuang.com/2025/05/31/【叶隙集】42-实习/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!