常用网站
综合网站:
https://paperswithcode.com/
https://scholar.google.com/
https://www.kaggle.com/
数据集:
https://paperswithcode.com/datasets
https://www.kaggle.com/datasets
自媒体:
https://space.bilibili.com/1567748478?spm_id_from=333.337.0.0
教程:
https://zh.d2l.ai/
候选课题
VLT: Vision Language Transformer
介绍:基于Transformer架构,训练一个能够同时处理视觉和文本信息的人工智能模型,做图片问答等任务。
可行性:可能对算力要求较高,需关注相关论文复现对算力的要求,进一步判断该课题的可行性。
参考资料:
https://paperswithcode.com/paper/lvit-language-meets-vision-transformer-in
https://paperswithcode.com/paper/tvlt-textless-vision-language-transformer
https://paperswithcode.com/paper/tvlt-textless-vision-language-transformer
https://www.bilibili.com/video/BV14r4y1j74y/?spm_id_from=333.999.0.0&vd_source=5b4c141029b3d309804a79b56a218572
Transformer 视频理解
介绍:借助Transformer架构,使AI理解某个特定类型的视频片段。
可行性:需注意相关工作对算力的要求。并且,为了降低任务难度,需要选择更具体的特定任务(例如,基于肢体动作的情绪识别,基于行车记录的路况识别等)
参考资料:
https://paperswithcode.com/paper/a-comprehensive-study-of-deep-video-action
唇语识别
介绍:唇语识别是视频理解中的一个具体任务,分两种子任务,即带有音频信息的唇语识别,和不带音频信息的唇语识别。
可行性:该任务有明确的任务场景,具有较高应用价值,实现难度有待进一步了解。
参考资料:https://paperswithcode.com/paper/seeing-what-you-said-talking-face-generation
3D点云
介绍:3D点云是一种视觉信息的新型表示方式,有多个与之相关的人工智能任务。比如,基于图片的3D点云建模、基于3D点云数据的语义分割等。
可行性:需找到基于3D点云数据的具体任务,并进一步探索其可行性。
参考资料:
https://paperswithcode.com/paper/multi-scale-geometry-aware-transformer-for-3d
https://paperswithcode.com/task/3d-point-cloud-classification
https://paperswithcode.com/paper/stratified-transformer-for-3d-point-cloud
Transformer 文档检索
介绍:文档检索是搜索引擎的核心技术,近年来Transformer架构兴起,可以尝试探索该架构在文档检索领域的应用
可行性:该任务可能不适合作为大创的核心人物,但可主动尝试将该任务与其他任务对接,并考虑作为大创的子任务之一。
https://paperswithcode.com/paper/a-neural-corpus-indexer-for-document
大模型高效微调
介绍:对大模型做多个垂直任务的微调,包括但不限于问诊、心理咨询、法律咨询,实现低成本高效微调。
可行性:算力要求相对较低,门槛也相对较低。该方向目前很火,做该方向的研究需要找不到自己的创新点。
参考资料:
https://paperswithcode.com/paper/parameter-efficient-tuning-of-large-scale
通过CoT(思维链),ToT(思维树)和RAG(增强检索生成)优化大模型产出
介绍:
思维链(Chain of thought)和思维树(Tree of thought),即通过提示词工程,让大模型按特定顺序思考某个同类问题,使其在该类问题上获得更好的表现。例如,为了让大模型在算法题上获得更好的表现,可先要求其先给出思路,再根据思路设计代码框架,最后根据代码框架完成代码实现,然后自行设计一组测试数据完成代码效果测试(实际设计思维链可以设计的更细更复杂)。
增强检索生成(Retriever-Augmented Generation, RAG)是一种将大模型与词向量(Word Embeddings)等其他技术结合,实现LLM更长上下文支持的技术路线。例如,一个介绍《红楼梦》的大模型,向其提问有关问题时,其可以借助RAG技术找到与问题有关的大量段落,并基于相关段落给出回答。
可行性:该方向门槛较低,算力要求较低(CoT和ToT对算力没有要求),同时,工程属性较强,科研属性相对较弱,适合作为大创子任务之一,而非主要任务(例如,做医疗方向大创可以顺便做个基于RAG的AI问诊)。
参考资料:
https://paperswithcode.com/paper/chain-of-thought-prompting-elicits-reasoning
https://paperswithcode.com/paper/tree-of-thoughts-deliberate-problem-solving-1
https://paperswithcode.com/method/rag
注意事项
- 一个大创项目需要有一个明确的主题,要求主题新颖并且尽可能符合实际需要
- 围绕一个主题,可以找到多个相关的下游任务,为每个下游任务分配一个子主题
- 为了使项目落到实处,需要给大创项目开发相应的用户客户端,比如APP或者Web网站
- 做大创需要主动寻找并阅读多篇和自己任务相关的论文,在本地运行论文的代码,复现论文成果;然后在理解论文思路和代码的基础上,尝试调整其代码,实现更好结果。
- 以上候选课题都只是初步的设想,可行性有待进一步验证!