Skip to content

计算机视觉

100407 计算机视觉

一、总述

本课程的内容主要分为两个部分。

第一部分是传统教授知识点,包括计算机视觉领域传统的算法、机器学习和深度学习在视觉领域的应用。其中深度学习的部分关注最优化、反向传播和神经网络等较为基础的知识点和在图像分割、图像分类上的应用,关于较为深入的内容涉及较少。

第二部分是老师结合自己的研究领域,关于视觉前沿方向的综述性质的 lecture,共有 3 次,主题分别为:OCR、行人再搜索、人脸伪造检测。个人认为这一部分的讲座对于有一定深度学习基础的同学是非常有帮助的,能够快速了解视觉领域的前沿方向,以及在对应领域中视觉模型的发展。

1. 教材

参考教材:D.A. Forsyth and J. Ponce, Computer Vision: A Modern Approach, Pearson Education, Inc., 2003

参考教材:Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, Thomson, 2008

注:教材仅作为参考,且教材更多关注传统的视觉算法,课程中以 ppt 为主。

2. 作业

  • 小作业

小作业共有 3 个,主题分别为

  • 基于 Google Teachable Machine 实现一个计算机视觉应用创意并展示。

    Teachable Machine 是一个能够轻松构建简单深度学习模型的平台,导出自己的模型后可以在 ml5.js 网站中快速创建一个深度学习的应用。 * 使用 Python 实现 K-Means 和 HAC 聚类算法,并将力量这应用在图像分割任务上。 * 使用 Python 实现 K-NN 和 SVM 分类器,并将两者应用在图像分类任务上(鸢尾花、Cifar10 或 MNIST 数据集)

注:小作业优秀的同学会在课上展示自己的作业。

  • 大作业

大作业要求为:

  • 选择一个方向,要求阅读至少两篇相关论文(从推荐文章中选择,也可以自己找),复现代码与文章中的实验,并针对目标问题思考改进方案。
  • 复现的代码(可以是开源代码),要求尽量写清注释,方便阅读。
  • PPT:对报告内容进行汇报。

以上要求为老师发布的原文。即,老师会给出 “行人再识别”,“行人搜索”,“人脸识别”,“OCR”,“Deepfake 和活体检测” 5 个方向的相关论文列表,要求完成论文复现和改进工作。

大作业是 3 人组队完成,并在最后一节课上需要各组上台交流成果。但因为 2022 春季学期为线上授课,最终没有汇报,只需要提交 ppt。

个人建议是,如果时间有限,则尽量在选题时评估一下模型的参数量和模型的训练速度。

3. 课堂

2022 春季学期为线上授课,考勤通过腾讯会议登录记录完成,尚不清楚线下授课考勤是否严格。

个人认为本课程内容较为丰富,其中传统视觉算法和前沿分享的内容较为有趣,深度学习相关内容则较为基础。而大作业则是完全的深度学习内容,需要对深度学习的框架较为熟悉,否则写大作业的时候会较为折磨。

4. 考试

本课程不设置考试。

二、任课教师

1. 13151 Zhao

赵才荣老师是同济大学视觉与智能学习实验室的负责人,因此在视觉领域有深入研究,针对大作业中给出的 5 个方向都有丰富的产出。因此,课程上的综述性质的讲座内容较为丰富。

赵老师对作业的提交较为宽容,因为疫情影响,线上授课时赵老师多次担心同学太忙没时间完成作业,推迟了小作业和大作业的 ddl。最终大作业在 18 周验收,第 3 次小作业也被取消,改为选做。