Người viết: Vũ Nguyễn Minh Huy
Lời mở đầu:
Depth estimation là bài toán ước lượng khoảng cách của từng pixel trong ảnh tới Camera. Uớc lượng độ sâu được ứng dụng vào các bài toán như Xe tự hành, Robot, xây dựng lại bản đồ 3D từ ảnh 2D, Virutal reality, …Thông thường, đầu vào bài toán là ảnh, các thông tin liên quan đến độ sâu như Radar, heatmap để dựng lại độ sâu của ảnh. Monocular depth estimation là bài toán ước lượng độ sâu chỉ dùng một ảnh. Trong bài viết này, chúng tôi đầu tiên sẽ giới thiệu bạn đọc thế nào là bài toán ước lược độ sâu, dữ liệu bài toán làm việc, ứng dụng, và so sánh với bài toán gần liên quan - phân vùng hình ảnh - theo cảm nghĩ của tôi. Sau đó, tôi sẽ trình bày chi tiết hai mô hình tiêu biểu của Monocular depth estimation theo cách học không giám sát. Cụ thể, tôi sẽ giới thiệu sơ lược kiến thức cần thiết trước tiếp cận phương pháp, cách mô hình hoạt động.
Nội dung
-
Depth estimation
1.1 Giới thiệu bài toán
1.2 Depth estimation và Semantic Segmentation
1.3 Ứng dụng depth estimation trong thực tế.
-
Monocular depth estimation:
2.1 Unsupervised Monocular Depth Estimation with Left-Right Consistency
2.2 Digging Into Self-Supervised Monocular Depth Estimation
-
Kết luận:
-
Tham khảo:
1. Depth estimation:
1.1 Giới thiệu bài toán:
Depth estimation là bài toán ước lượng độ sâu của từng pixel so với camera. Đầu vào bài toán có thể là một ảnh (monocular), nhiều ảnh (stereo), hoặc các thông tin khác (Radar, Lidar, …). Hình 1 miêu tả đầu vào bài toán với một ảnh và đầu độ sâu của ảnh.
Hình 1: Ảnh gốc (trên) và ảnh độ sâu (dưới). Tham khảo từ [1].
Nhiều thiết bị công nghệ có thông tin về độ sâu có thể được sử dụng để tạo nhãn cho bài toán. Lidar là thiết bị thường được sử dụng để lấy thông tin độ sâu. Hình 2 là kết quả từ dữ liệu point cloud - điểm biểu diễn trong không gian 3 chiều với tọa độ (x, y, z) - bởi Lidar trực quan hóa bằng tool Uber Autonomous Visualization System (AVS) [2]. Bên cạnh Lidar còn nhiều thiết bị khác như Radar, heatmap, cặp ảnh stereo, …
Hình 2: Sử dụng tool Uber Autonomous Visualization System (AVS) trực quan hóa dữ liệu Lidar từ dữ liệu KITTI,
Hình 3: Ảnh gốc (trái) và ảnh từ Radar (phải). So với Lidar, Radar ít tốn kém chi phí hơn nhưng lại ít chính xác hơn. Ảnh tham khảo từ [3].
Hình 4: Ảnh Flow, tham khảo từ [4].
Hình 5: cặp ảnh stereo có thể xây dựng được ảnh độ sâu. Ảnh tham khảo tai đây.
Depth estimation dựa vào số lượng ảnh đầu vào được chia thành hai cách tiếp cận stereo và monodepth. Cách thiết lập Stereo sử dụng cặp ảnh được tạo đồng thời nhưng khác camera, hoặc các bức ảnh nối tiếp nhau từ video được tạo từ một camera. Đối monodepth, bài toán chỉ nhận một ảnh đầu vào, không hơn, không kém. Hình 5 cho thấy độ sâu có thể ước lượng bởi cặp ảnh stereo.
1.2 Depth estimation và Semantic Segmentation:
Depth estimation thường được so sánh với bài toán Semantic segmentation, vì cả hai đều giải quyết bài toán phạm vị pixel. Bạn đọc có thể tìm hiểu thêm Semantic segmentation qua bài viết này. Nhiều kết quả nghiên cứu chỉ ra rằng hai bài toán này có liên quan tới nhau. Có những công trình dùng kết quả của bài toán này hỗ trợ giải quyết bài toán còn lại, điển hình là [9], [10]. Hình 6 miêu tả đầu ra bài toán ước lượng độ sâu và bài toán phân vùng hình ảnh. Cả hai đều cho đầu ra (gần) bằng kích thước ảnh gốc, và giá trị của từng pixel được thay đổi.
Hình 6: Hình so sánh đầu ra bài toán Depth estimation và Semantic segmentation. Cột trái là ảnh đầu vào, cột giữa là ảnh ước lượng độ sâu, cột phải là ảnh được phân vùng. Ảnh tham khảo từ [5]
Tuy nhiên, trong khi phân vùng hình ảnh là bài toán phân loại (classification) thì Depth estimation là bài toán hồi quy (regression). Thay vì gán mỗi đối tượng (ở đây là pixel) một giá trị rời rạc (tương ứng với nhãn), bài toán hồi quy yêu cầu gán cho đối tượng trong phạm vị nhất định (ví dụ độ sâu từ 5 tới 100 mét, tính cả 5.6, 10.333, …). Do đó, đối tượng trong bài toán hồi quy có nhiều lựa chọn hơn bài toán phân loại. Các nghiên cứu gần đây có xu hướng đổi bài toán hồi quy này thành bài toán phân loại bằng cách chia khoảng ước lượng (ví dụ [1, 100] ) thành các đoạn (ví dụ bin1 = [1, 10], bin2 = [11, 20], bin3 = [20, 50], …), sau đó phân loại từng pixel vào các đoạn trên, điển hình là [7], [8]
Về cách tạo nhãn, mỗi bài toán có đều có thách thức riêng. Depth estimation yêu cầu các thiết bị công nghệ tốn nhiều chi phí như Lidar, Stereo camera, Radar, …, thời gian thu thập dữ liệu lâu (Oxfordrobocar thu thập dữ liệu một năm) để thu thập nhiều điều kiện hoàn cảnh khác nhau (ví dụ trời mưa, trời tối, trời tuyết, …). Hình 7 miêu tả các Sensor cần thiết để thu thập dữ liệu Oxford dataset ( Các thiết bị thu thập nhiều hơn dữ liệu point cloud, ví dụ radar, ảnh cặp stereo, phục vụ cho nhiều bài toán khác nhau). Đối với phân vùng hình ảnh, việc phân loại từng pixel cho ảnh tốn nhiều thời gian và tiền bạc, đặc biệt là những bài toán yêu cầu chuyên gia (ví dụ nhãn phân vùng não bị ung thư yêu cầu các bác sĩ chuyên về ung thư não).
Hình 7 Các thiết bị cần thiết để thu thập dữ liệu Oxford dataset.
1.3 Ứng dụng:
Trong phần này, chúng tôi sẽ giới thiệu bạn đọc hai ứng dụng của lượng độ sâu: Xe tự hành và xây dựng ảnh 3D từ 2D.
a) Xe tự hành:
Tuy các thiết bị công nghệ như Lidar có thể lấy thông tin về độ sâu có độ chính xác cao. Dữ liệu thường rời rạc, yêu cầu khối lượng xử lý thông tin lớn trước khi được sử dụng (hình 9). Hệ thống sẽ hoạt động tốt hơn nếu dữ liệu về độ sâu là dày đặc - kết quả tạo ra từ các mô hình học sâu. Các vấn đề khi xe tự hành ứng dụng ước lược độ sâu là suy luận thời gian thực (real-time inference), khả năng giải quyết bài toán trong nhiều hoàn cảnh (Domain adaptation, Domain Generalization), học không giám sát (huấn luyện mô hình với dữ liệu không cần nhãn), và cải thiện độ chính xác.
Hình 8: Ảnh độ sâu từ tập dữ liệu KITTI. Kết quả đầu ra là dày đặc
Hình 9: Ảnh độ sâu từ Lindar. Kết quả đầu ra là rời rạc.
b) Xây dựng ảnh 3D từ 2D:
Một trong những xu hướng ứng dụng xây dựng ảnh 3D từ 2D (còn gọi là 3D reconstruction) là không gian thực tế ảo (VR). Bên cạnh giải pháp xây dựng các mô hình y khoa bằng nhựa tốn kém, công nghệ thực tế ảo có thể tạo ra các mô phỏng chất lượng với chi phí thấp, phục vụ cho hoạt động học tập và nghiên cứu.
Hình 10: Ảnh 3D xây dựng lại từ nhiều ảnh 2D.
Hình 11: Ứng dụng của 3D reconstruction trong lĩnh vực y khoa.
2. Một số kiến trúc tiêu biểu:
Trong phần này, chúng tôi sẽ thảo luận hai phương pháp học không giám sát tiêu biểu MonodepthV1 [6], và MonodepthV2 [1]. Hầu hết các tác giá đề xuất phương pháp MonodepthV1 đều tham gia đề xuất phương pháp MonodepthV2. Cả hai phương pháp tiếp cận đều có ý tưởng chung như sau:
Self-supervised depth estimation frames the learning problem as one of novel view-synthesis, by training a network to predict the appearance of a target image from the viewpoint of another image. By constraining the network to perform image synthesis using an intermediary variable, in our case depth or disparity, we can then extract this interpretable depth from the model. [1]
Tóm tắt lại, thay vì trực tiếp suy luận độ sâu, tác giả đổi thành bài toán khôi phục ảnh, sử dụng một biến trung gian liên quan đến độ sâu. Bằng cách này, mô hình sẽ cố gắng học biến trung gian này, nhờ đó tạo được độ sâu tốt.
2.1 Unsupervised Monocular Depth Estimation with Left-Right Consistency
Unsupervised Monocular Depth Estimation with Left-Right Consistency (MonodepthV1) được đề xuất bởi ba tác giả Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow và trình bày tại hội nghị CVPR 2017. Tới nay, bài viết đã được hơn 2000 lượt trích dẫn. Hai năm sau, chính các tác giả tiếp tục trình bày MonodepthV2 được thảo luận trong phần tiếp theo.
Trước khi thảo luận cách hoạt động mô hình, chúng tôi sẽ trình bày thế nào là ảnh stereo, và cách ước lượng độ sâu bằng cặp ảnh stereo.
2.1.1 Ước lượng độ sâu từ cặp ảnh stereo:
Stereo camera là loại máy ảnh có hai hoặc nhiều ống kính với cảm biến hình ảnh hoặc khung phim riêng biệt cho mỗi ống kính. Điều này cho phép máy ảnh mô phỏng tầm nhìn bằng ống nhòm của con người (camera có hai ống kính cũng như hai con mắt con người) và do đó mang lại cho nó khả năng chụp ảnh ba chiều. Từ giờ, chúng tôi ngầm định stereo camera là camera có hai ống kính.
Cặp ảnh stereo là cặp ảnh được tạo ra từ stereo camera có hai ống kính. Đặc điểm của hai ảnh này là chúng được chụp cùng một thời điểm, cùng một vật, nhưng ở hai góc nhìn khác nhau.
Hình 12: stereo camera Zed 2I cua STEREOLABS. Camera có hai ống nhòm với khoản cách cố định.
Giả sử hai thấu kính của stereo đã được thiết lập như hình 13:
\[ \begin{align}\hat{d} = bf/d \end{align} \]
Trong đó:
- \(f\) là tiêu cự hai thấu kính.
- \(b\) là khoảng cách tâm hai thấu kính.
- \(d = |x' - x|\) còn gọi là disparity.
Dựa vào công thức (1), ta nhận xét: Điểm có disparity càng lớn thì thì càng gần. Ngược lại, điểm có disparity càng nhỏ thì càng xa.
Disparity map là ma trận disparity ánh xạ từng pixel trong một ảnh tới ảnh đối diện.
Hinh 13: Mô hình stereo camera.
Trong thực tế, mặt phẳng ảnh hai thấu kính (đường thẳng cam trong hình 13) không lý tưởng như vậy. Để có thể có được thiết lập trên, bạn đọc có thể tìm hiểu thêm về chủ đề Image Rectification.
2.1.2 Mô hình:
a) Trong giai đoạn huấn luyện:
Đầu vào MonodepthV1 là cặp ảnh stereo \(I^l, I^r\), đầu ra là cặp ảnh được khôi phục bằng ảnh đối diện \(\tilde{I}^r, \tilde{I}^l\) . Mục tiêu trong giai đoạn này là xây dựng được mô hình có thể suy luận được disparity map \(d^r, d^l\) biến đổi \(I^r\) thành \(I^l\) và ngược lại: \(\tilde{I}^r = I^l.d^r, \tilde{I}^l = I^r.d^l\), với \(.\) là nhân từng phần tử. Hai hàm mất mát được dùng để đánh giá chất lượng khôi phục ảnh là Appearance Matching Loss và Disparity Smoothness Loss. Bạn đọc xem thêm [6] để biết thêm về hàm mất mát.
Hình 14: Hình mô tả mô hình MonodepthV1. Nhận đầu vào là ảnh stereo bên trái, mô hình dự đoán hai disparity map ánh xạ từ ảnh trái sang ảnh phải và ngược lại. Từ hai disparity map này, mô hình sẽ xây dựng lại ảnh còn lại.
Hình 14 mô tả 3 cách thiết lập mô hình. Ảnh trái và giữa cho thấy đầu vào mô hình chỉ cần 1 ảnh ,ví dụ \(I^l\), và disparity map tạo ra có thể biến đổi cả hai chiều \(d^r\) hoặc \(d^l\).Tuy nhiên, nếu chỉ thực hiện 1 trong hai chiều, kết quả sẽ gặp hiện tượng độ sâu cùng một vùng không liên tục với nhau (hình 15). Đề cải thiện kết quả, tác giả đề xuất disparity map từ hai chiều \(d^r, d^l\) nên giống nhau. Do đó ràng buộc để \(d^r, d^l\) giống nhau được đề xuất bằng hàm Left-Right Disparity Consistency Loss. Kết quả hình 16 cho thấy độ sâu càng vùng như nhòa đi, liên tục hơn, chất lượng hơn.
Hình 15: kết quả chỉ thực hiện 1 chiều (No LR)
Hình 16 kết quả thực hiện hai chiều (Ours)
b) Trong giai đoạn kiểm nghiệm:
đầu vào mô hình là một ảnh, ví dụ \(I^l\), đầu ra mô hình là disparity map (chọn một trong hai chiều). Vì đầu vào chỉ có một ảnh, phương pháp này thuộc bài toán Monodepth mặc dù giai đoạn huấn luyện nhận cặp ảnh stereo.
2.2 Digging Into Self-Supervised Monocular Depth Estimation:
Digging Into Self-Supervised Monocular Depth Estimation (hay còn gọi MonodepthV2) được trình bày tại ICCV 2019, đề xuất bởi chính các tác giả của phương pháp MonodepthV1 cùng với một đồng tác giả mới là Michael Firman. Phương pháp tới thời điểm hiện tại đã được hơn 1000 trích dẫn, là một trong hai phương pháp giải quyết bài toán ước lượng độ sâu bằng cách học không giám sát.
Trước khi tìm hiểu cách hoạt động mô hình, ta sẽ thảo luận về mô hình camera và không gian kỹ thuật số
2.2.1 Không gian kỹ thuật số và Camera Matrix Model:
Không gian kỹ thuật số thường quen thuộc với cuộc sống thông qua các tấm ảnh chụp từ Camera. Một không gian khác thường dùng để biểu diễn ảnh là không gian ảnh (Image plane). Hai không gian này có những khác biệt sau:
- Tọa độ điểm trong không gian kỹ thuật số là rời rạc (đơi vị biểu diễn tọa độ là pixel), trong khi không gian ảnh là liên tục. (số thực, đơn vị thường dùng là cm)
- Hệ quy chiếu không gian kỹ thuật số nằm ở góc trên bên trái (hoặc góc dưới bên trái), trong khi hệ quy chiếu của không gian ảnh nằm trên đường thẳng vuông góc với mặt phẳng ảnh và qua tâm thấu kính.
Trong Camera Matrix Model: hai tham số camera sau được định nghĩa:
Hình 17: Hình biểu diễn tham số của Camera. Tham số màu xanh biển là tham số nội. Tham số màu xanh lá là tham số ngoại.
- Tham số nội tại của máy ảnh (intrinsic camera parameter, ký hiệu \(K\)): là tham số có sẵn trong camera, biểu diễn bằng mau xanh biển trên hình 17 chứa các thông tin tiêu cự camera \(f\), độ lệch (offset) giữa tâm hai hệ quy chiếu \(d_x, d_y\).
- Tham số ngoại của máy ảnh (extrinsic camera parameter): là tham số không có sẵn trong camera, biểu diễn bằng máu xanh lá trong hình 17. Vai trò của tham số này là chuyển hệ quy chiếu không gian thực thành hệ quy chiếu của camera. Tham số ngoại camera bao gồm ma trận xoay (rotation matrix)\(R\) và ma trận dịch chuyển (Translation matrix) \(T\).
Trong các bài toán khác, tham số ngoại camera còn biểu diễn được cả thông tin về độ méo mó (distortion) và độ xiên (skewness): Thông thường, góc giữa hai trục tọa độ của thấu kính là 90 độ. Tuy nhiên, thực tế vẫn có sai số từ nhà sản xuất, và thông tin này được mô tả bằng độ xiên.
Ta gọi điểm \(P_w\) là điểm được biểu diễn bằng hệ quy chiếu không gian thực. Để biểu diễn ảnh này lên không gian kỹ thuật số \(P_d\), ta sử dụng công thức sau:
\[ P_d = K[R \space T]P_w \]
2.2.2 Mô hình :
a) Trong giai đoạn huấn luyện
MonodepthV2 nhận chuỗi ảnh gồm ảnh hiện tại, các ảnh thời điểm liền trước và các ảnh liền sau. Số lượng ảnh thời điểm trước và sau không giới hạn. Trong bài viết tác giả sử dụng mặc định một ảnh liền trước và liền sau (Tất cả là ba ảnh). Đầu ra của mô hình là các ảnh khôi phục thời điểm hiện tại từ các ảnh liền trước và liền sau. Tương tự MonodepthV1, MonodepthV2 cũng sử dụng biến trung gian là độ sâu để khôi phục ảnh.
Hình 18: Hình miêu tả hệ thống MonodeptV2. Hình a) MonodepthV2 bao gồm hai thành phần. Hình b) + c) Một trong các cải thiện của monodepthV2 so với phong pháp cũ)
Hình 18 trái mô tả MonodepthV2 gồm hai thành phần Depth Network và Pose Network:
- Depth Network: có kiến trúc giống U-Net, nhận đầu vào là ảnh RGB tại thời điểm hiện tại \(I_t\), đầu ra ảnh độ sâu tương ứng.
- Pose Network: nhận đầu vào là cặp ảnh có thời điểm liên tiếp nhau (thời điểm hiện tại, và thời điểm liền trước hoặc liền sau). Đầu ra của mô hình là \(T_{t \rightarrow t'}\), tham số ngoại của camera.
Vì sao lại cần Pose Network? Cho vị trí vật sử dụng hệ quy chiếu camera tại thời điểm \(t-1\), ta cần tham số ngoại của camera để xác định hệ quy chiếu camera tại thời điểm \(t\).
Gọi \(X\) là tọa độ hai chiều (không phải giá trị pixel). \(K\) là thông số nội tại của máy ảnh. Thông số này được cung cấp sẵn bởi đơn vị cung cấp dữ liệu. Độ sâu \(D\) được suy luận bởi Depth Network. \(R, T\) lần lượt là ma trận xoay (Rotation matrix) và ma trận dịch chuyển (Translation matrix). Đây là hai tham số ngoại của máy ảnh, được suy luận bởi Pose Network. Dấu \(\times\) là phép nhân ma trận, \(.\) là phép nhân từng phần tử (element-wise multiplication). Cách biến đổi ảnh từ thời điểm trước (sau) tới thời điểm hiện tại được miêu tả tại hình 19 như sau:
Hình 19: Quy trình biến đổi điểm từ frame t - 1 tới frame t.
Giai đoạn 1: X là tọa độ pixel trên frame thời điểm t - 1. X được biến đổi từ không gian 2D sang 3D dùng công thức:
\[ X' =D.(K^{-1}\times X) \]
Giai đoạn 2: \(X'\) được chuyển hệ quy chiếu của frame thời điểm \(t - 1\) là \(O\) sang hệ quy chiếu frame thời điểm \(t\) là \(O'\) dùng công thức:
\[ X'' = [R \space T]\times X' \]
Giai đoạn 3: \(X''\) được chuyển từ không gian 3D sang không gian 2D:
\[ X''' = K\times X'' \]
Vì hai frame \(t - 1\) và \(t\) đều được tạo bởi cùng một camera nên tham số nội bộ của hai frame \(K\) là như nhau. Tuy nhiên, do hệ quy chiếu camera tại hai thời điểm bị dịch chuyển từ \(O\) sang \(O'\), tham số ngoại camera \([R, T]\) được sử dụng. Quá trình này tương tự cho thời điểm từ \(t + 1\) tới \(t\).
Sau quá trình này, frame tại thời điểm hiện tại được khôi phục. Hàm mất mát được dùng để đánh giá chất lượng chuyển đổi tương tự MonodepthV1. (Tác giả có cải thiện hàm loss, bạn đọc có thể đọc trong paper để có thêm thông tin).
Cách thiết lập này có hai vấn đề như sau:
- Nếu hệ quy chiếu camera thời điểm \(t - 1\) và \(t\) không đổi: Khi đó \([R \space T] = [I \space I]\), với \(I\) là ma trận đơn vị. Theo chúng tôi, Pose Network chưa học được điều này, và đầu ra luôn cho kết quả camera di chuyển.
- Nếu vật di chuyển trong thời gian trên? Khi đó \(X'\) không còn ở vị trí dự đoán, dẫn đến sai số.
Cả hai vấn đề trên đây làm tăng hàm mất mát do khôi phục. Do đó, MonodepthV2 có hai giả định như sau:
- Camera luôn di chuyển.
- Vật không chuyển động.
Tuy nhiên, việc này bất khả thi trong thực tế. Để cải thiện vấn đề này, các tác giả của MonodepthV2 đã đề xuất module Auto-Masking Stationary Pixels với ý tưởng như sau:
\[ \mu = [\min_{t'} pe(I_t, I_{t'\rightarrow t}) < \min_{t'}pe(I_t, I_t')] \]
Với \(pe\) là hàm mất mát khôi phục, \(t'\) là ảnh tại thời điểm liền trước hoặc liền sau. Nếu camera đứng yên hoặc vật chuyển động, \(pe(I_t, I_{t'\rightarrow t})\) sẽ lớn hơn \(pe(I_t, I_{t'})\), và pixel sẽ bi bỏ qua \(\mu = 0\)
b) Trong quá trình kiểm nghiệm:
MonodepthV2 chỉ sử dụng Depth Network, nhận đầu vào là một ảnh (tại thời điểm hiện tại) và đầu ra là ảnh độ sâu.
4. Kết luận
Trong bài viết này, chúng tôi đã giới thiệu về bài toán ước lượng độ sâu và các dạng dữ liệu của bài toán. Bài viết cũng đã so sánh bài toán này với bài toán tương tự Semantic Segmentation trước khi điểm qua cách bài toán được ứng dụng trong đời sống. Cuối cùng, hai phương pháp giải quyết bài toán theo hướng học không giám sát được thảo luận. Qua hai phương pháp này, bạn đọc đã biết cách tiếp cận sử dụng độ sâu để giải quyết bài toán khôi phục ảnh. Để chất lượng ảnh khôi phục tốt, mô hình sẽ phải cải thiện chất lượng độ sâu, do đó gián tiếp giải quyết bài toán suy luận độ sâu.
5. Tham khảo
- Godard, Clément, et al. "Digging into self-supervised monocular depth estimation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
- Uber Autonomous Visualization System (AVS): https://avs.auto/#/xviz/overview/introduction
- Lo, Chen-Chou, and Patrick Vandewalle. "Depth estimation from monocular images and sparse radar using deep ordinal regression network." 2021 IEEE International Conference on Image Processing (ICIP). IEEE, 2021.
- Dosovitskiy, Alexey, et al. "Flownet: Learning optical flow with convolutional networks." Proceedings of the IEEE international conference on computer vision. 2015.
- Valdez-Rodríguez, José E., et al. "Improving Depth Estimation by Embedding Semantic Segmentation: A Hybrid CNN Model." Sensors 22.4 (2022): 1669.
- Godard, Clément, Oisin Mac Aodha, and Gabriel J. Brostow. "Unsupervised monocular depth estimation with left-right consistency." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
- Bhat, Shariq Farooq, Ibraheem Alhashim, and Peter Wonka. "Adabins: Depth estimation using adaptive bins." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.
- Li, Zhenyu, et al. "BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation." arXiv preprint arXiv:2204.00987 (2022).
- Hoyer, Lukas, et al. "Improving semi-supervised and domain-adaptive semantic segmentation with self-supervised depth estimation." arXiv preprint arXiv:2108.12545 (2021).
- Cardace, Adriano, et al. "Plugging Self-Supervised Monocular Depth into Unsupervised Domain Adaptation for Semantic Segmentation." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2022.APA