Paper Title (use style: paper title) · Web viewSử dụng hàm HaarTraining với các đối...

Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012

Một cách tiếp cận phát hiện đối tượng trong dữ liệu videokết hợp đặc trưng Haar like với phương pháp Boosting

Quách Hải ThọPhòng KH-CN-HTQT

Trường Đại học Nghệ thuậtĐại học Huế, Việt Nam

e-mail: [email protected]

Phạm Anh PhươngKhoa Công nghệ Thông tinTrường Đại học Duy Tân

Đà Nẵng, Việt Name-mail: [email protected]

Abstract—Bài báo này đề xuất một hướng tiếp cận phát hiện đối tượng trên cơ sở kết hợp lựa chọn đặc trưng Haar Like với phương pháp Boosting. Các kết quả thực nghiệm của chúng tôi bước đầu cho thấy đây là hướng tiếp cận hiệu quả, có thể ứng dụng trong các ứng dụng phát hiện thời gian thực.

Keywords-Phát hiện đối tượng; Boosting; Haar like;

I. GIỚI THIỆUPhát hiện và nhận dạng đối tượng là một trong những

ứng dụng của các hệ thống thông minh. Các phương pháp phát hiện và nhận dạng đối tượng đang được nhiều nhà nghiên cứu trong và ngoài nước quan tâm. Cho đến nay, đã có nhiều phương pháp phát hiện đối tượng được đề xuất như phương pháp trừ nền, phương pháp lọc,... Hầu hết các phương pháp này đều kết hợp với một mô hình học máy (learning machine) để tối ưu kết quả phát hiện đối tượng: phương pháp PCA kết hợp LDA (phân tích độc lập tuyến tính) [2], kỹ thuật học thị giác và phù hợp mẫu 2-D [3], nhận dạng đối tượng dựa vào sóng Gabor và phương pháp phù hợp đồ thị bó [4], Jeffrey Huang, Chengjun Liu, Harry Wechsley [5] đề xuất thuật toán căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho các thao tác nhận dạng đối tượng.Ara V.Nefian, Monson H.Hayes III [6] trình bày hướng tiếp cận theo mô hình Markov ẩn (HMM),Guodong Guo, Stan Z.Livà Kap Luk Chan [7] dùng phương pháp SVM để nhận dạng đối tượng. Hichem Sahbi [8] sử dụng phương pháp SVM để dò tìm đối tượng, áp dụng các chiến lược đa cấp để tối ưu hóa tốc độ...

Phần còn lại của bài báo này được cấu trúc như sau: Phần 2 đề xuất mô hình phát hiện đối tượng, cách lựa chọn đặc trưng Haar like và thuật toán Adaboost phục vụ cho việc huấn luyện. Phần 3 trình bày mô hình phân tầng trong quá trình phát hiện đối tượng. Phần 4 là các công đoạn và kết quả thực nghiệm trên dữ liệu ảnh và video. Cuối cùng là phần kết luận và hướng phát triển.

II. MÔ HÌNH PHÁT HIỆN ĐỐI TƯỢNGCó 2 pha phục vụ quá trình phát hiện đối tượng: pha huấn

luyện và pha phát hiện. Pha huấn luyện được thực hiện trong quá khứ khi xét quá trình phát hiện đang ở hiện tại. Có thể gọi pha huấn luyện là pha offline còn pha phát hiện là pha online.

Hình 1. Mô hình phát hiện đối tượng

A. Thu nhận ảnhẢnh có thể nhận qua camera màu hoặc đen trắng.

Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại quét dòng ; ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh)

Ở pha huấn luyện, ta xem xét trên tập ảnh có sẵn. Nguồn ảnh có thể thu thập thông qua ảnh tự chụp, ảnh tải từ internet,… Do đó, ở đây ta không xét đến phần thu nhận ảnh. Ở pha phát hiện, đầu vào có thể là ảnh, là tập tin video hoặc hình ảnh lấy trực tiếp từ camera, webcam hoặc từ một thiết bị thu nào đó. Đây là đầu vào của quá trình xử lý. Mục đích chính là thao tác trên nguồn này để cho ra kết quả từ nội dung của nó.

B. Tiền xử lýSau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp

nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn. Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp

mailto:[email protected]


nhận và xử lý ảnh theo cách của con người – những phương pháp xử lý đó mang tính trí tuệ con người.

C. LỰa chỌn đẶc trưngTrong phần này, chúng tôi sử dụng đặc trưng Haar Like,

mục đích của việc sử dụng các đặc trưng haar-like là đảm bảo yêu cầu đáp ứng thời gian thực. Mỗi một đặc trưng haar-like bao gồm 2 hoặc 3 khối hình màu trắng và đen liên kết nhau.

Đặc trưng Haar-like do Viola và Jones công bố [1], gồm 4 đặc trưng cơ bản. Mỗi đặc trưng Haar–like là sự kết hợp của hai hay ba hình chữ nhật "trắng" hay "đen" như trong hình sau:

Hình 2. Đặc trưng Haar Like cơ bản

Hình 3. Các đặc trưng cạnh

Hình 4. Các đặc trưng đường

Hình 5. Các đặc trưng bao quanh tâmDùng các đặc trưng trên có thể tính được giá trị của đặc

trưng Haar-like là sự chênh lệch giữa tổng của các pixel của các vùng đen và các vùng trắng như trong công thức sau:

Hình 6. Cách trích chọn đặc trưng Haar Like

f ( x )= ∑V ù ng đen

pixels− ∑V ù ngtr ắng

pixels

Sử dụng giá trị này, so sánh với các giá trị của các giá trị điểm ảnh thô, các đặc trưng Haar-like có thể tăng/giảm sự thay đổi ở bên trong hay bên ngoài lớp đối tượng, do đó sẽ làm cho bộ phân loại dễ thực hiện hơn.

Như vậy, để tính các giá trị của đặc trưng Haar-like, cần phải tính tổng của các vùng điểm ảnh trên ảnh. Nhưng để tính toán các giá trị của các đặc trưng Haar-like cho tất cả các vị trí trên ảnh đòi hỏi chi phí tính toán khá lớn, không đáp ứng được cho các ứng dụng đòi hỏi tính thời gian thực. Do đó Viola và Jones đưa ra một khái niệm gọi là “ảnh tích hợp” (Integral Image) Error: Reference source not found, là một mảng 2 chiều với kích thước bằng với kích của ảnh cần tính các đặc trưng Haar-like, với mỗi phần tử của mảng này được tính bằng cách tính tổng của điểm ảnh phía trên (dòng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị trí trên, bên trái đến vị trí dưới, phải của ảnh, việc tính toán này đơn thuần chỉ dựa trên phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.

Ảnh tích hợp có các tính chất sau: giá trị pixel tại vị trí (x,y) bất kỳ trong ảnh tích phân bằng với tổng số các pixel thuộc hình chữ nhật được tạo bởi góc trái trên cùng của ảnh (0,0) và điểm đang xét.

P ( x , y )= ∑x '≤ x , y ' ≤ y

i(x ' , y ')

Trong đó: i: ảnh ban đầu.P: ảnh tích hợp của i.

Hình 7. Ảnh chia nhỏ tại tọa độ (x,y)

D. Huấn luyệnPhần này chúng tôi áp dụng phương pháp Boosting cho

việc huấn luyện, đây là kỹ thuật dùng để tăng độ chính xác cho các thuật toán học. Nguyên lý cơ bản của nó là kết hợp các bộ phân loại yếu thành một bộ phân loại mạnh. Trong kỹ thuật này, một bộ phân loại yếu (với thành công nhỏ hơn 50%) có thể được “boost” (nâng cấp) thành một bộ phân loại mạnh với nghĩa là lỗi huấn luyện của phân loại mới sẽ tiến đến Zero với thời gian thực hiện đa thức.


Hình 3. Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh

Thuật toán AdaBoost:

1. Cho một tập gồm n mẫu có đánh nhãn (x1,y1), (x2,y2),… (xn,yn) với xk ∈ (xk1, xk2, … , xkm) là vector đặc trưng và yk ∈ (-1, 1) là nhãn của mẫu (1 ứng với đối tượng (Object), -1 ứng với nền (background)).

2. Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng (ứng với object và y = 1) và l là số mẫu sai (ứng với nền và y = -1).

w1 ,k=1

2m, 12 l

3. Xây dựng T tập phân loại yếu: Lặp t = 1, …, T Với mỗi vectơ đặc trưng trong tập đặc trưng, xây

dựng một phân loại yếu hj với ngưỡng θj và lỗi εj.

ε j=∑k

n

wt ,k∨h j ( xk )− y k∨¿¿ (1)

Chọn ra hj với εj nhỏ nhất, ta được ht: ht : X → {1 ,−1 }

Cập nhật lại trọng số:

w t+1 ,k=w t , k

Z t×{e−∝t , ht ( xk )= yk

e∝t , ht ( xk ) ≠ yk

(2)

Trong đó: ∝t=12

ln( 1−ε j

ε j) (3)

zt: Hệ số dùng để đưa wt+1 về đoạn [0,1] (normalization factor).

4. Phân loại mạnh được xây dựng :

H ( x )=sign(∑t=1

T

∝t ht(x )) (4)

E. Cơ sở tri thứcCơ sở tri thức (Knowledge base) đóng vai trò cốt lõi cho

quá trình “nhìn” để tìm kiếm và phát hiện đối tượng. Đây là yếu tố xương sống của toàn bộ hệ thống. Nó được tạo ra ở bước huấn luyện và được lưu trữ dưới dạng file dữ liệu có cấu trúc. Ở đây chúng tôi chọn định dạng file XML để lưu trữ dữ liệu này.

F. Phát hiện đối tượngDựa vào cơ sở tri thức thu được qua quá trình huấn

luyện, việc phát hiện đối tượng được thực hiện dựa vào công thức (4).

III. MÔ HÌNH PHÂN TẦNG CHO VIỆC PHÂN LỚPCác bộ phân lớp tốt cần nhiều thời gian để có các kết

quả phân lớp vì chúng cần xem xét đến một số lượng lớn các đặc trưng của mẫu. Trong quá trình huấn luyện, bộ phân loại phải duyệt qua tất cả các đặc trưng của các mẫu trong tập huấn luyện, việc này tốn rất nhiều thời gian. Tuy nhiên, trong các mẫu đưa vào, không phải mẫu nào cũng thuộc loại khó nhận dạng, có những mẫu background rất dễ nhận ra. Đối với những mẫu này, chỉ cần xét một hay vài đặc trưng đơn giản là có thể nhận diện được chứ không cần xét tất cả các đặc trưng. Nhưng đối với các bộ phân loại thông thường, cho dù mẫu cần nhận dạng là dễ hay khó thì vẫn sẽ xét tất cả các đặc trưng mà nó rút ra được trong quá trình học. Do đó, chúng tốn thời gian xử lý một cách không cần thiết.

Cấu trúc phân tầng (cascade) của các bộ phân lớp đã được đề xuất để giảm thời gian thực thi và giảm tỉ lệ phát hiện sai. Cấu trúc Cascade gồm nhiều stage (hay còn gọi là layer), mỗi stage của cây sẽ là một stage classifier. Một mẫu để được phân loại là đối tượng thì nó cần phải đi qua hết tất cả các stages của cây. Các stage classifiers ở stage sau được huấn luyện bằng những mẫu negative mà stage classifier trước nó nhận dạng sai, tức là nó sẽ tập trung học từ các mẫu background khó hơn, do đó sự kết hợp các stage classifiers này lại sẽ giúp bộ phân loại có false alarm thấp. Với cấu trúc này, những mẫu background dễ nhận diện sẽ bị loại ngay từ những stages đầu tiên, giúp đáp ứng tốt nhất đối với độ phức tạp gia tăng của các mẫu đưa vào, đồng thời giúp rút ngắn thời gian xử lý.

Mô hình cây Cascade có một số thuận lợi, mỗi giai đoạn là một bộ phân lớp mạnh. Trong suốt quá trình phát hiện đối tượng, mỗi cửa sổ được phân tích tuần tự bởi mỗi bộ phân lớp giai đoạn. Một cửa số có thể bị loại (kết luận không phải đối tượng) hoặc đi qua bộ phân lớp giai đoạn này. Trong suốt quá trình huấn luyện, mỗi bộ phân lớp được huấn luyện bởi các mẫu bị phân lớp sai ở bộ phân lớp trước, nghĩa là chúng sẽ tập trung để học các mẫu background khó. Vì vậy sự kết hợp của các bộ phân lớp trong cascade sẽ giảm tỉ lệ phát hiện sai. Hơn nữa với cấu trúc này, các bộ phân lớp dễ dàng nhận ra các background dễ và loại bỏ chúng ở các bộ phân lớp đầu. Do đó cấu trúc cascade giải quyết được bài toán thời gian thực. Một cách tổng quát, cấu trúc cascade cải tiến đáng kể thời gian thực thi và các kết quả phát hiện phụ thuộc hoàn toàn vào các bộ phân lớp yếu.

Thuật toán Cascade training: Error: Reference sourcenot found

1. Gọi:F là giá trị false alarm, d là độ chính xác của phân lớp yếu ở mỗi stage.

Ftarget: Giá trị max false alarm.


P, N : là số lượng mẫu positive và negative.Pi, Ni : là tập positive và negative cho bộ phân lớp ở tầng

thứ i.Fi, Di: Giá trị false alarm và độ chính xác của cascade

trước khi đến tầng thứ i.2. Khởi tạo i=0; F0=1.0; D0 = 1.03. Lặp: while Fi>Ftarget

i = i+1; Huấn luyện bộ phân loại hi từ tập Pi và Ni với

detection rate d và max false alarm f. Thêm hi

vào cây phân lớp. Dùng cây phân lớp hiện có để tính Fi: Duyệt qua

N mẫu negative cho đến khi nào tìm đủ n mẫu mà

cây phân lớp hiện có phân loại sai. (F i=nN

¿

N = Null Nếu Fi >Ftarget N = { số mẫu sai ở stage hiện tại phân loại sai }.P = { số mẫu positive mà stage hiện tại phân loại

đúng }

IV. KẾT QUẢ THỰC NGHIỆM

A. Các bộ dữ liệu thực nghiệmCác nguồn ảnh được chúng tôi sưu tầm gồm các nguồn

dữ liệu và địa chỉ: google image, flickr của yahoo và ảnh do chúng tôi tiến hành chụp.

Các khuôn mặt được tìm kiếm và sưu tầm có sự đồng nhất về tư thế chụp lấy mẫu và các kiểu dáng không quá khác biệt, cũng như hình dáng không quá giống so với các mẫu khuôn mặt còn lại. các khuôn mặt được chọn làm ảnh mẫu học huấn luyện phải có vị trí rõ ràng trong ảnh, không bị che khuất (nếu bị che ít hơn ¼ diện tích pixel cũng tạm chấp nhận) và có tư thế đối xứng, nghĩa là không quá nghiên theo các hướng x, y, z (110% đối với hướng x và y, 50% đối với hướng z).

Hình 4. Bộ dữ liệu khuôn mặt thẳng

1

Hình 5. Một số ảnh trong bộ dữ liệu FDDB

B. Huấn luyệnChúng tôi sử dụng thư viện OpenCV để tạo mẫu và huấn

luyện. Sử dụng hàm HaarTraining với các đối số là thông tin về các hình ảnh đã được chuẩn bị khi tạo mẫu.

Kết quả của quá trình huấn luyện sẽ phát sinh và lưu trữ dưới dạng file xml chứa thông tin đã huấn luyện. đây chính là cơ sở tri thức dùng cho quá trình phát hiện khuôn mặt.

C. Dữ liệu test- Tập dữ liệu Caltech bao gồm 450 ảnh. đây là tập dữ

liệu các khuôn mặt thẳng, chụp dưới nền phức tạp và đa dạng gồm cả trong nhà và ngoài trời. điều kiện chiếu sáng khá đa dạng gồm cả các ảnh chụp cùng chiều chiếu sáng và ngược sáng.

Hình 6. Một số ảnh trong bộ dữ liệu Caltech [9]- Tập dữ liệu Face CMU là một bộ dữ liệu được tạo bởi

dự án nhận dạng khuôn mặt của đại học carnegie mellon (cmu), gồm có 180 ảnh chụp ở nhiều tư thế khác nhau của khuôn mặt.


Hình 7. Một số ảnh trong bộ dữ liệu Face CMU [10]- Tập dữ liệu Google, đối với ảnh đơn (1 khuôn mặt trên

1 ảnh).

Hình 8. Một số ảnh trong bộ dữ liệu Google [11]- 06 đoạn Video:

Bảng 1. Tập các file VideoFile Video Thời gian Kích thước

một frameFrame

Rate (fps)Clip1.mpg 00:00:14 320x240 25Clip2.mpg 00:00:07 320x240 25Clip3.mpg 00:00:04 320x240 25Clip4.mpg 00:00:18 320x240 25Clip5.mpg 00:01:37 320x240 30Clip6.mpg 00:00:35 320x240 25

Đặc điểm chung của các file Video là chất lượng hình ảnh không được tốt.

D. Một số kết quả thực nghiệmBảng 2: Kết quả phát hiện đúng

Tập ảnh

Số lượng

Kết quả phát hiện đúng

Tỉ lệ

Caltech 450 446 99.1%CMU 550 428 77.8%Google 750 741 98.8%

Đối với dữ liệu ảnh, các trường hợp không phát hiện được do các nguyên nhân sau:

- Biểu cảm khuôn mặt- Ảnh chụp ngược ánh sáng- Mặt bị che khuất- Góc quay lớn hơn 200

Sau đây là một số kết quả thực nghiệm trên các file Video:

Hình 9. Một số kết quả thực nghiệm trên dữ liệu VideoMột số nhận xét đối với kết quả thu được:- Qua kiểm nghiệm thực tế các ảnh này, đặc điểm

khiến ứng dụng không phát hiện được là do mặt có đeo kính, bị phản quang, bị che khuất, ảnh chụp thiếu sáng. Một vài ảnh khác do có độ nghiên lớn hơn 200

so với phương thẳng đứng cũng không được phát hiện.

- Đối với các ảnh khuôn mặt nhìn thẳng, độ chính xác khá cao (>95%) và không phụ thuộc vào số lượng khuôn mặt có trong ảnh.

- Tỷ lệ chính xác khó đạt tuyệt đối (100%).- Kết quả có thể không hoàn toàn đồng nhất giữa các

lần dò tìm trên cùng một tập dữ liệu đầu vào. Thực tế có sự sai lệch nhỏ kết quả phát hiện giữa các lần kiểm tra, sự sai lệch này có thể xuất hiện khi tập kiểm tra có số lượng mẫu khá lớn; với các tập kiểm tra có số lượng mẫu thấp hầu như không phát hiện được sai lệch này.

V. KẾT LUẬNBài báo đã đề xuất và cài đặt thử nghiệm một phương

pháp phát hiện đối tượng kết hợp lựa chọn đặc trung Haar Like và phương pháp Boosting. Các kết quả thực nghiệm cho thấy phương pháp này đạt độ chính xác cao và đáp ứng thời gian thực.

Tuy nhiên, đối với các dữ liệu ảnh bị che khuất, thiếu ánh sáng hay bị nghiên trên 200 thì việc phát hiện không chính xác. Trong thời gian tới, chúng tôi sẽ nghiên cứu thêm nhiều phương pháp trích chọn đặc trưng khác để nâng cao độ chính xác trong pha phát hiện đối tượng.

REFERENCES

[1] Chris Stau er and W.E.L Grimson, "Adaptive Background mixtureff models for Real-time tracking".

[2] Paul Viola, Michael Jones, Robust Real-time Object Detection, vancouver, canada, july 13, 2001.

[3] Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John Weng, Discriminant Analysis of Principal Components


for Face Recognition, Centrer for Automanition Research, University of Maryland, College Park, MD 20742-3275, Usa.

[4] Antonio J. Colmenarez and Thomas S. Huang, Face Detection and Recognition, Department of Electrical and Computer Engineering, Coordinated Science Laboratory, and Beckman Institute for Advanced Science and Technology. University of Illinois at Urbana-Champaign, 405 N. Mathews Ave, Urbana, IL 61801, U.S.A.

[5] Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven and Christoph von der Malsburg, The Bochum/USC Face Recognition system and how it fared in the FERET phase III test, Computer Science Department and Center for Neural Engineering University of Southern California, Los Angeles, CA 90089-2520, USSA.

[6] [13] Chengjun Liu, Statistical and Evolutionary Approaches for Face Recognition, George Mason University.

[7] [14] Ara V.Nefian and Monson H.Hayes III, Face detection and recognition using hidden markov models, Center for signal and image processing, school of electrical and computer engineering, Georgia Institute of Technology, Atlanta, GA 30332.

[8] Hichem Sahbi, Donald Geman , A Hierarchy of Support Vector Machines for Pattern Detection, Journal of Machine Learning Research 7 (2006) 2087-2123.

[9] http://www.vision.caltech.edu/feifeili/Datasets.htm.[10] http://cbcl.mit.edu/software-datasets/heisele/download/MIT-CBCL-

facerec-database.[11] http://code.google.com/p/muct/downloads/list.

Paper Title (use style: paper title) · Web viewSử dụng hàm HaarTraining với các đối...

Documents

Transcript of Paper Title (use style: paper title) · Web viewSử dụng hàm HaarTraining với các đối...