|
|
[交流]
【第十五屆粵港澳圖象圖形學術會議】
會議簡介
第十五屆粵港澳圖象圖形學術會議將于2025年12月13日-14日在華南理工大學大學城校區(qū)舉辦。本屆會議由廣東省圖象圖形學會主辦,華南理工大學軟件學院、華南理工大學電子與信息學院、CSIG廣州會員活動中心承辦,琶洲實驗室、CSIG生物特征識別專業(yè)委員會(籌)協(xié)辦。
粵港澳圖象圖形學術會議(Guangdong-Hong Kong-Macao Conference on Image and Graphics, GHMIG)是由廣東省圖象圖形學會主辦,粵港澳三地圖象圖形學界共同協(xié)辦的系列學術盛會,致力于推動粵港澳大灣區(qū)在圖象圖形領域的學科發(fā)展、技術交流與協(xié)同創(chuàng)新。會議匯聚全國高校、科研院所及產(chǎn)業(yè)界的專家學者與青年學生,聚焦計算機視覺、計算機圖形學、多媒體技術、機器學習等前沿方向,開展深入的學術研討與技術對話。通過特邀報告、技術交流與海報展示等多種形式,搭建學術界與產(chǎn)業(yè)界之間知識共享、成果轉(zhuǎn)化與協(xié)同創(chuàng)新的重要平臺,持續(xù)助力粵港澳大灣區(qū)圖象圖形科技創(chuàng)新生態(tài)的建設與發(fā)展。
會議邀請到多位知名專家做大會主旨報告,期待與您共享圖象圖形識別與計算機視覺學術盛宴(會議同時舉辦年度圖象圖形優(yōu)秀論文分享報告會)。會議期間將召開廣東省圖象圖形學會2025理事工作會議。
會議官方網(wǎng)址:https://conf.gdsig.cn/
會議時間:2025年12月13日-14日
會議地點:廣東省廣州市華南理工大學(大學城校區(qū))B13會議廳
主旨報告
主旨報告:吳國寶
香港浸會大學教授
報告題目:Blind Deconvolution for Color Images Using Normalized Quaternion Kernels
報告摘要:Abstract: In this talk, we discuss color image processing by using quaternion algebras. In particular, we study blind deconvolution for color images. Experimental results are presented to demonstrate the effectiveness of quaternion models.
講者簡介:Department of Mathematics, Hong Kong Baptist University, Hong Kong, China
Michael K. Ng (Senior Member, IEEE) received the BSc and MPhil degrees from the University of Hong Kong in 1990 and 1992, respectively, and the PhD degree from the Chinese University of Hong Kong in 1995. He was a research fellow of Computer Sciences Laboratory with Australian National University from 1995 to 1997, and an assistant/associate professor of the University of Hong Kong from 1997 to 2005. He was a professor/chair professor with the Department of Mathematics, Hong Kong Baptist University from 2006 to 2019. He was a chair professor with Research Division of Mathematical and Statistical Science, The University of Hong Kong from 2019 to 2023. He is currently a chair professor in Mathematics and a chair professor in Data Science with Hong Kong Baptist University. His research interests include bioinformatics, image processing, scientific computing, and data mining. He is selected for the 2017 Class of Fellows of the Society for Industrial and Applied Mathematics. He obtained the Feng Kang Prize for his significant contributions in scientific computing. He serves on the Editorial Board members of several international journals.
主旨報告:林倞
中山大學教授
報告題目:物理空間智能若干進展:框架、模型與基準
報告摘要:本報告圍繞動態(tài)真實物理智能的“框架—模型—基準”三個方面展開。
在框架層面,我們提出 Tweedie 離散擴散模型,實用于語言生成和VLA,并在此基礎上構建了 VLA 的 E0 模型。該模型在多項機器人操控數(shù)據(jù)集及真實機器人實驗中均取得領先表現(xiàn)。同時,我們提出的線性算子模型在多項語言任務中展現(xiàn)出高效性與較強表達能力,性能優(yōu)于主流線性注意力方法。
在模型層面,我們從“通用物理建!迸c“空間自適應建模”兩個維度重新理解 VLA 模型,發(fā)現(xiàn)其泛化性遠比普遍認知中更強。僅需約 4k 參數(shù)的空間自適應,即可賦予 VLA 模型跨任務的通用能力,這與人類的通用操作能力具有高度一致性。此外,我們提出的物理自回歸模型在物理推理、時空預測與動作生成任務中表現(xiàn)出顯著強泛化能力,拓展物理推理能力。
在基準層面,我們構建了一個面向動態(tài)真實物理環(huán)境的全自動、可持續(xù)運行的 24/7 真機評測平臺,實現(xiàn)了從任務布置、操控執(zhí)行到結(jié)果評估的全流程無人化運作,為未來的真實物理智能研究提供了標準化、可量化、可持續(xù)的評測體系。
講者簡介:林倞,中山大學計算機學院二級教授、國家杰青、IEEE/IAPR/IET Fellow、CCF-ACM青年科技獎獲得者、兼任鵬城實驗室具身智能研究所所長、曾任商湯科技首席研發(fā)總監(jiān)/研究院執(zhí)行院長。他長期從事多模態(tài)人工智能、大規(guī)模機器學習等領域的應用基礎研究。作為項目負責人,承擔國家自然科學基金重點項目和國家2030科技創(chuàng)新重大項目;曾帶領商湯科技研發(fā)團隊搭建大規(guī)模AI基礎設施,開拓新興行業(yè)。在國際頂級學術期刊和會議發(fā)表論文300余篇,論文被引用4.4萬次(谷歌學術統(tǒng)計),多次入選全球高被引學者榜單;獲權威期刊Pattern Recognition年度最佳論文獎,多媒體計算旗艦會議ICME最佳論文鉆石獎,計算機視覺旗艦會議ICCV最佳論文獎提名,ACL 2025杰出論文獎;指導博士生獲得CCF優(yōu)秀博士論文獎、ACMChina優(yōu)秀博士論文獎及CAAI優(yōu)秀博士論文獎;帶領團隊獲得廣東省科技進步一等獎、吳文俊人工智能自然科學獎、中國圖象圖形學學會科學技術一等獎等榮譽。
主旨報告:葉齊祥
中國科學院大學特聘教授
報告題目:從視覺表征模型設計到視覺智能體構建
報告摘要:研究了局部卷積運算與全局注意力運算的互補性,將局部特征與全局特征耦合形成Conformer網(wǎng)絡結(jié)構,顯著增強小參數(shù)視覺模型表征能力。探討了局部卷積運算造成的自監(jiān)督學習信息泄露問題,提出了Token Merging操作,突破卷積或局部運算的局部約束,形成高效分層Transformer 表征(HiViT)與全預訓練的Transformer 金字塔網(wǎng)絡(iTPN)。探索了物理啟發(fā)的熱傳導算子vheat與狀態(tài)空間表征算子vMamba,實現(xiàn)了更高效的視覺表征。在ImageNet分類任務上,iTPN-Base, iTPN-Large, iTPN-Huge 分別達到了88.0%,89.2%, 89.7%的Top-1分類精度。視覺表征模型設計的基礎上,開始探索如何構建視覺思維鏈與視覺智能體。代碼:github.com/pengzhiliang/Conformer, github.com/sunsmarterjie/iTPN, github.com/MzeroMiko/VMamba, Vheat.
講者簡介:葉齊祥,中國科學院大學特聘教授、國家杰出青年基金獲得者、中科院盧嘉錫青年人才獎獲得者、中國科學院優(yōu)秀博士生導師、CVPR2023、NeurIPS2023-25、ICLR2024-25 領域主席、國際期刊IEEE TITS,IEEE TCSVT編委。主要進行視覺表征模型、成像與目標感知方向的研究,在CVPR, ICCV, NeurIPS等國際會議與TPAMI, TNNLS, TIP等期刊發(fā)表論文150余篇,學術引用20000余次。主持了國家自然科學基金重點項目、原創(chuàng)項目、華為公司、國防科技創(chuàng)新特區(qū)項目、中國運載火箭技術研究院課題等國家級與企業(yè)科研任務,是國家自然科學基金創(chuàng)新團隊、中國科學院穩(wěn)定支持基礎研究領域青年團隊成員。開發(fā)的視覺表征與感知技術衛(wèi)星在軌運行,獲中國電子學會自然科學一等獎(排名1)、國家技術發(fā)明二等獎(排名2),指導多名博士生獲中科院院長獎、博士后創(chuàng)新人才計劃、中科院百篇優(yōu)秀博士論文。
主旨報告:張兆翔
中國科學院自動化研究所研究員
報告題目:論世界模型與規(guī)模定律
報告摘要:規(guī)模定律被視為近年來人工智能快速躍遷的核心驅(qū)動力之一,從根本上塑造了人工智能技術發(fā)展的方向與范式。與此同時,世界模型作為人工智能領域的新興熱點,在近期受到了極為廣泛的關注,正展現(xiàn)出通向通用智能的巨大潛力,被認為是下一代人工智能技術的可行之路。本報告立足當前研究進展,對這兩大概念進行系統(tǒng)梳理與前瞻性分析,并重點探討二者之間的相互作用:是規(guī)模定律繼續(xù)為世界模型的發(fā)展保駕護航,還是世界模型為規(guī)模定律注入新的生命力?報告將結(jié)合團隊近期的研究探索,對這一命題展開討論與思考。
講者簡介:張兆翔,中國科學院自動化研究所研究員、博士生導師,模式識別實驗室常務副主任,中國科學院大學崗位教授,國際模式識別學會會士、亞太人工智能學會會士,“教育部長江學者特聘教授”。研究方向是模式識別、具身智能、智能體學習。先后主持了國家自然科學基金重點項目、聯(lián)合基金重點、重點國際(地區(qū))合作研究、北京市重點研發(fā)計劃、中科院先導科技專項、啟元國家實驗室重點項目、裝備部重點項目等多項國家級重點項目,在IEEE T-PAMI、CVPR等本領域國際主流期刊與會議發(fā)表論文200余篇,授權發(fā)明專利35項。是TPAMI、IJCV、PR等人工智能頂刊編委,ICCV、CVPR、NeurIPS等人工智能頂會領域主席,獲北京市科技進步獎一等獎(排名第一)、北京市科技獎杰出青年中關村獎、中國電子學會科技進步一等獎等。
主旨報告:戴玉超
西北工業(yè)大學
報告題目:論世界模型與規(guī)模定律
報告摘要:事件相機(Event Camera)作為新型仿生視覺傳感器,異步響應像素級亮度變化,突破了傳統(tǒng)幀式相機在高速運動、高動態(tài)范圍場景中的局限。事件相機在自動駕駛、機器人導航、軍事國防、深空探測、高速工業(yè)檢測等領域展現(xiàn)出巨大潛力。報告圍繞課題組在基于事件相機的運動感知與生成方面的工作展開,涵蓋二維與三維運動估計、長時點軌跡跟蹤、運動物體跟蹤與分割、視頻幀生成、新視角生成等子任務,以打破現(xiàn)有基于幀的圖像相機存在的感知瓶頸,展現(xiàn)事件相機在復雜動態(tài)場景下的感知與生成潛力。
講者簡介:戴玉超,西北工業(yè)大學電子信息學院教授、博士生導師,校學術委員會委員,陜西省信息獲取與處理重點實驗室主任。研究方向為機器視覺與人工智能,主持國家自然科學基金青年科學基金A類項目(原國家杰青)、JKW基礎加強計劃領域基金重點等項目。近年來在TPAMI、IJCV、ICCV、CVPR、NeurIPS等國際著名期刊和會議上發(fā)表論文80余篇,谷歌學術引用超過16000次,H因子59。獲CVPR 最佳論文獎、陜西省自然科學獎一等獎、CSIG青年科學家獎等獎項。擔任國際頂刊TPAMI編委、IJCV編委、APSIPA杰出講者、China3DV 2025大會主席、中國空間智能大會程序主席和CVPR、ICCV、ECCV、NeurIPS等國際會議領域主席。
主旨報告:錢建軍
南京理工大學
報告題目:人臉感知:由外至內(nèi)
報告摘要:人臉是最富社會信息的“視覺語言”。自古至今,人類都在試圖透過人臉外在表象理解內(nèi)在狀態(tài)。當前,視覺人臉感知及交互生成是智能體實現(xiàn)健康監(jiān)測、情感引導等任務的基礎。報告將圍繞課題組近期在人臉感知與生成方面的工作展開,包括生理信息感知(體溫、心率和呼吸率)、多模態(tài)情感分析與數(shù)字人像生成等內(nèi)容,并進一步探討相關任務的共性問題和發(fā)展趨勢。
講者簡介:南京理工大學教授、博士生導師,中國人工智能學會模式識別專委會副秘書長、江蘇省人工智能學會模式識別專委會副主任。研究方向為模式識別與視覺計算、以人為中心的具身感知,相關成果發(fā)表在IEEE TPAMI/TIP/TNNLS, IJCV, PR, CVPR/AAAI/ACMMM等國際權威刊物和知名國際會議100余篇。先后主持國家自然科學基金項目3項、江蘇省基礎研究計劃重點項目1項,參與JW科技委基礎加強項目等多項。獲得江蘇省科學技術獎一等獎2項(分別為第二、四完成人)。入選國家級青年人才計劃、“香江學者計劃”、江蘇省“青藍工程”優(yōu)秀青年骨干教師等。指導學生在“Udacity - DiDi無人駕駛?cè)蛱魬?zhàn)賽”、“ChinaMM-用戶興趣建模大賽”、“IJCAI-基于視覺的遠程生理信號感知競賽”等多項賽事中獲得冠/亞軍。
主旨報告:劉賢明
哈爾濱工業(yè)大學
報告題目:先進三維視覺感知
報告摘要:從傳感器數(shù)據(jù)中恢復、推斷并理解環(huán)境中物體或場景的三維幾何結(jié)構、空間關系及其運動信息,是具身智能、虛擬/增強現(xiàn)實(VR/AR)、自動駕駛等領域的重要基礎問題。物體的在線 6D 位姿感知與深度估計,構成了具身智能中的兩項核心技術環(huán)節(jié)。本報告將介紹課題組在該方向的最新研究進展,涵蓋單目視頻下的零樣本物體 6D 位姿跟蹤、基于隱式表面優(yōu)化的 6D 位姿修正,以及多傳感器協(xié)同深度估計等關鍵技術。
講者簡介:劉賢明,現(xiàn)任哈工大計算機學院長聘教授、副院長,國家自然科學青年科學基金A類(原國家杰青)和B類(原國家優(yōu)青)獲得者。研究方向為可信機器學習、多媒體信息處理,在Nature Methods、Nature Communications、TPAMI、JMLR、TRO、NeurIPS、ICML、ICLR、CVPR、ICCV、ECCV等國際頂級期刊和會議上發(fā)表論文200余篇。獲得中國圖象圖形學學會自然科學獎、黑龍江省青年科技獎、中國人工智能學會第八屆吳文俊人工智能優(yōu)秀青年獎,IEEE多媒體領域旗艦會議ICME2016最佳學生論文獎和Springer IFTC2016最佳論文獎。主持國家重點研發(fā)計劃重點專項項目、課題,國家自然科學青A、優(yōu)青、重大研究計劃、面上和青年等項目。指導的博士生獲評中國人工智能學會優(yōu)秀博士論文獎、首屆黑龍江人工智能學會優(yōu)秀博士論文一等獎(唯一獲獎者)、首批國家自然科學基金青年學生基礎研究項目資助。榮獲哈工大“育人新星”青年導師榮譽稱號和黑龍江省研究生教學成果獎特等獎(第二完成人)。
主旨報告:韓欣彤
騰訊公司
報告題目:混元3D研發(fā)布局與應用
報告摘要:本次演講將聚焦混元3D生成技術,通過 “3D物體生成” 和 “3D世界生成” 兩大核心方向,系統(tǒng)拆解其研發(fā)的技術布局和核心突破,以及在多元行業(yè)場景中的落地應用與實踐成果。
講者簡介:韓欣彤,美國馬里蘭大學帕克分校博士。長期深耕計算機視覺、深度學習與 AI 大模型領域,發(fā)表相關論文 50 余篇,累計引用超 9000 次,F(xiàn)任騰訊混元 3D 生成中心研究員,專注 3D 物體生成算法的研究與落地,主導算法及項目已應用于騰訊多款頭部游戲,并通過騰訊云服務賦能超 100 家外部客戶。
主旨報告:林鋮
澳門科技大學
報告題目:AIGC時代的游戲數(shù)字內(nèi)容生成
報告摘要:生成式人工智能(AIGC)的突破式發(fā)展對全球范圍內(nèi)各行各業(yè)產(chǎn)生了革命性的影響。數(shù)字內(nèi)容與互動游戲領域,由于其對個性化體驗、內(nèi)容豐富度以及沉浸互動性等較高要求,成為AIGC新技術加速應用的核心場景。在這一背景下,本報告探討了AIGC技術在重塑游戲數(shù)字內(nèi)容生產(chǎn)范式方面的研究,重點分析如何運用生成式AI技術賦能關鍵內(nèi)容制作環(huán)節(jié),包括原畫創(chuàng)作、3D模型生成、PBR材質(zhì)貼圖、角色建模、模型幾何處理與重拓撲等。在現(xiàn)有制作管線之外,本報告對基于可控視頻創(chuàng)作的未來數(shù)字內(nèi)容管線技術進行了探索,并對未來游戲AIGC技術進行了展望。
講者簡介:林鋮,澳門科技大學計算機科學與工程學院助理教授,研究方向為三維視覺、計算機圖形學、人機交互和數(shù)字文娛等。他于2021在香港大學計算機系獲得博士學位,于2019年在德國慕尼黑工業(yè)大學訪問研究。他在2021至2025年間在分別米哈游、騰訊互娛的研究部門擔任高級研究員、AI Graphics方向負責人,入選騰訊技術大咖頭部人才計劃。他還是3D生成AI研究社區(qū)AnySyn3D的創(chuàng)始人和組織者之一。近年來,他在業(yè)界頭部游戲企業(yè)主導了多個游戲3D資產(chǎn)AI生成項目的落地研發(fā)。他獲得了5項國家及國際發(fā)明專利授權。他在CVPR, ICCV, NeurIPS, ICLR, SIGGRAPH, TPAMI等計算機視覺和圖形學的頂級會議和期刊上發(fā)表了三十余篇論文,Google學術引用近3000次。他以第一作者身份獲得CVPR2021最佳論文候選,以第一作者、通訊作者身份進入ICLR2024和CVPR2024最具影響力論文名單。
主旨報告:李弘揚
香港大學
報告題目:Towards Generalizable and Intelligent System for Robotic Manipulation
報告摘要:Hongyang Li is an Assistant Professor at The University of Hong Kong and has led OpenDriveLab (opendrivelab.com) since 2021. His research focus is on autonomous driving and embodied AI. He led the end-to-end autonomous driving project, UniAD and won the IEEE CVPR 2023 Best Paper Award. He created the first large-scale real robot ecosystem, Agibot World, that systematically investigated the scaling law principles for robotic manipulation. He served as Area Chair for CVPR, NeurIPS, ICLR, ICCV, ICML, RSS.
講者簡介:A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.
墻報(Poster)
墻報(Poster)征集報名截止時間
2025年11月30日
優(yōu)秀論文入選反饋時間
2025年12月10日
優(yōu)秀論文評選方法
優(yōu)秀論文的評選以Poster形式提交并開展,具體舉措為:
1.將論文劃分為3個方向: a)計算機視覺, b)機器學習, c)多模態(tài)分析
2.根據(jù)所提交Poster按方向由評委會組織評選優(yōu)秀論文,獲獎證書由廣東省圖象圖形學會認證頒發(fā)。
3.參與評獎的文章接收時第—作者須為在校學生。
4.為避免重復獲獎,已獲得其他相關國際國內(nèi)學術會議或協(xié)會獎項的文章不予參評優(yōu)秀論文,將被列為Spotlight Paper。
現(xiàn)開始征集2025第十五屆粵港澳圖象圖形學術會議墻報(Poster),征集范圍限定為2024年以來發(fā)表/錄用的頂會頂刊論文(需電子數(shù)據(jù)庫可查),建議期刊和會議列表如下:
·期刊:Nature及子刊、IEEE TPAMI, IJCV, JMLR, IEEE TIP, IEEE TNNLS, IEEE TCSVT, IEEE TMM, ACM TOG, IEEE TVCG, IEEE TMI, IEEE TGRS等
·會議:CVPR, ICCV, NeurIPS, ICML, ECCV, AAAI, IJCAI, ICLR, ACMMM, SIGGRAPH, SIGGRAPH Asia, MICCAI等
報名方式及聯(lián)系方式
如您有意展示您的最新科研進展并參與評獎,請于2025年11月30日前在線填寫報名表單,并根據(jù)官網(wǎng)提供的Poster格式與樣例進行制作,連同論文一起發(fā)送至lnn0200@163.com(郵件命名:墻報評選+單位+第一作者), 組委會將于12月10日前郵件反饋入選信息,入選的Poster必須完成會議注冊。
報名鏈接:https://docs.qq.com/form/page/DWWF2ekxGZmppT0RG
官網(wǎng)鏈接查看Poster格式規(guī)定與樣例
征文模板鏈接:https://docs.qq.com/slide/DWXBmVVNJT01vS251
聯(lián)系方式
聯(lián)系人:崔金榮、劉琦、胡建芳
聯(lián)系郵箱:lnn0200@163.com(郵件命名:墻報評選+單位+第一作者)
會議注冊
網(wǎng)頁端通過鏈接注冊:
https://wj.qq.com/s2/24621614/a0ed/
3.繳費方式
1. 微信、支付寶、或線下轉(zhuǎn)賬匯款方式(具體見注冊時引導內(nèi)容)。
2. 付款時請務必附言備注:姓名+單位。
3. 繳費后需上傳付款憑證截圖。
4.發(fā)票開具
會議發(fā)票由會務公司:廣州衡粵文化傳播有限公司開具
5.聯(lián)系方式
注冊繳費以及發(fā)票相關:彭琪13622760510(微信同號)
主辦單位
廣東省圖象圖形學會
承辦單位
華南理工大學軟件學院、電子與信息學院
聯(lián)合承辦單位
CSIG廣州會員活動中心
協(xié)辦單位
琶洲實驗室
CSIG生物特征識別專業(yè)委員會(籌)
|
|