LivePortrait:一種讓照片動起來的開源技術方案
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
:LivePortrait:一種讓照片動起來的開源技術方案 LivePortrait:一種讓照片動起來的開源技術方案LivePortrait 是能讓照片動起來的開源技術方案。需提供“誰動”和“如何動”的素材,試用網址用于研究學習。它高效且可控,論文有原理介紹。技術人員可參考官方文檔搭建,包括創建新環境、下載源碼和準備運行環境等,還需下載模型權重,最后執行命令生成結果,更多內容見官方說明。 關聯問題:LivePortrait要付費嗎模型權重在哪下載自己搭建難不難有一款開源項目,它主要功能就是讓靜態照片動起來。 你只需要提供兩個素材,第一個素材是讓誰動。就比如下面的這個兵馬俑。 第二個素材是如何動,就比如下面這個視頻。 然后,將這倆數據交給開源項目處理,最終就得出如下結果。 不但對一個人有效,多個人也可以了。 不但對人類有效,萌寵動物或者二次元也行。 試用網址是:huggingface.co/spaces/Kwai… 這個網址是研究和學習用的。 只需要上傳那兩個素材,然后點擊確定。 就可以獲得一個會動的視頻。 好了。上面這些操作,其實就可以賣錢了。 有很多人利用信息差,白嫖這項開源技術。用上面的網址,制作一些親人照片懷念視頻、萌寵搞怪視頻進行售賣。你得開個會員,或者花上九塊九才能使用一次。 下面部分內容是給技術人員看的。如果你對此感興趣,想進一步了解其中的原理,可以繼續閱讀。 這項開源框架叫LivePortrait,它是具有拼接和重定向控制的高效肖像動畫。它的論文概要內容如下: 肖像動畫旨在從單一源圖像合成逼真的視頻,將其用作外觀參考。我們沒有遵循主流的基于擴散的方法,而是探索和擴展了基于隱式關鍵點的框架的潛力,從而有效地平衡了計算效率和可控性。為了提高生成質量和泛化能力,我們將訓練數據擴展到大約6900萬個高質量幀,采用混合圖像-視頻訓練策略,升級網絡架構,并設計更好的運動轉換和優化目標。此外,我們發現緊湊的隱式關鍵點可以有效地表示一種混合形狀,并精心提出了一個拼接和兩個重新定位模塊,它們利用一個計算開銷可忽略不計的小型MLP來增強可控性。實驗結果表明,與基于擴散的方法相比,我們的框架是有效的。在RTX 4090 GPU上使用 PyTorch的生成速度顯著達到12.8毫秒。推理代碼和模型可在 github.com/KwaiVGI/Liv… 獲得。 技術人員如何自己搭建呢? 對于技術人員,最直觀的方式就是去官方的ReadMe.md文檔查看 github.com/KwaiVGI/Liv… 這里面不但有入門操作,項目源碼,還有版本更新說明。 比如在7月19日,框架開始支持視頻編輯,又名v2v。照片到視頻是p2v,即picture to video。v2v就是視頻到視頻。 圖片到視頻是讓靜態圖片動起來,感覺很有用。 但是視頻到視頻有什么用呢? 舉個例子,比如有個美女跳舞,她走的是冷酷風。但是老板想讓她走嘻哈風,但是美女就是不從。這時就可以找個愛笑的女孩子,通過v2v讓不愛笑的美女笑起來。 其實,你們網上看得那些武松和潘金蓮、孫悟空和白骨精的改編版,估計用的也是v2v這項技術。 好了,下面就說說如何搭建和使用。7月25日,官方發布了安裝包,可以通過下載安裝包直接使用。甚至連搭建都不用了。解壓即可使用。 兩個下載地址如下: 如果,你還有執念,就是想自己搭建,并且融于到自己的產品中。那么繼續往下看。 我們用conda管理環境,首先要準備一個新環境。相當于給項目批了一塊地。 ini代碼解讀復制代碼 然后,將源碼下載下來,存放到一個位置。并且進入文件目錄。 bash代碼解讀復制代碼 下載源碼,可以用git形式。也可以直接下載zip文件。 第三步,準備運行支持環境。上面新建了一個環境,批了一塊地。現在要進行裝修和水電網的鋪設。安裝采用pip。 bash代碼解讀復制代碼 requirements.txt里面是: ini代碼解讀復制代碼 requirements_macOS.txt里面是: ini代碼解讀復制代碼 他們都有requirements_base.txt,然后區分了一些系統特性。 我們看requirements_base.txt里面是這樣: ini代碼解讀復制代碼 很明顯,它是需要GPU的。就算是你下載上面那個windows版本的壓縮包,也需要你電腦具有GPU。 準備完環境就具備了運行資格。下一步是下載模型權重。不用你訓練,只需要你下載人家訓練好的模型,放到你電腦中使用即可。 官方的給出的方式比較國際化: bash代碼解讀復制代碼 其實,在實際操作中,一般很難執行。最好還是去用瀏覽器下載,然后放到文件目錄中。 以下是百度云下載地址: 下載完了,讓文件解壓并將它們放在./pretrained_weights。其實這一步和上面命令行執行的步驟一樣。哪一個能走通,更好實現,就走哪一步。 但是,不管怎樣,你要確保最終存放模型的文件夾里是這樣的結構: markdown代碼解讀復制代碼 最后一步啦,最后一步!開始享受使用過程!準備好兩類素材,一個讓什么動,一般是圖片(假設名字叫p.jpg)。另一個如何動,一般是視頻(假設名字叫v.mp4)。然后在環境中,在項目目錄下,執行以下命令: css代碼解讀復制代碼 此時會在animations文件夾下生成結果。 如果你一時間找不到素材,也可以使用項目里提供的素材。位置在 assets/examples/下。里面有圖片也有視頻。 如果想要操作視頻到視頻,命令如下: 代碼解讀復制代碼 關于更多的內容,開發者可以去看官方說明,里面講解的很詳細 該文章在 2024/11/30 11:01:32 編輯過 |
關鍵字查詢
相關文章
正在查詢... |