ArchiveBoxで自分用WebArchive(django版)

 ArchiveBoxで自分用WebArchive(django版)

E34dfb243cc4baa2f1d4306941d9cfd8?s=128

Kenichiro MATOHARA

July 26, 2020
Tweet

Transcript

  1. ArchiveBoxで自分用WebArchive(django版)

  2. Kenichiro Matohara(matoken) 大隅の山奥在住 好きなディストリビューションはDebian https://matoken.org

  3. 最近の発表とか rsync 3.2.0 の新機能を試してみる 前回 cowを増やそう 前回 John the Ripperでいろいろなパスワードを調べる

    SSH鍵のパスフレーズとか(小 江戸らぐ) Linuxでノイズキャンセルその2 RNNoise (東海道らぐオンラインライブ!ておく れデイズ) Sipeed Lichee Nanoでhello world armv5な切手サイズのコンピュータ(低レベル勉 強会)
  4. ArchiveBoxで自分用WebArchive(django版)

  5. WebArchive 最近web情報の寿命が短くなっている気がする (オンライン)ブックマークサービスから飛ぶと消えてる>< WebArchiveサービスで保存 Web ArchiveのWayback Machine https://archive.org/ archive.today http://archive.today/

    日本だとウェブ魚拓 https://megalodon.jp/ 制限や削除されることも(◞‸◟)
  6. ローカルに保存 Evernoteのウェブクリッパー(Wine) Joplinのウェブクリッパー 勝手に消されることはないけど手動めんどい

  7. ArchiveBox セルフホストできるWebAechiveアプリケーション URLやURLリンク集,RSS等からアーカイブ可能 アーカイブ対象はWebの他にビデオオーディオGit等 アーカイブはhtmlの他にスクリーンショット画像,pdfも Python製,MIT License https://archivebox.io/

  8. 導入 $ sudo apt install python3 python3-pip git curl wget

    youtube-dl chromium-browser $ git clone https://github.com/pirate/ArchiveBox.git && cd ArchiveBox
  9. アーカイブ $ echo 'https://example.com' | ./archive

  10. アーカイブ閲覧 $ xdg-open ./index.html

  11. 注意点 複数プロセスを動かすとdbが壊れる 同時起動しないようにscriptを用意 Shift JISのページはエラーでアーカイブに失敗する(373news.comとか) 「proxy挟むとか?」 とりあえず諦める

  12. 鹿児島Linux勉強会 2019.08 ここまで鹿児島Linux勉強会 2019.08の内容

  13. ArchiveBox django branch(New!) Shift JISのページがエラーになってしまう件でISSUEを立てていた ->「django branch試してみて.タイトルはおかしいけど……」

  14. django branch install $ git checkout django $ pip3 install

    . $ ~/.local/bin/archivebox --help Welcome to ArchiveBox v0.4.3! To import an existing archive (from a previous version of ArchiveBox): 1. cd into your data dir OUTPUT_DIR (usually ArchiveBox/output) and run: 2. archivebox init To start a new archive: 1. Create an empty directory, then cd into it and run: 2. archivebox init For more information, see the documentation here: https://github.com/pirate/ArchiveBox/wiki
  15. 初期設定 $ mkdir -p ~/Documents/ArchiveBox $ cd ~/Documents/ArchiveBox $ archivebox

    init
  16. アーカイブ取得 $ archivebox add https://kagolug.org/

  17. アーカイブ確認 従来と同じ $ xdg-open ./index.html New! $ archivebox manage createsuperuser

    #アカウント登録 $ archivebox server ※現在はアカウントを分けても同じアーカイブ
  18. 新しいWebIF

  19. Webからアーカイブも

  20. たぶん今だけアクセス可能 適当に叩いてok http://a7d15e906a2d.ngrok.io/ test:test

  21. django branch WebIFで利用が手軽に Shift JISページの取得もOK! 一覧ページの日本語等のタイトルが表示されなかったり文字化けしたりする コマンドラインオプション一新されてるので覚えよう……

  22. Archive例 MozillaのオンラインブックマークのPocketのRSS取得 https://getpocket.com/privacy_controls でRSSを一般公開に出来る tweeper Twitter.com/Pump.io/Dilbert.com/Instagram.com/Facebook.comをRSS化 Google Chrome / Chromium,

    Firefoxの閲覧履歴(sqlite3)から bin/archivebox-export-browser-history これらのものをcrontabから定期的にアーカイブ
  23. まとめ ArchiveBoxおすすめ Webをお手軽にアーカイブ(Videoやgitなども) Raspberry Pi等でも問題なく動作する django branchも良さそうでこれからに期待 バックアップは取得するようにしたほうがいいかも

  24. 奥付 発表者: KenichiroMatohara 発表: 「鹿児島Linux勉強会 2020.07」 2020-07-26(sun) License: CC BY-NC-SA

    4.0 利用ツール: codium + Marp for VS Code