カテゴリ： computer

2019年03月08日

【Linux エラー】ロック /var/lib/dpkg/lck-frontendが取得できませんでした

Linuxでアプリをインストールしようといつもどおりsudo apt-get install hogehogeとしていたらエラーメッセージが出てインストールできませんでした。

こういう時はとりあえずエラーメッセージをコピペしてググると解決作が出るものですね。

ts0818さんのブログ『ロック /var/lib/apt/lists/lock が取得できませんでした～』を参考にしました。

詳しいことはわからないのですが、lock fileというのを取り除けばいいっぽい。ということでターミナルを開いて、hogehogeが取得できませんでしたのところをrmでリムーブしてやればいいみたいです。実際にその後はインストールできました。

2019年02月22日

自分のブログの記事一覧をPythonでスクレイピングしてみた2.実際のコード

前回の記事（自分のブログの記事一覧をPythonでスクレイピングしてみた1.Pythonのライブラリと文法の確認）の続きです。

目次
今回の対象範囲の確認
urlという名前にこのブログのURLを代入
responseにこのブログ内のtextを代入
BeautifulSoupの初期化
tagsに("div", {"class":"sidebody"})とhtmlで紐づけられている全ての要素を代入
csvファイルの行と列を指定
記事名と記事URLをデータフレームに追加
result.csvという名前でCSVに出力
あとがき

今回の対象範囲の確認

今回見ていくのは上の画像に示されてあるコードです。また最終的に出力されるCSVファイルも上に示されてある通りです。name列の下には、タイトルなどの文字列が、url列の下には各URLがまとめられていることを確認してください。

urlという名前にこのブログのURLを代入

「url = "http://www.g36cmsky.com/"」
とすることで、これから自分のブログのURLを使いたいときに毎回入力する手間を、urlという三文字で置き換えました。楽になりますね。

responseにこのブログ内のtextを代入

「response = requests.get(url).text」
とすることで、「url」内のtextを取得することができます。
復習ですが、「requestsはWebからデータをダウンロードできるライブラリです。」

「.get()」

Webからデータを取得する際に、どこのWebsiteにアクセスするかを決めるときに「.get()」を使います。「.get」の後に取得したいWebのURLを入力します。僕のブログにアクセスしたいので、僕のブログのURLを入力します。この前に「url = "http://www.g36cmsky.com/"」としたことが役に立ちます。urlという文字が僕のブログのURLと同じ意味になっているので、「.get(url)」でいいのです。
「url = "http://www.g36cmsky.com/"」としていなかった場合は、「.get("http://www.g36cmsky.com/")」としなければなりません。

BeautifulSoupの初期化

「soup = BeautifulSoup(response, 'html.parser')」
とすることで、BeautifulSoupの初期化を行います。
ここではHTMLを扱っているので、BeautifulSoupが使われています。

tagsに("div", {"class":"sidebody"})とhtmlで紐づけられている全ての要素を代入

「tags = soup.find_all("div", {"class":"sidebody"})」
ここでは、tagsに僕のブログの横にずらーっと並んでいる要素を取り込んでいます。（「取り込んでいる」という表現が適切かは怪しいところですが。。。）
ここでも、扱っているのはHTMLなのでBeautifulSoupを使っています(soupって書いてあるところね。)。soupの後ろにある「.fund_all」はざっくり言うと「全部出せ」といったところでしょうか。何を全部出すかというと、さらにその後ろにある("div", {"class":"sidebody"})です。
つまり、ここで書いたコードは
「HTML内にある("div", {"class":"sidebody"})という要素を全部出して。」という意味になります。

csvファイルの行と列を指定

columns = ["name", "url"] df2 = pd.DataFrame(columns=columns)
columnsにデータフレーム（目的であるCSVファイルの中の列）を作ります。その名前がnameとurlになります。このnameの下には記事のタイトルがずらーっと並び、urlの下には各URLがずらーっと並ぶ予定です。

df

dfとされていてこれ何か意味があるのかなと思いましたが、たぶんなんでもいいです。ただ、 pandasでググるとほとんどdfの中にしまわれていました。これはたぶん、 data frameの略でdfになっているんだろうなあと勝手に納得しています。違っていたら教えてもらえれば幸いです。

pd(pandas)

最初にpandasをインポートした時に、pandas as pdとしました。よってこのpdはpandasの意味です。

.DataFrame

.DataFrameはpandasのコマンドで、データフレームを作成するときに使います。今回は列を作るので、DataFrame(columns=columns)とします。最初のcolumnsが列を指定して、次のcolumnsは自分が前に作成した「columns = ["name", "url"]」のことです。

記事名と記事URLをデータフレームに追加

ここでは、たくさんある記事名と記事URLをそれぞれのデータフレームの中に格納していきます。主にループ処理に使われるfor文を使います。

for文について

for文はループ（繰り返し）処理を行う時に使われる文です。for文はPythonだけでなく他の様々なプログラミング言語でも使われています。for文を使って、僕のブログの複数ある記事タイトル、URLを取得しようというわけです。

in演算子

for文で使われているin演算子は、一つずつ取り出すときに使われるようです。

実際に書いたfor文

ここでは、実際に書いたfor文（上の画像）について一つ一つ確認していきます。

tagsの中からtagの中に繰り返し、一つずつ要素を取り出す

最初の
「for tag in tags:」
は、tagsの中からtagの中に繰り返し、一つずつ要素を取り出す。という意味です。この文の下には、取り出した要素を格納します。具体的に言うと、前に作成したCSVの列名name、urlにtagsの中の各タイトル、URLを格納していきます。

nameにtag内にあるaタグ要素の文字列のみを取り出す

name = tag.a.string はnameにtag内にあるaタグ要素の文字列のみを取り出します。という意味です。このnameは後でCSVファイルにぶち込まれるやつです。

urlにtag内にあるa要素のhref要素を取りだす

「 url = tag.a.get("href")」
はurlにtag内にあるa要素のhref要素（URLが書かれているところ）のみを取り出します。という意味です。

seにpandasを使いSeriesという型にデータを収納

「se = pd.Series([name, url], columns)」
はseにpandasを使って、Seriesという型にデータを収納します。ここで収納するデータは、[name, url]というデータと前に作成したcolumnsのデータです。

seの表示

「 print(se)」でseを表示します。

以前に作成したdf2に今回作成したseを追加

「df2 = df2.append(se, columns)」前に作成したdf2に今回作成したseを追加します。

.appendで要素を追加

「.append(追加するもの)」で配列に要素を追加することができます。「.」の前には追加対象の配列（list）を書きます。今回の対象は以前作成したdf2という配列ですね。

result.csvという名前でCSVに出力

最後の段階です。ここでは、今まで集めてきたデータをCSVファイルを作成するまでを見ていきます。

作成するファイルの名前を作成

「filename = "result.csv"」でファイルの名前を決めました。CSVファイルを作りたいので拡張子は「.csv」としています。

データが格納されているdf2をCSVファイルに変換

「df2.to_csv(filename, encoding = 'utf-8-sig')」と書くことでCSVファイルに変換できます。encoding指定しないと、エラーが起こるそうです。

作成したCSVファイルをPCにダウンロードする

「files.download(filename)」で作成した「result.csv」というファイルをダウンロードします。.downloadの後ろの（）のfilenameには「result.csv」が格納されています。

あとがき

前回（自分のブログの記事一覧をPythonでスクレイピングしてみた1.Pythonのライブラリと文法の確認）の続きで、自分なりにまとめておりました。楽しかったです。最後にここで行ったスクレイピングはDaiさんのPythonによるスクレイピング①入門編　ブログの記事をCSVにエクスポートするをもとに行いました。ありがとうございました。

2019年02月21日

自分のブログの記事一覧をPythonでスクレイピングしてみた1.Pythonのライブラリと文法の確認

この記事では、僕が自分のこのブログの中の全記事の記事タイトルとurlを取得しようとして、結果的に部分的にしか取れなかったお話です。
こちらの記事（Pythonによるスクレイピング①入門編　ブログの記事をCSVにエクスポートする）を参考にして書いてみました。

今回はスクレイピングを行って行く中でPythonのライブラリやら、分からなかった単語とかを調べたのをまとめたものです。

なお、僕は全然詳しくないので間違いがあるかもしれませんがご了承ください。

スクレイピングとは

スクレイピングとは、ウェブサイトから情報を取得して、その情報を他の情報に加工して新しい情報を作ることです。つまり、あるウェブサイトの中から特定の情報だけを取り出して保存したりすることのことですね。例えば、今回僕のブログからは僕のブログ内にあるすべての記事のタイトルとそのURLという二つの情報を抽出してまとめようとしました。そのように特定の情報を引き出すことをスクレイピングと呼ぶようです。

最終的な結果

最終的には、こんな感じのコードになってこんな感じのCSVファイルを作ることができました。

必要なモジュールをインポート

ここではスクレイピングに必要なモジュールをインポートします。モジュールというのは

Python インタプリタを終了させ、再び起動すると、これまでに行ってきた定義 (関数や変数) は失われています。ですから、より長いプログラムを書きたいなら、テキストエディタを使ってインタプリタへの入力を用意しておき、手作業の代わりにファイルを入力に使って動作させるとよいでしょう。この作業をスクリプト (script) の作成と言います。プログラムが長くなるにつれ、メンテナンスを楽にするために、スクリプトをいくつかのファイルに分割したくなるかもしれません。また、いくつかのプログラムで書いてきた便利な関数について、その定義をコピーすることなく個々のプログラムで使いたいと思うかもしれません。
こういった要求をサポートするために、Python では定義をファイルに書いておき、スクリプトの中やインタプリタの対話インスタンス上で使う方法があります。このファイルをモジュール (module) と呼びます。モジュールにある定義は、他のモジュールや main モジュール (実行のトップレベルや電卓モードでアクセスできる変数の集まりを指します) に import (取り込み) することができます。
モジュールは Python の定義や文が入ったファイルです。ファイル名はモジュール名に接尾語 .py がついたものになります。

とのことです。

モジュールの導入に使った関数とか定義

関数とか定義とか書いていますが、この意味は例えば、import, as, fromとかの事です。これらの文字の呼び方を僕は知らないので、関数とか定義とか書いておきました。
後に勉強して分かったら追記しておきます。
モジュールの使い方に関しては、以下のサイトを参考にしました。 Python from・importの基本的な使い方

import

importは、「import モジュールの名前」
で使うことができるようです。例えば、このスクリプトでは
「import pandas」
としていますが、これはpandasというモジュールをインポートしたよ。ということですね。
このimportですが、どこからインポートされるんだという話ですが、お使いのPythonライブラリの中にインストールされている中からインポートされるようです。
Google Colaboratoryで実行する場合はこのスクリプトをぽちっとすると何の問題もなく動きますが、テキストエディタとかでrunするときは自分のPythonの中にimportされていないとエラーが出て動かないので注意が必要です。その場合はモジュールをインストールする必要があります。その方法はのちのちに書きたいと思います。

as

asはライブラリの名前とかを省略して書くときに使うようです。
「import pandas as pd」というのはインポートしたpandasというモジュールをpdとしてこれから使いますよ。という宣言です。
その時に使われるのが、asということですね。一般的に長い名前のモジュールとかを省略する場合に使うようです。ただ、その名前を付ける時にそのモジュールだと分かるように付けた方が便利だとおもいます。また、よく省略されるライブラリの名前は決まった省略の仕方があるようなので、勉強していく必要があるようです。

from

fromは
「from bs4 import BeautifulSoup 」
これは、bs4というモジュールの中に入っている、BeautifulSoupというものをインポートしますよ。という意味ですね。これをfromを使わずに書くと、
bs4.BeautifulSoupと書かなければいけないみたいです。ちょっと書く量を減らすことが出来るみたいです。

使用したモジュール、パッケージ、ライブラリ

上ではpandasとかのことをモジュールと書いていました。しかし調べているとモジュールとかパッケージとかライブラリとか色々な呼び方をされているようで非常に困惑しました。僕からするとどれも同じような文脈で使われているようでしたが、ちょっとした違いがあるようです。
モジュールは、関数やクラスを集めたファイルのことで、拡張子が「.py」になっているファイル。パッケージは複数のモジュールを集めたもので、パッケージは「_init_.py」のファイルになっているそうです。ライブラリは、厳密な定義がなくモジュール、パッケージどっちのこともいうみたいです。ということは、厳密に分かっていない僕のような人はモジュールというよりはライブラリと呼んだ方がいいのかもしれませんね。以下のサイトを参考にしました。 (Pythonのパッケージとモジュールの違い)

pandas

wikipediaによると

Pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供する。PandasはBSDライセンスのもとで提供されている。

とのことです。
何を言っているのかわかりませんでした。
今回スクレイピングで使った時は、「取得したデータをCSVファイルに変換すること。」という意味で使用しました。 Wikipediaを見るとCSVファイル意外のファイルにも変換できるみたいです。

CSVファイルとは

少し脱線。
しれーっとCSVファイルとか書きましたが、CSVファイルってなんだと思っている人もいると思うので、書いていきます。
CSVファイルというのは、「Comma Separated Value ファイル」の略です。その名の通り、データをカンマで区切られたデータファイルのことです。拡張子は「.csv」です。文字列とカンマで構成されたデータファイルで表形式になっています。MicrosoftのExcelみたいなものです。Excelにもインポートできます。じゃあ最初からExcelファイルでいいじゃないかと思う人もいるかもしれませんが、人類すべてがExcel持っていると思うなよ？ということですね。CSVファイルにすると他の表計算ソフトとか色々なソフトでも容易に使うことが出来るのでまあ便利だよね。ということみたいです。

bs4

モジュールの一つで、BeautifulSoupを中に持っているものなんだなあという理解です。 beautifulsoup4 4.7.1

BeautifulSoup

BeautifulSoupは取得したHTMLを操作できるライブラリです。
ここでは、特定のHTMLタグを探して表示することに使っています。

requests

requestsはWebからデータをダウンロードできるライブラリです。このライブラリを使って私のブログのデータを取得します。

google.colab

Google Colaboratoryのことです。ここでは、
「form google.colab import files」
として使われていて、Google Colaboratoryから自分のPCにファイルとして保存するときに使われています。

最後に

あんまり長く書くと、後に僕が確認するときにめんどくさくなりそうなので今回はPythonの基本的なライブラリのメモや文法？の確認までを書きました。次回からは、順を追って一つ一つ自分が見返して分かるように書いていこうと思っています。
追記:続き書きました（自分のブログの記事一覧をPythonでスクレイピングしてみた2.実際のコード）, 2019/Feb/22

2018年12月15日

Linuxメモ：同じ拡張子のファイルを１つのファイルに統合して前のディレクトリに移動させる方法。cat *.fasta/ mv files.fasta ..

Linuxコマンドメモ mv

前回、catでカレントディレクトリ内のすべての.fastaの拡張子のファイルを統合するときに*.fastaと打ちました。

これがmvコマンドでも使えたというメモです。

今回はダウンロードというディレクトリ内にある.fastaのファイルを画像一枚目のディレクトリに移動させるときの手順を説明します。

ディレクトリの確認: ls

まずはディレクトリの確認です。

ls

で確認です。

ダウンロードディレクトリへの移動: cd

ダウンロードという名前のディレクトリに行きたいので、

cd ダウンロード

で移動します。

ls

でディレクトリ内の確認です。.fasta形式のファイルがあるのがわかります。

FASTAファイルの統合: cat

ここで、.fastaという拡張子が付いているファイルをp9という名前の１つのファイルに統合したいので、

cat *.fasta p9

としました。名前は何でもいいです。ｐ９はPractical study 9の略です。

（ここでちょっと間違ったなあと思うのが、名前をp9.fastaにするべきでした。.fastaで保存したかったので。後で拡張子付けました。）

ちゃんと作られているかの確認で

ls

ｐ９というファイルが作られていますね。

ファイルの移動 :mv

この作ったｐ９というファイルをこのダウンロードというディレクトリの前にあるディレクトリに移動させたいので、

mv p9 ..

と入力しました。mvコマンドはディレクトリ間の移動やファイルの移動とかに使うコマンドです。

..は前のディレクトリを指定します。（カレントディレクトリの移動の時とかはよくcd ..とかで使います。）

ダウンロードディレクトリ内にｐ９がないことを確認します。

ls

ないですね。成功です。

最終確認

前のディレクトリにｐ９が移動したかを確認します。

まずは移動

cd ..

からの確認

ls

ｐ９というファイルがありますね。オッケーです。

2018年12月14日

Bioinformatics FASTAファイルの結合。Linuxのcatコマンドでファイルを統合。

Bioinformatics FASTAファイルの結合

こんにちは。

複数のFASTA形式のファイルを1つのファイルに統合しなさいというバイオインフォマティクスの授業の課題が出たのでそのまとめを書いておきます。

最終的な目的は、指定された複数のシーケンスをデータベースから取ってきてMSA（Multipul Sequence Alignment）することです。

ここではLinuxのターミナル使って複数のFASTA形式のファイルを１つのファイルに統合することを説明します。

目次
MSAまでの流れ
準備したもの
コマンドメモ
最後に
Bioinformaticsの関連記事

MSAまでの流れ

データベース（NCBI）にアクセス

与えられたaccesion numberを入力

FASTA形式のシーケンスデータを取得

１つのファイルに複数のシーケンスデータを格納

MSA

準備したもの

FASTA形式のシーケンスデータ（他にも使える形式はあるみたい）

Linux

手順

Linuxのターミナル起動

FASTAファイルが格納されているディレクトリに移動（ｃｄ）

カレントフォルダ（FASTA）にて画像のコマンドを入力

このようにコマンドを打つと以下のようにシーケンスデータが統合されます。画像内だと４つしか見えませんが、実際には６つのファイルを統合しました。

コマンドメモ

cat

catは指定したファイルの統合をします。例えば、cat ファイル名1 ファイル名２でファイル名1 ファイル名２という２つのファイルを統合。統合したいファイルを並べればいいんですね。

*.fasta

catで統合したいファイル名。この場合はカレントフォルダ内にある.fastaの拡張子が付いているファイルすべてを指定という意味。*は拡張子名で指定できるので多くのファイルを扱うときに便利そうですね。

*はワイルドカードというみたいです。「*なんとか.ホニャララ」でホニャララという拡張子を指定できます。

>Bioinfo7

>ファイル名で統合したファイルを指定したファイル名で保存します。この場合は統合したファイルはBioinfo7という名前ですね。

最後に

ド素人の自分が後に見た時にわかるように丁寧に書いたつもりですがどうでしょう。

ところでLinux入れてなかったら、どうやって解析してたんですかね。

では。

Bioinformaticsの関連記事

↑このページのトップヘ