機械学習をやろうとしたらデータクレンジングに明け暮れていた件(1) ~フォルダ・ファイル名の傾向と対策~

技術研究所のまつけんです。

今回はデータクレンジングの話です。データクレンジングというのは、データを機械学習に流し込む前に全体的に眺めて、必要なら整形する作業です。KaggleやSIGNATEなどのコンテストではクレンジングされた状態のデータが提供されますが、実際の業務では、必ずしもそうとは限りません。そして、それはデータの中身に限った話ではありません。フォルダやファイルの名前が一定の規則に従ってない場合、それを規則的な名前にするところから始まります (規則的な名前でないとループなどで処理したりするのに不便です)。

機械学習に使う大きなデータをよそから転送する際、たいてい、DVDやアップローダなどで受け取ります。後者の場合はzipなどでアーカイブ (および圧縮) されていることが多いのですが、zipファイルが数十個ある場合もあります。今回の記事では、転送したデータを確認し、フォルダ名、ファイル名などを扱いやすい形に変換する過程について、説明します。データ数が膨大な場合を想定していますので、多くはbashスクリプトにより自動化しています。といっても、UNIX/Linuxをインストールする必要があるわけではありません。今から紹介する手法はcygwin上で行うことを想定しています (スクリプトは全てcygwinのbashで動作確認しています)。

今回は、機械学習用のデータについて、フォルダ構成を確認し、必要に応じて整形する手順を紹介したいと思います。

続きを読む

UiPathピクチャインピクチャを使った自動化

皆さんこんにちは!
ビジネスプラットフォームテクノロジーセンター(BPTC)のもっちーです。

半年ぶりのブログ投稿となりますが、今回UiPathの便利な機能を1つ皆さんに紹介します。

 

ピクチャインピクチャとは

今回紹介するのはUiPathのピクチャインピクチャ機能です。

 

RPAで自動化したロボットを動かすときは、普通はPCを専有して、その間は人間がPCを操作することができません。

ピクチャインピクチャの機能を使うと、ロボットが動いている間も、人間がPCを操作することが可能になります。

人間の操作とロボットの操作はそれぞれに独立した環境で動くため、お互いの操作に干渉せずに処理することができるようになります。

続きを読む

ウェビナーやWEB会議でBGMと効果音を鳴らしてみた ~マイクミキサーの使い方~

こんにちは。戦略マーケティング推進室の川崎です。

クレスコ主催セミナーなど、オンラインイベントに関わる機会が多いです。

突然ですが、効果音とBGMはとても大事ですよね。「デデンッ!」っと鳴ったら、クイズが始まります。蛍の光が流れたら、店が閉まります。「デデンッ!」も「蛍の光」も、音だけで意味を伝えることができるのです。すごい。

そんなわけで、効果音やBGMをオンラインイベントやWEB会議で上手に使いこなせると面白いかもしれないと思いました。

こんな人におすすめの記事です

  • オンラインイベントを主催することがある方
  • テレワークに飽き飽きとしてきて、なにかおもしろいことがしたい方
  • WEB会議やイベント、はたまたリモート飲み会を盛り上げたい方

続きを読む

シンボリック・リンクを用いた分析対象データの管理ノウハウとシェルスクリプト

技術研究所のまつけんです。

技術研究所 (技研) では、画像 (静止画) データや動画データを分析対象として扱います。その際、分析対象のデータを間違えて消してしまったり、書き換えてしまったりすると大変です。今回は、私が実践している「間違いが起きない仕組み」について紹介したいと思います。具体的には、

  • オリジナルファイルを入れたディレクトリは書き込み禁止にし、
  • その隣に作業用ディレクトリを作成し、
  • オリジナルと同じディレクトリ構造を作り、
  • オリジナルファイルへのシンボリック・リンクを作成

します。もちろん、手作業でも出来るのですが、オリジナルファイルが多数ある場合などには自動化しないと大変です。そこで本記事では、そのために作成した、複数のファイルやディレクトリを扱うシェルスクリプトと、その作り方も紹介します。

続きを読む

RPAツールUiPath メソドロジー2.0 レビュー

こんにちは!

やまさきあです。
ビジネスプラットフォームテクノロジーセンター に所属しています。

約半年ぶりのエンジニアブログです!!
ドキドキしながら書いています。

最近、夏に向かって毎日気温が上昇していってますが、
みなさん、元気に過ごされていますか?

私は、春ごろは毎日、散歩に勤しんでいたのですが、
日中は日差しが強くて外に出ると身の危険を感じるので(笑)、
外出の頻度が減りました(^^;)

暑すぎると、行動範囲が狭くなりますよね。
このような中、私の行動とは逆に、
UiPathさんはメソドロジーの対応する範囲を広げられたようです。

ということで今回は、

2021年5月に新たに公開された、
UiPathメソドロジー2.0」についてレビューをしていこうと思います(^o^)/

続きを読む

Jupyter NotebookからGPUの占有状況をワンタッチで調べる

技術研究所(技研)のまつけんです。

技研では現在、2台のゲーミングデスクトップPCにLinux (Ubuntu)とJupyterをインストールして、共有で計算サーバとして使っています。2台のPCにグラフィックボードが2枚ずつ搭載しているのですが、技研メンバ全員が使うので、GPUやGDDR RAMなどのリソースの順番待ちが発生します。

グラフィックボードのステータスはnvidia-smiコマンドで確認するのですが、タスクの詳細(オーナなど)については、別途psコマンドなどで調べる必要があります。そこで今回、nvidia-smiコマンドの結果から自動的にpsコマンドで詳細を調べるシェルスクリプトを作ってみました(nvidia-smiのバージョンが450の場合は、awk ‘{print $5}’ ):

続きを読む

OpenCVでレシートを適切なサイズに縮小する

技術研究所 (技研) のまつけんです。

リモートワークが増えたことで、会社に領収書やレシートの写真を提出することが多くなりました。紙のレシートを、スキャナやスマホで電子化する (画像ファイルにする) と、不必要に高精細な画像になってしまうことが多いように感じます。そこで、今回は、レシートの写真を自動で、文字が判読できる範囲内で縮小する (解像度を落とす) Pythonプログラムを作成してみました。機械学習などは使わず、OpenCVとNumPyだけで画像処理によって実現しています。

続きを読む

UiPath Studio初心者が開発でハマった引数の扱い方

皆さん初めまして。
システムズエンジニアリングセンター(SEC)の李と申します。

今回はスクリプト言語、Java等の他言語経験者が初めてUiPath Studioの開発を行う上で、戸惑ってしまうであろう「ワークフローファイルを呼び出し」アクティビティを使用した引数の扱い方を紹介したいと思います!

続きを読む

UiPath Studioでライブラリを作成し共通部品化してみた

皆さんこんにちは!
ビジネスプラットフォームテクノロジーセンター(BPTC)のジョンです。

今回はUiPath Studioでライブラリを作成し、Orchestrator上にアップロードして共通部品化してみましたので、この記事で紹介させていただきたいと思います。

UiPathのライブラリとは?

UiPath Studioでロボット(業務プロセス)を作成する際、例えば「システムへのログイン処理」、「ファイルダウンロード処理」、「スクリーンショット取得処理」など「頻繁に使用する処理」を毎回最初から開発していくのは時間がかかります。
また、開発者によって実装方法がバラバラなので、安定性のある開発ができない場合もあります。
さらに開発後、開発したソースに対してテストも毎回行う必要がありますよね。

これらを省力化するために「頻繁に使用する処理」を共通部品化(ライブラリ化)し、各ワークフローにて共通部品として使用する(UiPath Studio内でアクティビティとして使用する)ことができます。
それを「ライブラリ化」といい、その共通部品のことを「ライブラリ」といいます。

続きを読む